JP4255970B2

JP4255970B2 - 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体

Info

Publication number: JP4255970B2
Application number: JP2006331081A
Authority: JP
Inventors: 重彦金谷; 浩禎森; 拓大島; 泰増田
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2006-12-07
Filing date: 2006-12-07
Publication date: 2009-04-22
Anticipated expiration: 2022-02-28
Also published as: JP2007157163A

Description

本発明は、遺伝子の発現を解析する用途、特に網羅的な解析に好適に用いられる多変量解析システムと、該多変量解析システムで実施可能な解析方法であって、遺伝子の発現を解析する用途で用いる場合に好適な発現プロファイル解析方法と、該発現プロファイル解析方法をコンピュータに実行させるコンピュータプログラムと、該コンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体とに関するものである。

近年、世界的なゲノムプロジェクトの進展により、多数のモデル生物の全ゲノム配列がすでに決定されており、また、ヒトゲノム・プロジェクトによるヒトゲノム配列の解読のように、全ゲノム配列が決定されつつあるものも多い。このように分子生物学の研究は、ポストゲノム（ポストシークエンス）の時代に移行しつつある。

ポストゲノム時代におけるゲノム機能の解析では、その研究手法も変化し始めている。具体的には、ゲノム機能解析の主流は、以前のような、特定の生命現象に関与する個々の遺伝子をクローニングして解析するようなピンポイント的手法から、遺伝子の機能をゲノムスケールで解析する体系的・網羅的手法へと、明らかに移行している。

上記網羅的手法の具体的な例として、遺伝子の発現頻度を解析する遺伝子解析ステップと、バイオインフォマティクスによって候補遺伝子を絞り込む遺伝子絞込みステップと、該候補遺伝子のタンパク質を発現させてその機能を解析するタンパク質解析ステップとを含むプロトコルが挙げられる。

上記プロトコルのうち、遺伝子解析ステップでは、マイクロアレイ、マクロアレイ、ディファレンシャルディスプレイ等を用いた網羅的発現プロファイル解析が実施される。この解析では、遺伝子の発現実験は、特定条件下で実施されるとともに、その対照実験も実施される。すなわち遺伝子の発現は、異なる条件下で実施され、かつ比較可能な第１および第２実験がセットとなった、１セットの実験対で解析される。

上記１セットの実験対に含まれる各実験における遺伝子の発現は、蛍光色素により発色で確認されるが、この発色は、画像解析等による信号として数値化することができるので、上記遺伝子の発現量は、信号強度として測定することができる。

ここで、特定の遺伝子に対して上記１セットの実験対を実施した場合に、上記第１実験における特定遺伝子の発現量（第１データ）が信号強度ｆ^Cで、第２実験における遺伝子の発現量（第２データ）が信号強度ｆ^Bで測定されたとすれば、特定遺伝子の発現量は、第１データおよび第２データを対数比（信号強度の相対値の対数）log(ｆ^C／ｆ^B)に補正することで評価される。この対数比は、特定遺伝子の補正相対値であり、この補正相対値を推定量として用いることで、特定遺伝子の発現量を推定することが可能になる。なお、上記補正相対値（対数比）を、以下、相対発現量Ｆと称する。

この点についてより具体的に説明すると、上記網羅的発現プロファイル解析では、多数の遺伝子（数千レベル）に対して上記実験対を同時に実施できるので、一度に数千レベルのデータ（上記２つの信号強度ｆ^C・ｆ^B）が得られる。しかも、１セットの実験対を複数セット実施（例えば、Ｍ回実施）すれば、数千レベルを１０^３レベルとして、Ｍ×１０^３のデータが得られることになる。

それゆえ、網羅的発現プロファイル解析においては、ｉ番目の遺伝子に注目すれば、Ｍセットの実験対が実施されたとして、任意のｋセット目（ｋ＝1，２，・・・，Ｍ）の実験対により得られた相対発現量Ｆ_iをＦ_ik＝log(ｆ^C _ik／ｆ^B _ik)とすると、ｉ番目の遺伝子における相対発現量の標本は、次式（１）に示すベクトルで表すことができる。

ｘ_i＝（Ｆ_i1，Ｆ_i2，・・・，Ｆ_ik，・・・，Ｆ_iM）・・・（１）
そして、解析対象のゲノム（またはその一部）に、Ｎ個（Ｎは１を超える整数で、通常１０^３レベル）の遺伝子が含まれているとすれば、上記ベクトルｘ_iはＮ個得られることになる（ｉ＝１，２，・・・，Ｎ）。

このように、個々の遺伝子について、ベクトルｘ_iで表される標本を得て、これを解析すれば、網羅的に発現プロファイルのデータを得ることが可能となる。

ところが、実際には、上記網羅的発現プロファイル解析では、次に示す２つの大きな問題点が生じ、発現プロファイルのデータの信頼性を高めるには未だ不十分となっている。

〔問題点１：偏り誤差の影響〕
網羅的発現プロファイル解析で標本を得る目的は、それを用いて母集団（ゲノムに含まれる遺伝子）の母数（遺伝子の発現量）の推定値を得ることにある。得られた推定値は母数の推定に用いられる統計量すなわち推定量となる。ここで、推定量に対しては不偏であることが要求される。不偏であるとは、推定量の標本分布の平均が推定すべき母数に等しいということである。

したがって、例えば、ｉ番目の遺伝子に注目した場合、推定量の標本分布は上記ベクトルｘ_iであり、母数はｉ番目の遺伝子の発現量μ_iである。それゆえ、上記ベクトルｘ_iの成分である相対発現量Ｆ_iの平均値Ｅ{Ｆ_i}は、ｉ番目の遺伝子の発現量μ_iに等しくなる（Ｅ{Ｆ_i}＝μ_i）はずである。

しかしながら、実際には、第１データである信号強度ｆ^Cにも、第２データである信号強度ｆ^Bにも誤差が生じることは避けられないため、各セットで得られた相対発現量Ｆ_iにも誤差が生じる。それゆえ、相対発現量Ｆ_iの平均値Ｅ{Ｆ_i}≠μ_iとなり、ベクトルｘ_iは偏りを有することになる。

このように、相対発現量Ｆを得るための２つの信号強度ｆ^C・ｆ^Bには、偏り誤差が直接含まれることになるため、正確な遺伝子の発現量μを解析するためには、この偏り誤差の影響を排除しなければならない。

従来では、上記偏り誤差の影響を排除するために、特定の標準サンプル(Ｒ)を設定する手法が採用されている。具体的には、上記標準サンプル(Ｒ)を設定し、その信号強度(ｆ^C(R) _ik，ｆ^B(R) _ik)が同一であると仮定する。そして、実験対で実際に得られた２つの信号強度(ｆ^C _ik，ｆ^B _ik)一方を補正する。しかしながら、この手法では、標準サンプル(Ｒ)の設定によって信号強度の補正も異なるため、安定性に乏しいだけでなく、補正も煩雑化する。

〔問題点２：相対発現量Ｆが０近傍のデータの影響〕
上記問題点１における偏り誤差の影響を排除したと仮定した場合、ｋセット目の実験対が同一の条件であるとすれば、全ての遺伝子の相対発現量Ｆは理想的には０となる。

つまり、ｋセット目の実験対において、第１実験の条件と第２実験の条件とが同一であれば、双方の遺伝子の発現量には差が生じない。そのため、ｉ番目の遺伝子における発現量の相違が、第１実験と第２実験との間で小さければ、Ｆ_ik＝log(ｆ^C _ik／ｆ^B _ik)が０近傍となる。

ここで、網羅的な発現プロファイル実験では、相対発現量Ｆが０付近にある遺伝子が多数出現する。これは、第１実験と第２実験とにおけるｉ番目の遺伝子における相違がないことを意味する。なお、相対発現量Ｆが０近傍となるデータを、以下、非変化発現データと称する。

網羅的発現プロファイル解析では、複数（Ｎ個）の遺伝子の発現量が得られるとともに、これら複数の遺伝子の発現について相関関係を多変量解析することになる。ところが、多変量解析とは、複数の変量の相関関係を解析するものであるため、上記複数の変量（発現量のデータ）に上記非変化発現データが含まれていれば、解析結果に大きな影響を及ぼすことになる。その結果、得られる解析結果の信頼性は低下してしまう。

例えば、マイクロアレイを用いた発現プロファイル解析では、マイクロアレイを一つのみ用いて行う実験よりも、多数のマイクロアレイを用いて、得られた結果を比較することにより、発現が変化している遺伝子の意味付けをする実験の方が重要となっている。ところが、上記多数の実験を比較する場合には、上記問題点１・２が生じるため、ランダムノイズを含む可能性が高いデータを除去することによって、信頼性の高い多変量解析を実施する体系だった技術は知られていない。

本発明は、上記問題点に鑑みてなされたものであって、その目的は、遺伝子の発現プロファイル解析、特に網羅的な発現プロファイル解析に代表される多変量解析において、偏り誤差の影響と、変量が０近傍となるデータの影響とを有効に軽減し、確実な解析ができる多変量解析システムと、このシステムに利用される発現プロファイル解析方法と、この解析方法をコンピュータにて実現するためのプログラムまたはプログラムを記録した記録媒体とを提供することにある。

本発明の多変量解析システムは、上記の課題を解決するために、母集団を構成する複数の要素のそれぞれから、実験により、第１データとその対照である第２データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する多変量解析システムにおいて、上記解析用変量から、上記第１データおよび第２データの対数比を含む補正変量を算出する変量補正手段と、１回の実験により、複数の要素のそれぞれから同時期に上記解析用変量が得られ、かつ、同一の実験により得られた解析用変量より算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の要素より得られかつ異なる実験系に所属する２つの補正変量を、相関変量として抽出する相関変量抽出手段と、上記相関変量を用いて、２つの実験系の間における相関係数を算出する相関係数算出手段とを備えていることを特徴としている。

上記構成によれば、２つの実験系の相関関係を、上記相関変量から相関係数として算出できるので、対数比が０近傍となるデータの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をより一層向上させることができる。

本発明の多変量解析システムは、上記の構成に加えて、さらに、実験誤差に基づいて実験系毎に選抜基準値を設定し、上記相関変量から、該選抜基準値に基づく選抜規定を満たす相関変量を実験系毎に選抜する相関変量選抜手段を備えており、上記相関係数算出手段は、上記変量選抜手段により選抜された相関変量を用いて、２つの実験系の間における相関係数を算出することが好ましい。

上記構成によれば、変量選抜手段により選抜された相関変量を用いて、相関係数を算出してこれを多変量解析に用いる。そのため、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。

本発明の多変量解析システムは、上記の構成に加えて、上記選抜基準値が１以上の絶対値である場合に、上記選抜規定は、２つの実験系に所属する相関変量が、正の選抜基準値を超える範囲か、または負の選抜基準値未満の範囲に存在する規定として設定されていることが好ましい。

上記構成によれば、選抜規定が上記のように設定されることで、相関変量をより適切に選抜することができる。その結果、相関係数の算出精度を向上することができる。

本発明の多変量解析システムは、上記の構成に加えて、さらに、実験誤差に基づいて実験系毎に因子基準値を設定し、該因子基準値に基づく因子規定を用いて、２つの実験系の間における相関因子を要素毎に設定する相関因子設定手段を備えており、上記相関係数算出手段は、上記相関変量と上記相関因子とを用いて、該相関因子により重みのついた、２つの実験系の間における相関係数を算出することが好ましい。

上記構成によれば、相関因子設定手段で相関因子を得た上で、相関係数算出手段により、重みのついた相関係数を算出して多変量解析に用いる。そのため、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。

本発明の多変量解析システムは、上記の構成に加えて、上記因子規定は、２つの実験系に所属する相関変量が、因子基準値を超える範囲か、または因子基準値の逆数未満の範囲に存在する規定として設定されていることが好ましい。

上記構成によれば、因子規定が上記のように設定されることで、相関因子をより適切に選抜することができる。その結果、重みつき相関係数の算出精度を向上することができる。

本発明の多変量解析システムは、上記の構成に加えて、さらに、上記母集団を構成する複数の要素から得られる解析用変量を入力する入力手段を備えていることが好ましい。

上記構成によれば、上記入力手段を備えていることで、本発明にかかる多変量解析システムに解析用変量を適切かつ容易に入力することができる。

本発明の多変量解析システムは、上記の構成に加えて、上記母集団が特定の生物のゲノムに含まれる全ての遺伝子またはその一部であり、該母集団を構成する要素が個々の遺伝子であるとともに、各要素から実験により得られる解析用変量が、個々の遺伝子の発現量であることが好ましい。

また、本発明の多変量解析システムは、上記実験として、発現プロファイル実験が用いられることが好ましい。

上記構成によれば、偏り誤差や対数比が０近傍となるデータの影響が大きい遺伝子の発現量の解析、特に、発現プロファイル解析に、本発明を適用することになるので、遺伝子の発現プロファイル解析をより適切に実施することが可能となる。

本発明の多変量解析システムは、上記発現プロファイル実験では、マイクロアレイ、マクロアレイ、およびディファレンシャルディスプレイの少なくとも何れかが用いられることが好ましい。

また、本発明の多変量解析システムは、上記の構成に加えて、上記解析用変量として得られる第１データおよび第２データが、遺伝子の発現量に比例して変化する信号強度として検出されるとともに、上記入力手段は、該信号強度を入力可能することが好ましい。

上記構成によれば、マイクロアレイ、マクロアレイ、およびディファレンシャルディスプレイの少なくとも何れかを用いた発現プロファイル解析では、蛍光やアイソトープ等で遺伝子の発現量を定量化するが、このような定量化では、偏り誤差や対数比が０近傍となるデータの影響が大きくなる。そこで、本発明を適用することで、遺伝子の発現プロファイル解析をより適切に実施することが可能となる。

本発明の多変量変換システムは、上記の構成に加えて、上記分類基準値として、上記信号強度の検出限界が用いられるとともに、信号強度の検出限界を超える範囲が、信頼性の高い範囲として用いられることが好ましい。

上記構成によれば、信号強度の検出限界以下のデータは誤差である可能性が高く、信頼性に欠けるので、上記分類基準値として信号強度の検出限界を用いることで、信頼性の高い範囲を的確に規定することができる。

本発明の多変量解析システムは、上記の構成に加えて、上記各手段の少なくとも２つ以上を一つの装置として一体化してなることが好ましい。

上記構成によれば、多変量解析システムを構成する各手段のうちの少なくとも一つ、好ましくは、解析用変量の処理に関わる手段を一体化しておくことで、システム構成を簡素化することができる。それゆえ、例えば設置場所を小さくして使用時の省スペース化を図ることが可能となるとともに、本発明にかかる多変量解析システムの操作の煩雑化を回避することも可能となる。

本発明の発現プロファイル解析方法は、上記の課題を解決するために、特定の生物のゲノムに含まれる全ての遺伝子またはその一部である母集団を構成する、個々の遺伝子である複数の要素のそれぞれから、発現プロファイル実験により、第１実験における特定遺伝子の発現量である第１データと、上記第１実験とは異なる条件下で実施され、かつ第１実験と比較可能な第２実験における特定遺伝子の発現量である第２データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する発現プロファイル解析方法において、上記解析用変量から、上記第１データおよび第２データの対数比を含む補正変量を算出する変量補正ステップと、上記発現プロファイル実験を複数回実施することで、同一の遺伝子から解析用変量が複数得られ、かつ、同一の実験により得られた解析用変量から算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の遺伝子より得られかつ異なる実験系に所属する２つの補正変量を、相関変量として抽出する相関変量抽出ステップと、上記相関変量を用いて、２つの実験系の間における相関係数を算出する相関係数算出ステップとを含むことを特徴としている。

上記方法によれば、２つの実験系の相関関係を、上記相関変量から相関係数として算出できるので、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をより一層向上させることができる。

本発明の発現プロファイル解析方法は、さらに、発現プロファイル実験に伴う実験誤差に基づいて実験系毎に選抜基準値を設定し、上記相関変量から、該選抜基準値に基づく選抜規定を満たす相関変量を実験系毎に選抜する相関変量選抜ステップを含むとともに、上記相関係数算出ステップでは、選抜された上記相関変量を用いて、２つの実験系の間における相関係数を算出することが好ましい。

上記方法によれば、変量選抜ステップで適切な相関変量を選抜し、相関係数算出ステップで相関係数を算出してこれを多変量解析に用いる。そのため、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。

本発明の発現プロファイル解析方法は、上記選抜基準値が１以上の絶対値である場合に、上記選抜規定は、２つの実験系に所属する相関変量が、正の選抜基準値を超える範囲か、または負の選抜基準値未満の範囲に存在する規定として設定されていることが好ましい。

上記方法によれば、相関変量選抜ステップで、選抜規定が上記のように設定されることで、相関変量をより適切に選抜することができる。その結果、相関係数の算出精度を向上することができる。

本発明の発現プロファイル解析方法は、さらに、発現プロファイル実験に伴う実験誤差に基づいて実験系毎に因子基準値を設定し、該因子基準値に基づく因子規定を用いて、２つの実験系の間における相関因子を要素毎に設定する相関因子設定ステップを含むとともに、上記相関係数算出ステップでは、相関変量と上記相関因子とを用いて、該相関因子により重みのついた、２つの実験系の間における相関係数を算出することが好ましい。

上記方法によれば、相関因子設定ステップで相関因子を得た上で、相関係数算出ステップで、重みのついた相関係数を算出して多変量解析に用いる。そのため、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。

本発明の発現プロファイル解析方法は、上記の方法において、上記因子規定は、２つの実験系に所属する相関変量が、因子基準値を超える範囲か、または因子基準値の逆数未満の範囲に存在する規定として設定されていることが好ましい。

上記方法によれば、相関因子設定ステップで、因子規定が上記のように設定されることで、相関因子をより適切に選抜することができる。その結果、重みつき相関係数の算出精度を向上することができる。

本発明の発現プロファイル解析方法は、さらに、上記遺伝子の発現量を、信号強度として検出した上で解析用変量として入力する解析用変量入力ステップを含むことが好ましい。

上記方法によれば、上記解析用変量入力ステップを備えていることで、本発明にかかる発現プロファイル解析方法で解析対象となる解析用変量を、適切かつ容易に得ることができる。

本発明のコンピュータプログラムは、上記の発現プロファイル解析方法をコンピュータに実行させるものである。

また、本発明の記録媒体は、上記の発現プロファイル解析方法を行うプログラムをコンピュータに実行させるコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体である。

上記構成によれば、プログラムにより本発明にかかる解析方法をコンピュータで実行させることになるため、コンピュータそのものを本発明にかかる多変量解析システム（発現プロファイル解析システム）とすることができる。その結果、本発明の汎用性を高めることができるとともに、本発明を、通信ネットワーク上で利用することも容易となる。

本発明にかかる多変量解析システムは、以上のように、解析用変量から、第１データおよび第２データの対数比を含む補正変量を算出する変量補正手段と、１回の実験により、複数の要素のそれぞれから同時期に上記解析用変量が得られ、かつ、同一の実験により得られた解析用変量より算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の要素より得られかつ異なる実験系に所属する２つの補正変量を、相関変量として抽出する相関変量抽出手段と、上記相関変量を用いて、２つの実験系の間における相関係数を算出する相関係数算出手段とを備えている構成である。

本発明にかかる発現プロファイル解析方法は、以上のように、解析用変量から、第１データおよび第２データの対数比を含む補正変量を算出する変量補正ステップと、発現プロファイル実験を複数回実施することで、同一の遺伝子から解析用変量が複数得られ、かつ、同一の実験により得られた解析用変量から算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の遺伝子より得られかつ異なる実験系に所属する２つの補正変量を、相関変量として抽出する相関変量抽出ステップと、上記相関変量を用いて、２つの実験系の間における相関係数を算出する相関係数算出ステップとを含む構成である。

それゆえ、上記構成または上記方法では、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性を向上させることができる。それゆえ、本発明は、マイクロアレイ等の網羅的発現プロファイル解析において、データの解釈を明快かつ容易にすることが可能になり、発現プロファイル解析の効率化を図る上で実用的であるという効果を奏する。

また、本発明の適応範囲は、遺伝子の発現プロファイル解析のみに限定されるものではなく、log(Ｙ_ik／Ｚ_ik)の形式の多変量で記述された大量の標本からなるデータセットに対しても適用することができる。

さらに、本発明は、プログラムによりコンピュータで実現可能となっている。したがって、本発明には、上記構成や方法をコンピュータで実現させるコンピュータプログラム、あるいはこのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体も含まれることはいうまでもない。

〔参考例〕
本発明における参考例について図１ないし図３に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。

本発明にかかる多変量解析システムは、多変量で記述された情報から該情報を得るに伴う誤差の影響を低減することが可能なシステムであり、より具体的には、コンピュータを用いて、発現プロファイル実験、特に網羅的発現プロファイル実験により得られる多変量としての遺伝子の発現量から実験誤差の影響を軽減し、因子を探索する目的に、好適に用いることができるシステムである。

したがって、本発明には、上記探索手順をコンピュータで実施する場合の発現プロファイル解析方法も含まれ、さらには、この探索手順をコンピュータに実行させるコンピュータプログラム、あるいはこのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体も含まれる。

本発明における多変量解析システムとしては、母集団を構成する複数の要素のそれぞれから、解析対象となる変量（以下、解析用変量とする）を得て解析するが、この解析用変量は、第１データとその対照である第２データとの組み合わせからなっており、実際の解析には、これら各データの比が用いられる。それゆえ、本発明にかかる多変量解析システムとしては、少なくとも上述した多変量解析を実施するものであれば特に限定されるものではないが、具体的には、例えば、図１に示すように、マイクロアレイ５１から網羅的発現プロファイル実験の結果を得て、遺伝子の発現量を解析するマイクロアレイ解析システム１０ａ（以下、単に解析システムと略す）が挙げられる。

マイクロアレイ５１は、多数の異なったプローブＤＮＡ（以下、プローブと略す）をガラスなどの固相面に高密度に配置したものである。通常、顕微鏡で用いられるスライドガラス程度の大きさの支持体に、ＤＮＡを高密度に固定したものであって、ＤＮＡチップとも呼ばれる。このマイクロアレイ５１を用いれば、数千以上のＤＮＡ分子に対する反応を同時に実施し、かつ結果の検出も同時に行うことができる。それゆえ、多数の遺伝子の発現プロファイルを観察することが可能になる。

上記マイクロアレイ５１を用いたアッセイの概要について説明すると、まず、マイクロアレイ５１に、蛍光色素で標的したターゲットＤＮＡ（以下、ターゲットと略す）をハイブリダイズさせる。このとき、マイクロアレイ５１上で、プローブと相補的な配列を含むターゲットの分子は、上記プローブの分子と相補的に結合（ハイブリダイズ）するが、それ以外のターゲットの分子は結合しない。そこで、結合していないターゲットの分子を洗浄して除去することで、結合したターゲットの分子のみをマイクロアレイ５１上に残存させる。このターゲットの分子は蛍光色素で標識されているため、ターゲットの蛍光を、信号強度として測定し、ハイブリダイズしているプローブを同定する。

蛍光標識された上記ターゲットは、一般的には、比較したい２つの状態（第１の状態および第２の状態とする）の細胞からｍＲＮＡを抽出し、蛍光表示されたヌクレオチドの存在下で逆転写反応を実施することで作製される。このとき、上記２つの状態毎に、異なる検出波長を有する２種類の蛍光色素を用いる。したがって、ターゲット中には、発現量の多い遺伝子のｃＤＮＡが多く含まれていることになるので、上記蛍光の信号強度は、各状態における遺伝子の発現量に応じたものとなる。それゆえ、上記信号強度を測定すれば、特定の遺伝子の発現量を検出することが可能になる。

しかも、マイクロアレイ５１には、大量のプローブを配列できるため、数回のハイブリダイズの実施で発現量のデータを大量に得ることができる。各発現量のデータは何れも連続変量であり、しかも、遺伝子相互の関係により、発現量は変化する可能性があるため、このような多数のデータを多変量解析することは重要となる。

したがって、網羅的発現プロファイル解析においては、上記母集団が特定の生物のゲノムに含まれる全ての遺伝子またはその一部となり、該母集団を構成する要素が個々の遺伝子となる。そして、各要素、すなわち各遺伝子から得られる解析用変量は遺伝子の発現量となり、これは蛍光の信号強度のデータとなるが、より具体的には、第１の状態における遺伝子の発現量が、第１データとして、第２の状態における遺伝子の発現量が第２データとして得られ、これら第１・第２データの組み合わせが解析用変量として利用されることになる。

具体的には、本参考例では、母集団を構成する多数の遺伝子（数千レベル、１０^３レベルとする）に対して実験を複数回（例えば、Ｍ回実施）実施することで、Ｍ×１０^３のデータが得られる。それゆえ、上記解析用変量から得られる相対発現量Ｆ_ikを用いれば、ｉ番目の遺伝子における相対発現量の標本は、次式（１）に示すベクトルで表すことができる。

ｘ_i＝（Ｆ_i1，Ｆ_i2，・・・，Ｆ_ik，・・・，Ｆ_iM）・・・（１）
本発明では、上記式（１）に示す標本を多変量解析するために、例えば、図１に示すような解析システム１０ａを用いる。

上記解析システム１０ａは、画像読取部１１、入力部１２、表示部１３、画像形成部１４、記憶部１５、制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、および補正変量算出部３２を備えている。

上記画像読取部１１は、マイクロアレイ５１から、プローブにハイブリダイズしたターゲットの蛍光を、信号強度という画像データとして読み取ることで、遺伝子の発現量を検出する。つまり、上記画像読取部１１は、解析用変量としてマイクロアレイ５１から得られる第１データおよび第２データを、遺伝子の発現量に比例して変化する信号強度として検出して多変量解析システムに入力する入力手段である。

上記画像読取部１１としては、具体的には、例えば、蛍光スキャナー等が好適に用いられるが、特にこれに限定されるものではなく、ターゲットを標識している色素の種類に応じて、適切な構成の画像読取部１１を選択すればよい。

上記入力部１２は、上記解析システム１０ａの動作に関わる情報を入力可能とする。具体的には、キーボードやタブレット等、従来公知の入力手段を好適に用いることができる。また、マイクロアレイ５１からの得られる遺伝子の発現量は、必ずしも上記画像読取部１１から読み取られるものではなく、例えば、別の読取手段等で読み取られた後に具体的な数値データに変換されたとすれば、上記入力部１２から上記解析システム１０ａに入力することもできる。

つまり、本発明では、母集団を形成する要素である遺伝子から、網羅的発現プロファイル実験により解析用変量としての発現量のデータが得られればよく、解析システム１０ａへの入力の動作としては、画像読取部１１による信号強度の直接読み取りに限定されるものではない。それゆえ、本発明においては、入力手段として、上記画像読取部１１および入力部１２の少なくとも一方を備えていることが好ましいが、入力手段としては、上記画像読取部１１や入力部１２に限定されるものではなく、その他の入力手段を備えていても良い。

上記表示部１３は、マイクロアレイ５１からの信号強度の読み取りや、読み取った信号強度の解析等を含む、上記解析システム１０ａの動作に関わる情報や解析結果等の各種情報を表示する。具体的には、公知のＣＲＴディスプレイや、液晶ディスプレイ等といった各種表示装置が好適に用いられるが特に限定されるものではない。

上記画像形成部１４は、上記表示部１３で表示可能な各種情報をＰＰＣ用紙等の記録材に記録（印刷・画像形成）する。具体的には、公知のインクジェットプリンタやレーザープリンタ等の画像形成装置が好適に用いられるが特に限定されるものではない。

なお、上記表示部１３と画像形成部１４とは、まとめて出力手段と表現することもできる。すなわち、表示部１３は、各種情報をソフトコピーで出力する手段であり、画像形成部１４は、各種情報をハードコピーで出力する手段である。したがって、本発明で用いられる出力手段としては、上記表示部１２や画像形成部１３に限定されるものではなく、その他の出力手段を備えていても良い。

上記記憶部１５は、上記解析システム１０ａで利用される各種情報（制御情報、解析結果、その他情報等）を記憶する。具体的には、例えば、ＲＡＭやＲＯＭ等の半導体メモリ、フロッピーディスクやハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系等、従来公知の各種記憶手段を好適に用いることができる。

上記制御部２１は、本参考例における上記解析システム１０ａの動作を制御する。具体的には、図１の点線の矢印で示すように、画像読取部１１、入力部１２、表示部１３、画像形成部１４、記憶部１５、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、および補正変量算出部３２の各手段に対して、上記制御部２１から制御情報が出力される。この制御情報に基づいて上記各手段が連携して動作することで、上記解析システム１０ａ全体が動作する。また、制御部２１に対しては、入力部１２から解析システム１０ａを動作させるための指示情報も入力可能となっているので、図１では、制御情報のやりとりを示す点線の矢印は双方向となっている。

上記バックグラウンド補正部２２は、画像読取部１１から入力された解析用変量に共通するバックグラウンド数値を除去する補正（バックグラウンド補正）を実施する。このバックグラウンド補正は、後述する解析用変量の分類前に実施すると、より正確な分類が可能になるため好ましい。

上記変量解析部２３は、画像読取部１１（あるいは入力部１２）から入力された解析用変量、すなわち遺伝子の発現量のデータを解析し、その解析結果を、制御部２１の制御に基づいて表示部１３および画像形成部１４の少なくとも一方に出力する。具体的には、クラスタリング等を行う公知のアレイ専用解析ソフトウエアを用いた構成を挙げることができる。また、変量解析部２３では、発現プロファイル解析だけでなく、遺伝情報まで解読されるようになっていてもよい。すなわち、上記変量解析部２３では、遺伝子を用いたあらゆる種類の解析処理が実施可能である。

上記変量分類部３１は、上記解析用変量、すなわち遺伝子の発現量における変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値を分類基準値として用い、遺伝子毎に複数得られた遺伝子の発現量のデータを上記分類基準値に基づいて分類する。

上記補正変量算出部３２は、上記変量分類部３１で分類された上記解析用変量（遺伝子の発現量のデータ）のうち、信頼性の高い範囲に分類された高信頼性変量のみを用いて、該高信頼性変量を構成する第１データおよび第２データの対数比を算出するとともに、全ての高信頼性変量の対数比に対する補正項を算出し、さらに、上記対数比と補正項との差を補正変量として算出する。

したがって、本参考例における解析システム１０ａでは、図１の実線の矢印で示すように、画像読取部１１から得られた解析用変量が、バックグラウンド補正部２２に出力されてバックグラウンド補正がなされ、次に、変量分類部３１に出力されて分類され、次に、補正変量算出部３２に出力されて補正変量が算出され、次に、変量解析部２３に出力されて解析され、最終的に、表示部１３および／または画像解析部１４に出力されることになる。

なお、図１では、画像読取部１１からの解析用変量の入力を明確に説明する便宜上、入力部１２からの解析用変量の入力については、実線で図示せず省略している。

上記制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、および補正変量算出部３２の具体的な構成は特に限定されるものではなく、従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態３で説明するように、上記各手段の２つ以上が１つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置（ＣＰＵ）としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。

次に、本参考例における上記解析システム１０ａの具体的な動作、すなわち本参考例における網羅的発現プロファイル解析方法について、図２のフローチャートおよび図３の変量変遷チャートに基づいて説明する。

まず、前段階として、網羅的発現プロファイル実験を実施する。具体的には、前述したように、特定の生物のゲノムに含まれる全ての遺伝子またはその一部をプローブとして用いたマイクロアレイ５１に対して、蛍光色素で標的したターゲットＤＮＡ（以下、ターゲットと略す）をハイブリダイズさせる。上記マイクロアレイ５１は、従来公知の手法で作製することができ、その作製手法については特に限定されるものではない。

上記前段階としての網羅的発現プロファイル実験は、１回のみ実施されてもよいが、通常は複数回実施される。そこで、ステップ１１（以下、ステップを適宜Ｓと略す）として、ターゲットの蛍光を、画像読取部１１で信号強度として測定（検出）し、解析用変量となる遺伝子の発現量のデータを入力する（解析用変量入力ステップ）。

上記Ｓ１１は、実施された全ての実験の結果からデータを入力し終わるまで繰り返される。それゆえ、Ｓ１２として、全ての発現量のデータが入力されたか否かを判定し、入力されていれば、Ｓ１３に進む一方、入力されていなければ、Ｓ１１に戻る。

ここで、前述したように、蛍光標識された上記ターゲットは、比較したい第１の状態および第２の状態の細胞からそれぞれｍＲＮＡを抽出し、各状態別に異なる蛍光色素を用いて表示されたヌクレオチドの存在下で、逆転写反応を実施することで作製される。上記第１の状態のターゲットと、第２の状態のターゲットは、通常、混合されて同時にマイクロアレイ５１にハイブリダイズされる。それゆえ、１回のハイブリダイズで、第１実験（上記第１の状態の実験）および第２実験（上記第２の状態の実験）の結果がセットとなった１セットの実験対の結果が得られることになる。

したがって、本発明においては、上記解析用変量は、第１実験で得られた第１データと、第２実験で得られた第２データとを組み合わせたものとして生成される。それゆえ、本発明にかかる解析方法には、解析用変量を生成する変量生成ステップが含まれることが好ましい。この変量生成ステップは、本参考例では、Ｓ１１で、画像読取部１１による読み取りと同時に実施されるが、別途、変量生成部を設けて、読み取った画像データから解析用変量としての信号強度を生成するようにしてもよい。

次にＳ１３として、バックグラウンド補正部２２により、バックグラウンド補正を実施する（バックグラウンド補正ステップ）。具体的には、ハイブリダイズ後のマイクロアレイ５１から信号強度を読み取る際に、本来なら蛍光が全く検出されないはずのハイブリダイズされていないプローブやプローブのない背景領域から、バックグラウンドの蛍光が検出される場合がある。そこで、バックグラウンド補正によって、読み取った発現量のデータに共通する上記バックグラウンドの蛍光（バックグラウンド数値）を除去する。

なお、上記バックグラウンド補正がなされた後に、ｉ番目の遺伝子に対して実施されたｋセット目（ｋ＝１〜Ｍセット）の実験対で得られる結果のうち、第１データとなる信号強度をｆ^C _ikと表現し、第２データとなる信号強度をｆ^B _ikと表現する。

次に、Ｓ１４として、変量分類部３１により、所定の分類基準値に基づいて、生成された複数の上記解析用変量が分類される（変量分類ステップ）。上記分類基準値としては、本参考例では、上記信号強度の検出限界が用いられる。

具体的には、ハイブリダイズ後のマイクロアレイ５１から信号強度を読み取る場合、読み取り可能な蛍光のレベルが存在する。上記信号強度の検出限界とは、この読み取り可能な蛍光のレベルであり、読み取られた信号強度が上記検出限界を超えておれば、解析上で十分信頼できるデータとなるが、上記検出限界未満であれば、誤差の影響が非常に大きく信頼できるデータとは見なせない。

そこで、上記解析用変量の変化範囲、すなわち発現量に比例する蛍光レベルの変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値となる上記検出限界を分類基準値として用い、蛍光の信号強度として検出された上記解析用変量を分類する。これによって、網羅的発現プロファイル解析の精度を向上させることができる。

なお、上記信号強度の検出限界の設定方法としては特に限定されるものではなく、実験的に得られた結果を利用しても良いし、過去の実験で得られたデータから推定しても良い。また、分類の具体的な手法も特に限定されるものではない。例えば、第１実験および第２実験の信号強度の検出限界を、それぞれＳ^NCおよびＳ^NBと推定したとすれば、ｉ番目の遺伝子の信号強度ｆ^C _ikおよびｆ^B _ikを、上記Ｓ^NCおよびＳ^NBにより以下のクラスの何れかに分類する手法が挙げられる。

クラス１：ｆ^C _ik＞Ｓ^NCかつｆ^B _ik＞Ｓ^NB
クラス２Ａ：ｆ^C _ik＜Ｓ^NCかつｆ^B _ik＞Ｓ^NB
クラス２Ｂ：ｆ^C _ik＞Ｓ^NCかつｆ^B _ik＜Ｓ^NB
クラス３：ｆ^C _ik＜Ｓ^NCかつｆ^B _ik＜Ｓ^NB
上記各クラスのうち、補正変量算出部３２に出力されるのは、クラス１に分類された信号強度のみでよい。それゆえ、Ｓ１４では、例えば、クラス１およびそれ以外のクラス（クラス非１）に分類するだけでもよいが、後段の変量解析部２３やその前段等で、クラス２Ａ・２Ｂ・３の信号強度を用いることも可能であるので、上記のようなクラス分けであってもよい。

次に、Ｓ１５として、補正変量算出部３２により、変量分類部３１で分類された解析用変量のうち、信号強度の検出限界を超える解析用変量（高信頼性変量とする）を構成する第１データおよび第２データの対数比を算出する（対数比算出ステップ）。具体的には、上記第１データおよび第２データであるｉ番目の遺伝子の信号強度ｆ^C _ikおよびｆ^B _ikを用いて、該ｉ番目の遺伝子の相対発現量log(ｆ^C _ik/ｆ^B _ik)を算出する。

次に、Ｓ１６として、同じく補正変量算出部３２により、全ての高信頼性変量の対数比に対する補正項を算出する（補正項算出ステップ）。具体的には、例えば、上記Ｓ１４でクラス１に分類された高信頼性変量の全ての数をＮ個（１＜Ｎ≦Ｍ）とすれば、このＮ個の高信頼性変量全てについての相対発現量（対数比）log(ｆ^C _ik／ｆ^B _ik)に対する補正項REF_i=1,2,…,N[log(ｆ^C _ik／ｆ^B _ik)]を算出する。上記補正項REF_i=1,2,…,N[log(ｆ^C _ik／ｆ^B _ik)]としては、具体的には、相対平均値、相乗平均値、または中央値等を用いることができる。

次にＳ１７として、同じく補正変量算出部３２により、上記対数比と補正項との差を補正変量として算出する（補正変量算出ステップ）。具体的には、補正変量Ｆ_ikは、次式（２）に示すように表すことができる。

Ｆ_ik＝log(ｆ^C _ik／ｆ^B _ik)−REF_i=1,2,…,N[log(ｆ^C _ik／ｆ^B _ik)] ・・・（２）
そして、Ｓ１８として、上記補正変量を変量解析部２３により解析することで、網羅的発現プロファイル解析が実施される（多変量解析ステップ）。

前述したように、ｉ番目の遺伝子における相対発現量の標本は、前記式（１）に示すベクトルｘ_ikで表すことができ、解析対象のゲノムまたはその一部に、Ｎ個の遺伝子が含まれていれば、上記ベクトルｘ_ikはＮ個得られる。ここで、上記ベクトルｘ_ikは、上記補正変量Ｆ_ikで表されることになるので、このベクトルｘ_iで表される標本を解析することで、偏り誤差を除去した解析が可能となる。

その後、Ｓ１９として、解析結果を出力する。具体的には、表示部１３に表示したり、画像形成部１４でプリントアウト（印刷）したりする（解析結果出力ステップ）。

このように、本参考例の解析システム１０ａには、上記変量分類部３１および補正変量算出部３２が設けられている。そのため、上記Ｓ１５〜Ｓ１７で得られる補正変量は、第１データである信号強度ｆ^C _ikと、第２データである信号強度ｆ^B _ikとの間の偏り誤差を除去した相対値となる。それゆえ、この相対値を用いれば、変量解析部２３では、母集団を構成する全体の遺伝子の解析結果についての平均値によって解析結果を補正することになる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。

なお、以上説明した本参考例の解析システム１０ａは、以上説明したＳ１１〜Ｓ１９までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。

上記プログラムはコンピュータで読み取り可能な記録媒体に格納されていればよい。具体的には、図１に示す記憶部１５、具体的には、例えばＲＯＭのようなものそのものがプログラムメディアであってもよいし、上記記憶部１５として、プログラム読み取り装置が設けられている場合には、そこに記録媒体を挿入することで読み取り可能なプログラムメディアであってもよい。上記プログラムメディアとしては、記憶部１５の具体例として挙げた公知の構成を好適に用いることができる。

何れの場合においても、格納されているプログラムは制御部２１がアクセスして実行させる構成であってもよいし、プログラムを読み出し、読み出されたプログラムを、図示しないプログラム記憶エリアにダウンロードして、そのプログラムを実行する方式であってもよい。このダウンロード用のプログラムは予め記憶部１５等に格納されているものとする。また、上記記録媒体に格納されている内容はプログラムに限定されるものではなく、例えばデータであってもよい。

また、本参考例では、バックグラウンド補正を実施する構成・方法を用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、バックグラウンド数値が無視できるのであれば、解析システム１０ａには、バックグラウンド補正部２２は備えられていなくても良く、本発明にかかる解析方法では、Ｓ１３は実施されなくても良い。

〔実施の形態１〕
本発明における第１の実施の形態について図４ないし図６に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。

前記参考例では、解析システム１０ａが、前記変量分類部３１および補正変量算出部３２を備えることで、特定の遺伝子に注目することなくデータから偏り誤差を取り除いた補正変量を生成できる構成となっていたが、本実施の形態では、さらに、上記補正変量を用いた解析に際して、個々の要素すなわち各遺伝子の間の相関関係を算出し、これを解析に利用する。

ゲノムまたはその一部に含まれる遺伝子は、全てが同じように発現するわけではなく、各種発現調節機構によって、その発現の時機はそれぞれ異なるよう制御されている。それゆえ、網羅的発現プロファイル実験では、相対発現量が０付近となる遺伝子が多数出現する。

例えば、ｉ番目の遺伝子が特定条件CDNiで発現するとして、この特定条件CDNiで網羅的発現プロファイル実験を実施すると、解析用変量として１セットの実験対の結果が得られる。

このとき、ｉ番目の遺伝子は発現しているため、相対発現量すなわち前記参考例で算出される補正変量Ｆ_ikはもちろん一定の値を示す。

これに対して、上記特定条件CDNiで発現に変化がない遺伝子については、第１実験とその比較対照となる第２実験との間には、遺伝子の発現量には有意な差が生じない。そのため、信号強度ｆ^C _ik（第１データ）およびｆ^B _ik（第２データ）がほぼ同一となり、算出される相対発現量すなわち上記補正変量Ｆ_ikは０付近（Ｆ_ik≒０）の数値を示す。もちろん理想的な条件では、補正変量Ｆ_ik＝０となる。なお、上記相対発現量が０近傍となるデータを、以下、非変化発現データと称する。

網羅的発現プロファイル解析では、複数（Ｎ個）の遺伝子の発現量が得られ、これら複数の遺伝子の発現について相関関係を多変量解析するが、上記非変化発現データが含まれていると、解析結果に大きな影響を及ぼすことになる。

そこで、多変量解析に際して上記非変化発現データの影響を除去するために、例えば、図４に示すような解析システム１０ｂを用いる。

具体的には、本実施の形態にかかる解析システム１０ｂは、図４に示すように、解析システム１０ａと同様、画像読取部１１、入力部１２、表示部１３、画像形成部１４、記憶部１５、制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、および補正変量算出部３２を備えており、さらに、相関変量抽出部４１、相関変量選抜部４２、および相関係数算出部４３を備えている。

上記画像読取部１１、入力部１２、表示部１３、画像形成部１４、記憶部１５、制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、および補正変量算出部３２については、前記参考例と同様であるのでその説明を省略する。なお、上記補正変量算出部３２は、解析用変量から、第１データおよび第２データの対数比を含む補正変量を算出する変量補正手段に相当する。また、前記参考例の記載から明らかなように、変量分類部３１および補正変量算出部３２の双方をまとめて変量補正手段とみなしてもよい。

上記相関変量抽出部４１は、１回の実験により、複数の遺伝子（要素）のそれぞれから同時期に解析用変量（２つの信号強度の組み合わせ）が得られ、かつ、同一の実験により得られた解析用変量より算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の遺伝子より得られかつ異なる実験系に所属する２つの補正変量を、相関変量として抽出する。

具体的には、前述したように、マイクロアレイ５１を用いた実験では、１回の実験により、ｉ番目の遺伝子（要素）について１セットの実験対の結果として、信号強度ｆ^C・ｆ^Bの組み合わせ（第１・第２データ）が得られるが、この実験を複数回繰り返すことで、ｉ番目の遺伝子から複数の結果が得られることになる。さらに、実験の条件によっては、複数の遺伝子のそれぞれから同時期に結果（解析用変量）が得られることになる。そこで、同一の実験により得られた信号強度の組み合わせより算出される補正変量は、同一の実験系に所属する補正変量として分類される。

そこで、上記実験系分類部４１では、例えば、実験を１〜ｋ回繰り返した場合に、ｉ番目の遺伝子およびｊ番目の遺伝子からそれぞれｋ個の補正変量Ｆ_i1〜Ｆ_ikおよびＦ_j1〜Ｆ_jkが算出されたとすれば、Ｆ_i1およびＦ_j1、Ｆ_i2およびＦ_j2、・・・Ｆ_ikおよびＦ_jkをそれぞれ同一の実験系に所属するものとして分類できる。

換言すれば、ｉ番目の遺伝子から得られたｋ個の補正変量Ｆ_i1〜Ｆ_ik、または、ｊ番目の遺伝子から得られたｋ個の補正変量Ｆ_j1〜Ｆ_jkは、それぞれ、同一の遺伝子より得られかつ異なる実験系に所属する補正変量の集合であると見なすことができる。

そこで、例えば任意の２つの実験系ｓ，ｔ（ｋ＝ｓ回目およびｔ回目の実験）において、上記相関変量抽出部４１は、上記補正変量の集合から、実験系ｓよりＦ_isを、実験系ｔよりＦ_itをそれぞれ抽出して相関変量とし、各補正変量が所属する実験系ｓ，ｔ、すなわちｓ回目の実験とｔ回目の実験との間の相関係数を算出するために利用する。なお、母集団の中に含まれる要素としての遺伝子はｉ＝１〜Ｎ個存在するので、相関変量もＮ個得られることになる。なお、全相関変量を（Ｆ_is・Ｆ_it）_i=1,…,Nと表すものとする。

上記相関変量選抜部４２は、実験誤差に基づいて実験系毎に選抜基準値αを設定し、上記相関変量から、該選抜基準値αに基づく選抜規定を満たす相関変量を実験系毎に選抜する。

上記選抜基準値αは、実験誤差に基づいて設定されるものであり、具体的には、実験系毎の相対値の標準偏差に基づいて設定される。それゆえ、このような選抜基準値αに基づいて得られた相関変量（Ｆ_is・Ｆ_it）_i=1,…,Nから選抜規定に合致する相関変量のみを選抜して利用することで、実験系ｓと実験系ｔとの間における相関係数をより的確に算出することができる。

上記相関係数算出部４３は、上記相関変量を用いて、２つの実験系の間における相関係数を算出するが、本実施の形態では、上記変量選抜部４２により選抜された相関変量を用いて、２つの実験系の間における相関係数を算出するようになっている。

具体的には、選抜された上記相関変量を用いて、２つの実験系ｓ，ｔの間における相関係数ｒ（ｓ，ｔ）を、回帰分析を用いて算出する。この点の詳細については後述する。

したがって、本実施の形態における解析システム１０ｂでも、解析システム１０ａと同様、図１の実線の矢印で示すように、解析用変量が出力される。

つまり、画像読取部１１から得られた解析用変量が、バックグラウンド補正部２２に出力されてバックグラウンド補正がなされ、次に、変量分類部３１に出力されて分類され、次に、補正変量算出部３２に出力されて補正変量が算出される。その後さらに、補正変量が相関変量抽出部４１に出力されて相関変量が抽出され、次に、相関変量選抜部４２に出力されて選抜規定を満たす相関変量が選抜され、次に、相関係数算出部４３に出力されて相関係数が算出される。

そして、変量解析部２３では、補正変量算出部３２から出力される補正変量と、相関係数算出部４３から算出される相関係数とを用いて多変量解析を実施し、解析結果を、表示部１３および／または画像解析部１４に出力することになる。

上記相関変量抽出部４１、相関変量選抜部４２、相関係数算出部４３の具体的な構成は特に限定されるものではなく、前記参考例で述べたように、制御部２１等と同じく従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態３で説明するように、制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、補正変量算出部３２を含む上記各手段の２つ以上が１つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置（ＣＰＵ）としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。

次に、本実施の形態における上記解析システム１０ｂの具体的な動作、すなわち本実施の形態における網羅的発現プロファイル解析方法について、図５のフローチャートおよび図６の相関係数算出チャートに基づいて説明する。

まず、Ｓ２０１〜Ｓ２０７は、前段階も含めて、前記参考例におけるＳ１１〜Ｓ１７と同様であるため、その説明は省略する。すなわち、網羅的発現プロファイル実験を実施してから補正変量を算出するまでは前記参考例と同様のステップを実施する。

次に、Ｓ２０８として、上記相関変量抽出部４１により、同一の遺伝子より得られかつ異なる実験系に所属する２つの補正変量を、相関変量として抽出する（相関変量抽出ステップ）。

このＳ２０８では、前述したように、任意の２つの実験系ｓ，ｔにおいて、算出されたそれぞれの補正変量の集合から相関変量（Ｆ_is・Ｆ_it）を抽出する。得られる全相関変量は（Ｆ_is・Ｆ_it）_i=1,…,Nとなる。

次に、Ｓ２０９として、上記相関変量選抜部４２により、実験誤差に基づいて実験系毎に選抜基準値αを設定する。具体的には、実験誤差に基づいて、実験系ｓ，ｔのそれぞれに対して選抜基準値α^sおよびα^tを定義する。なお、α^s＞１、α^t＞１である。

次に、Ｓ２１０として、上記相関変量選抜部４２により、上記相関変量から、該選抜基準値αに基づく選抜規定を満たす相関変量を実験系毎に選抜する（相関変量選抜ステップ）。具体的には、例えば、選抜規定として、次の２つの規定Ｉ・IIを規定し、これら選抜規定の双方を満たす相関変量を選抜する。

規定Ｉ：Ｆ_is＞α^s、またはＦ_is＜−α^s
規定II：Ｆ_it＞α^t、またはＦ_it＜−α^t
つまり、Ｓ２０９では、上記選抜基準値αとして、１以上の絶対値が設定されるとともに、Ｓ２１０では、選抜規定として、２つの実験系に所属する相関変量が、正の選抜基準値を超えるか、または負の選抜基準値未満の範囲内に存在する規定が設定され、これに基づいて相関変量が選抜される。

なお、選抜された上記相関変量は、次に示す行列（３）で表すことができる。このとき、選抜された上記相関変量は、Ｉ＝１，２，．．．，Ｎ（ｓ，ｔ）として、（Ｆ_Is・Ｆ_It）と表すものとする。

次に、Ｓ２１１として、上記相関係数算出部４３では、相関変量を用いて、２つの実験系の間における相関係数を算出する（相関係数算出ステップ）。本実施の形態では、選抜された上記相関変量を用いて、２つの実験系の間における相関係数を算出する。

具体的には、上記Ｓ２１０で得られた行列（３）に基づいて実験系ｓ，ｔの相関係数ｒ（ｓ，ｔ）を、次式（４）に示す回帰分析を用いて算出する。

ここで、上記式（４）におけるcov(ｓ，ｔ)は、次式（５）に示す実験系ｓ，ｔに所属する全補正変量についての共分散であり、var(ｓ)は、次式（６）に示す実験系ｓに所属する全補正変量についての分散であり、var(ｔ)は、次式（７）に示す実験系ｔに所属する全補正変量についての分散である。

さらに、上記式（５）〜（７）におけるAv(ｓ)およびAv(ｔ)は、それぞれ次式（８）および（９）に示すように、実験系ｓおよび実験系ｔに所属する全補正変量についての平均値である。

その後、Ｓ２１２として、Ｓ２０７で得られた補正変量およびＳ２１１で得られた相関係数を用いて変量解析部２３により解析することで、網羅的発現プロファイル解析が実施され（多変量解析ステップ）、Ｓ２１３として、表示部１３や画像形成部１４により解析結果が出力される。（解析結果出力ステップ）。

このように、本実施の形態にかかる解析システム１０ｂには、上記相関変量抽出部４１・相関変量選抜部４２・相関係数算出部４３が設けられている。そのため、上記Ｓ２０８〜Ｓ２１１で相関係数ｒ（ｓ，ｔ）を算出してこれを多変量解析に用いることができる。その結果、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性をより一層向上させることができる。

なお、以上説明した本実施の形態における解析システム１０ｂは、前記参考例と同様に、以上説明したＳ２０１〜Ｓ２１３までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。

また、本実施の形態では、前記参考例における偏り誤差を除去する構成・方法を組み合わせて用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、偏り誤差が無視できるのであれば、解析システム１０ｂには、変量分類部３１・補正変量算出部３２は備えられていなくても良く、本発明にかかる解析方法では、Ｓ２０４〜Ｓ２０７までのステップは実施されなくても良い。
〔実施の形態２〕
本発明における第２の実施の形態について図７ないし図９に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例または実施の形態１で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。

前記実施の形態１では、上記補正変量を用いた解析に際して、個々の要素すなわち各遺伝子の間の相関関係を算出して解析に利用する例を挙げたが、この相関関係の算出は、前記実施の形態１で示したような相関係数に限定されるものではない。本実施の形態では、相関関係を算出する他の例として、重みつき相関係数（加重相関係数）を算出する場合について説明する。

具体的には、本実施の形態にかかる解析システム１０ｃは、図７に示すように、前記実施の形態１における解析システム１０ｂと同様、画像読取部１１、入力部１２、表示部１３、画像形成部１４、記憶部１５、制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、補正変量算出部３２、および相関変量抽出部４１を備えているが、さらに、前記相関変量選抜部４２および相関係数算出部４３に代えて、相関因子設定部４４および加重相関係数算出部４５とを備えている。

上記画像読取部１１、入力部１２、表示部１３、画像形成部１４、記憶部１５、制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、補正変量算出部３２、および相関変量抽出部４１については、前記参考例または実施の形態１と同様であるのでその説明を省略する。

上記相関因子設定部４４は、実験誤差に基づいて実験系毎に因子基準値βを設定し、該因子基準値βに基づく規定を用いて、２つの実験系の間における相関因子を遺伝子（要素）毎に設定する。

上記因子基準値βは、実験系毎の相対値の標準偏差に基づいて設定されるものであり、例えば、本実施の形態では、前記実施の形態１における選抜基準値αをそのまま用いることができる。それゆえ、前記得られた相関変量（Ｆ_is・Ｆ_it）_i=1,…,Nを要因として、上記因子基準値βに基づいて、該要因から因子規定に合致する相関変量から相関因子ｗ_i（ｓ，ｔ）を設定して利用することで、実験系ｓと実験系ｔとの間における相関係数をより的確に算出することができる。

上記加重相関係数算出部４５は、補正変量と上記相関因子とを用いて、該相関因子により重みのついた、２つの実験系ｓ，ｔの間における重みつき相関係数（加重相関係数）ｗｒ（ｓ，ｔ）を算出する。なお、本実施の形態では、相関変量から相関因子を設定して利用するため、上記加重相関係数算出部４５は、基本的には、相関変量を用いて２つの実験系の間における相関係数を算出する相関係数算出手段に含まれる。

具体的には、設定された上記相関因子ｗ_i（ｓ，ｔ）を用いて、２つの実験系ｓ，ｔの間における加重相関係数ｗｒ（ｓ，ｔ）を、因子分析を用いて算出する。この点の詳細については後述する。

したがって、本実施の形態における解析システム１０ｃでも、前記実施の形態１における解析システム１０ｂと同様、図１の実線の矢印で示すように、解析用変量が出力される。

つまり、画像読取部１１から得られた解析用変量が相関変量抽出部４１に出力されて相関変量が抽出されるまでは前記実施の形態１と同様であり、さらにその後、相関因子設定部４４に出力されて因子規定を満たす相関因子が設定され、次に、加重相関係数算出部４５に出力されて加重相関係数が算出される。そして、変量解析部２３では、補正変量算出部３２から出力される補正変量と、加重相関係数算出部４５から算出される加重相関係数とを用いて多変量解析を実施し、解析結果を、表示部１３および／または画像解析部１４に出力することになる。

上記相関因子設定部４４、加重相関係数算出部４５の具体的な構成は特に限定されるものではなく、前記参考例または実施の形態１で述べたように、制御部２１等と同じく従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態３で説明するように、制御部２１等を含む上記各手段の２つ以上が１つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置（ＣＰＵ）としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。

次に、本実施の形態における上記解析システム１０ｃの具体的な動作、すなわち本実施の形態における網羅的発現プロファイル解析方法について、図８のフローチャートおよび図９の相関係数算出チャートに基づいて説明する。

まず、Ｓ３０１〜Ｓ３０８は、前段階も含めて、前記実施の形態１におけるＳ２０１〜Ｓ２０８と同様であるため、その説明は省略する。すなわち、網羅的発現プロファイル実験を実施してから補正変量を算出し、相関変量を抽出するまでは前記実施の形態１と同様のステップを実施する。

次に、Ｓ３０９として、上記相関因子設定部４４により、実験誤差に基づいて実験系毎に因子基準値βを設定する。具体的には、本実施の形態では、前記実施の形態１と同じく実験誤差に基づいて、実験系ｓ，ｔのそれぞれに対して選抜基準値と同じ因子基準値β^s＝α^sおよびβ^t＝α^tを定義する（α^s＞１、α^t＞１）。

次に、Ｓ３１０として、上記相関因子設定部４４により、上記相関変量を要因として、上記因子基準値βに基づく因子規定を満たす相関変量から相関因子を設定する（相関因子設定ステップ）。

具体的には、例えば、因子規定として、次の２つの規定III・IVを規定し、ｉ番目の遺伝子における相関変量（Ｆ_is・Ｆ_it）がこれら因子規定の双方を満たすときには、ｉ番目の遺伝子における相関因子をｗ_i（ｓ、ｔ）＝１と設定し、双方を満たさないときには、ｉ番目の遺伝子における相関因子をｗ_i（ｓ、ｔ）＝０と設定する。

規定III：Ｆ_is＞α^s、またはＦ_is＜−α^s
規定IV：Ｆ_it＞α^t、またはＦ_it＜−α^t
つまり、Ｓ３１０では、因子規定として、２つの実験系に所属する相関変量が、因子基準値を超える範囲か、または負の因子基準値未満の範囲に存在する規定が設定され、これに基づいて相関因子が設定される。

次に、Ｓ３１１として、上記加重相関係数算出部４５では、上記相関因子を用いて、２つの実験系の間における加重相関係数を算出する（相関係数算出ステップ）。

具体的には、上記Ｓ３１０で得られた相関因子ｗ_i（ｓ、ｔ）により重みのついた相関係数ｗｒ（ｓ，ｔ）を、次式（10）に示す因子分析を用いて算出する。

ここで、上記式（10）におけるwcov(ｓ，ｔ)は、次式（11）に示す実験系ｓ，ｔに所属する全補正変量についての重みつき共分散であり、wvar(ｓ)は、次式（12）に示す実験系ｓに所属する全補正変量についての重みつき分散であり、wvar(ｔ)は、次式（13）に示す実験系ｔに所属する全補正変量についての重みつき分散である。

さらに、上記式（11）〜（13）におけるWav(ｓ)およびWav(ｔ)は、それぞれ次式（14）および（15）に示す、実験系ｓおよび実験系ｔに所属する全補正変量についての重みつき平均値である。

その後、Ｓ３１２として、Ｓ３０７で得られた補正変量およびＳ３１１で得られた加重相関係数を用いて変量解析部２３により解析することで、網羅的発現プロファイル解析が実施され（多変量解析ステップ）、Ｓ３１３として、表示部１３や画像形成部１４により解析結果が出力される。（解析結果出力ステップ）。

このように、本実施の形態にかかる解析システム１０ｃには、上記相関変量抽出部４１・相関因子設定部４４・加重相関係数算出部４５が設けられている。そのため、上記Ｓ３０８〜Ｓ３１１で加重相関係数ｗｒ（ｓ，ｔ）を算出して多変量解析に用いることができる。その結果、相対発現量が０近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性をより一層向上させることができる。

なお、以上説明した本実施の形態における解析システム１０ｃは、前記参考例または実施の形態１と同様に、以上説明したＳ３０１〜Ｓ３１３までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。

また、本実施の形態では、前記実施の形態１と同様、前記参考例における偏り誤差を除去する構成・方法を組み合わせて用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、偏り誤差が無視できるのであれば、解析システム１０ｃには、変量分類部３１・補正変量算出部３２は備えられていなくても良く、本発明にかかる解析方法では、Ｓ３０４〜Ｓ３０７までのステップは実施されなくても良い。

〔実施の形態３〕
本発明における第３の実施の形態について図１０および図１１に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態１または２で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。

前記参考例、実施の形態１または２では、解析システム１０ａ・１０ｂ・１０ｃを構成する各手段がそれぞれ独立した構成となっていたが、本発明はこれに限定されるものではなく、上記各手段の少なくとも２つ以上を一つの装置として一体化してなる構成であってもよい。

具体的には、例えば、図１０に示すように、本実施の形態における解析システム１０ｄは、画像読取部１１、入力部１２、表示部１３、画像形成部１４、記憶部１５、および解析装置２０からなる構成であってもよい。

上記解析装置２０は、実施の形態１における解析システム１０ｂに備えられている制御部２１、バックグラウンド補正部２２、変量解析部２３、変量分類部３１、補正変量算出部３２、相関変量抽出部４１、相関変量選抜部４２、および相関係数算出部４３を一つの装置として一体化してなる構成を有している。もちろん、実施の形態２と同様に、相関変量選抜部４２および相関係数算出部４３に代えて、相関因子設定部４４および加重相関係数算出部４５を備えていても良い。特に、プログラムにより本発明にかかる解析方法をコンピュータで実行させる場合には、コンピュータそのものが上記解析装置２０に対応し得る。

また、上記記憶部１５は、解析装置２０と一体化されていてもよいが、解析装置２０とは別体となっている外部記憶装置となっていてもよく、さらには、一体化された記憶部１５と外部記憶装置とが両方とも備えられている構成であってもよい。例えば、一体化した記憶部１５としては、内臓型のハードディスクや解析装置２０に組み込まれたフロッピーディスクドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＯＭドライブ等が挙げられ、外部記憶装置としては、外付けハードディスクや外付け型の上記各種ディスクドライブ等が挙げられる。

さらに、画像読取部１１、入力部１２、表示部１３、および画像形成部１４の少なくとも一つが、上記解析装置２０に一体化されていてもよい。

あるいは、機能的により連携している手段を一体化してもよい。例えば、図１１（ａ）に示すように、補正変量を算出するための上記変量分類部３１および補正変量算出部３２を一体化して、変量分類機能および補正変量算出機能を有する変量補正部３０としてもよい。

同様に、図１１（ｂ）に示すように、実施の形態１における相関変量抽出部４１、相関変量選抜部４２、および相関係数算出部４３を一体化して、相関変量抽出機能、相関変量選抜機能、および相関係数算出機能を有する相関係数生成部４０ａとしてもよいし、図１１（ｃ）に示すように、実施の形態２における相関変量抽出部４１、相関因子設定部４４、および加重相関係数算出部４５を一体化して、相関変量抽出機能、相関因子設定機能、および加重相関係数算出機能を有する相関係数生成部４０ｂとしてもよい。

このように、本発明にかかる解析システムでは、該システムを構成する各手段のうちの少なくとも一つ、好ましくは、解析用変量の処理に関わる手段を一体化しておくことで、システム構成を簡素化することができる。それゆえ、例えば設置場所を小さくして使用時の省スペース化を図ることが可能となる。また、入力部１２を、解析装置２０の操作に特化させた構成で一体化させることで、本発明にかかる解析システムの操作の煩雑化を回避することも可能となる。

〔実施の形態４〕
本発明における第４の実施の形態について図１２および図１３に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態１〜３の何れかで用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。

前記参考例、実施の形態１〜３では、マイクロアレイを用いた網羅的発現プロファイル実験を例に挙げて説明したが、本発明はこれに限定されるものではなく、マクロアレイやディファレンシャルディスプレイ等の他の発現プロファイル実験を実施した場合でも、本発明にかかる解析システムまたは解析方法を好適に用いることができる。

例えば、図１２に示すように、マクロアレイを用いた実験で得られるイメージングフィルター５２から遺伝子の発現量を信号強度として検出し、これを解析用変量として用いることで、多変量解析が可能となる。

マクロアレイは、スライドガラス等を用いた前記マイクロアレイとは異なり、ナイロンメンブレン等の一般的なメンブレンフィルターの表面にＤＮＡをスポットして作製される。マクロアレイの利点としては、公知のブロット法に準じた方法で、ゲノムワイドで発現プロファイル解析を実施することができることや、スポットしたＤＮＡをアルカリ変性処理してメンブレンフィルターに固定するため、マイクロアレイのようにハイブリダイゼーション中や洗浄中にＤＮＡが剥離することがないこと等が挙げられる。それゆえ、マクロアレイとマイクロアレイとは、用途に応じて使い分けることが可能である。

上記マクロアレイを用いたアッセイは、基本的に前記マイクロアレイと同様である。具体的には、まず、マクロアレイに、³³Ｐ等のアイソトープで標的したターゲットをハイブリダイズさせる。そして、結合していないターゲットの分子を洗浄して除去し、結合したターゲットの分子のみをマクロアレイ上に残存させる。ここで、結合しているターゲットの分子は上記アイソトープで標識されているため、マイクロアレイとは異なり、スポットをイメージングプレート５２へ露光させ、このイメージングプレート５２からターゲットの発現量を信号強度として測定する。

このように、マクロアレイによるアッセイは、基本的にマイクロアレイと同様であり、マイクロアレイと同様の網羅的発現プロファイル実験が実施可能である。そのため、例えば図１２に示すように、画像読取部１１としてイメージングプレート５２から信号強度を検出できる構成のものを用いるのみで、前記参考例、実施の形態１〜３における解析システム１０ａ〜１０ｄをそのまま用いることができる。

さらに、画像読取部１１として、マイクロアレイからもイメージングプレート５２からも信号強度を読み取ることができる構成のものを用いてもよい。なお、図１２では、本発明の一例として解析システム１０ｂ（および実施の形態１の解析方法）を例に挙げているがもちろんこれに限定されるものではない。

また、図１３に示すように、ディファレンシャルディスプレイから遺伝子の発現量を信号強度として検出し、これを解析用変量として用いてもよい。

ディファレンシャルディスプレイは、異なる条件下にある細胞における遺伝子の発現量の差をゲル上のバンドプロファイルの差として検出し、その遺伝子を回収、同定する技術である。ディファレンシャルディスプレイは、全ｍＲＮＡを網羅的に解析する手法ではないが、同一のｍＲＮＡで、網羅的に多数の試料を同時に比較できるという利点がある。

上記ディファレンシャルディスプレイによるアッセイを、例えば蛍光ディファレンシャルディスプレイを例に挙げて説明する。まず、全ＲＮＡから蛍光アンカープライマーを用いた逆転写で第一鎖ＤＮＡを合成し、これを鋳型として、任意プライマーと蛍光アンカープライマーとを用いてＰＣＲを実施して、複数のｃＤＮＡ断片を増幅してなるＰＣＲ産物を得る。そして、例えば無蛍光ガラス製のゲル板を用いて変性ポリアクリルアミドゲルを作製し、このＰＣＲ産物を変性ポリアクリルアミドゲルで分離後、ゲル板から蛍光イメージを信号強度として測定する。

このように、ディファレンシャルディスプレイによるアッセイも、マイクロアレイと同様の発現プロファイル実験が実施可能である。そのため、例えば図１３に示すように、画像読取部１１として、電気泳動後のポリアクリルアミドゲルのゲル板５３から信号強度を検出できる構成のものを用いるのみで、前記参考例、実施の形態１〜３における解析システム１０ａ〜１０ｄをそのまま用いることができる。

さらに、画像読取部１１として、マイクロアレイ、イメージングプレート５２、およびゲル板５３の何れからも信号強度を読み取ることができる構成のものを用いてもよい。なお、図１３では、本発明の一例として解析システム１０ｃ（および実施の形態２の解析方法）を例に挙げているがもちろんこれに限定されるものではない。

このように、本発明では、解析用変量を得るための実験としては、マイクロアレイに限定されるものではなく、マクロアレイやディファレンシャルディスプレイといった、遺伝子の発現量を信号強度として読み取ることができる各種実験方法を好適に用いることができる。

また、本発明にかかる解析システムまたは解析方法は、上記（網羅的）発現プロファイル実験により得られる多変量を解析する用途に限定されるものではなく、前述したように、log(Ｙ_ik／Ｚ_ik)の形式の多変量で記述された大量の標本からなるデータセットに対しても適用することができる。

〔実施の形態５〕
本発明における第５の実施の形態について図１４に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態１〜４の何れかで用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。

前記参考例、実施の形態１〜４では、解析用変量（信号強度）や解析結果等の各種情報は、一つの解析システム（または一つの装置）内でのみ入出力されていたが、本発明はこれに限定されるものではなく、インターネットを含む通信ネットワークを介して各種情報が入出力されるようになっていてもよい。

例えば、図１４に示すように、本実施の形態では、本発明にかかる解析システム１０が、通信インターフェース１６を備えており、通信ネットワークに接続して各種情報の送受信が可能になっている。図１４では、同一構内にある解析システム１０、パーソナルコンピュータ（ＰＣ）６０ａおよび６０ｂ、並びにサーバ６３が通信回線６４に接続されてバス型のＬＡＮ（ローカルエリアネットワーク）を構成しており、さらにこのＬＡＮがインターネットを介して、他地域にあるＰＣ６０ｃとも接続されている。

上記解析システム１０としては、本発明に含まれる構成となっていれば全く限定されるものではなく、例えば、前記参考例、実施の形態１〜４で述べた各種解析システム１０ａ〜ｄを好適に用いることができる。上記通信インターフェース１６の具体的な構成についても、特に限定されるものではなく、公知のＬＡＮカード、ＬＡＮボード、ＬＡＮアダプタや、モデム等を好適に用いることができる。

上記ＰＣ６０ａ〜６０ｃについては、モデム等の通信手段を備えた公知のパーソナルコンピュータを好適に用いることができ、デスクトップ型やノート型等に限定されるものではない。なお、ＰＣ６０ａ〜６０ｃは、ＣＲＴディスプレイや液晶ディスプレイ等の表示部とキーボードやマウス等の入力部を備えた基本構成となっているものとする。なお、説明の便宜上、ＰＣ６０ａ〜６０ｃに備えられている図示しない表示部や入力部をＰＣ表示部・ＰＣ入力部と表現する。

上記ＰＣ６０ａ〜６０ｃのうち、ＰＣ６０ｂにはスキャナ６１が備えられており、ＰＣ６０ｃには、スキャナ６１に加えてプリンタ６２も備えられているとする。もちろん、ＰＣ６０ａ〜６０ｃが備える外付けハードウェアは、一般的なパーソナルコンピュータに外付けできるものであれば特に限定されるものではなく、上記ＰＣ６０ａ〜６０ｃの区分けは、本実施の形態を説明するための便宜上のものである。

上記サーバ６３の具体的構成も特に限定されるものではなく、ＬＡＮを構成するクライアントである、ＰＣ６０ａ〜６０ｃ、解析システム１０に対してサービスを提供できるコンピュータであればよい。さらには、このサーバ６３は、データベースサーバやファイルサーバを兼ねていてもよい。

上記通信回線６４の具体的構成も特に限定されるものではなく、従来公知の一般的な通信回線を用いることができる。また、この通信回線６４を用いて構築されるＬＡＮの型式もバス型に限定されるものではなく、スター型やリング型等、従来公知の型式であればよい。

さらに図示しないが、上記ＬＡＮには、共用のプリンタ等、他の端末が含まれていても良い。加えて図示しないが、上記ＬＡＮを含む図１４に示す通信ネットワークには、通信可能な携帯型の各種端末等が含まれていても良い。

上記構成のネットワークでは、例えば、解析システム１０で、前記参考例、実施の形態１〜４で説明したような発現プロファイル解析を実施した後、その解析結果を単に解析システム１０内（すなわち図１における表示部１３や画像形成部１４等）で出力するだけでなく、ＬＡＮを介してＰＣ６０ａ〜６０ｃに送信することもできる。ＰＣ６０ａ〜６０ｃでは、解析システム１０から得られた結果を、ＰＣ表示部で表示したり、プリンタ６２で印刷したりすることができ、さらにはＰＣ入力部からの入力によって、解析結果を加工することもできる。

つまり本実施の形態では、上記通信インターフェース１６は、通信手段としてだけでなく、解析システム１０の入力手段としても機能することになる。

また、例えばＰＣ６０ｂやＰＣ６０ｃの場合、スキャナ６１を備えているため、このスキャナ６１が、マイクロアレイ等から画像データを読み取ることができるものであれば、解析用変量としての信号強度を、解析システム１０外部から入力することもできる。そして、解析システム１０で多変量解析を実施し、その解析結果をＰＣ６０ｂやＰＣ６０ｃに返送する。

特に、上記ＰＣ６０ｃのように、インターネットを介して、解析システム１０の所在する場所から離れた遠隔地で、解析用変量を送信したり解析結果を受信したりする場合には、任意の顧客に対して発現プロファイル解析を提供する解析サービスを行うことが可能となる。

また、上記ＰＣ６０ａ・６０ｂのように、ＬＡＮを介して解析システム１０とつながっている場合には、例えば研究施設や医療施設等に一つ解析システム１０があれば、他の研究者や医療従事者はＰＣ６０ａ・６０ｂ等の情報端末を介して解析システム１０を共用することができる。それゆえ、本発明にかかる解析システム１０をより効率的に使用することができる。

さらに、上記サーバ６３がデータベースサーバやファイルサーバを兼ねている場合には、通信ネットワークを介して解析された発現プロファイル解析の解析結果を、通信ネットワークを介してサーバ６３に蓄積していくことができる。その結果、解析結果をより一層有効利用することが可能となる。

加えて、本発明には、本発明にかかる解析方法を、コンピュータ上でプログラムにより実施することが可能となっているが、このプログラムを記録する記録媒体には、通信ネットワークからダウンロードするように流動的にプログラムを担持する媒体も含まれる。例えば、サーバ６３の記録手段に解析方法のプログラムが記録されていれば、解析システム１０は、サーバ６３から適宜、解析方法のプログラムをダウンロードして使用するようになっていてもよい。ただし、解析システム１０が通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは、予め解析システム１０本体に格納しておくか、別の記録媒体からインストールされるようになっている。

さらに、ＰＣ６０ｃのように、スキャナ６１やプリンタ６２を備えているコンピュータが、通信ネットワークを介してサーバ６３に接続されている場合には、サーバ６３から解析方法のプログラムをダウンロードすることで、ＰＣ６０ｃそのものを本発明にかかる解析システムとして用いることができる。ただし、この場合、ＰＣ６０ｃが備えている上記スキャナ６１やプリンタ６２は、発現プロファイル解析に好適な構成となっている。

このように、本発明にかかる解析システム、解析方法、プログラムおよびこれを記録する記録媒体は、通信ネットワーク技術にも適用可能となっている。そのため、さまざまな解析対象の遺伝子を、効率的かつグローバルに解析し、しかも得られた解析結果も効率的かつグローバルに利用することができる。

なお、本発明は、上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれることはいうまでもない。

以下、実施例および図１５ないし図１９に基づいて本発明をより具体的に説明するが、本発明はこれらに限定されるものではない。なお、以下の実施例では、ターゲットＤＮＡを大腸菌野生株（Escherichia coli K12）から調製し、発現プロファイル実験には、上記大腸菌野生株のゲノムにおける全てのタンパク質コード領域がスポットされているマイクロアレイを用いた。ターゲットＤＮＡの調製法およびマイクロアレイの作製法について、先に説明する。

〔ターゲットＤＮＡの調製例１〕
ＬＢ培地200ｍｌで培養し、対数増殖期における培養液から遠心分離して得られた大腸菌のペレットから、Qiagen社製Rneasy^RMaxiキットを用いてｍＲＮＡを抽出した。抽出したｍＲＮＡ30μｇから、XL life science社製AMV XLリバーストランスクリプテースキットを用いてCy3またはCy5で蛍光標識されたｃＤＮＡをそれぞれ得た。得られたこれら２種類の蛍光標識ｃＤＮＡをターゲットＤＮＡとして用いた。なお、Cy3で標識されたｃＤＮＡを、以下、Cy3ターゲットと称し、Cy5で標識されたｃＤＮＡを、以下、Cy5ターゲットと称する。

〔マイクロアレイ〕
タカラ社製のカスタムマイクロアレイを用いた。ＤＮＡフラグメントは、Archive cloneよりＰＣＲ増幅して作製した。

〔実施例１〕
本実施例では、前記参考例で説明した解析システム１０ａを用いた。具体的には、富士通製パーソナルコンピュータを用いて、参考例で説明した解析方法をプログラムにより実行させることで、本発明にかかる解析システム１０ａを実現した。

まず、前記調整例１で得られたCy3ターゲットおよびCy5ターゲットを前記作製例で得られたマイクロアレイにハイブリダイズさせた。そして、Genetic MicroSystems社製ＤＮＡマイクロアレイ用スキャナー（画像読取部１１に対応）を用いて、上記マイクロアレイから、ｍＲＮＡ量をCy3およびCy5の蛍光強度として測定（検出）し、この蛍光強度を、遺伝子の発現量のデータとなる信号強度（解析用変量）として解析システムに入力した（解析用変量入力ステップ、Ｓ１１・Ｓ１２）。

次に、バックグラウンド補正部２２により、バックグラウンド補正を実施した（バックグラウンド補正ステップ・Ｓ１３）。なお、ｉ番目の遺伝子において、検出されたCy3およびCy5の蛍光号強度を、それぞれＳ^(Cy3) _iおよびＳ^(Cy5) _iとし、バックグラウンドとなる蛍光強度を、それぞれＢ^(Cy3) _iおよびＢ^(Cy5) _iとすると、バックグラウンド補正がなされた第１データ（Cy3の蛍光）の蛍光強度ｆ^(Cy3) _i、および第２データ（Cy5の蛍光）の蛍光強度ｆ^(Cy5) _i は、それぞれ次式（16）・（17）で表すものとする。

ｆ^(Cy3) _i＝Ｓ^(Cy3) _i−Ｂ^(Cy3) _i ・・・（16）
ｆ^(Cy5) _i＝Ｓ^(Cy5) _i−Ｂ^(Cy5) _i ・・・（17）
また、ＤＮＡと無関係なヒトベータアクチンをネガティブコントロール（以下、ネガコンと略す）として、Cy3およびCy5の蛍光強度の検出限界を、ネガコンの平均値＋標準偏差の条件により決定した。なお、Cy3またはCy5の蛍光の蛍光強度における検出限界を、それぞれＳ^(NCy3)およびＳ^(NCy5)とする。

具体的には、Cy3およびCy5の蛍光の蛍光強度のネガコンの個数を、それぞれNC1およびNC2とした場合、ネガコンに対するCy3およびCy5の蛍光の蛍光強度を、それぞれｆ^(NCy3) ₁，ｆ^(NCy3) ₂，．．．，ｆ^(NCy3) _NC1およびｆ^(NCy5) ₁，ｆ^(NCy5) ₂，．．．，ｆ^(NCy5) _NC2とする。このとき、ネガコンの蛍光強度の平均Ａｖ［ｆ^(NCy3)］およびＡｖ［ｆ^(NCy5)］は、それぞれ次式（18）・（19）で表され、標準偏差ＳＤ［ｆ^(NCy3)］およびＳＤ［ｆ^(NCy5)］は、それぞれ次式（20）・（21）で表される。

それゆえ、上記検出限界Ｓ^(NCy3)およびＳ^(NCy5)は、それぞれ次式（22）および（23）に示すように、ネガコンの蛍光強度の平均および標準偏差の和として表される。

Ｓ^(NCy3)＝Ａｖ［ｆ^(NCy3)］＋ＳＤ［ｆ^(NCy3)］・・・（22）
Ｓ^(NCy5)＝Ａｖ［ｆ^(NCy5)］＋ＳＤ［ｆ^(NCy5)］・・・（23）
本実施例では、ネガコンとして、Cnt90ヒトベータアクチン（Cnt09 Human Beta-actin 90000）を用いた。このとき、ネガコンに対するCy3およびCy5の蛍光の蛍光強度がそれぞれｆ^(NCy3)＜０およびｆ^(NCy5)＜０となるスポットを除くと、ネガコンの蛍光強度の平均は、それぞれＡｖ［ｆ^(NCy3)］＝９１．２，Ａｖ［ｆ^(NCy5)］＝２７．１となり、標準偏差は、それぞれＳＤ［ｆ^(NCy3)］＝７２．５，ＳＤ［ｆ^(NCy5)］＝２２．６となったので、上記式（22）および（23）より、検出限界は、それぞれＳ^(NCy3)＝１６３．７，Ｓ^(NCy5)＝４９．７となった。

次に、変量分類部３１により、上記蛍光強度の検出限界を分類基準値として用いて、上記第１データおよび第２データの組み合わせからなる解析用変量を分類した（変量分類ステップ・Ｓ１４）。具体的には、前記参考例で説明したように、以下に示すクラス１・２Ａおよび２Ｂ・３に分類した。

クラス１：ｆ^(Cy3) _i＞Ｓ^(NCy3)かつｆ^(Cy5) _i＞Ｓ^(NCy5)
クラス２Ａ：ｆ^(Cy3) _i＜Ｓ^(NCy3)かつｆ^(Cy5) _i＞Ｓ^(NCy5)
クラス２Ｂ：ｆ^(Cy3) _i＞Ｓ^(NCy3)かつｆ^(Cy5) _i＜Ｓ^(NCy5)
クラス３：ｆ^(Cy3) _i＜Ｓ^(NCy3)かつｆ^(Cy5) _i＜Ｓ^(NCy5)
次に、補正変量算出部３２により、変量分類部３１で分類された解析用変量のうち、高信頼性変量を構成する第１データおよび第２データの対数比を算出した（対数比算出ステップ・Ｓ１５）。

具体的には、上記各クラスに属するサンプルのうち、クラス１に属するサンプルのみがCy3およびCy5の蛍光の蛍光強度を比較することができる。それゆえ、上記クラス１に分類されたデータを高信頼性変量として用いる。なお、クラス２Ａおよび２Ｂについては、一方の蛍光強度（ｆ^(Cy3) _i＜Ｓ^(NCy3)またはｆ^(Cy5) _i＜Ｓ^(NCy5)）が０と見なされるため、Cy3およびCy5の蛍光の蛍光強度を比較することはできないが、２つの条件の間に有意な差があることを示しており、本実施例においては参考データとなり得る。

そして、次式（24）および（25）に示すように、上記クラス１に属する各蛍光強度から、ネガコンの蛍光強度の平均を引くことで、ゼロ点補正を実施した。

ｆ’^(Cy3) _i＝ｆ^(Cy3) _i−Ａｖ［ｆ^(NCy3) _i］・・・（24）
ｆ’^(Cy5) _i＝ｆ^(Cy5) _i−Ａｖ［ｆ^(NCy5) _i］・・・（25）
その後、ゼロ点補正を実施した上記各蛍光強度ｆ’^(Cy3) _iおよびｆ’^(Cy5) _iの対数比log(ｆ’^(Cy3) _i／ｆ’^(Cy5) _i)を、ｉ番目の遺伝子の相対発現量として算出した。

なお、log(ｆ’^(Cy3) _i)およびlog(ｆ’^(Cy5) _i)におけるマイクロアレイ上でのスポットの分布を、図１５（ａ）および（ｂ）それぞれに示す。なお、図１５（ａ）・（ｂ）では、縦軸がスポット数（The number of spots）を示し、横軸がｉ番目の遺伝子における発現量の対数（log(ｆ’)と略して表記する）を示す。

次に、同じく補正変量算出部３２により、全ての対数比log(ｆ’^(Cy3) _i／ｆ’^(Cy5) _i)に対する補正項REF_i=1,2,…,N [log(ｆ’^(Cy3) _i／ｆ’^(Cy5) _i)]を算出した（補正項算出ステップ・Ｓ１６）。具体的には、上記補正項REF_i=1,2,…,N[log(ｆ’^(Cy3) _i ／ｆ’^(Cy5) _i)]として、次式（26）で示す相対平均値Ａｖ［log(ｆ’^(Cy3)／ｆ’^(Cy5))］を用いた。

次に、同じく補正変量算出部３２により、上記対数比log(ｆ’^(Cy3) _i／ｆ’^(Cy5) _i)と相対平均値（補正項）Ａｖ［log(ｆ’^(Cy3)／ｆ’^(Cy5))］との差を、次式（27）で示すように、補正変量Ｆ_iとして算出した（補正変量算出ステップ・Ｓ１７）。

Ｆ_i＝log(ｆ’^(Cy3) _i／ｆ’^(Cy5) _i)−Ａｖ［log(ｆ’^(Cy3)／ｆ’^(Cy5))］・・・（27）
上記補正変量Ｆ_iによるマイクロアレイ上でのスポットの分布を図１６に示す。なお、図１６では、縦軸がマイクロアレイ上でのスポット数であり、横軸が補正変量Ｆ_iである。また、Ａｖ（Error）は、平均誤差を示す。

ｉ番目の遺伝子が全く同一の条件で発現する理想的な場合では、Cy3およびCy5のそれぞれの蛍光強度に偏りがなく、ｆ’^(Cy3) _i／ｆ’^(Cy5) _i＝１となり、log(ｆ’^(Cy3) _i／ｆ’^(Cy5) _i)＝０となる。しかしながら、図１５（ａ）および（ｂ）の結果から明らかなように、蛍光の蛍光強度はおおまかにlog-正規分布を示していることがわかり、さらに、図１５（ａ）および（ｂ）の比較から明らかなように、同一のサンプルにおいても、それぞれのスポットの蛍光における蛍光強度に偏りが生じることがわかる。それゆえ、Cy3およびCy5のそれぞれの蛍光強度に偏りがあることは明らかである。

そこで、本発明にかかる解析方法を用いることで補正変量Ｆ_iを得ると、図１６に示す結果が得られる。この結果から明らかなように、本発明では、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。

また、参考例の解析方法で補正した場合の相対蛍光強度の平均誤差は０．１９３であった（図１６参照）のに対して、補正せずに偏りを除去しなかった場合の相対蛍光強度の平均誤差は０．２３５であり、補正を実施したことで平均誤差は有意に小さくなっている。それゆえ、参考例における解析システムおよび解析方法が有効であることがわかる。

〔ターゲットＤＮＡの調製例２〕
前記調製例１において、ｍＲＮＡを抽出する対象として、大腸菌野生株に加えて、表１に示す特定の遺伝子を破壊した変異株を用いた以外は同様にしてｍＲＮＡを抽出した。その後、調製例１と同様にして、野生株由来のｍＲＮＡからCy3で蛍光標識したｃＤＮＡを、変異株由来のｍＲＮＡからCy5で蛍光標識したｃＤＮＡを得て、これらをターゲットＤＮＡとして用いた。

〔実施例２〕
本実施例では、前記実施の形態１で説明した解析システム１０ｂを用いた。具体的には、富士通社製パーソナルコンピュータを用いて、実施の形態１で説明した解析方法をプログラムにより実行させることで、本発明にかかる解析システム１０ｂを実現した。

まず、前記調整例２で得られたCy3ターゲットおよびCy5ターゲットを作成例で得られたマイクロアレイにハイブリダイズさせた。そして、Genetic MicroSystems社製ＤＮＡマイクロアレイ用スキャナー（画像読取部１１に対応）を用いて、上記マイクロアレイから、ｍＲＮＡ量をCy3およびCy5の蛍光強度として測定（検出）し、前記実施の形態１と同様にしてＳ２０１〜Ｓ２０７の補正を実施した。

次に、相関変量抽出部４１により相関変量（Ｆ_is・Ｆ_it）_i=1,…,Nを抽出し（相関変量抽出ステップ・Ｓ２０８）、相関変量選抜部４２により、実験誤差に基づいて実験系毎に選抜基準値α＝log(１．１)，log(１．２)，log(１．３)，log(１．４)，log(１．５)を設定した（Ｓ２０９）。次に、上記相関変量選抜部４２により、上記相関変量から、該選抜基準値αに基づく選抜規定（前記実施の形態１における規定ＩおよびII）を満たす相関変量を実験系毎に選抜した（相関変量選抜ステップ・Ｓ２１０）。次に、相関係数算出部４３で、相関変量を用いて、２つの実験系の間における相関係数を回帰分析により算出した（相関係数算出ステップ・Ｓ２１１）。

得られた相関係数の例を図１７（ａ）〜（ｏ）、図１８（ａ）〜（ｊ）、図１９（ａ）〜（ｏ）に示す。なお、図１７〜１９に示す棒グラフでは、欄外の下に相関係数を算出する対象となっている実験（ｓ、ｔ）のペアを、表１の実験番号を用いてハイフンでつないだ「ｓ−ｔ」として表している。例えば図１７の実験ペア２４−３７は、表１における実験２４（baeSR遺伝子を破壊した変異株を使用）と実験３７（kdpABCDE遺伝子を破壊した変異株を使用）との相関係数を示すものである。

また、図１７〜１９における各棒グラフは、図中左から、選抜基準値αを設定しなかったとき（全体のデータに対する）、α＝log(１．１)を設定したとき、α＝log(１．２)を設定したとき、α＝log(１．３)を設定したとき、α＝log(１．４)を設定したとき、α＝log(１．５)を設定したときの相関係数を示す。また、縦軸は相関係数の数値を示し、上側がプラス、下側がマイナスで、何れも最大値は１（絶対値）である。

図１７（ａ）〜（ｏ）は、α＝log(１．５)と設定したときに、最小の相関係数を得た１５組の実験ペアを示している。この結果から、負の相関関係を有する実験ペアでは、α＝log(１．５)と設定した際に、最小の負の相関係数を示すことがわかる。

図１８（ａ）〜（ｊ）は、α＝log(１．５)と設定したときに、相関関係がほとんど認められない１０組の実験ペアを示している。この結果から、αを大きくすれば相関係数の絶対値は必ず大きくなるわけではないことが例証される。これは、本発明にかかる解析方法が２つの実験の間における相関を探索するために有効であることを意味する。

図１９（ａ）〜（ｏ）は、α＝log(１．５)としたときに最大の相関係数を有する１５組の実験ペアを示している。この結果から、相関係数はα＝log(１．５)において最も大きくなっていることがわかる。

それゆえ、例えば、実施例１では、平均誤差０．１９３より大きな選抜基準値、すなわちα＞log(１．３)となる選抜基準値αを設定したときに、原点付近に存在する実験間の値の関係を除去することが可能となる。その結果、２つの実験の間で良好な相関関係を得ることができる。

また、例えば、実験ペア２６−２８の相関関係としては、α＝log(１．５)において、高い相関係数０．８１が得られた。Two-Component Signal Transduction(James A.Hoch and Thomas J.Sihavy監修、American Society Microbiology、１９９５年発行)では、上記２つの実験２６・２８で破壊された、creABCD遺伝子およびphoBR遺伝子が、他の遺伝子の発現制御において類似の挙動を示すことを報告している。それゆえ、本発明は、マイクロアレイに代表されるように、非常に大多数の遺伝子の発現データが得られるものの誤差が比較的大きなデータを多数含む実験系を比較するために有効であるだけでなく、発現制御の観点から調節タンパク質の類似性を探索する目的にも有効に用いることができる。

本発明の多変量解析システムは、母集団を構成する複数の要素のそれぞれから、実験により、第１データとその対照である第２データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する多変量解析システムにおいて、上記解析用変量の変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値を分類基準値として用い、上記要素毎に複数得られた上記解析用変量を上記分類基準値に基づいて分類する変量分類手段と、該変量分類手段で分類された上記解析用変量のうち、信頼性の高い範囲に分類された高信頼性変量のみを用いて、該高信頼性変量を構成する第１データおよび第２データの対数比を算出するとともに、全ての高信頼性変量の対数比に対する補正項を算出し、さらに、上記対数比と補正項との差を補正変量として算出する補正変量算出手段とを備えていることが好ましい。

上記構成によれば、変量分類手段および補正変量算出手段により、母集団を構成する全体の要素の解析結果についての平均値によって解析結果を補正することができる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。

本発明の多変量解析システムにおいては、上記の構成に加えて、上記変量分類手段による分類の前段で、分類前の全ての解析用変量に共通するバックグラウンド数値を除去するバックグラウンド補正手段を備えていることが好ましい。

上記構成によれば、バックグラウンド補正によって、読み取った発現量のデータに共通する上記バックグラウンド数値を除去するため、解析の精度をより向上させることができる。

本発明の多変量解析システムにおいては、上記の構成に加えて、上記補正項として、全ての高信頼性変量の対数比における相加平均値、相乗平均値、または中央値が用いられることが好ましい。

上記構成によれば、上記何れかの値を用いることで、より一層確実な補正を実施して、信頼性の高い補正変量を得ることができる。

本発明の発現プロファイル解析方法は、特定の生物のゲノムに含まれる全ての遺伝子またはその一部から、発現プロファイル実験によって各遺伝子の発現量を解析用変量として検出し、コンピュータを用いて多変量解析する発現プロファイル解析方法において、上記発現プロファイル実験として、特定条件下で実施される第１実験とその対照となる第２実験とが実施され、各実験から、上記各遺伝子の発現量が信号強度として検出される場合に、第１実験で得られた第１データと、第２実験で得られた第２データとを組み合わせて解析用変量として生成する変量生成ステップと、上記信号強度の検出限界を分類基準値として用い、該分類基準値に基づいて、生成された複数の上記解析用変量を分類する変量分類ステップと、分類された上記解析用変量のうち、信号強度の検出限界を超えるもののみを高信頼性変量として用い、該高信頼性変量を構成する第１データおよび第２データの対数比を算出する対数比算出ステップと、全ての高信頼性変量の対数比に対する補正項を算出する補正項算出ステップと、上記対数比と補正項との差を補正変量として算出する補正変量算出ステップとを含むことが好ましい。

上記方法によれば、変量分類ステップおよび補正変量算出ステップにより、母集団を構成する全体の要素の解析結果についての平均値によって解析結果を補正することができる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。

本発明の発現プロファイル解析方法は、さらに、上記変量分類ステップの前段で、分類前の全ての解析用変量に共通するバックグラウンド数値を除去するバックグラウンド補正ステップを含むことが好ましい。

上記方法によれば、バックグラウンド補正ステップによって、読み取った発現量のデータに共通する上記バックグラウンド数値を除去するため、解析の精度をより向上させることができる。

本発明の発現プロファイル解析方法は、上記補正項算出ステップでは、補正項として、全ての高信頼性変量の対数比における相加平均値、相乗平均値、または中央値を算出することが好ましい。

上記方法によれば、補正項算出ステップで、上記何れかの値を用いれば、より一層確実な補正を実施して、信頼性の高い補正変量を得ることができる。

本発明における参考例の解析システムの構成を示すブロック図である。本発明における参考例の解析方法の処理手順を示すフローチャートである。図１に示す解析システムまたは図２に示す解析方法において、処理の進行に伴って、入力された解析用変量が変遷する経過を示す変量変遷チャートである。本発明における第１の実施の形態にかかる解析システムの構成を示すブロック図である。本発明における第１の実施の形態にかかる解析方法の処理手順を示すフローチャートである。図４に示す解析システムまたは図５に示す解析方法において、相関係数が算出される際の経過を示す相関係数算出チャートである。本発明における第２の実施の形態にかかる解析システムの構成を示すブロック図である。本発明における第２の実施の形態にかかる解析方法の処理手順を示すフローチャートである。図７に示す解析システムまたは図８に示す解析方法において、相関係数が算出される際の経過を示す相関係数算出チャートである。本発明における第３の実施の形態にかかる解析システムの構成を示すブロック図である。（ａ）は、第３の実施の形態にかかる他の構成である、変量補正部の構成を示すブロック図であり、（ｂ）は、第３の実施の形態にかかる他の構成である、相関係数生成部の構成を示すブロック図であり、（ｃ）は、第３の実施の形態にかかる他の構成である、相関係数生成部の他の構成を示すブロック図である。本発明における第４の実施の形態にかかる解析システムの構成を示すブロック図である。本発明における第４の実施の形態にかかる解析システムの他の構成を示すブロック図である。本発明における第５の実施の形態にかかる解析システムの構成を示すブロック図である。（ａ）・（ｂ）は、本発明における参考例の解析方法を利用する対象となる、遺伝子の発現量のデータlog(ｆ’^(Cy3) _i)およびlog(ｆ’^(Cy5) _i)を用いた、マイクロアレイ上でのスポットの分布の結果を示すヒストグラムであり、（ａ）はCy3で標識した結果を、（ｂ）はCy5で標識した結果を示す。上記参考例の解析方法を利用して得られた補正変量Ｆ_iを用いた、マイクロアレイ上でのスポットの分布の結果を示すヒストグラムである。（ａ）〜（ｏ）は、上記第１の実施の形態にかかる解析方法を利用して得られた補正変量Ｆ_iを用いた、２つの実験の間における相関係数を示す比較棒グラフであり、α＝log(１．５)としたとき、最小の相関係数が得られた１５組の実験ペアを示す。（ａ）〜（ｊ）は、上記第１の実施の形態にかかる解析方法を利用して得られた補正変量Ｆ_iを用いた、２つの実験の間における相関係数を示す比較棒グラフであり、α＝log(１．５)としたとき、相関係数が０に最も近い１０組の実験ペアの一覧を示す。（ａ）〜（ｏ）は、上記第１の実施の形態にかかる解析方法を利用して得られた補正変量Ｆ_iを用いた、２つの実験の間における相関係数を示す比較棒グラフであり、α＝log(１．５)としたとき、最大の相関係数が得られた１５組の実験ペアの一覧を示す。

符号の説明

１０解析システム（多変量解析システム・発現プロファイル解析システム）
１０ａ解析システム（多変量解析システム・発現プロファイル解析システム）
１０ｂ解析システム（多変量解析システム・発現プロファイル解析システム）
１０ｃ解析システム（多変量解析システム・発現プロファイル解析システム）
１０ｄ解析システム（多変量解析システム・発現プロファイル解析システム）
１１画像読取部（入力手段）
１２入力部（入力手段）
１３表示部（出力手段）
１４画像形成部（出力手段）
１５記憶部（記憶手段）
２０解析装置（一つの装置）
２１制御部（制御手段）
２２バックグラウンド補正部（バックグラウンド補正手段）
２３変量解析部（変量解析手段）
３０変量補正部（変量補正手段）
３１変量分類部（変量分類手段）
３２補正変量算出部（補正変量算出手段）
４０ａ相関係数生成部（相関係数生成手段）
４０ｂ相関係数生成部（相関係数生成手段）
４１相関変量抽出部（相関変量抽出手段）
４２相関変量選抜部（相関変量選抜手段）
４３相関係数算出部（相関係数算出手段）
４４相関因子設定部（相関因子設定手段）
４５加重相関係数算出部（相関係数算出手段）
５１マイクロアレイ
５２イメージングプレート
５３ゲル板

Claims

特定の生物のゲノムに含まれる全ての遺伝子またはその一部である母集団を構成する、個々の遺伝子である複数の要素のそれぞれから、発現プロファイル実験により、第１実験における特定遺伝子の発現量である第１データと、上記第１実験とは異なる条件下で実施され、かつ第１実験と比較可能な第２実験における特定遺伝子の発現量である第２データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する解析装置を含む多変量解析システムにおいて、
上記解析装置は、制御部および記憶部を備え、
上記記憶部には、上記制御部を、
上記解析用変量から、上記第１データおよび第２データの対数比を算出し、算出した対数比を用いて補正変量を算出する変量補正手段と、
１回の実験により、複数の遺伝子のそれぞれから同時期に上記解析用変量が得られ、かつ、同一の実験により得られた解析用変量より上記変量補正手段によって算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、当該補正変量を同一の実験系に所属するものとして分類する分類手段と、
上記分類手段が分類した補正変量の集合から、同一の遺伝子より得られ、かつ異なる実験系に所属する２つの補正変量を、相関変量として抽出する相関変量抽出手段と、
上記相関変量抽出手段が抽出した相関変量を用いて、２つの実験系の間における相関係数を算出する相関係数算出手段と、
実験誤差に基づいて実験系毎に因子基準値を設定し、該因子基準値に基づく因子規定を用いて、２つの実験系の間における相関因子を遺伝子毎に設定する相関因子設定手段として機能させるためのプログラムが格納されており、
上記制御部は、上記記憶部にアクセスすることにより上記プログラムを実行し、
上記相関係数算出手段は、上記相関変量抽出手段が抽出した相関変量と上記相関因子設定手段が設定した相関因子とを用いて、該相関因子により重みのついた、２つの実験系の間における相関係数を算出することを特徴とする多変量解析システム。
上記因子規定は、２つの実験系に所属する相関変量が、因子基準値を超える範囲か、または因子基準値の逆数未満の範囲に存在する規定として設定されていることを特徴とする請求項１に記載の多変量解析システム。
さらに、上記母集団を構成する複数の要素から得られる解析用変量を入力する入力手段を備えていることを特徴とする請求項１または２に記載の多変量解析システム。
上記発現プロファイル実験では、マイクロアレイ、マクロアレイ、およびディファレンシャルディスプレイの少なくとも何れかが用いられることを特徴とする請求項１に記載の多変量解析システム。
上記解析用変量として得られる第１データおよび第２データが、遺伝子の発現量に比例して変化する信号強度として検出されるとともに、
上記入力手段は、該信号強度を入力可能にすることを特徴とする請求項３に記載の多変量解析システム。
請求項１〜５の何れか１項に記載の多変量解析システムを動作させるプログラムであって、コンピュータを上記各手段として機能させるためのコンピュータプログラム。
請求項６に記載のコンピュータプログラムを記録したコンピュータ読み取り可能な記憶媒体。