JP4255970B2 - 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 - Google Patents

多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP4255970B2
JP4255970B2 JP2006331081A JP2006331081A JP4255970B2 JP 4255970 B2 JP4255970 B2 JP 4255970B2 JP 2006331081 A JP2006331081 A JP 2006331081A JP 2006331081 A JP2006331081 A JP 2006331081A JP 4255970 B2 JP4255970 B2 JP 4255970B2
Authority
JP
Japan
Prior art keywords
variable
analysis
correlation
unit
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006331081A
Other languages
English (en)
Other versions
JP2007157163A (ja
Inventor
重彦 金谷
浩禎 森
拓 大島
泰 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2006331081A priority Critical patent/JP4255970B2/ja
Publication of JP2007157163A publication Critical patent/JP2007157163A/ja
Application granted granted Critical
Publication of JP4255970B2 publication Critical patent/JP4255970B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Description

本発明は、遺伝子の発現を解析する用途、特に網羅的な解析に好適に用いられる多変量解析システムと、該多変量解析システムで実施可能な解析方法であって、遺伝子の発現を解析する用途で用いる場合に好適な発現プロファイル解析方法と、該発現プロファイル解析方法をコンピュータに実行させるコンピュータプログラムと、該コンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体とに関するものである。
近年、世界的なゲノムプロジェクトの進展により、多数のモデル生物の全ゲノム配列がすでに決定されており、また、ヒトゲノム・プロジェクトによるヒトゲノム配列の解読のように、全ゲノム配列が決定されつつあるものも多い。このように分子生物学の研究は、ポストゲノム(ポストシークエンス)の時代に移行しつつある。
ポストゲノム時代におけるゲノム機能の解析では、その研究手法も変化し始めている。具体的には、ゲノム機能解析の主流は、以前のような、特定の生命現象に関与する個々の遺伝子をクローニングして解析するようなピンポイント的手法から、遺伝子の機能をゲノムスケールで解析する体系的・網羅的手法へと、明らかに移行している。
上記網羅的手法の具体的な例として、遺伝子の発現頻度を解析する遺伝子解析ステップと、バイオインフォマティクスによって候補遺伝子を絞り込む遺伝子絞込みステップと、該候補遺伝子のタンパク質を発現させてその機能を解析するタンパク質解析ステップとを含むプロトコルが挙げられる。
上記プロトコルのうち、遺伝子解析ステップでは、マイクロアレイ、マクロアレイ、ディファレンシャルディスプレイ等を用いた網羅的発現プロファイル解析が実施される。この解析では、遺伝子の発現実験は、特定条件下で実施されるとともに、その対照実験も実施される。すなわち遺伝子の発現は、異なる条件下で実施され、かつ比較可能な第1および第2実験がセットとなった、1セットの実験対で解析される。
上記1セットの実験対に含まれる各実験における遺伝子の発現は、蛍光色素により発色で確認されるが、この発色は、画像解析等による信号として数値化することができるので、上記遺伝子の発現量は、信号強度として測定することができる。
ここで、特定の遺伝子に対して上記1セットの実験対を実施した場合に、上記第1実験における特定遺伝子の発現量(第1データ)が信号強度fCで、第2実験における遺伝子の発現量(第2データ)が信号強度fBで測定されたとすれば、特定遺伝子の発現量は、第1データおよび第2データを対数比(信号強度の相対値の対数)log(fC/fB)に補正することで評価される。この対数比は、特定遺伝子の補正相対値であり、この補正相対値を推定量として用いることで、特定遺伝子の発現量を推定することが可能になる。なお、上記補正相対値(対数比)を、以下、相対発現量Fと称する。
この点についてより具体的に説明すると、上記網羅的発現プロファイル解析では、多数の遺伝子(数千レベル)に対して上記実験対を同時に実施できるので、一度に数千レベルのデータ(上記2つの信号強度fC・fB)が得られる。しかも、1セットの実験対を複数セット実施(例えば、M回実施)すれば、数千レベルを10レベルとして、M×10のデータが得られることになる。
それゆえ、網羅的発現プロファイル解析においては、i番目の遺伝子に注目すれば、Mセットの実験対が実施されたとして、任意のkセット目(k=1,2,・・・,M)の実験対により得られた相対発現量FiをFik=log(fC ik/fB ik)とすると、i番目の遺伝子における相対発現量の標本は、次式(1)に示すベクトルで表すことができる。
i=(Fi1,Fi2,・・・,Fik,・・・,FiM) ・・・(1)
そして、解析対象のゲノム(またはその一部)に、N個(Nは1を超える整数で、通常10レベル)の遺伝子が含まれているとすれば、上記ベクトルxiはN個得られることになる(i=1,2,・・・,N)。
このように、個々の遺伝子について、ベクトルxiで表される標本を得て、これを解析すれば、網羅的に発現プロファイルのデータを得ることが可能となる。
ところが、実際には、上記網羅的発現プロファイル解析では、次に示す2つの大きな問題点が生じ、発現プロファイルのデータの信頼性を高めるには未だ不十分となっている。
〔問題点1:偏り誤差の影響〕
網羅的発現プロファイル解析で標本を得る目的は、それを用いて母集団(ゲノムに含まれる遺伝子)の母数(遺伝子の発現量)の推定値を得ることにある。得られた推定値は母数の推定に用いられる統計量すなわち推定量となる。ここで、推定量に対しては不偏であることが要求される。不偏であるとは、推定量の標本分布の平均が推定すべき母数に等しいということである。
したがって、例えば、i番目の遺伝子に注目した場合、推定量の標本分布は上記ベクトルxiであり、母数はi番目の遺伝子の発現量μiである。それゆえ、上記ベクトルxiの成分である相対発現量Fiの平均値E{Fi}は、i番目の遺伝子の発現量μiに等しくなる(E{Fi}=μi)はずである。
しかしながら、実際には、第1データである信号強度fCにも、第2データである信号強度fBにも誤差が生じることは避けられないため、各セットで得られた相対発現量Fiにも誤差が生じる。それゆえ、相対発現量Fiの平均値E{Fi}≠μiとなり、ベクトルxiは偏りを有することになる。
このように、相対発現量Fを得るための2つの信号強度fC・fBには、偏り誤差が直接含まれることになるため、正確な遺伝子の発現量μを解析するためには、この偏り誤差の影響を排除しなければならない。
従来では、上記偏り誤差の影響を排除するために、特定の標準サンプル(R)を設定する手法が採用されている。具体的には、上記標準サンプル(R)を設定し、その信号強度(fC(R) ik,fB(R) ik)が同一であると仮定する。そして、実験対で実際に得られた2つの信号強度(fC ik,fB ik)一方を補正する。しかしながら、この手法では、標準サンプル(R)の設定によって信号強度の補正も異なるため、安定性に乏しいだけでなく、補正も煩雑化する。
〔問題点2:相対発現量Fが0近傍のデータの影響〕
上記問題点1における偏り誤差の影響を排除したと仮定した場合、kセット目の実験対が同一の条件であるとすれば、全ての遺伝子の相対発現量Fは理想的には0となる。
つまり、kセット目の実験対において、第1実験の条件と第2実験の条件とが同一であれば、双方の遺伝子の発現量には差が生じない。そのため、i番目の遺伝子における発現量の相違が、第1実験と第2実験との間で小さければ、Fik=log(fC ik/fB ik)が0近傍となる。
ここで、網羅的な発現プロファイル実験では、相対発現量Fが0付近にある遺伝子が多数出現する。これは、第1実験と第2実験とにおけるi番目の遺伝子における相違がないことを意味する。なお、相対発現量Fが0近傍となるデータを、以下、非変化発現データと称する。
網羅的発現プロファイル解析では、複数(N個)の遺伝子の発現量が得られるとともに、これら複数の遺伝子の発現について相関関係を多変量解析することになる。ところが、多変量解析とは、複数の変量の相関関係を解析するものであるため、上記複数の変量(発現量のデータ)に上記非変化発現データが含まれていれば、解析結果に大きな影響を及ぼすことになる。その結果、得られる解析結果の信頼性は低下してしまう。
例えば、マイクロアレイを用いた発現プロファイル解析では、マイクロアレイを一つのみ用いて行う実験よりも、多数のマイクロアレイを用いて、得られた結果を比較することにより、発現が変化している遺伝子の意味付けをする実験の方が重要となっている。ところが、上記多数の実験を比較する場合には、上記問題点1・2が生じるため、ランダムノイズを含む可能性が高いデータを除去することによって、信頼性の高い多変量解析を実施する体系だった技術は知られていない。
本発明は、上記問題点に鑑みてなされたものであって、その目的は、遺伝子の発現プロファイル解析、特に網羅的な発現プロファイル解析に代表される多変量解析において、偏り誤差の影響と、変量が0近傍となるデータの影響とを有効に軽減し、確実な解析ができる多変量解析システムと、このシステムに利用される発現プロファイル解析方法と、この解析方法をコンピュータにて実現するためのプログラムまたはプログラムを記録した記録媒体とを提供することにある。
本発明の多変量解析システムは、上記の課題を解決するために、母集団を構成する複数の要素のそれぞれから、実験により、第1データとその対照である第2データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する多変量解析システムにおいて、上記解析用変量から、上記第1データおよび第2データの対数比を含む補正変量を算出する変量補正手段と、1回の実験により、複数の要素のそれぞれから同時期に上記解析用変量が得られ、かつ、同一の実験により得られた解析用変量より算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の要素より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する相関変量抽出手段と、上記相関変量を用いて、2つの実験系の間における相関係数を算出する相関係数算出手段とを備えていることを特徴としている。
上記構成によれば、2つの実験系の相関関係を、上記相関変量から相関係数として算出できるので、対数比が0近傍となるデータの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をより一層向上させることができる。
本発明の多変量解析システムは、上記の構成に加えて、さらに、実験誤差に基づいて実験系毎に選抜基準値を設定し、上記相関変量から、該選抜基準値に基づく選抜規定を満たす相関変量を実験系毎に選抜する相関変量選抜手段を備えており、上記相関係数算出手段は、上記変量選抜手段により選抜された相関変量を用いて、2つの実験系の間における相関係数を算出することが好ましい。
上記構成によれば、変量選抜手段により選抜された相関変量を用いて、相関係数を算出してこれを多変量解析に用いる。そのため、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。
本発明の多変量解析システムは、上記の構成に加えて、上記選抜基準値が1以上の絶対値である場合に、上記選抜規定は、2つの実験系に所属する相関変量が、正の選抜基準値を超える範囲か、または負の選抜基準値未満の範囲に存在する規定として設定されていることが好ましい。
上記構成によれば、選抜規定が上記のように設定されることで、相関変量をより適切に選抜することができる。その結果、相関係数の算出精度を向上することができる。
本発明の多変量解析システムは、上記の構成に加えて、さらに、実験誤差に基づいて実験系毎に因子基準値を設定し、該因子基準値に基づく因子規定を用いて、2つの実験系の間における相関因子を要素毎に設定する相関因子設定手段を備えており、上記相関係数算出手段は、上記相関変量と上記相関因子とを用いて、該相関因子により重みのついた、2つの実験系の間における相関係数を算出することが好ましい。
上記構成によれば、相関因子設定手段で相関因子を得た上で、相関係数算出手段により、重みのついた相関係数を算出して多変量解析に用いる。そのため、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。
本発明の多変量解析システムは、上記の構成に加えて、上記因子規定は、2つの実験系に所属する相関変量が、因子基準値を超える範囲か、または因子基準値の逆数未満の範囲に存在する規定として設定されていることが好ましい。
上記構成によれば、因子規定が上記のように設定されることで、相関因子をより適切に選抜することができる。その結果、重みつき相関係数の算出精度を向上することができる。
本発明の多変量解析システムは、上記の構成に加えて、さらに、上記母集団を構成する複数の要素から得られる解析用変量を入力する入力手段を備えていることが好ましい。
上記構成によれば、上記入力手段を備えていることで、本発明にかかる多変量解析システムに解析用変量を適切かつ容易に入力することができる。
本発明の多変量解析システムは、上記の構成に加えて、上記母集団が特定の生物のゲノムに含まれる全ての遺伝子またはその一部であり、該母集団を構成する要素が個々の遺伝子であるとともに、各要素から実験により得られる解析用変量が、個々の遺伝子の発現量であることが好ましい。
また、本発明の多変量解析システムは、上記実験として、発現プロファイル実験が用いられることが好ましい。
上記構成によれば、偏り誤差や対数比が0近傍となるデータの影響が大きい遺伝子の発現量の解析、特に、発現プロファイル解析に、本発明を適用することになるので、遺伝子の発現プロファイル解析をより適切に実施することが可能となる。
本発明の多変量解析システムは、上記発現プロファイル実験では、マイクロアレイ、マクロアレイ、およびディファレンシャルディスプレイの少なくとも何れかが用いられることが好ましい。
また、本発明の多変量解析システムは、上記の構成に加えて、上記解析用変量として得られる第1データおよび第2データが、遺伝子の発現量に比例して変化する信号強度として検出されるとともに、上記入力手段は、該信号強度を入力可能することが好ましい。
上記構成によれば、マイクロアレイ、マクロアレイ、およびディファレンシャルディスプレイの少なくとも何れかを用いた発現プロファイル解析では、蛍光やアイソトープ等で遺伝子の発現量を定量化するが、このような定量化では、偏り誤差や対数比が0近傍となるデータの影響が大きくなる。そこで、本発明を適用することで、遺伝子の発現プロファイル解析をより適切に実施することが可能となる。
本発明の多変量変換システムは、上記の構成に加えて、上記分類基準値として、上記信号強度の検出限界が用いられるとともに、信号強度の検出限界を超える範囲が、信頼性の高い範囲として用いられることが好ましい。
上記構成によれば、信号強度の検出限界以下のデータは誤差である可能性が高く、信頼性に欠けるので、上記分類基準値として信号強度の検出限界を用いることで、信頼性の高い範囲を的確に規定することができる。
本発明の多変量解析システムは、上記の構成に加えて、上記各手段の少なくとも2つ以上を一つの装置として一体化してなることが好ましい。
上記構成によれば、多変量解析システムを構成する各手段のうちの少なくとも一つ、好ましくは、解析用変量の処理に関わる手段を一体化しておくことで、システム構成を簡素化することができる。それゆえ、例えば設置場所を小さくして使用時の省スペース化を図ることが可能となるとともに、本発明にかかる多変量解析システムの操作の煩雑化を回避することも可能となる。
本発明の発現プロファイル解析方法は、上記の課題を解決するために、特定の生物のゲノムに含まれる全ての遺伝子またはその一部である母集団を構成する、個々の遺伝子である複数の要素のそれぞれから、発現プロファイル実験により、第1実験における特定遺伝子の発現量である第1データと、上記第1実験とは異なる条件下で実施され、かつ第1実験と比較可能な第2実験における特定遺伝子の発現量である第2データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する発現プロファイル解析方法において、上記解析用変量から、上記第1データおよび第2データの対数比を含む補正変量を算出する変量補正ステップと、上記発現プロファイル実験を複数回実施することで、同一の遺伝子から解析用変量が複数得られ、かつ、同一の実験により得られた解析用変量から算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の遺伝子より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する相関変量抽出ステップと、上記相関変量を用いて、2つの実験系の間における相関係数を算出する相関係数算出ステップとを含むことを特徴としている。
上記方法によれば、2つの実験系の相関関係を、上記相関変量から相関係数として算出できるので、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をより一層向上させることができる。
本発明の発現プロファイル解析方法は、さらに、発現プロファイル実験に伴う実験誤差に基づいて実験系毎に選抜基準値を設定し、上記相関変量から、該選抜基準値に基づく選抜規定を満たす相関変量を実験系毎に選抜する相関変量選抜ステップを含むとともに、上記相関係数算出ステップでは、選抜された上記相関変量を用いて、2つの実験系の間における相関係数を算出することが好ましい。
上記方法によれば、変量選抜ステップで適切な相関変量を選抜し、相関係数算出ステップで相関係数を算出してこれを多変量解析に用いる。そのため、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。
本発明の発現プロファイル解析方法は、上記選抜基準値が1以上の絶対値である場合に、上記選抜規定は、2つの実験系に所属する相関変量が、正の選抜基準値を超える範囲か、または負の選抜基準値未満の範囲に存在する規定として設定されていることが好ましい。
上記方法によれば、相関変量選抜ステップで、選抜規定が上記のように設定されることで、相関変量をより適切に選抜することができる。その結果、相関係数の算出精度を向上することができる。
本発明の発現プロファイル解析方法は、さらに、発現プロファイル実験に伴う実験誤差に基づいて実験系毎に因子基準値を設定し、該因子基準値に基づく因子規定を用いて、2つの実験系の間における相関因子を要素毎に設定する相関因子設定ステップを含むとともに、上記相関係数算出ステップでは、相関変量と上記相関因子とを用いて、該相関因子により重みのついた、2つの実験系の間における相関係数を算出することが好ましい。
上記方法によれば、相関因子設定ステップで相関因子を得た上で、相関係数算出ステップで、重みのついた相関係数を算出して多変量解析に用いる。そのため、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができる。その結果、得られる解析結果の信頼性をさらに一層向上させることができる。
本発明の発現プロファイル解析方法は、上記の方法において、上記因子規定は、2つの実験系に所属する相関変量が、因子基準値を超える範囲か、または因子基準値の逆数未満の範囲に存在する規定として設定されていることが好ましい。
上記方法によれば、相関因子設定ステップで、因子規定が上記のように設定されることで、相関因子をより適切に選抜することができる。その結果、重みつき相関係数の算出精度を向上することができる。
本発明の発現プロファイル解析方法は、さらに、上記遺伝子の発現量を、信号強度として検出した上で解析用変量として入力する解析用変量入力ステップを含むことが好ましい。
上記方法によれば、上記解析用変量入力ステップを備えていることで、本発明にかかる発現プロファイル解析方法で解析対象となる解析用変量を、適切かつ容易に得ることができる。
本発明のコンピュータプログラムは、上記の発現プロファイル解析方法をコンピュータに実行させるものである。
また、本発明の記録媒体は、上記の発現プロファイル解析方法を行うプログラムをコンピュータに実行させるコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体である。
上記構成によれば、プログラムにより本発明にかかる解析方法をコンピュータで実行させることになるため、コンピュータそのものを本発明にかかる多変量解析システム(発現プロファイル解析システム)とすることができる。その結果、本発明の汎用性を高めることができるとともに、本発明を、通信ネットワーク上で利用することも容易となる。
本発明にかかる多変量解析システムは、以上のように、解析用変量から、第1データおよび第2データの対数比を含む補正変量を算出する変量補正手段と、1回の実験により、複数の要素のそれぞれから同時期に上記解析用変量が得られ、かつ、同一の実験により得られた解析用変量より算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の要素より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する相関変量抽出手段と、上記相関変量を用いて、2つの実験系の間における相関係数を算出する相関係数算出手段とを備えている構成である。
本発明にかかる発現プロファイル解析方法は、以上のように、解析用変量から、第1データおよび第2データの対数比を含む補正変量を算出する変量補正ステップと、発現プロファイル実験を複数回実施することで、同一の遺伝子から解析用変量が複数得られ、かつ、同一の実験により得られた解析用変量から算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の遺伝子より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する相関変量抽出ステップと、上記相関変量を用いて、2つの実験系の間における相関係数を算出する相関係数算出ステップとを含む構成である。
それゆえ、上記構成または上記方法では、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性を向上させることができる。それゆえ、本発明は、マイクロアレイ等の網羅的発現プロファイル解析において、データの解釈を明快かつ容易にすることが可能になり、発現プロファイル解析の効率化を図る上で実用的であるという効果を奏する。
また、本発明の適応範囲は、遺伝子の発現プロファイル解析のみに限定されるものではなく、log(Yik/Zik)の形式の多変量で記述された大量の標本からなるデータセットに対しても適用することができる。
さらに、本発明は、プログラムによりコンピュータで実現可能となっている。したがって、本発明には、上記構成や方法をコンピュータで実現させるコンピュータプログラム、あるいはこのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体も含まれることはいうまでもない。
〔参考例〕
本発明における参考例について図1ないし図3に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。
本発明にかかる多変量解析システムは、多変量で記述された情報から該情報を得るに伴う誤差の影響を低減することが可能なシステムであり、より具体的には、コンピュータを用いて、発現プロファイル実験、特に網羅的発現プロファイル実験により得られる多変量としての遺伝子の発現量から実験誤差の影響を軽減し、因子を探索する目的に、好適に用いることができるシステムである。
したがって、本発明には、上記探索手順をコンピュータで実施する場合の発現プロファイル解析方法も含まれ、さらには、この探索手順をコンピュータに実行させるコンピュータプログラム、あるいはこのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体も含まれる。
本発明における多変量解析システムとしては、母集団を構成する複数の要素のそれぞれから、解析対象となる変量(以下、解析用変量とする)を得て解析するが、この解析用変量は、第1データとその対照である第2データとの組み合わせからなっており、実際の解析には、これら各データの比が用いられる。それゆえ、本発明にかかる多変量解析システムとしては、少なくとも上述した多変量解析を実施するものであれば特に限定されるものではないが、具体的には、例えば、図1に示すように、マイクロアレイ51から網羅的発現プロファイル実験の結果を得て、遺伝子の発現量を解析するマイクロアレイ解析システム10a(以下、単に解析システムと略す)が挙げられる。
マイクロアレイ51は、多数の異なったプローブDNA(以下、プローブと略す)をガラスなどの固相面に高密度に配置したものである。通常、顕微鏡で用いられるスライドガラス程度の大きさの支持体に、DNAを高密度に固定したものであって、DNAチップとも呼ばれる。このマイクロアレイ51を用いれば、数千以上のDNA分子に対する反応を同時に実施し、かつ結果の検出も同時に行うことができる。それゆえ、多数の遺伝子の発現プロファイルを観察することが可能になる。
上記マイクロアレイ51を用いたアッセイの概要について説明すると、まず、マイクロアレイ51に、蛍光色素で標的したターゲットDNA(以下、ターゲットと略す)をハイブリダイズさせる。このとき、マイクロアレイ51上で、プローブと相補的な配列を含むターゲットの分子は、上記プローブの分子と相補的に結合(ハイブリダイズ)するが、それ以外のターゲットの分子は結合しない。そこで、結合していないターゲットの分子を洗浄して除去することで、結合したターゲットの分子のみをマイクロアレイ51上に残存させる。このターゲットの分子は蛍光色素で標識されているため、ターゲットの蛍光を、信号強度として測定し、ハイブリダイズしているプローブを同定する。
蛍光標識された上記ターゲットは、一般的には、比較したい2つの状態(第1の状態および第2の状態とする)の細胞からmRNAを抽出し、蛍光表示されたヌクレオチドの存在下で逆転写反応を実施することで作製される。このとき、上記2つの状態毎に、異なる検出波長を有する2種類の蛍光色素を用いる。したがって、ターゲット中には、発現量の多い遺伝子のcDNAが多く含まれていることになるので、上記蛍光の信号強度は、各状態における遺伝子の発現量に応じたものとなる。それゆえ、上記信号強度を測定すれば、特定の遺伝子の発現量を検出することが可能になる。
しかも、マイクロアレイ51には、大量のプローブを配列できるため、数回のハイブリダイズの実施で発現量のデータを大量に得ることができる。各発現量のデータは何れも連続変量であり、しかも、遺伝子相互の関係により、発現量は変化する可能性があるため、このような多数のデータを多変量解析することは重要となる。
したがって、網羅的発現プロファイル解析においては、上記母集団が特定の生物のゲノムに含まれる全ての遺伝子またはその一部となり、該母集団を構成する要素が個々の遺伝子となる。そして、各要素、すなわち各遺伝子から得られる解析用変量は遺伝子の発現量となり、これは蛍光の信号強度のデータとなるが、より具体的には、第1の状態における遺伝子の発現量が、第1データとして、第2の状態における遺伝子の発現量が第2データとして得られ、これら第1・第2データの組み合わせが解析用変量として利用されることになる。
具体的には、本参考例では、母集団を構成する多数の遺伝子(数千レベル、10レベルとする)に対して実験を複数回(例えば、M回実施)実施することで、M×10のデータが得られる。それゆえ、上記解析用変量から得られる相対発現量Fikを用いれば、i番目の遺伝子における相対発現量の標本は、次式(1)に示すベクトルで表すことができる。
i=(Fi1,Fi2,・・・,Fik,・・・,FiM) ・・・(1)
本発明では、上記式(1)に示す標本を多変量解析するために、例えば、図1に示すような解析システム10aを用いる。
上記解析システム10aは、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32を備えている。
上記画像読取部11は、マイクロアレイ51から、プローブにハイブリダイズしたターゲットの蛍光を、信号強度という画像データとして読み取ることで、遺伝子の発現量を検出する。つまり、上記画像読取部11は、解析用変量としてマイクロアレイ51から得られる第1データおよび第2データを、遺伝子の発現量に比例して変化する信号強度として検出して多変量解析システムに入力する入力手段である。
上記画像読取部11としては、具体的には、例えば、蛍光スキャナー等が好適に用いられるが、特にこれに限定されるものではなく、ターゲットを標識している色素の種類に応じて、適切な構成の画像読取部11を選択すればよい。
上記入力部12は、上記解析システム10aの動作に関わる情報を入力可能とする。具体的には、キーボードやタブレット等、従来公知の入力手段を好適に用いることができる。また、マイクロアレイ51からの得られる遺伝子の発現量は、必ずしも上記画像読取部11から読み取られるものではなく、例えば、別の読取手段等で読み取られた後に具体的な数値データに変換されたとすれば、上記入力部12から上記解析システム10aに入力することもできる。
つまり、本発明では、母集団を形成する要素である遺伝子から、網羅的発現プロファイル実験により解析用変量としての発現量のデータが得られればよく、解析システム10aへの入力の動作としては、画像読取部11による信号強度の直接読み取りに限定されるものではない。それゆえ、本発明においては、入力手段として、上記画像読取部11および入力部12の少なくとも一方を備えていることが好ましいが、入力手段としては、上記画像読取部11や入力部12に限定されるものではなく、その他の入力手段を備えていても良い。
上記表示部13は、マイクロアレイ51からの信号強度の読み取りや、読み取った信号強度の解析等を含む、上記解析システム10aの動作に関わる情報や解析結果等の各種情報を表示する。具体的には、公知のCRTディスプレイや、液晶ディスプレイ等といった各種表示装置が好適に用いられるが特に限定されるものではない。
上記画像形成部14は、上記表示部13で表示可能な各種情報をPPC用紙等の記録材に記録(印刷・画像形成)する。具体的には、公知のインクジェットプリンタやレーザープリンタ等の画像形成装置が好適に用いられるが特に限定されるものではない。
なお、上記表示部13と画像形成部14とは、まとめて出力手段と表現することもできる。すなわち、表示部13は、各種情報をソフトコピーで出力する手段であり、画像形成部14は、各種情報をハードコピーで出力する手段である。したがって、本発明で用いられる出力手段としては、上記表示部12や画像形成部13に限定されるものではなく、その他の出力手段を備えていても良い。
上記記憶部15は、上記解析システム10aで利用される各種情報(制御情報、解析結果、その他情報等)を記憶する。具体的には、例えば、RAMやROM等の半導体メモリ、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードを含む)/光カード等のカード系等、従来公知の各種記憶手段を好適に用いることができる。
上記制御部21は、本参考例における上記解析システム10aの動作を制御する。具体的には、図1の点線の矢印で示すように、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32の各手段に対して、上記制御部21から制御情報が出力される。この制御情報に基づいて上記各手段が連携して動作することで、上記解析システム10a全体が動作する。また、制御部21に対しては、入力部12から解析システム10aを動作させるための指示情報も入力可能となっているので、図1では、制御情報のやりとりを示す点線の矢印は双方向となっている。
上記バックグラウンド補正部22は、画像読取部11から入力された解析用変量に共通するバックグラウンド数値を除去する補正(バックグラウンド補正)を実施する。このバックグラウンド補正は、後述する解析用変量の分類前に実施すると、より正確な分類が可能になるため好ましい。
上記変量解析部23は、画像読取部11(あるいは入力部12)から入力された解析用変量、すなわち遺伝子の発現量のデータを解析し、その解析結果を、制御部21の制御に基づいて表示部13および画像形成部14の少なくとも一方に出力する。具体的には、クラスタリング等を行う公知のアレイ専用解析ソフトウエアを用いた構成を挙げることができる。また、変量解析部23では、発現プロファイル解析だけでなく、遺伝情報まで解読されるようになっていてもよい。すなわち、上記変量解析部23では、遺伝子を用いたあらゆる種類の解析処理が実施可能である。
上記変量分類部31は、上記解析用変量、すなわち遺伝子の発現量における変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値を分類基準値として用い、遺伝子毎に複数得られた遺伝子の発現量のデータを上記分類基準値に基づいて分類する。
上記補正変量算出部32は、上記変量分類部31で分類された上記解析用変量(遺伝子の発現量のデータ)のうち、信頼性の高い範囲に分類された高信頼性変量のみを用いて、該高信頼性変量を構成する第1データおよび第2データの対数比を算出するとともに、全ての高信頼性変量の対数比に対する補正項を算出し、さらに、上記対数比と補正項との差を補正変量として算出する。
したがって、本参考例における解析システム10aでは、図1の実線の矢印で示すように、画像読取部11から得られた解析用変量が、バックグラウンド補正部22に出力されてバックグラウンド補正がなされ、次に、変量分類部31に出力されて分類され、次に、補正変量算出部32に出力されて補正変量が算出され、次に、変量解析部23に出力されて解析され、最終的に、表示部13および/または画像解析部14に出力されることになる。
なお、図1では、画像読取部11からの解析用変量の入力を明確に説明する便宜上、入力部12からの解析用変量の入力については、実線で図示せず省略している。
上記制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32の具体的な構成は特に限定されるものではなく、従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態3で説明するように、上記各手段の2つ以上が1つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置(CPU)としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。
次に、本参考例における上記解析システム10aの具体的な動作、すなわち本参考例における網羅的発現プロファイル解析方法について、図2のフローチャートおよび図3の変量変遷チャートに基づいて説明する。
まず、前段階として、網羅的発現プロファイル実験を実施する。具体的には、前述したように、特定の生物のゲノムに含まれる全ての遺伝子またはその一部をプローブとして用いたマイクロアレイ51に対して、蛍光色素で標的したターゲットDNA(以下、ターゲットと略す)をハイブリダイズさせる。上記マイクロアレイ51は、従来公知の手法で作製することができ、その作製手法については特に限定されるものではない。
上記前段階としての網羅的発現プロファイル実験は、1回のみ実施されてもよいが、通常は複数回実施される。そこで、ステップ11(以下、ステップを適宜Sと略す)として、ターゲットの蛍光を、画像読取部11で信号強度として測定(検出)し、解析用変量となる遺伝子の発現量のデータを入力する(解析用変量入力ステップ)。
上記S11は、実施された全ての実験の結果からデータを入力し終わるまで繰り返される。それゆえ、S12として、全ての発現量のデータが入力されたか否かを判定し、入力されていれば、S13に進む一方、入力されていなければ、S11に戻る。
ここで、前述したように、蛍光標識された上記ターゲットは、比較したい第1の状態および第2の状態の細胞からそれぞれmRNAを抽出し、各状態別に異なる蛍光色素を用いて表示されたヌクレオチドの存在下で、逆転写反応を実施することで作製される。上記第1の状態のターゲットと、第2の状態のターゲットは、通常、混合されて同時にマイクロアレイ51にハイブリダイズされる。それゆえ、1回のハイブリダイズで、第1実験(上記第1の状態の実験)および第2実験(上記第2の状態の実験)の結果がセットとなった1セットの実験対の結果が得られることになる。
したがって、本発明においては、上記解析用変量は、第1実験で得られた第1データと、第2実験で得られた第2データとを組み合わせたものとして生成される。それゆえ、本発明にかかる解析方法には、解析用変量を生成する変量生成ステップが含まれることが好ましい。この変量生成ステップは、本参考例では、S11で、画像読取部11による読み取りと同時に実施されるが、別途、変量生成部を設けて、読み取った画像データから解析用変量としての信号強度を生成するようにしてもよい。
次にS13として、バックグラウンド補正部22により、バックグラウンド補正を実施する(バックグラウンド補正ステップ)。具体的には、ハイブリダイズ後のマイクロアレイ51から信号強度を読み取る際に、本来なら蛍光が全く検出されないはずのハイブリダイズされていないプローブやプローブのない背景領域から、バックグラウンドの蛍光が検出される場合がある。そこで、バックグラウンド補正によって、読み取った発現量のデータに共通する上記バックグラウンドの蛍光(バックグラウンド数値)を除去する。
なお、上記バックグラウンド補正がなされた後に、i番目の遺伝子に対して実施されたkセット目(k=1〜Mセット)の実験対で得られる結果のうち、第1データとなる信号強度をfC ikと表現し、第2データとなる信号強度をfB ikと表現する。
次に、S14として、変量分類部31により、所定の分類基準値に基づいて、生成された複数の上記解析用変量が分類される(変量分類ステップ)。上記分類基準値としては、本参考例では、上記信号強度の検出限界が用いられる。
具体的には、ハイブリダイズ後のマイクロアレイ51から信号強度を読み取る場合、読み取り可能な蛍光のレベルが存在する。上記信号強度の検出限界とは、この読み取り可能な蛍光のレベルであり、読み取られた信号強度が上記検出限界を超えておれば、解析上で十分信頼できるデータとなるが、上記検出限界未満であれば、誤差の影響が非常に大きく信頼できるデータとは見なせない。
そこで、上記解析用変量の変化範囲、すなわち発現量に比例する蛍光レベルの変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値となる上記検出限界を分類基準値として用い、蛍光の信号強度として検出された上記解析用変量を分類する。これによって、網羅的発現プロファイル解析の精度を向上させることができる。
なお、上記信号強度の検出限界の設定方法としては特に限定されるものではなく、実験的に得られた結果を利用しても良いし、過去の実験で得られたデータから推定しても良い。また、分類の具体的な手法も特に限定されるものではない。例えば、第1実験および第2実験の信号強度の検出限界を、それぞれSNCおよびSNBと推定したとすれば、i番目の遺伝子の信号強度fC ikおよびfB ikを、上記SNCおよびSNBにより以下のクラスの何れかに分類する手法が挙げられる。
クラス1 :fC ik >SNCかつfB ik>SNB
クラス2A:fC ik <SNCかつfB ik>SNB
クラス2B:fC ik >SNCかつfB ik <SNB
クラス3 :fC ik <SNCかつfB ik<SNB
上記各クラスのうち、補正変量算出部32に出力されるのは、クラス1に分類された信号強度のみでよい。それゆえ、S14では、例えば、クラス1およびそれ以外のクラス(クラス非1)に分類するだけでもよいが、後段の変量解析部23やその前段等で、クラス2A・2B・3の信号強度を用いることも可能であるので、上記のようなクラス分けであってもよい。
次に、S15として、補正変量算出部32により、変量分類部31で分類された解析用変量のうち、信号強度の検出限界を超える解析用変量(高信頼性変量とする)を構成する第1データおよび第2データの対数比を算出する(対数比算出ステップ)。具体的には、上記第1データおよび第2データであるi番目の遺伝子の信号強度fC ikおよびfB ikを用いて、該i番目の遺伝子の相対発現量log(fC ik/fB ik)を算出する。
次に、S16として、同じく補正変量算出部32により、全ての高信頼性変量の対数比に対する補正項を算出する(補正項算出ステップ)。具体的には、例えば、上記S14でクラス1に分類された高信頼性変量の全ての数をN個(1<N≦M)とすれば、このN個の高信頼性変量全てについての相対発現量(対数比)log(fC ik/fB ik)に対する補正項REFi=1,2,…,N[log(fC ik/fB ik)]を算出する。上記補正項REFi=1,2,…,N[log(fC ik/fB ik)]としては、具体的には、相対平均値、相乗平均値、または中央値等を用いることができる。
次にS17として、同じく補正変量算出部32により、上記対数比と補正項との差を補正変量として算出する(補正変量算出ステップ)。具体的には、補正変量Fikは、次式(2)に示すように表すことができる。
ik=log(fC ik/fB ik)−REFi=1,2,…,N[log(fC ik/fB ik)] ・・・(2)
そして、S18として、上記補正変量を変量解析部23により解析することで、網羅的発現プロファイル解析が実施される(多変量解析ステップ)。
前述したように、i番目の遺伝子における相対発現量の標本は、前記式(1)に示すベクトルxikで表すことができ、解析対象のゲノムまたはその一部に、N個の遺伝子が含まれていれば、上記ベクトルxikはN個得られる。ここで、上記ベクトルxikは、上記補正変量Fikで表されることになるので、このベクトルxiで表される標本を解析することで、偏り誤差を除去した解析が可能となる。
その後、S19として、解析結果を出力する。具体的には、表示部13に表示したり、画像形成部14でプリントアウト(印刷)したりする(解析結果出力ステップ)。
このように、本参考例の解析システム10aには、上記変量分類部31および補正変量算出部32が設けられている。そのため、上記S15〜S17で得られる補正変量は、第1データである信号強度fC ikと、第2データである信号強度fB ikとの間の偏り誤差を除去した相対値となる。それゆえ、この相対値を用いれば、変量解析部23では、母集団を構成する全体の遺伝子の解析結果についての平均値によって解析結果を補正することになる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
なお、以上説明した本参考例の解析システム10aは、以上説明したS11〜S19までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。
上記プログラムはコンピュータで読み取り可能な記録媒体に格納されていればよい。具体的には、図1に示す記憶部15、具体的には、例えばROMのようなものそのものがプログラムメディアであってもよいし、上記記憶部15として、プログラム読み取り装置が設けられている場合には、そこに記録媒体を挿入することで読み取り可能なプログラムメディアであってもよい。上記プログラムメディアとしては、記憶部15の具体例として挙げた公知の構成を好適に用いることができる。
何れの場合においても、格納されているプログラムは制御部21がアクセスして実行させる構成であってもよいし、プログラムを読み出し、読み出されたプログラムを、図示しないプログラム記憶エリアにダウンロードして、そのプログラムを実行する方式であってもよい。このダウンロード用のプログラムは予め記憶部15等に格納されているものとする。また、上記記録媒体に格納されている内容はプログラムに限定されるものではなく、例えばデータであってもよい。
また、本参考例では、バックグラウンド補正を実施する構成・方法を用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、バックグラウンド数値が無視できるのであれば、解析システム10aには、バックグラウンド補正部22は備えられていなくても良く、本発明にかかる解析方法では、S13は実施されなくても良い。
〔実施の形態1〕
本発明における第1の実施の形態について図4ないし図6に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例では、解析システム10aが、前記変量分類部31および補正変量算出部32を備えることで、特定の遺伝子に注目することなくデータから偏り誤差を取り除いた補正変量を生成できる構成となっていたが、本実施の形態では、さらに、上記補正変量を用いた解析に際して、個々の要素すなわち各遺伝子の間の相関関係を算出し、これを解析に利用する。
ゲノムまたはその一部に含まれる遺伝子は、全てが同じように発現するわけではなく、各種発現調節機構によって、その発現の時機はそれぞれ異なるよう制御されている。それゆえ、網羅的発現プロファイル実験では、相対発現量が0付近となる遺伝子が多数出現する。
例えば、i番目の遺伝子が特定条件CDNiで発現するとして、この特定条件CDNiで網羅的発現プロファイル実験を実施すると、解析用変量として1セットの実験対の結果が得られる。
このとき、i番目の遺伝子は発現しているため、相対発現量すなわち前記参考例で算出される補正変量Fikはもちろん一定の値を示す。
これに対して、上記特定条件CDNiで発現に変化がない遺伝子については、第1実験とその比較対照となる第2実験との間には、遺伝子の発現量には有意な差が生じない。そのため、信号強度fC ik(第1データ)およびfB ik(第2データ)がほぼ同一となり、算出される相対発現量すなわち上記補正変量Fikは0付近(Fik≒0)の数値を示す。もちろん理想的な条件では、補正変量Fik=0となる。なお、上記相対発現量が0近傍となるデータを、以下、非変化発現データと称する。
網羅的発現プロファイル解析では、複数(N個)の遺伝子の発現量が得られ、これら複数の遺伝子の発現について相関関係を多変量解析するが、上記非変化発現データが含まれていると、解析結果に大きな影響を及ぼすことになる。
そこで、多変量解析に際して上記非変化発現データの影響を除去するために、例えば、図4に示すような解析システム10bを用いる。
具体的には、本実施の形態にかかる解析システム10bは、図4に示すように、解析システム10aと同様、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32を備えており、さらに、相関変量抽出部41、相関変量選抜部42、および相関係数算出部43を備えている。
上記画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32については、前記参考例と同様であるのでその説明を省略する。なお、上記補正変量算出部32は、解析用変量から、第1データおよび第2データの対数比を含む補正変量を算出する変量補正手段に相当する。また、前記参考例の記載から明らかなように、変量分類部31および補正変量算出部32の双方をまとめて変量補正手段とみなしてもよい。
上記相関変量抽出部41は、1回の実験により、複数の遺伝子(要素)のそれぞれから同時期に解析用変量(2つの信号強度の組み合わせ)が得られ、かつ、同一の実験により得られた解析用変量より算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の遺伝子より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する。
具体的には、前述したように、マイクロアレイ51を用いた実験では、1回の実験により、i番目の遺伝子(要素)について1セットの実験対の結果として、信号強度fC・fBの組み合わせ(第1・第2データ)が得られるが、この実験を複数回繰り返すことで、i番目の遺伝子から複数の結果が得られることになる。さらに、実験の条件によっては、複数の遺伝子のそれぞれから同時期に結果(解析用変量)が得られることになる。そこで、同一の実験により得られた信号強度の組み合わせより算出される補正変量は、同一の実験系に所属する補正変量として分類される。
そこで、上記実験系分類部41では、例えば、実験を1〜k回繰り返した場合に、i番目の遺伝子およびj番目の遺伝子からそれぞれk個の補正変量Fi1〜FikおよびFj1〜Fjkが算出されたとすれば、Fi1およびFj1、Fi2およびFj2、・・・FikおよびFjkをそれぞれ同一の実験系に所属するものとして分類できる。
換言すれば、i番目の遺伝子から得られたk個の補正変量Fi1〜Fik、または、j番目の遺伝子から得られたk個の補正変量Fj1〜Fjkは、それぞれ、同一の遺伝子より得られかつ異なる実験系に所属する補正変量の集合であると見なすことができる。
そこで、例えば任意の2つの実験系s,t(k=s回目およびt回目の実験)において、上記相関変量抽出部41は、上記補正変量の集合から、実験系sよりFisを、実験系tよりFitをそれぞれ抽出して相関変量とし、各補正変量が所属する実験系s,t、すなわちs回目の実験とt回目の実験との間の相関係数を算出するために利用する。なお、母集団の中に含まれる要素としての遺伝子はi=1〜N個存在するので、相関変量もN個得られることになる。なお、全相関変量を(Fis・Fiti=1,…,Nと表すものとする。
上記相関変量選抜部42は、実験誤差に基づいて実験系毎に選抜基準値αを設定し、上記相関変量から、該選抜基準値αに基づく選抜規定を満たす相関変量を実験系毎に選抜する。
上記選抜基準値αは、実験誤差に基づいて設定されるものであり、具体的には、実験系毎の相対値の標準偏差に基づいて設定される。それゆえ、このような選抜基準値αに基づいて得られた相関変量(Fis・Fiti=1,…,Nから選抜規定に合致する相関変量のみを選抜して利用することで、実験系sと実験系tとの間における相関係数をより的確に算出することができる。
上記相関係数算出部43は、上記相関変量を用いて、2つの実験系の間における相関係数を算出するが、本実施の形態では、上記変量選抜部42により選抜された相関変量を用いて、2つの実験系の間における相関係数を算出するようになっている。
具体的には、選抜された上記相関変量を用いて、2つの実験系s,tの間における相関係数r(s,t)を、回帰分析を用いて算出する。この点の詳細については後述する。
したがって、本実施の形態における解析システム10bでも、解析システム10aと同様、図1の実線の矢印で示すように、解析用変量が出力される。
つまり、画像読取部11から得られた解析用変量が、バックグラウンド補正部22に出力されてバックグラウンド補正がなされ、次に、変量分類部31に出力されて分類され、次に、補正変量算出部32に出力されて補正変量が算出される。その後さらに、補正変量が相関変量抽出部41に出力されて相関変量が抽出され、次に、相関変量選抜部42に出力されて選抜規定を満たす相関変量が選抜され、次に、相関係数算出部43に出力されて相関係数が算出される。
そして、変量解析部23では、補正変量算出部32から出力される補正変量と、相関係数算出部43から算出される相関係数とを用いて多変量解析を実施し、解析結果を、表示部13および/または画像解析部14に出力することになる。
上記相関変量抽出部41、相関変量選抜部42、相関係数算出部43の具体的な構成は特に限定されるものではなく、前記参考例で述べたように、制御部21等と同じく従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態3で説明するように、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32を含む上記各手段の2つ以上が1つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置(CPU)としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。
次に、本実施の形態における上記解析システム10bの具体的な動作、すなわち本実施の形態における網羅的発現プロファイル解析方法について、図5のフローチャートおよび図6の相関係数算出チャートに基づいて説明する。
まず、S201〜S207は、前段階も含めて、前記参考例におけるS11〜S17と同様であるため、その説明は省略する。すなわち、網羅的発現プロファイル実験を実施してから補正変量を算出するまでは前記参考例と同様のステップを実施する。
次に、S208として、上記相関変量抽出部41により、同一の遺伝子より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する(相関変量抽出ステップ)。
このS208では、前述したように、任意の2つの実験系s,tにおいて、算出されたそれぞれの補正変量の集合から相関変量(Fis・Fit)を抽出する。得られる全相関変量は(Fis・Fiti=1,…,Nとなる。
次に、S209として、上記相関変量選抜部42により、実験誤差に基づいて実験系毎に選抜基準値αを設定する。具体的には、実験誤差に基づいて、実験系s,tのそれぞれに対して選抜基準値αsおよびαtを定義する。なお、αs>1、αt>1である。
次に、S210として、上記相関変量選抜部42により、上記相関変量から、該選抜基準値αに基づく選抜規定を満たす相関変量を実験系毎に選抜する(相関変量選抜ステップ)。具体的には、例えば、選抜規定として、次の2つの規定I・IIを規定し、これら選抜規定の双方を満たす相関変量を選抜する。
規定I:Fis>αs、またはFis<−αs
規定II:Fit>αt、またはFit<−αt
つまり、S209では、上記選抜基準値αとして、1以上の絶対値が設定されるとともに、S210では、選抜規定として、2つの実験系に所属する相関変量が、正の選抜基準値を超えるか、または負の選抜基準値未満の範囲内に存在する規定が設定され、これに基づいて相関変量が選抜される。
なお、選抜された上記相関変量は、次に示す行列(3)で表すことができる。このとき、選抜された上記相関変量は、I=1,2,...,N(s,t)として、(FIs・FIt)と表すものとする。
Figure 0004255970
次に、S211として、上記相関係数算出部43では、相関変量を用いて、2つの実験系の間における相関係数を算出する(相関係数算出ステップ)。本実施の形態では、選抜された上記相関変量を用いて、2つの実験系の間における相関係数を算出する。
具体的には、上記S210で得られた行列(3)に基づいて実験系s,tの相関係数r(s,t)を、次式(4)に示す回帰分析を用いて算出する。
Figure 0004255970
ここで、上記式(4)におけるcov(s,t)は、次式(5)に示す実験系s,tに所属する全補正変量についての共分散であり、var(s)は、次式(6)に示す実験系sに所属する全補正変量についての分散であり、var(t)は、次式(7)に示す実験系tに所属する全補正変量についての分散である。
Figure 0004255970
さらに、上記式(5)〜(7)におけるAv(s)およびAv(t)は、それぞれ次式(8)および(9)に示すように、実験系sおよび実験系tに所属する全補正変量についての平均値である。
Figure 0004255970
その後、S212として、S207で得られた補正変量およびS211で得られた相関係数を用いて変量解析部23により解析することで、網羅的発現プロファイル解析が実施され(多変量解析ステップ)、S213として、表示部13や画像形成部14により解析結果が出力される。(解析結果出力ステップ)。
このように、本実施の形態にかかる解析システム10bには、上記相関変量抽出部41・相関変量選抜部42・相関係数算出部43が設けられている。そのため、上記S208〜S211で相関係数r(s,t)を算出してこれを多変量解析に用いることができる。その結果、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性をより一層向上させることができる。
なお、以上説明した本実施の形態における解析システム10bは、前記参考例と同様に、以上説明したS201〜S213までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。
また、本実施の形態では、前記参考例における偏り誤差を除去する構成・方法を組み合わせて用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、偏り誤差が無視できるのであれば、解析システム10bには、変量分類部31・補正変量算出部32は備えられていなくても良く、本発明にかかる解析方法では、S204〜S207までのステップは実施されなくても良い。
〔実施の形態2〕
本発明における第2の実施の形態について図7ないし図9に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例または実施の形態1で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記実施の形態1では、上記補正変量を用いた解析に際して、個々の要素すなわち各遺伝子の間の相関関係を算出して解析に利用する例を挙げたが、この相関関係の算出は、前記実施の形態1で示したような相関係数に限定されるものではない。本実施の形態では、相関関係を算出する他の例として、重みつき相関係数(加重相関係数)を算出する場合について説明する。
具体的には、本実施の形態にかかる解析システム10cは、図7に示すように、前記実施の形態1における解析システム10bと同様、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32、および相関変量抽出部41を備えているが、さらに、前記相関変量選抜部42および相関係数算出部43に代えて、相関因子設定部44および加重相関係数算出部45とを備えている。
上記画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32、および相関変量抽出部41については、前記参考例または実施の形態1と同様であるのでその説明を省略する。
上記相関因子設定部44は、実験誤差に基づいて実験系毎に因子基準値βを設定し、該因子基準値βに基づく規定を用いて、2つの実験系の間における相関因子を遺伝子(要素)毎に設定する。
上記因子基準値βは、実験系毎の相対値の標準偏差に基づいて設定されるものであり、例えば、本実施の形態では、前記実施の形態1における選抜基準値αをそのまま用いることができる。それゆえ、前記得られた相関変量(Fis・Fiti=1,…,Nを要因として、上記因子基準値βに基づいて、該要因から因子規定に合致する相関変量から相関因子wi(s,t)を設定して利用することで、実験系sと実験系tとの間における相関係数をより的確に算出することができる。
上記加重相関係数算出部45は、補正変量と上記相関因子とを用いて、該相関因子により重みのついた、2つの実験系s,tの間における重みつき相関係数(加重相関係数)wr(s,t)を算出する。なお、本実施の形態では、相関変量から相関因子を設定して利用するため、上記加重相関係数算出部45は、基本的には、相関変量を用いて2つの実験系の間における相関係数を算出する相関係数算出手段に含まれる。
具体的には、設定された上記相関因子wi(s,t)を用いて、2つの実験系s,tの間における加重相関係数wr(s,t)を、因子分析を用いて算出する。この点の詳細については後述する。
したがって、本実施の形態における解析システム10cでも、前記実施の形態1における解析システム10bと同様、図1の実線の矢印で示すように、解析用変量が出力される。
つまり、画像読取部11から得られた解析用変量が相関変量抽出部41に出力されて相関変量が抽出されるまでは前記実施の形態1と同様であり、さらにその後、相関因子設定部44に出力されて因子規定を満たす相関因子が設定され、次に、加重相関係数算出部45に出力されて加重相関係数が算出される。そして、変量解析部23では、補正変量算出部32から出力される補正変量と、加重相関係数算出部45から算出される加重相関係数とを用いて多変量解析を実施し、解析結果を、表示部13および/または画像解析部14に出力することになる。
上記相関因子設定部44、加重相関係数算出部45の具体的な構成は特に限定されるものではなく、前記参考例または実施の形態1で述べたように、制御部21等と同じく従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態3で説明するように、制御部21等を含む上記各手段の2つ以上が1つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置(CPU)としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。
次に、本実施の形態における上記解析システム10cの具体的な動作、すなわち本実施の形態における網羅的発現プロファイル解析方法について、図8のフローチャートおよび図9の相関係数算出チャートに基づいて説明する。
まず、S301〜S308は、前段階も含めて、前記実施の形態1におけるS201〜S208と同様であるため、その説明は省略する。すなわち、網羅的発現プロファイル実験を実施してから補正変量を算出し、相関変量を抽出するまでは前記実施の形態1と同様のステップを実施する。
次に、S309として、上記相関因子設定部44により、実験誤差に基づいて実験系毎に因子基準値βを設定する。具体的には、本実施の形態では、前記実施の形態1と同じく実験誤差に基づいて、実験系s,tのそれぞれに対して選抜基準値と同じ因子基準値βs=αsおよびβt=αtを定義する(αs>1、αt>1)。
次に、S310として、上記相関因子設定部44により、上記相関変量を要因として、上記因子基準値βに基づく因子規定を満たす相関変量から相関因子を設定する(相関因子設定ステップ)。
具体的には、例えば、因子規定として、次の2つの規定III・IVを規定し、i番目の遺伝子における相関変量(Fis・Fit)がこれら因子規定の双方を満たすときには、i番目の遺伝子における相関因子をwi(s、t)=1と設定し、双方を満たさないときには、i番目の遺伝子における相関因子をwi(s、t)=0と設定する。
規定III:Fis>αs、またはFis<−αs
規定IV:Fit>αt、またはFit<−αt
つまり、S310では、因子規定として、2つの実験系に所属する相関変量が、因子基準値を超える範囲か、または負の因子基準値未満の範囲に存在する規定が設定され、これに基づいて相関因子が設定される。
次に、S311として、上記加重相関係数算出部45では、上記相関因子を用いて、2つの実験系の間における加重相関係数を算出する(相関係数算出ステップ)。
具体的には、上記S310で得られた相関因子wi(s、t)により重みのついた相関係数wr(s,t)を、次式(10)に示す因子分析を用いて算出する。
Figure 0004255970
ここで、上記式(10)におけるwcov(s,t)は、次式(11)に示す実験系s,tに所属する全補正変量についての重みつき共分散であり、wvar(s)は、次式(12)に示す実験系sに所属する全補正変量についての重みつき分散であり、wvar(t)は、次式(13)に示す実験系tに所属する全補正変量についての重みつき分散である。
Figure 0004255970
さらに、上記式(11)〜(13)におけるWav(s)およびWav(t)は、それぞれ次式(14)および(15)に示す、実験系sおよび実験系tに所属する全補正変量についての重みつき平均値である。
Figure 0004255970
その後、S312として、S307で得られた補正変量およびS311で得られた加重相関係数を用いて変量解析部23により解析することで、網羅的発現プロファイル解析が実施され(多変量解析ステップ)、S313として、表示部13や画像形成部14により解析結果が出力される。(解析結果出力ステップ)。
このように、本実施の形態にかかる解析システム10cには、上記相関変量抽出部41・相関因子設定部44・加重相関係数算出部45が設けられている。そのため、上記S308〜S311で加重相関係数wr(s,t)を算出して多変量解析に用いることができる。その結果、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性をより一層向上させることができる。
なお、以上説明した本実施の形態における解析システム10cは、前記参考例または実施の形態1と同様に、以上説明したS301〜S313までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。
また、本実施の形態では、前記実施の形態1と同様、前記参考例における偏り誤差を除去する構成・方法を組み合わせて用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、偏り誤差が無視できるのであれば、解析システム10cには、変量分類部31・補正変量算出部32は備えられていなくても良く、本発明にかかる解析方法では、S304〜S307までのステップは実施されなくても良い。
〔実施の形態3〕
本発明における第3の実施の形態について図10および図11に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態1または2で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例、実施の形態1または2では、解析システム10a・10b・10cを構成する各手段がそれぞれ独立した構成となっていたが、本発明はこれに限定されるものではなく、上記各手段の少なくとも2つ以上を一つの装置として一体化してなる構成であってもよい。
具体的には、例えば、図10に示すように、本実施の形態における解析システム10dは、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、および解析装置20からなる構成であってもよい。
上記解析装置20は、実施の形態1における解析システム10bに備えられている制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32、相関変量抽出部41、相関変量選抜部42、および相関係数算出部43を一つの装置として一体化してなる構成を有している。もちろん、実施の形態2と同様に、相関変量選抜部42および相関係数算出部43に代えて、相関因子設定部44および加重相関係数算出部45を備えていても良い。特に、プログラムにより本発明にかかる解析方法をコンピュータで実行させる場合には、コンピュータそのものが上記解析装置20に対応し得る。
また、上記記憶部15は、解析装置20と一体化されていてもよいが、解析装置20とは別体となっている外部記憶装置となっていてもよく、さらには、一体化された記憶部15と外部記憶装置とが両方とも備えられている構成であってもよい。例えば、一体化した記憶部15としては、内臓型のハードディスクや解析装置20に組み込まれたフロッピーディスクドライブ、CD−ROMドライブ、DVD−ROMドライブ等が挙げられ、外部記憶装置としては、外付けハードディスクや外付け型の上記各種ディスクドライブ等が挙げられる。
さらに、画像読取部11、入力部12、表示部13、および画像形成部14の少なくとも一つが、上記解析装置20に一体化されていてもよい。
あるいは、機能的により連携している手段を一体化してもよい。例えば、図11(a)に示すように、補正変量を算出するための上記変量分類部31および補正変量算出部32を一体化して、変量分類機能および補正変量算出機能を有する変量補正部30としてもよい。
同様に、図11(b)に示すように、実施の形態1における相関変量抽出部41、相関変量選抜部42、および相関係数算出部43を一体化して、相関変量抽出機能、相関変量選抜機能、および相関係数算出機能を有する相関係数生成部40aとしてもよいし、図11(c)に示すように、実施の形態2における相関変量抽出部41、相関因子設定部44、および加重相関係数算出部45を一体化して、相関変量抽出機能、相関因子設定機能、および加重相関係数算出機能を有する相関係数生成部40bとしてもよい。
このように、本発明にかかる解析システムでは、該システムを構成する各手段のうちの少なくとも一つ、好ましくは、解析用変量の処理に関わる手段を一体化しておくことで、システム構成を簡素化することができる。それゆえ、例えば設置場所を小さくして使用時の省スペース化を図ることが可能となる。また、入力部12を、解析装置20の操作に特化させた構成で一体化させることで、本発明にかかる解析システムの操作の煩雑化を回避することも可能となる。
〔実施の形態4〕
本発明における第4の実施の形態について図12および図13に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態1〜3の何れかで用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例、実施の形態1〜3では、マイクロアレイを用いた網羅的発現プロファイル実験を例に挙げて説明したが、本発明はこれに限定されるものではなく、マクロアレイやディファレンシャルディスプレイ等の他の発現プロファイル実験を実施した場合でも、本発明にかかる解析システムまたは解析方法を好適に用いることができる。
例えば、図12に示すように、マクロアレイを用いた実験で得られるイメージングフィルター52から遺伝子の発現量を信号強度として検出し、これを解析用変量として用いることで、多変量解析が可能となる。
マクロアレイは、スライドガラス等を用いた前記マイクロアレイとは異なり、ナイロンメンブレン等の一般的なメンブレンフィルターの表面にDNAをスポットして作製される。マクロアレイの利点としては、公知のブロット法に準じた方法で、ゲノムワイドで発現プロファイル解析を実施することができることや、スポットしたDNAをアルカリ変性処理してメンブレンフィルターに固定するため、マイクロアレイのようにハイブリダイゼーション中や洗浄中にDNAが剥離することがないこと等が挙げられる。それゆえ、マクロアレイとマイクロアレイとは、用途に応じて使い分けることが可能である。
上記マクロアレイを用いたアッセイは、基本的に前記マイクロアレイと同様である。具体的には、まず、マクロアレイに、33P等のアイソトープで標的したターゲットをハイブリダイズさせる。そして、結合していないターゲットの分子を洗浄して除去し、結合したターゲットの分子のみをマクロアレイ上に残存させる。ここで、結合しているターゲットの分子は上記アイソトープで標識されているため、マイクロアレイとは異なり、スポットをイメージングプレート52へ露光させ、このイメージングプレート52からターゲットの発現量を信号強度として測定する。
このように、マクロアレイによるアッセイは、基本的にマイクロアレイと同様であり、マイクロアレイと同様の網羅的発現プロファイル実験が実施可能である。そのため、例えば図12に示すように、画像読取部11としてイメージングプレート52から信号強度を検出できる構成のものを用いるのみで、前記参考例、実施の形態1〜3における解析システム10a〜10dをそのまま用いることができる。
さらに、画像読取部11として、マイクロアレイからもイメージングプレート52からも信号強度を読み取ることができる構成のものを用いてもよい。なお、図12では、本発明の一例として解析システム10b(および実施の形態1の解析方法)を例に挙げているがもちろんこれに限定されるものではない。
また、図13に示すように、ディファレンシャルディスプレイから遺伝子の発現量を信号強度として検出し、これを解析用変量として用いてもよい。
ディファレンシャルディスプレイは、異なる条件下にある細胞における遺伝子の発現量の差をゲル上のバンドプロファイルの差として検出し、その遺伝子を回収、同定する技術である。ディファレンシャルディスプレイは、全mRNAを網羅的に解析する手法ではないが、同一のmRNAで、網羅的に多数の試料を同時に比較できるという利点がある。
上記ディファレンシャルディスプレイによるアッセイを、例えば蛍光ディファレンシャルディスプレイを例に挙げて説明する。まず、全RNAから蛍光アンカープライマーを用いた逆転写で第一鎖DNAを合成し、これを鋳型として、任意プライマーと蛍光アンカープライマーとを用いてPCRを実施して、複数のcDNA断片を増幅してなるPCR産物を得る。そして、例えば無蛍光ガラス製のゲル板を用いて変性ポリアクリルアミドゲルを作製し、このPCR産物を変性ポリアクリルアミドゲルで分離後、ゲル板から蛍光イメージを信号強度として測定する。
このように、ディファレンシャルディスプレイによるアッセイも、マイクロアレイと同様の発現プロファイル実験が実施可能である。そのため、例えば図13に示すように、画像読取部11として、電気泳動後のポリアクリルアミドゲルのゲル板53から信号強度を検出できる構成のものを用いるのみで、前記参考例、実施の形態1〜3における解析システム10a〜10dをそのまま用いることができる。
さらに、画像読取部11として、マイクロアレイ、イメージングプレート52、およびゲル板53の何れからも信号強度を読み取ることができる構成のものを用いてもよい。なお、図13では、本発明の一例として解析システム10c(および実施の形態2の解析方法)を例に挙げているがもちろんこれに限定されるものではない。
このように、本発明では、解析用変量を得るための実験としては、マイクロアレイに限定されるものではなく、マクロアレイやディファレンシャルディスプレイといった、遺伝子の発現量を信号強度として読み取ることができる各種実験方法を好適に用いることができる。
また、本発明にかかる解析システムまたは解析方法は、上記(網羅的)発現プロファイル実験により得られる多変量を解析する用途に限定されるものではなく、前述したように、log(Yik/Zik)の形式の多変量で記述された大量の標本からなるデータセットに対しても適用することができる。
〔実施の形態5〕
本発明における第5の実施の形態について図14に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態1〜4の何れかで用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例、実施の形態1〜4では、解析用変量(信号強度)や解析結果等の各種情報は、一つの解析システム(または一つの装置)内でのみ入出力されていたが、本発明はこれに限定されるものではなく、インターネットを含む通信ネットワークを介して各種情報が入出力されるようになっていてもよい。
例えば、図14に示すように、本実施の形態では、本発明にかかる解析システム10が、通信インターフェース16を備えており、通信ネットワークに接続して各種情報の送受信が可能になっている。図14では、同一構内にある解析システム10、パーソナルコンピュータ(PC)60aおよび60b、並びにサーバ63が通信回線64に接続されてバス型のLAN(ローカルエリアネットワーク)を構成しており、さらにこのLANがインターネットを介して、他地域にあるPC60cとも接続されている。
上記解析システム10としては、本発明に含まれる構成となっていれば全く限定されるものではなく、例えば、前記参考例、実施の形態1〜4で述べた各種解析システム10a〜dを好適に用いることができる。上記通信インターフェース16の具体的な構成についても、特に限定されるものではなく、公知のLANカード、LANボード、LANアダプタや、モデム等を好適に用いることができる。
上記PC60a〜60cについては、モデム等の通信手段を備えた公知のパーソナルコンピュータを好適に用いることができ、デスクトップ型やノート型等に限定されるものではない。なお、PC60a〜60cは、CRTディスプレイや液晶ディスプレイ等の表示部とキーボードやマウス等の入力部を備えた基本構成となっているものとする。なお、説明の便宜上、PC60a〜60cに備えられている図示しない表示部や入力部をPC表示部・PC入力部と表現する。
上記PC60a〜60cのうち、PC60bにはスキャナ61が備えられており、PC60cには、スキャナ61に加えてプリンタ62も備えられているとする。もちろん、PC60a〜60cが備える外付けハードウェアは、一般的なパーソナルコンピュータに外付けできるものであれば特に限定されるものではなく、上記PC60a〜60cの区分けは、本実施の形態を説明するための便宜上のものである。
上記サーバ63の具体的構成も特に限定されるものではなく、LANを構成するクライアントである、PC60a〜60c、解析システム10に対してサービスを提供できるコンピュータであればよい。さらには、このサーバ63は、データベースサーバやファイルサーバを兼ねていてもよい。
上記通信回線64の具体的構成も特に限定されるものではなく、従来公知の一般的な通信回線を用いることができる。また、この通信回線64を用いて構築されるLANの型式もバス型に限定されるものではなく、スター型やリング型等、従来公知の型式であればよい。
さらに図示しないが、上記LANには、共用のプリンタ等、他の端末が含まれていても良い。加えて図示しないが、上記LANを含む図14に示す通信ネットワークには、通信可能な携帯型の各種端末等が含まれていても良い。
上記構成のネットワークでは、例えば、解析システム10で、前記参考例、実施の形態1〜4で説明したような発現プロファイル解析を実施した後、その解析結果を単に解析システム10内(すなわち図1における表示部13や画像形成部14等)で出力するだけでなく、LANを介してPC60a〜60cに送信することもできる。PC60a〜60cでは、解析システム10から得られた結果を、PC表示部で表示したり、プリンタ62で印刷したりすることができ、さらにはPC入力部からの入力によって、解析結果を加工することもできる。
つまり本実施の形態では、上記通信インターフェース16は、通信手段としてだけでなく、解析システム10の入力手段としても機能することになる。
また、例えばPC60bやPC60cの場合、スキャナ61を備えているため、このスキャナ61が、マイクロアレイ等から画像データを読み取ることができるものであれば、解析用変量としての信号強度を、解析システム10外部から入力することもできる。そして、解析システム10で多変量解析を実施し、その解析結果をPC60bやPC60cに返送する。
特に、上記PC60cのように、インターネットを介して、解析システム10の所在する場所から離れた遠隔地で、解析用変量を送信したり解析結果を受信したりする場合には、任意の顧客に対して発現プロファイル解析を提供する解析サービスを行うことが可能となる。
また、上記PC60a・60bのように、LANを介して解析システム10とつながっている場合には、例えば研究施設や医療施設等に一つ解析システム10があれば、他の研究者や医療従事者はPC60a・60b等の情報端末を介して解析システム10を共用することができる。それゆえ、本発明にかかる解析システム10をより効率的に使用することができる。
さらに、上記サーバ63がデータベースサーバやファイルサーバを兼ねている場合には、通信ネットワークを介して解析された発現プロファイル解析の解析結果を、通信ネットワークを介してサーバ63に蓄積していくことができる。その結果、解析結果をより一層有効利用することが可能となる。
加えて、本発明には、本発明にかかる解析方法を、コンピュータ上でプログラムにより実施することが可能となっているが、このプログラムを記録する記録媒体には、通信ネットワークからダウンロードするように流動的にプログラムを担持する媒体も含まれる。例えば、サーバ63の記録手段に解析方法のプログラムが記録されていれば、解析システム10は、サーバ63から適宜、解析方法のプログラムをダウンロードして使用するようになっていてもよい。ただし、解析システム10が通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは、予め解析システム10本体に格納しておくか、別の記録媒体からインストールされるようになっている。
さらに、PC60cのように、スキャナ61やプリンタ62を備えているコンピュータが、通信ネットワークを介してサーバ63に接続されている場合には、サーバ63から解析方法のプログラムをダウンロードすることで、PC60cそのものを本発明にかかる解析システムとして用いることができる。ただし、この場合、PC60cが備えている上記スキャナ61やプリンタ62は、発現プロファイル解析に好適な構成となっている。
このように、本発明にかかる解析システム、解析方法、プログラムおよびこれを記録する記録媒体は、通信ネットワーク技術にも適用可能となっている。そのため、さまざまな解析対象の遺伝子を、効率的かつグローバルに解析し、しかも得られた解析結果も効率的かつグローバルに利用することができる。
なお、本発明は、上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれることはいうまでもない。
以下、実施例および図15ないし図19に基づいて本発明をより具体的に説明するが、本発明はこれらに限定されるものではない。なお、以下の実施例では、ターゲットDNAを大腸菌野生株(Escherichia coli K12)から調製し、発現プロファイル実験には、上記大腸菌野生株のゲノムにおける全てのタンパク質コード領域がスポットされているマイクロアレイを用いた。ターゲットDNAの調製法およびマイクロアレイの作製法について、先に説明する。
〔ターゲットDNAの調製例1〕
LB培地200mlで培養し、対数増殖期における培養液から遠心分離して得られた大腸菌のペレットから、Qiagen社製RneasyRMaxiキットを用いてmRNAを抽出した。抽出したmRNA30μgから、XL life science社製AMV XLリバーストランスクリプテースキットを用いてCy3またはCy5で蛍光標識されたcDNAをそれぞれ得た。得られたこれら2種類の蛍光標識cDNAをターゲットDNAとして用いた。なお、Cy3で標識されたcDNAを、以下、Cy3ターゲットと称し、Cy5で標識されたcDNAを、以下、Cy5ターゲットと称する。
〔マイクロアレイ〕
タカラ社製のカスタムマイクロアレイを用いた。DNAフラグメントは、Archive cloneよりPCR増幅して作製した。
〔実施例1〕
本実施例では、前記参考例で説明した解析システム10aを用いた。具体的には、富士通製パーソナルコンピュータを用いて、参考例で説明した解析方法をプログラムにより実行させることで、本発明にかかる解析システム10aを実現した。
まず、前記調整例1で得られたCy3ターゲットおよびCy5ターゲットを前記作製例で得られたマイクロアレイにハイブリダイズさせた。そして、Genetic MicroSystems社製DNAマイクロアレイ用スキャナー(画像読取部11に対応)を用いて、上記マイクロアレイから、mRNA量をCy3およびCy5の蛍光強度として測定(検出)し、この蛍光強度を、遺伝子の発現量のデータとなる信号強度(解析用変量)として解析システムに入力した(解析用変量入力ステップ、S11・S12)。
次に、バックグラウンド補正部22により、バックグラウンド補正を実施した(バックグラウンド補正ステップ・S13)。なお、i番目の遺伝子において、検出されたCy3およびCy5の蛍光号強度を、それぞれS(Cy3) iおよびS(Cy5) iとし、バックグラウンドとなる蛍光強度を、それぞれB(Cy3) iおよびB(Cy5) iとすると、バックグラウンド補正がなされた第1データ(Cy3の蛍光)の蛍光強度f(Cy3) i、および第2データ(Cy5の蛍光)の蛍光強度f(Cy5) i は、それぞれ次式(16)・(17)で表すものとする。
(Cy3) i=S(Cy3) i−B(Cy3) i ・・・(16)
(Cy5) i=S(Cy5) i−B(Cy5) i ・・・(17)
また、DNAと無関係なヒトベータアクチンをネガティブコントロール(以下、ネガコンと略す)として、Cy3およびCy5の蛍光強度の検出限界を、ネガコンの平均値+標準偏差の条件により決定した。なお、Cy3またはCy5の蛍光の蛍光強度における検出限界を、それぞれS(NCy3)およびS(NCy5)とする。
具体的には、Cy3およびCy5の蛍光の蛍光強度のネガコンの個数を、それぞれNC1およびNC2とした場合、ネガコンに対するCy3およびCy5の蛍光の蛍光強度を、それぞれf(NCy3) 1,f(NCy3) 2,...,f(NCy3) NC1およびf(NCy5) 1,f(NCy5) 2,...,f(NCy5) NC2とする。このとき、ネガコンの蛍光強度の平均Av[f(NCy3)]およびAv[f(NCy5)]は、それぞれ次式(18)・(19)で表され、標準偏差SD[f(NCy3)]およびSD[f(NCy5)]は、それぞれ次式(20)・(21)で表される。
Figure 0004255970
それゆえ、上記検出限界S(NCy3)およびS(NCy5)は、それぞれ次式(22)および(23)に示すように、ネガコンの蛍光強度の平均および標準偏差の和として表される。
(NCy3)=Av[f(NCy3)]+SD[f(NCy3)] ・・・(22)
(NCy5)=Av[f(NCy5)]+SD[f(NCy5)] ・・・(23)
本実施例では、ネガコンとして、Cnt90ヒトベータアクチン(Cnt09 Human Beta-actin 90000)を用いた。このとき、ネガコンに対するCy3およびCy5の蛍光の蛍光強度がそれぞれf(NCy3)<0およびf(NCy5)<0となるスポットを除くと、ネガコンの蛍光強度の平均は、それぞれAv[f(NCy3)]=91.2,Av[f(NCy5)]=27.1となり、標準偏差は、それぞれSD[f(NCy3)]=72.5,SD[f(NCy5)]=22.6となったので、上記式(22)および(23)より、検出限界は、それぞれS(NCy3)=163.7,S(NCy5)=49.7となった。
次に、変量分類部31により、上記蛍光強度の検出限界を分類基準値として用いて、上記第1データおよび第2データの組み合わせからなる解析用変量を分類した(変量分類ステップ・S14)。具体的には、前記参考例で説明したように、以下に示すクラス1・2Aおよび2B・3に分類した。
クラス1 :f(Cy3) i >S(NCy3)かつf(Cy5) i>S(NCy5)
クラス2A:f(Cy3) i <S(NCy3)かつf(Cy5) i>S(NCy5)
クラス2B:f(Cy3) i >S(NCy3)かつf(Cy5) i <S(NCy5)
クラス3 :f(Cy3) i <S(NCy3)かつf(Cy5) i<S(NCy5)
次に、補正変量算出部32により、変量分類部31で分類された解析用変量のうち、高信頼性変量を構成する第1データおよび第2データの対数比を算出した(対数比算出ステップ・S15)。
具体的には、上記各クラスに属するサンプルのうち、クラス1に属するサンプルのみがCy3およびCy5の蛍光の蛍光強度を比較することができる。それゆえ、上記クラス1に分類されたデータを高信頼性変量として用いる。なお、クラス2Aおよび2Bについては、一方の蛍光強度(f(Cy3) i <S(NCy3)またはf(Cy5) i <S(NCy5))が0と見なされるため、Cy3およびCy5の蛍光の蛍光強度を比較することはできないが、2つの条件の間に有意な差があることを示しており、本実施例においては参考データとなり得る。
そして、次式(24)および(25)に示すように、上記クラス1に属する各蛍光強度から、ネガコンの蛍光強度の平均を引くことで、ゼロ点補正を実施した。
f’(Cy3) i=f(Cy3) i−Av[f(NCy3) i] ・・・(24)
f’(Cy5) i=f(Cy5) i−Av[f(NCy5) i] ・・・(25)
その後、ゼロ点補正を実施した上記各蛍光強度f’(Cy3) iおよびf’(Cy5) iの対数比log(f’(Cy3) i/f’(Cy5) i)を、i番目の遺伝子の相対発現量として算出した。
なお、log(f’(Cy3) i)およびlog(f’(Cy5) i)におけるマイクロアレイ上でのスポットの分布を、図15(a)および(b)それぞれに示す。なお、図15(a)・(b)では、縦軸がスポット数(The number of spots)を示し、横軸がi番目の遺伝子における発現量の対数(log(f’)と略して表記する)を示す。
次に、同じく補正変量算出部32により、全ての対数比log(f’(Cy3) i/f’(Cy5) i)に対する補正項REFi=1,2,…,N [log(f’(Cy3) i/f’(Cy5) i)]を算出した(補正項算出ステップ・S16)。具体的には、上記補正項REFi=1,2,…,N[log(f’(Cy3) i /f’(Cy5) i)]として、次式(26)で示す相対平均値Av[log(f’(Cy3) /f’(Cy5))]を用いた。
Figure 0004255970
次に、同じく補正変量算出部32により、上記対数比log(f’(Cy3) i/f’(Cy5) i)と相対平均値(補正項)Av[log(f’(Cy3) /f’(Cy5))]との差を、次式(27)で示すように、補正変量Fiとして算出した(補正変量算出ステップ・S17)。
i=log(f’(Cy3) i/f’(Cy5) i)−Av[log(f’(Cy3) /f’(Cy5))] ・・・(27)
上記補正変量Fiによるマイクロアレイ上でのスポットの分布を図16に示す。なお、図16では、縦軸がマイクロアレイ上でのスポット数であり、横軸が補正変量Fiである。また、Av(Error)は、平均誤差を示す。
i番目の遺伝子が全く同一の条件で発現する理想的な場合では、Cy3およびCy5のそれぞれの蛍光強度に偏りがなく、f’(Cy3) i/f’(Cy5) i=1となり、log(f’(Cy3) i/f’(Cy5) i)=0となる。しかしながら、図15(a)および(b)の結果から明らかなように、蛍光の蛍光強度はおおまかにlog-正規分布を示していることがわかり、さらに、図15(a)および(b)の比較から明らかなように、同一のサンプルにおいても、それぞれのスポットの蛍光における蛍光強度に偏りが生じることがわかる。それゆえ、Cy3およびCy5のそれぞれの蛍光強度に偏りがあることは明らかである。
そこで、本発明にかかる解析方法を用いることで補正変量Fiを得ると、図16に示す結果が得られる。この結果から明らかなように、本発明では、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
また、参考例の解析方法で補正した場合の相対蛍光強度の平均誤差は0.193であった(図16参照)のに対して、補正せずに偏りを除去しなかった場合の相対蛍光強度の平均誤差は0.235であり、補正を実施したことで平均誤差は有意に小さくなっている。それゆえ、参考例における解析システムおよび解析方法が有効であることがわかる。
〔ターゲットDNAの調製例2〕
前記調製例1において、mRNAを抽出する対象として、大腸菌野生株に加えて、表1に示す特定の遺伝子を破壊した変異株を用いた以外は同様にしてmRNAを抽出した。その後、調製例1と同様にして、野生株由来のmRNAからCy3で蛍光標識したcDNAを、変異株由来のmRNAからCy5で蛍光標識したcDNAを得て、これらをターゲットDNAとして用いた。
Figure 0004255970
〔実施例2〕
本実施例では、前記実施の形態1で説明した解析システム10bを用いた。具体的には、富士通社製パーソナルコンピュータを用いて、実施の形態1で説明した解析方法をプログラムにより実行させることで、本発明にかかる解析システム10bを実現した。
まず、前記調整例2で得られたCy3ターゲットおよびCy5ターゲットを作成例で得られたマイクロアレイにハイブリダイズさせた。そして、Genetic MicroSystems社製DNAマイクロアレイ用スキャナー(画像読取部11に対応)を用いて、上記マイクロアレイから、mRNA量をCy3およびCy5の蛍光強度として測定(検出)し、前記実施の形態1と同様にしてS201〜S207の補正を実施した。
次に、相関変量抽出部41により相関変量(Fis・Fiti=1,…,Nを抽出し(相関変量抽出ステップ・S208)、相関変量選抜部42により、実験誤差に基づいて実験系毎に選抜基準値α=log(1.1),log(1.2),log(1.3),log(1.4),log(1.5)を設定した(S209)。次に、上記相関変量選抜部42により、上記相関変量から、該選抜基準値αに基づく選抜規定(前記実施の形態1における規定IおよびII)を満たす相関変量を実験系毎に選抜した(相関変量選抜ステップ・S210)。次に、相関係数算出部43で、相関変量を用いて、2つの実験系の間における相関係数を回帰分析により算出した(相関係数算出ステップ・S211)。
得られた相関係数の例を図17(a)〜(o)、図18(a)〜(j)、図19(a)〜(o)に示す。なお、図17〜19に示す棒グラフでは、欄外の下に相関係数を算出する対象となっている実験(s、t)のペアを、表1の実験番号を用いてハイフンでつないだ「s−t」として表している。例えば図17の実験ペア24−37は、表1における実験24(baeSR遺伝子を破壊した変異株を使用)と実験37(kdpABCDE遺伝子を破壊した変異株を使用)との相関係数を示すものである。
また、図17〜19における各棒グラフは、図中左から、選抜基準値αを設定しなかったとき(全体のデータに対する)、α=log(1.1)を設定したとき、α=log(1.2)を設定したとき、α=log(1.3)を設定したとき、α=log(1.4)を設定したとき、α=log(1.5)を設定したときの相関係数を示す。また、縦軸は相関係数の数値を示し、上側がプラス、下側がマイナスで、何れも最大値は1(絶対値)である。
図17(a)〜(o)は、α=log(1.5)と設定したときに、最小の相関係数を得た15組の実験ペアを示している。この結果から、負の相関関係を有する実験ペアでは、α=log(1.5)と設定した際に、最小の負の相関係数を示すことがわかる。
図18(a)〜(j)は、α=log(1.5)と設定したときに、相関関係がほとんど認められない10組の実験ペアを示している。この結果から、αを大きくすれば相関係数の絶対値は必ず大きくなるわけではないことが例証される。これは、本発明にかかる解析方法が2つの実験の間における相関を探索するために有効であることを意味する。
図19(a)〜(o)は、α=log(1.5)としたときに最大の相関係数を有する15組の実験ペアを示している。この結果から、相関係数はα=log(1.5)において最も大きくなっていることがわかる。
それゆえ、例えば、実施例1では、平均誤差0.193より大きな選抜基準値、すなわちα>log(1.3)となる選抜基準値αを設定したときに、原点付近に存在する実験間の値の関係を除去することが可能となる。その結果、2つの実験の間で良好な相関関係を得ることができる。
また、例えば、実験ペア26−28の相関関係としては、α=log(1.5)において、高い相関係数0.81が得られた。Two-Component Signal Transduction(James A.Hoch and Thomas J.Sihavy監修、American Society Microbiology、1995年発行)では、上記2つの実験26・28で破壊された、creABCD遺伝子およびphoBR遺伝子が、他の遺伝子の発現制御において類似の挙動を示すことを報告している。それゆえ、本発明は、マイクロアレイに代表されるように、非常に大多数の遺伝子の発現データが得られるものの誤差が比較的大きなデータを多数含む実験系を比較するために有効であるだけでなく、発現制御の観点から調節タンパク質の類似性を探索する目的にも有効に用いることができる。
本発明の多変量解析システムは、母集団を構成する複数の要素のそれぞれから、実験により、第1データとその対照である第2データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する多変量解析システムにおいて、上記解析用変量の変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値を分類基準値として用い、上記要素毎に複数得られた上記解析用変量を上記分類基準値に基づいて分類する変量分類手段と、該変量分類手段で分類された上記解析用変量のうち、信頼性の高い範囲に分類された高信頼性変量のみを用いて、該高信頼性変量を構成する第1データおよび第2データの対数比を算出するとともに、全ての高信頼性変量の対数比に対する補正項を算出し、さらに、上記対数比と補正項との差を補正変量として算出する補正変量算出手段とを備えていることが好ましい。
上記構成によれば、変量分類手段および補正変量算出手段により、母集団を構成する全体の要素の解析結果についての平均値によって解析結果を補正することができる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
本発明の多変量解析システムにおいては、上記の構成に加えて、上記変量分類手段による分類の前段で、分類前の全ての解析用変量に共通するバックグラウンド数値を除去するバックグラウンド補正手段を備えていることが好ましい。
上記構成によれば、バックグラウンド補正によって、読み取った発現量のデータに共通する上記バックグラウンド数値を除去するため、解析の精度をより向上させることができる。
本発明の多変量解析システムにおいては、上記の構成に加えて、上記補正項として、全ての高信頼性変量の対数比における相加平均値、相乗平均値、または中央値が用いられることが好ましい。
上記構成によれば、上記何れかの値を用いることで、より一層確実な補正を実施して、信頼性の高い補正変量を得ることができる。
本発明の発現プロファイル解析方法は、特定の生物のゲノムに含まれる全ての遺伝子またはその一部から、発現プロファイル実験によって各遺伝子の発現量を解析用変量として検出し、コンピュータを用いて多変量解析する発現プロファイル解析方法において、上記発現プロファイル実験として、特定条件下で実施される第1実験とその対照となる第2実験とが実施され、各実験から、上記各遺伝子の発現量が信号強度として検出される場合に、第1実験で得られた第1データと、第2実験で得られた第2データとを組み合わせて解析用変量として生成する変量生成ステップと、上記信号強度の検出限界を分類基準値として用い、該分類基準値に基づいて、生成された複数の上記解析用変量を分類する変量分類ステップと、分類された上記解析用変量のうち、信号強度の検出限界を超えるもののみを高信頼性変量として用い、該高信頼性変量を構成する第1データおよび第2データの対数比を算出する対数比算出ステップと、全ての高信頼性変量の対数比に対する補正項を算出する補正項算出ステップと、上記対数比と補正項との差を補正変量として算出する補正変量算出ステップとを含むことが好ましい。
上記方法によれば、変量分類ステップおよび補正変量算出ステップにより、母集団を構成する全体の要素の解析結果についての平均値によって解析結果を補正することができる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
本発明の発現プロファイル解析方法は、さらに、上記変量分類ステップの前段で、分類前の全ての解析用変量に共通するバックグラウンド数値を除去するバックグラウンド補正ステップを含むことが好ましい。
上記方法によれば、バックグラウンド補正ステップによって、読み取った発現量のデータに共通する上記バックグラウンド数値を除去するため、解析の精度をより向上させることができる。
本発明の発現プロファイル解析方法は、上記補正項算出ステップでは、補正項として、全ての高信頼性変量の対数比における相加平均値、相乗平均値、または中央値を算出することが好ましい。
上記方法によれば、補正項算出ステップで、上記何れかの値を用いれば、より一層確実な補正を実施して、信頼性の高い補正変量を得ることができる。
本発明における参考例の解析システムの構成を示すブロック図である。 本発明における参考例の解析方法の処理手順を示すフローチャートである。 図1に示す解析システムまたは図2に示す解析方法において、処理の進行に伴って、入力された解析用変量が変遷する経過を示す変量変遷チャートである。 本発明における第1の実施の形態にかかる解析システムの構成を示すブロック図である。 本発明における第1の実施の形態にかかる解析方法の処理手順を示すフローチャートである。 図4に示す解析システムまたは図5に示す解析方法において、相関係数が算出される際の経過を示す相関係数算出チャートである。 本発明における第2の実施の形態にかかる解析システムの構成を示すブロック図である。 本発明における第2の実施の形態にかかる解析方法の処理手順を示すフローチャートである。 図7に示す解析システムまたは図8に示す解析方法において、相関係数が算出される際の経過を示す相関係数算出チャートである。 本発明における第3の実施の形態にかかる解析システムの構成を示すブロック図である。 (a)は、第3の実施の形態にかかる他の構成である、変量補正部の構成を示すブロック図であり、(b)は、第3の実施の形態にかかる他の構成である、相関係数生成部の構成を示すブロック図であり、(c)は、第3の実施の形態にかかる他の構成である、相関係数生成部の他の構成を示すブロック図である。 本発明における第4の実施の形態にかかる解析システムの構成を示すブロック図である。 本発明における第4の実施の形態にかかる解析システムの他の構成を示すブロック図である。 本発明における第5の実施の形態にかかる解析システムの構成を示すブロック図である。 (a)・(b)は、本発明における参考例の解析方法を利用する対象となる、遺伝子の発現量のデータlog(f’(Cy3) i)およびlog(f’(Cy5) i)を用いた、マイクロアレイ上でのスポットの分布の結果を示すヒストグラムであり、(a)はCy3で標識した結果を、(b)はCy5で標識した結果を示す。 上記参考例の解析方法を利用して得られた補正変量Fiを用いた、マイクロアレイ上でのスポットの分布の結果を示すヒストグラムである。 (a)〜(o)は、上記第1の実施の形態にかかる解析方法を利用して得られた補正変量Fiを用いた、2つの実験の間における相関係数を示す比較棒グラフであり、α=log(1.5)としたとき、最小の相関係数が得られた15組の実験ペアを示す。 (a)〜(j)は、上記第1の実施の形態にかかる解析方法を利用して得られた補正変量Fiを用いた、2つの実験の間における相関係数を示す比較棒グラフであり、α=log(1.5)としたとき、相関係数が0に最も近い10組の実験ペアの一覧を示す。 (a)〜(o)は、上記第1の実施の形態にかかる解析方法を利用して得られた補正変量Fiを用いた、2つの実験の間における相関係数を示す比較棒グラフであり、α=log(1.5)としたとき、最大の相関係数が得られた15組の実験ペアの一覧を示す。
符号の説明
10 解析システム(多変量解析システム・発現プロファイル解析システム)
10a 解析システム(多変量解析システム・発現プロファイル解析システム)
10b 解析システム(多変量解析システム・発現プロファイル解析システム)
10c 解析システム(多変量解析システム・発現プロファイル解析システム)
10d 解析システム(多変量解析システム・発現プロファイル解析システム)
11 画像読取部(入力手段)
12 入力部(入力手段)
13 表示部(出力手段)
14 画像形成部(出力手段)
15 記憶部(記憶手段)
20 解析装置(一つの装置)
21 制御部(制御手段)
22 バックグラウンド補正部(バックグラウンド補正手段)
23 変量解析部(変量解析手段)
30 変量補正部(変量補正手段)
31 変量分類部(変量分類手段)
32 補正変量算出部(補正変量算出手段)
40a 相関係数生成部(相関係数生成手段)
40b 相関係数生成部(相関係数生成手段)
41 相関変量抽出部(相関変量抽出手段)
42 相関変量選抜部(相関変量選抜手段)
43 相関係数算出部(相関係数算出手段)
44 相関因子設定部(相関因子設定手段)
45 加重相関係数算出部(相関係数算出手段)
51 マイクロアレイ
52 イメージングプレート
53 ゲル板

Claims (7)

  1. 特定の生物のゲノムに含まれる全ての遺伝子またはその一部である母集団を構成する、個々の遺伝子である複数の要素のそれぞれから、発現プロファイル実験により、第1実験における特定遺伝子の発現量である第1データと、上記第1実験とは異なる条件下で実施され、かつ第1実験と比較可能な第2実験における特定遺伝子の発現量である第2データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する解析装置を含む多変量解析システムにおいて、
    上記解析装置は、制御部および記憶部を備え、
    上記記憶部には、上記制御部を、
    上記解析用変量から、上記第1データおよび第2データの対数比を算出し、算出した対数比を用いて補正変量を算出する変量補正手段と、
    1回の実験により、複数の遺伝子のそれぞれから同時期に上記解析用変量が得られ、かつ、同一の実験により得られた解析用変量より上記変量補正手段によって算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、当該補正変量を同一の実験系に所属するものとして分類する分類手段と、
    上記分類手段が分類した補正変量の集合から、同一の遺伝子より得られ、かつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する相関変量抽出手段と、
    上記相関変量抽出手段が抽出した相関変量を用いて、2つの実験系の間における相関係数を算出する相関係数算出手段と
    実験誤差に基づいて実験系毎に因子基準値を設定し、該因子基準値に基づく因子規定を用いて、2つの実験系の間における相関因子を遺伝子毎に設定する相関因子設定手段として機能させるためのプログラムが格納されており、
    上記制御部は、上記記憶部にアクセスすることにより上記プログラムを実行し、
    上記相関係数算出手段は、上記相関変量抽出手段が抽出した相関変量と上記相関因子設定手段が設定した相関因子とを用いて、該相関因子により重みのついた、2つの実験系の間における相関係数を算出することを特徴とする多変量解析システム。
  2. 上記因子規定は、2つの実験系に所属する相関変量が、因子基準値を超える範囲か、または因子基準値の逆数未満の範囲に存在する規定として設定されていることを特徴とする請求項1に記載の多変量解析システム。
  3. さらに、上記母集団を構成する複数の要素から得られる解析用変量を入力する入力手段を備えていることを特徴とする請求項1または2に記載の多変量解析システム。
  4. 上記発現プロファイル実験では、マイクロアレイ、マクロアレイ、およびディファレンシャルディスプレイの少なくとも何れかが用いられることを特徴とする請求項1に記載の多変量解析システム。
  5. 上記解析用変量として得られる第1データおよび第2データが、遺伝子の発現量に比例して変化する信号強度として検出されるとともに、
    上記入力手段は、該信号強度を入力可能にすることを特徴とする請求項3に記載の多変量解析システム。
  6. 請求項1〜5の何れか1項に記載の多変量解析システムを動作させるプログラムであって、コンピュータを上記各手段として機能させるためのコンピュータプログラム。
  7. 請求項6に記載のコンピュータプログラムを記録したコンピュータ読み取り可能な記憶媒体。
JP2006331081A 2006-12-07 2006-12-07 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 Expired - Fee Related JP4255970B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006331081A JP4255970B2 (ja) 2006-12-07 2006-12-07 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006331081A JP4255970B2 (ja) 2006-12-07 2006-12-07 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002055017A Division JP3983569B2 (ja) 2002-02-28 2002-02-28 多変量解析システム、発現プロファイル解析方法、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP2007157163A JP2007157163A (ja) 2007-06-21
JP4255970B2 true JP4255970B2 (ja) 2009-04-22

Family

ID=38241355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006331081A Expired - Fee Related JP4255970B2 (ja) 2006-12-07 2006-12-07 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP4255970B2 (ja)

Also Published As

Publication number Publication date
JP2007157163A (ja) 2007-06-21

Similar Documents

Publication Publication Date Title
Feng et al. iTerm-PseKNC: a sequence-based tool for predicting bacterial transcriptional terminators
Ding et al. Systematic comparison of single-cell and single-nucleus RNA-sequencing methods
McLachlan et al. Analyzing microarray gene expression data
Ursu et al. Massively parallel phenotyping of coding variants in cancer with Perturb-seq
Causton et al. Microarray gene expression data analysis: a beginner's guide
Dziuda Data mining for genomics and proteomics: analysis of gene and protein expression data
Lee Analysis of microarray gene expression data
Zweiger Knowledge discovery in gene-expression-microarray data: mining the information output of the genome
Rimour et al. GoArrays: highly dynamic and efficient microarray probe design
Clarke et al. Microarray analysis of the transcriptome as a stepping stone towards understanding biological systems: practical considerations and perspectives
Hessner et al. Three color cDNA microarrays: quantitative assessment through the use of fluorescein‐labeled probes
WO2009111581A1 (en) Categorization and filtering of scientific data
Grotkjær et al. Robust multi-scale clustering of large DNA microarray datasets with the consensus algorithm
Burgoon et al. Protocols for the assurance of microarray data quality and process control
JP3983569B2 (ja) 多変量解析システム、発現プロファイル解析方法、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体
Schultheiss et al. KIRMES: kernel-based identification of regulatory modules in euchromatic sequences
Saei et al. A glance at DNA microarray technology and applications
JP4255970B2 (ja) 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体
Koide et al. SpotWhatR: a user-friendly microarray data analysis system
De Moor et al. Bioinformatics: Organisms from Venus, technology from Jupiter, algorithms from Mars
US6994965B2 (en) Method for displaying results of hybridization experiment
Saviozzi et al. Microarray data analysis and mining
JP2004280614A (ja) 遺伝子データ処理装置及び遺伝子データ処理方法及びプログラム及び医薬分野において有用性があると予測される遺伝子又はその産物
JP2003079399A (ja) 滑らかな応答曲面法アルゴリズムによる遺伝子発現データの解析方法および解析システム
Girija et al. Deep learning for vehement gene expression exploration

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees