〔参考例〕
本発明における参考例について図1ないし図3に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。
本発明にかかる多変量解析システムは、多変量で記述された情報から該情報を得るに伴う誤差の影響を低減することが可能なシステムであり、より具体的には、コンピュータを用いて、発現プロファイル実験、特に網羅的発現プロファイル実験により得られる多変量としての遺伝子の発現量から実験誤差の影響を軽減し、因子を探索する目的に、好適に用いることができるシステムである。
したがって、本発明には、上記探索手順をコンピュータで実施する場合の発現プロファイル解析方法も含まれ、さらには、この探索手順をコンピュータに実行させるコンピュータプログラム、あるいはこのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体も含まれる。
本発明における多変量解析システムとしては、母集団を構成する複数の要素のそれぞれから、解析対象となる変量(以下、解析用変量とする)を得て解析するが、この解析用変量は、第1データとその対照である第2データとの組み合わせからなっており、実際の解析には、これら各データの比が用いられる。それゆえ、本発明にかかる多変量解析システムとしては、少なくとも上述した多変量解析を実施するものであれば特に限定されるものではないが、具体的には、例えば、図1に示すように、マイクロアレイ51から網羅的発現プロファイル実験の結果を得て、遺伝子の発現量を解析するマイクロアレイ解析システム10a(以下、単に解析システムと略す)が挙げられる。
マイクロアレイ51は、多数の異なったプローブDNA(以下、プローブと略す)をガラスなどの固相面に高密度に配置したものである。通常、顕微鏡で用いられるスライドガラス程度の大きさの支持体に、DNAを高密度に固定したものであって、DNAチップとも呼ばれる。このマイクロアレイ51を用いれば、数千以上のDNA分子に対する反応を同時に実施し、かつ結果の検出も同時に行うことができる。それゆえ、多数の遺伝子の発現プロファイルを観察することが可能になる。
上記マイクロアレイ51を用いたアッセイの概要について説明すると、まず、マイクロアレイ51に、蛍光色素で標的したターゲットDNA(以下、ターゲットと略す)をハイブリダイズさせる。このとき、マイクロアレイ51上で、プローブと相補的な配列を含むターゲットの分子は、上記プローブの分子と相補的に結合(ハイブリダイズ)するが、それ以外のターゲットの分子は結合しない。そこで、結合していないターゲットの分子を洗浄して除去することで、結合したターゲットの分子のみをマイクロアレイ51上に残存させる。このターゲットの分子は蛍光色素で標識されているため、ターゲットの蛍光を、信号強度として測定し、ハイブリダイズしているプローブを同定する。
蛍光標識された上記ターゲットは、一般的には、比較したい2つの状態(第1の状態および第2の状態とする)の細胞からmRNAを抽出し、蛍光表示されたヌクレオチドの存在下で逆転写反応を実施することで作製される。このとき、上記2つの状態毎に、異なる検出波長を有する2種類の蛍光色素を用いる。したがって、ターゲット中には、発現量の多い遺伝子のcDNAが多く含まれていることになるので、上記蛍光の信号強度は、各状態における遺伝子の発現量に応じたものとなる。それゆえ、上記信号強度を測定すれば、特定の遺伝子の発現量を検出することが可能になる。
しかも、マイクロアレイ51には、大量のプローブを配列できるため、数回のハイブリダイズの実施で発現量のデータを大量に得ることができる。各発現量のデータは何れも連続変量であり、しかも、遺伝子相互の関係により、発現量は変化する可能性があるため、このような多数のデータを多変量解析することは重要となる。
したがって、網羅的発現プロファイル解析においては、上記母集団が特定の生物のゲノムに含まれる全ての遺伝子またはその一部となり、該母集団を構成する要素が個々の遺伝子となる。そして、各要素、すなわち各遺伝子から得られる解析用変量は遺伝子の発現量となり、これは蛍光の信号強度のデータとなるが、より具体的には、第1の状態における遺伝子の発現量が、第1データとして、第2の状態における遺伝子の発現量が第2データとして得られ、これら第1・第2データの組み合わせが解析用変量として利用されることになる。
具体的には、本参考例では、母集団を構成する多数の遺伝子(数千レベル、103レベルとする)に対して実験を複数回(例えば、M回実施)実施することで、M×103のデータが得られる。それゆえ、上記解析用変量から得られる相対発現量Fikを用いれば、i番目の遺伝子における相対発現量の標本は、次式(1)に示すベクトルで表すことができる。
xi=(Fi1,Fi2,・・・,Fik,・・・,FiM) ・・・(1)
本発明では、上記式(1)に示す標本を多変量解析するために、例えば、図1に示すような解析システム10aを用いる。
上記解析システム10aは、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32を備えている。
上記画像読取部11は、マイクロアレイ51から、プローブにハイブリダイズしたターゲットの蛍光を、信号強度という画像データとして読み取ることで、遺伝子の発現量を検出する。つまり、上記画像読取部11は、解析用変量としてマイクロアレイ51から得られる第1データおよび第2データを、遺伝子の発現量に比例して変化する信号強度として検出して多変量解析システムに入力する入力手段である。
上記画像読取部11としては、具体的には、例えば、蛍光スキャナー等が好適に用いられるが、特にこれに限定されるものではなく、ターゲットを標識している色素の種類に応じて、適切な構成の画像読取部11を選択すればよい。
上記入力部12は、上記解析システム10aの動作に関わる情報を入力可能とする。具体的には、キーボードやタブレット等、従来公知の入力手段を好適に用いることができる。また、マイクロアレイ51からの得られる遺伝子の発現量は、必ずしも上記画像読取部11から読み取られるものではなく、例えば、別の読取手段等で読み取られた後に具体的な数値データに変換されたとすれば、上記入力部12から上記解析システム10aに入力することもできる。
つまり、本発明では、母集団を形成する要素である遺伝子から、網羅的発現プロファイル実験により解析用変量としての発現量のデータが得られればよく、解析システム10aへの入力の動作としては、画像読取部11による信号強度の直接読み取りに限定されるものではない。それゆえ、本発明においては、入力手段として、上記画像読取部11および入力部12の少なくとも一方を備えていることが好ましいが、入力手段としては、上記画像読取部11や入力部12に限定されるものではなく、その他の入力手段を備えていても良い。
上記表示部13は、マイクロアレイ51からの信号強度の読み取りや、読み取った信号強度の解析等を含む、上記解析システム10aの動作に関わる情報や解析結果等の各種情報を表示する。具体的には、公知のCRTディスプレイや、液晶ディスプレイ等といった各種表示装置が好適に用いられるが特に限定されるものではない。
上記画像形成部14は、上記表示部13で表示可能な各種情報をPPC用紙等の記録材に記録(印刷・画像形成)する。具体的には、公知のインクジェットプリンタやレーザープリンタ等の画像形成装置が好適に用いられるが特に限定されるものではない。
なお、上記表示部13と画像形成部14とは、まとめて出力手段と表現することもできる。すなわち、表示部13は、各種情報をソフトコピーで出力する手段であり、画像形成部14は、各種情報をハードコピーで出力する手段である。したがって、本発明で用いられる出力手段としては、上記表示部12や画像形成部13に限定されるものではなく、その他の出力手段を備えていても良い。
上記記憶部15は、上記解析システム10aで利用される各種情報(制御情報、解析結果、その他情報等)を記憶する。具体的には、例えば、RAMやROM等の半導体メモリ、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードを含む)/光カード等のカード系等、従来公知の各種記憶手段を好適に用いることができる。
上記制御部21は、本参考例における上記解析システム10aの動作を制御する。具体的には、図1の点線の矢印で示すように、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32の各手段に対して、上記制御部21から制御情報が出力される。この制御情報に基づいて上記各手段が連携して動作することで、上記解析システム10a全体が動作する。また、制御部21に対しては、入力部12から解析システム10aを動作させるための指示情報も入力可能となっているので、図1では、制御情報のやりとりを示す点線の矢印は双方向となっている。
上記バックグラウンド補正部22は、画像読取部11から入力された解析用変量に共通するバックグラウンド数値を除去する補正(バックグラウンド補正)を実施する。このバックグラウンド補正は、後述する解析用変量の分類前に実施すると、より正確な分類が可能になるため好ましい。
上記変量解析部23は、画像読取部11(あるいは入力部12)から入力された解析用変量、すなわち遺伝子の発現量のデータを解析し、その解析結果を、制御部21の制御に基づいて表示部13および画像形成部14の少なくとも一方に出力する。具体的には、クラスタリング等を行う公知のアレイ専用解析ソフトウエアを用いた構成を挙げることができる。また、変量解析部23では、発現プロファイル解析だけでなく、遺伝情報まで解読されるようになっていてもよい。すなわち、上記変量解析部23では、遺伝子を用いたあらゆる種類の解析処理が実施可能である。
上記変量分類部31は、上記解析用変量、すなわち遺伝子の発現量における変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値を分類基準値として用い、遺伝子毎に複数得られた遺伝子の発現量のデータを上記分類基準値に基づいて分類する。
上記補正変量算出部32は、上記変量分類部31で分類された上記解析用変量(遺伝子の発現量のデータ)のうち、信頼性の高い範囲に分類された高信頼性変量のみを用いて、該高信頼性変量を構成する第1データおよび第2データの対数比を算出するとともに、全ての高信頼性変量の対数比に対する補正項を算出し、さらに、上記対数比と補正項との差を補正変量として算出する。
したがって、本参考例における解析システム10aでは、図1の実線の矢印で示すように、画像読取部11から得られた解析用変量が、バックグラウンド補正部22に出力されてバックグラウンド補正がなされ、次に、変量分類部31に出力されて分類され、次に、補正変量算出部32に出力されて補正変量が算出され、次に、変量解析部23に出力されて解析され、最終的に、表示部13および/または画像解析部14に出力されることになる。
なお、図1では、画像読取部11からの解析用変量の入力を明確に説明する便宜上、入力部12からの解析用変量の入力については、実線で図示せず省略している。
上記制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32の具体的な構成は特に限定されるものではなく、従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態3で説明するように、上記各手段の2つ以上が1つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置(CPU)としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。
次に、本参考例における上記解析システム10aの具体的な動作、すなわち本参考例における網羅的発現プロファイル解析方法について、図2のフローチャートおよび図3の変量変遷チャートに基づいて説明する。
まず、前段階として、網羅的発現プロファイル実験を実施する。具体的には、前述したように、特定の生物のゲノムに含まれる全ての遺伝子またはその一部をプローブとして用いたマイクロアレイ51に対して、蛍光色素で標的したターゲットDNA(以下、ターゲットと略す)をハイブリダイズさせる。上記マイクロアレイ51は、従来公知の手法で作製することができ、その作製手法については特に限定されるものではない。
上記前段階としての網羅的発現プロファイル実験は、1回のみ実施されてもよいが、通常は複数回実施される。そこで、ステップ11(以下、ステップを適宜Sと略す)として、ターゲットの蛍光を、画像読取部11で信号強度として測定(検出)し、解析用変量となる遺伝子の発現量のデータを入力する(解析用変量入力ステップ)。
上記S11は、実施された全ての実験の結果からデータを入力し終わるまで繰り返される。それゆえ、S12として、全ての発現量のデータが入力されたか否かを判定し、入力されていれば、S13に進む一方、入力されていなければ、S11に戻る。
ここで、前述したように、蛍光標識された上記ターゲットは、比較したい第1の状態および第2の状態の細胞からそれぞれmRNAを抽出し、各状態別に異なる蛍光色素を用いて表示されたヌクレオチドの存在下で、逆転写反応を実施することで作製される。上記第1の状態のターゲットと、第2の状態のターゲットは、通常、混合されて同時にマイクロアレイ51にハイブリダイズされる。それゆえ、1回のハイブリダイズで、第1実験(上記第1の状態の実験)および第2実験(上記第2の状態の実験)の結果がセットとなった1セットの実験対の結果が得られることになる。
したがって、本発明においては、上記解析用変量は、第1実験で得られた第1データと、第2実験で得られた第2データとを組み合わせたものとして生成される。それゆえ、本発明にかかる解析方法には、解析用変量を生成する変量生成ステップが含まれることが好ましい。この変量生成ステップは、本参考例では、S11で、画像読取部11による読み取りと同時に実施されるが、別途、変量生成部を設けて、読み取った画像データから解析用変量としての信号強度を生成するようにしてもよい。
次にS13として、バックグラウンド補正部22により、バックグラウンド補正を実施する(バックグラウンド補正ステップ)。具体的には、ハイブリダイズ後のマイクロアレイ51から信号強度を読み取る際に、本来なら蛍光が全く検出されないはずのハイブリダイズされていないプローブやプローブのない背景領域から、バックグラウンドの蛍光が検出される場合がある。そこで、バックグラウンド補正によって、読み取った発現量のデータに共通する上記バックグラウンドの蛍光(バックグラウンド数値)を除去する。
なお、上記バックグラウンド補正がなされた後に、i番目の遺伝子に対して実施されたkセット目(k=1〜Mセット)の実験対で得られる結果のうち、第1データとなる信号強度をfC ikと表現し、第2データとなる信号強度をfB ikと表現する。
次に、S14として、変量分類部31により、所定の分類基準値に基づいて、生成された複数の上記解析用変量が分類される(変量分類ステップ)。上記分類基準値としては、本参考例では、上記信号強度の検出限界が用いられる。
具体的には、ハイブリダイズ後のマイクロアレイ51から信号強度を読み取る場合、読み取り可能な蛍光のレベルが存在する。上記信号強度の検出限界とは、この読み取り可能な蛍光のレベルであり、読み取られた信号強度が上記検出限界を超えておれば、解析上で十分信頼できるデータとなるが、上記検出限界未満であれば、誤差の影響が非常に大きく信頼できるデータとは見なせない。
そこで、上記解析用変量の変化範囲、すなわち発現量に比例する蛍光レベルの変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値となる上記検出限界を分類基準値として用い、蛍光の信号強度として検出された上記解析用変量を分類する。これによって、網羅的発現プロファイル解析の精度を向上させることができる。
なお、上記信号強度の検出限界の設定方法としては特に限定されるものではなく、実験的に得られた結果を利用しても良いし、過去の実験で得られたデータから推定しても良い。また、分類の具体的な手法も特に限定されるものではない。例えば、第1実験および第2実験の信号強度の検出限界を、それぞれSNCおよびSNBと推定したとすれば、i番目の遺伝子の信号強度fC ikおよびfB ikを、上記SNCおよびSNBにより以下のクラスの何れかに分類する手法が挙げられる。
クラス1 :fC ik >SNCかつfB ik>SNB
クラス2A:fC ik <SNCかつfB ik>SNB
クラス2B:fC ik >SNCかつfB ik <SNB
クラス3 :fC ik <SNCかつfB ik<SNB
上記各クラスのうち、補正変量算出部32に出力されるのは、クラス1に分類された信号強度のみでよい。それゆえ、S14では、例えば、クラス1およびそれ以外のクラス(クラス非1)に分類するだけでもよいが、後段の変量解析部23やその前段等で、クラス2A・2B・3の信号強度を用いることも可能であるので、上記のようなクラス分けであってもよい。
次に、S15として、補正変量算出部32により、変量分類部31で分類された解析用変量のうち、信号強度の検出限界を超える解析用変量(高信頼性変量とする)を構成する第1データおよび第2データの対数比を算出する(対数比算出ステップ)。具体的には、上記第1データおよび第2データであるi番目の遺伝子の信号強度fC ikおよびfB ikを用いて、該i番目の遺伝子の相対発現量log(fC ik/fB ik)を算出する。
次に、S16として、同じく補正変量算出部32により、全ての高信頼性変量の対数比に対する補正項を算出する(補正項算出ステップ)。具体的には、例えば、上記S14でクラス1に分類された高信頼性変量の全ての数をN個(1<N≦M)とすれば、このN個の高信頼性変量全てについての相対発現量(対数比)log(fC ik/fB ik)に対する補正項REFi=1,2,…,N[log(fC ik/fB ik)]を算出する。上記補正項REFi=1,2,…,N[log(fC ik/fB ik)]としては、具体的には、相対平均値、相乗平均値、または中央値等を用いることができる。
次にS17として、同じく補正変量算出部32により、上記対数比と補正項との差を補正変量として算出する(補正変量算出ステップ)。具体的には、補正変量Fikは、次式(2)に示すように表すことができる。
Fik=log(fC ik/fB ik)−REFi=1,2,…,N[log(fC ik/fB ik)] ・・・(2)
そして、S18として、上記補正変量を変量解析部23により解析することで、網羅的発現プロファイル解析が実施される(多変量解析ステップ)。
前述したように、i番目の遺伝子における相対発現量の標本は、前記式(1)に示すベクトルxikで表すことができ、解析対象のゲノムまたはその一部に、N個の遺伝子が含まれていれば、上記ベクトルxikはN個得られる。ここで、上記ベクトルxikは、上記補正変量Fikで表されることになるので、このベクトルxiで表される標本を解析することで、偏り誤差を除去した解析が可能となる。
その後、S19として、解析結果を出力する。具体的には、表示部13に表示したり、画像形成部14でプリントアウト(印刷)したりする(解析結果出力ステップ)。
このように、本参考例の解析システム10aには、上記変量分類部31および補正変量算出部32が設けられている。そのため、上記S15〜S17で得られる補正変量は、第1データである信号強度fC ikと、第2データである信号強度fB ikとの間の偏り誤差を除去した相対値となる。それゆえ、この相対値を用いれば、変量解析部23では、母集団を構成する全体の遺伝子の解析結果についての平均値によって解析結果を補正することになる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
なお、以上説明した本参考例の解析システム10aは、以上説明したS11〜S19までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。
上記プログラムはコンピュータで読み取り可能な記録媒体に格納されていればよい。具体的には、図1に示す記憶部15、具体的には、例えばROMのようなものそのものがプログラムメディアであってもよいし、上記記憶部15として、プログラム読み取り装置が設けられている場合には、そこに記録媒体を挿入することで読み取り可能なプログラムメディアであってもよい。上記プログラムメディアとしては、記憶部15の具体例として挙げた公知の構成を好適に用いることができる。
何れの場合においても、格納されているプログラムは制御部21がアクセスして実行させる構成であってもよいし、プログラムを読み出し、読み出されたプログラムを、図示しないプログラム記憶エリアにダウンロードして、そのプログラムを実行する方式であってもよい。このダウンロード用のプログラムは予め記憶部15等に格納されているものとする。また、上記記録媒体に格納されている内容はプログラムに限定されるものではなく、例えばデータであってもよい。
また、本参考例では、バックグラウンド補正を実施する構成・方法を用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、バックグラウンド数値が無視できるのであれば、解析システム10aには、バックグラウンド補正部22は備えられていなくても良く、本発明にかかる解析方法では、S13は実施されなくても良い。
〔実施の形態1〕
本発明における第1の実施の形態について図4ないし図6に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例では、解析システム10aが、前記変量分類部31および補正変量算出部32を備えることで、特定の遺伝子に注目することなくデータから偏り誤差を取り除いた補正変量を生成できる構成となっていたが、本実施の形態では、さらに、上記補正変量を用いた解析に際して、個々の要素すなわち各遺伝子の間の相関関係を算出し、これを解析に利用する。
ゲノムまたはその一部に含まれる遺伝子は、全てが同じように発現するわけではなく、各種発現調節機構によって、その発現の時機はそれぞれ異なるよう制御されている。それゆえ、網羅的発現プロファイル実験では、相対発現量が0付近となる遺伝子が多数出現する。
例えば、i番目の遺伝子が特定条件CDNiで発現するとして、この特定条件CDNiで網羅的発現プロファイル実験を実施すると、解析用変量として1セットの実験対の結果が得られる。
このとき、i番目の遺伝子は発現しているため、相対発現量すなわち前記参考例で算出される補正変量Fikはもちろん一定の値を示す。
これに対して、上記特定条件CDNiで発現に変化がない遺伝子については、第1実験とその比較対照となる第2実験との間には、遺伝子の発現量には有意な差が生じない。そのため、信号強度fC ik(第1データ)およびfB ik(第2データ)がほぼ同一となり、算出される相対発現量すなわち上記補正変量Fikは0付近(Fik≒0)の数値を示す。もちろん理想的な条件では、補正変量Fik=0となる。なお、上記相対発現量が0近傍となるデータを、以下、非変化発現データと称する。
網羅的発現プロファイル解析では、複数(N個)の遺伝子の発現量が得られ、これら複数の遺伝子の発現について相関関係を多変量解析するが、上記非変化発現データが含まれていると、解析結果に大きな影響を及ぼすことになる。
そこで、多変量解析に際して上記非変化発現データの影響を除去するために、例えば、図4に示すような解析システム10bを用いる。
具体的には、本実施の形態にかかる解析システム10bは、図4に示すように、解析システム10aと同様、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32を備えており、さらに、相関変量抽出部41、相関変量選抜部42、および相関係数算出部43を備えている。
上記画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、および補正変量算出部32については、前記参考例と同様であるのでその説明を省略する。なお、上記補正変量算出部32は、解析用変量から、第1データおよび第2データの対数比を含む補正変量を算出する変量補正手段に相当する。また、前記参考例の記載から明らかなように、変量分類部31および補正変量算出部32の双方をまとめて変量補正手段とみなしてもよい。
上記相関変量抽出部41は、1回の実験により、複数の遺伝子(要素)のそれぞれから同時期に解析用変量(2つの信号強度の組み合わせ)が得られ、かつ、同一の実験により得られた解析用変量より算出される補正変量が、同一の実験系に所属する補正変量として分類できる場合に、同一の遺伝子より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する。
具体的には、前述したように、マイクロアレイ51を用いた実験では、1回の実験により、i番目の遺伝子(要素)について1セットの実験対の結果として、信号強度fC・fBの組み合わせ(第1・第2データ)が得られるが、この実験を複数回繰り返すことで、i番目の遺伝子から複数の結果が得られることになる。さらに、実験の条件によっては、複数の遺伝子のそれぞれから同時期に結果(解析用変量)が得られることになる。そこで、同一の実験により得られた信号強度の組み合わせより算出される補正変量は、同一の実験系に所属する補正変量として分類される。
そこで、上記実験系分類部41では、例えば、実験を1〜k回繰り返した場合に、i番目の遺伝子およびj番目の遺伝子からそれぞれk個の補正変量Fi1〜FikおよびFj1〜Fjkが算出されたとすれば、Fi1およびFj1、Fi2およびFj2、・・・FikおよびFjkをそれぞれ同一の実験系に所属するものとして分類できる。
換言すれば、i番目の遺伝子から得られたk個の補正変量Fi1〜Fik、または、j番目の遺伝子から得られたk個の補正変量Fj1〜Fjkは、それぞれ、同一の遺伝子より得られかつ異なる実験系に所属する補正変量の集合であると見なすことができる。
そこで、例えば任意の2つの実験系s,t(k=s回目およびt回目の実験)において、上記相関変量抽出部41は、上記補正変量の集合から、実験系sよりFisを、実験系tよりFitをそれぞれ抽出して相関変量とし、各補正変量が所属する実験系s,t、すなわちs回目の実験とt回目の実験との間の相関係数を算出するために利用する。なお、母集団の中に含まれる要素としての遺伝子はi=1〜N個存在するので、相関変量もN個得られることになる。なお、全相関変量を(Fis・Fit)i=1,…,Nと表すものとする。
上記相関変量選抜部42は、実験誤差に基づいて実験系毎に選抜基準値αを設定し、上記相関変量から、該選抜基準値αに基づく選抜規定を満たす相関変量を実験系毎に選抜する。
上記選抜基準値αは、実験誤差に基づいて設定されるものであり、具体的には、実験系毎の相対値の標準偏差に基づいて設定される。それゆえ、このような選抜基準値αに基づいて得られた相関変量(Fis・Fit)i=1,…,Nから選抜規定に合致する相関変量のみを選抜して利用することで、実験系sと実験系tとの間における相関係数をより的確に算出することができる。
上記相関係数算出部43は、上記相関変量を用いて、2つの実験系の間における相関係数を算出するが、本実施の形態では、上記変量選抜部42により選抜された相関変量を用いて、2つの実験系の間における相関係数を算出するようになっている。
具体的には、選抜された上記相関変量を用いて、2つの実験系s,tの間における相関係数r(s,t)を、回帰分析を用いて算出する。この点の詳細については後述する。
したがって、本実施の形態における解析システム10bでも、解析システム10aと同様、図1の実線の矢印で示すように、解析用変量が出力される。
つまり、画像読取部11から得られた解析用変量が、バックグラウンド補正部22に出力されてバックグラウンド補正がなされ、次に、変量分類部31に出力されて分類され、次に、補正変量算出部32に出力されて補正変量が算出される。その後さらに、補正変量が相関変量抽出部41に出力されて相関変量が抽出され、次に、相関変量選抜部42に出力されて選抜規定を満たす相関変量が選抜され、次に、相関係数算出部43に出力されて相関係数が算出される。
そして、変量解析部23では、補正変量算出部32から出力される補正変量と、相関係数算出部43から算出される相関係数とを用いて多変量解析を実施し、解析結果を、表示部13および/または画像解析部14に出力することになる。
上記相関変量抽出部41、相関変量選抜部42、相関係数算出部43の具体的な構成は特に限定されるものではなく、前記参考例で述べたように、制御部21等と同じく従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態3で説明するように、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32を含む上記各手段の2つ以上が1つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置(CPU)としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。
次に、本実施の形態における上記解析システム10bの具体的な動作、すなわち本実施の形態における網羅的発現プロファイル解析方法について、図5のフローチャートおよび図6の相関係数算出チャートに基づいて説明する。
まず、S201〜S207は、前段階も含めて、前記参考例におけるS11〜S17と同様であるため、その説明は省略する。すなわち、網羅的発現プロファイル実験を実施してから補正変量を算出するまでは前記参考例と同様のステップを実施する。
次に、S208として、上記相関変量抽出部41により、同一の遺伝子より得られかつ異なる実験系に所属する2つの補正変量を、相関変量として抽出する(相関変量抽出ステップ)。
このS208では、前述したように、任意の2つの実験系s,tにおいて、算出されたそれぞれの補正変量の集合から相関変量(Fis・Fit)を抽出する。得られる全相関変量は(Fis・Fit)i=1,…,Nとなる。
次に、S209として、上記相関変量選抜部42により、実験誤差に基づいて実験系毎に選抜基準値αを設定する。具体的には、実験誤差に基づいて、実験系s,tのそれぞれに対して選抜基準値αsおよびαtを定義する。なお、αs>1、αt>1である。
次に、S210として、上記相関変量選抜部42により、上記相関変量から、該選抜基準値αに基づく選抜規定を満たす相関変量を実験系毎に選抜する(相関変量選抜ステップ)。具体的には、例えば、選抜規定として、次の2つの規定I・IIを規定し、これら選抜規定の双方を満たす相関変量を選抜する。
規定I:Fis>αs、またはFis<−αs
規定II:Fit>αt、またはFit<−αt
つまり、S209では、上記選抜基準値αとして、1以上の絶対値が設定されるとともに、S210では、選抜規定として、2つの実験系に所属する相関変量が、正の選抜基準値を超えるか、または負の選抜基準値未満の範囲内に存在する規定が設定され、これに基づいて相関変量が選抜される。
なお、選抜された上記相関変量は、次に示す行列(3)で表すことができる。このとき、選抜された上記相関変量は、I=1,2,...,N(s,t)として、(FIs・FIt)と表すものとする。
次に、S211として、上記相関係数算出部43では、相関変量を用いて、2つの実験系の間における相関係数を算出する(相関係数算出ステップ)。本実施の形態では、選抜された上記相関変量を用いて、2つの実験系の間における相関係数を算出する。
具体的には、上記S210で得られた行列(3)に基づいて実験系s,tの相関係数r(s,t)を、次式(4)に示す回帰分析を用いて算出する。
ここで、上記式(4)におけるcov(s,t)は、次式(5)に示す実験系s,tに所属する全補正変量についての共分散であり、var(s)は、次式(6)に示す実験系sに所属する全補正変量についての分散であり、var(t)は、次式(7)に示す実験系tに所属する全補正変量についての分散である。
さらに、上記式(5)〜(7)におけるAv(s)およびAv(t)は、それぞれ次式(8)および(9)に示すように、実験系sおよび実験系tに所属する全補正変量についての平均値である。
その後、S212として、S207で得られた補正変量およびS211で得られた相関係数を用いて変量解析部23により解析することで、網羅的発現プロファイル解析が実施され(多変量解析ステップ)、S213として、表示部13や画像形成部14により解析結果が出力される。(解析結果出力ステップ)。
このように、本実施の形態にかかる解析システム10bには、上記相関変量抽出部41・相関変量選抜部42・相関係数算出部43が設けられている。そのため、上記S208〜S211で相関係数r(s,t)を算出してこれを多変量解析に用いることができる。その結果、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性をより一層向上させることができる。
なお、以上説明した本実施の形態における解析システム10bは、前記参考例と同様に、以上説明したS201〜S213までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。
また、本実施の形態では、前記参考例における偏り誤差を除去する構成・方法を組み合わせて用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、偏り誤差が無視できるのであれば、解析システム10bには、変量分類部31・補正変量算出部32は備えられていなくても良く、本発明にかかる解析方法では、S204〜S207までのステップは実施されなくても良い。
〔実施の形態2〕
本発明における第2の実施の形態について図7ないし図9に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例または実施の形態1で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記実施の形態1では、上記補正変量を用いた解析に際して、個々の要素すなわち各遺伝子の間の相関関係を算出して解析に利用する例を挙げたが、この相関関係の算出は、前記実施の形態1で示したような相関係数に限定されるものではない。本実施の形態では、相関関係を算出する他の例として、重みつき相関係数(加重相関係数)を算出する場合について説明する。
具体的には、本実施の形態にかかる解析システム10cは、図7に示すように、前記実施の形態1における解析システム10bと同様、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32、および相関変量抽出部41を備えているが、さらに、前記相関変量選抜部42および相関係数算出部43に代えて、相関因子設定部44および加重相関係数算出部45とを備えている。
上記画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32、および相関変量抽出部41については、前記参考例または実施の形態1と同様であるのでその説明を省略する。
上記相関因子設定部44は、実験誤差に基づいて実験系毎に因子基準値βを設定し、該因子基準値βに基づく規定を用いて、2つの実験系の間における相関因子を遺伝子(要素)毎に設定する。
上記因子基準値βは、実験系毎の相対値の標準偏差に基づいて設定されるものであり、例えば、本実施の形態では、前記実施の形態1における選抜基準値αをそのまま用いることができる。それゆえ、前記得られた相関変量(Fis・Fit)i=1,…,Nを要因として、上記因子基準値βに基づいて、該要因から因子規定に合致する相関変量から相関因子wi(s,t)を設定して利用することで、実験系sと実験系tとの間における相関係数をより的確に算出することができる。
上記加重相関係数算出部45は、補正変量と上記相関因子とを用いて、該相関因子により重みのついた、2つの実験系s,tの間における重みつき相関係数(加重相関係数)wr(s,t)を算出する。なお、本実施の形態では、相関変量から相関因子を設定して利用するため、上記加重相関係数算出部45は、基本的には、相関変量を用いて2つの実験系の間における相関係数を算出する相関係数算出手段に含まれる。
具体的には、設定された上記相関因子wi(s,t)を用いて、2つの実験系s,tの間における加重相関係数wr(s,t)を、因子分析を用いて算出する。この点の詳細については後述する。
したがって、本実施の形態における解析システム10cでも、前記実施の形態1における解析システム10bと同様、図1の実線の矢印で示すように、解析用変量が出力される。
つまり、画像読取部11から得られた解析用変量が相関変量抽出部41に出力されて相関変量が抽出されるまでは前記実施の形態1と同様であり、さらにその後、相関因子設定部44に出力されて因子規定を満たす相関因子が設定され、次に、加重相関係数算出部45に出力されて加重相関係数が算出される。そして、変量解析部23では、補正変量算出部32から出力される補正変量と、加重相関係数算出部45から算出される加重相関係数とを用いて多変量解析を実施し、解析結果を、表示部13および/または画像解析部14に出力することになる。
上記相関因子設定部44、加重相関係数算出部45の具体的な構成は特に限定されるものではなく、前記参考例または実施の形態1で述べたように、制御部21等と同じく従来公知の演算手段が好適に用いられる。上記各手段は、それぞれ独立した演算手段となっていてもよいが、好ましくは、後述する実施の形態3で説明するように、制御部21等を含む上記各手段の2つ以上が1つの演算手段として一体化した解析装置となっている。具体的には、コンピュータの中央処理装置(CPU)としてまとまっており、その動作はコンピュータプログラムにしたがって実行される構成であれば非常に好ましい。
次に、本実施の形態における上記解析システム10cの具体的な動作、すなわち本実施の形態における網羅的発現プロファイル解析方法について、図8のフローチャートおよび図9の相関係数算出チャートに基づいて説明する。
まず、S301〜S308は、前段階も含めて、前記実施の形態1におけるS201〜S208と同様であるため、その説明は省略する。すなわち、網羅的発現プロファイル実験を実施してから補正変量を算出し、相関変量を抽出するまでは前記実施の形態1と同様のステップを実施する。
次に、S309として、上記相関因子設定部44により、実験誤差に基づいて実験系毎に因子基準値βを設定する。具体的には、本実施の形態では、前記実施の形態1と同じく実験誤差に基づいて、実験系s,tのそれぞれに対して選抜基準値と同じ因子基準値βs=αsおよびβt=αtを定義する(αs>1、αt>1)。
次に、S310として、上記相関因子設定部44により、上記相関変量を要因として、上記因子基準値βに基づく因子規定を満たす相関変量から相関因子を設定する(相関因子設定ステップ)。
具体的には、例えば、因子規定として、次の2つの規定III・IVを規定し、i番目の遺伝子における相関変量(Fis・Fit)がこれら因子規定の双方を満たすときには、i番目の遺伝子における相関因子をwi(s、t)=1と設定し、双方を満たさないときには、i番目の遺伝子における相関因子をwi(s、t)=0と設定する。
規定III:Fis>αs、またはFis<−αs
規定IV:Fit>αt、またはFit<−αt
つまり、S310では、因子規定として、2つの実験系に所属する相関変量が、因子基準値を超える範囲か、または負の因子基準値未満の範囲に存在する規定が設定され、これに基づいて相関因子が設定される。
次に、S311として、上記加重相関係数算出部45では、上記相関因子を用いて、2つの実験系の間における加重相関係数を算出する(相関係数算出ステップ)。
具体的には、上記S310で得られた相関因子wi(s、t)により重みのついた相関係数wr(s,t)を、次式(10)に示す因子分析を用いて算出する。
ここで、上記式(10)におけるwcov(s,t)は、次式(11)に示す実験系s,tに所属する全補正変量についての重みつき共分散であり、wvar(s)は、次式(12)に示す実験系sに所属する全補正変量についての重みつき分散であり、wvar(t)は、次式(13)に示す実験系tに所属する全補正変量についての重みつき分散である。
さらに、上記式(11)〜(13)におけるWav(s)およびWav(t)は、それぞれ次式(14)および(15)に示す、実験系sおよび実験系tに所属する全補正変量についての重みつき平均値である。
その後、S312として、S307で得られた補正変量およびS311で得られた加重相関係数を用いて変量解析部23により解析することで、網羅的発現プロファイル解析が実施され(多変量解析ステップ)、S313として、表示部13や画像形成部14により解析結果が出力される。(解析結果出力ステップ)。
このように、本実施の形態にかかる解析システム10cには、上記相関変量抽出部41・相関因子設定部44・加重相関係数算出部45が設けられている。そのため、上記S308〜S311で加重相関係数wr(s,t)を算出して多変量解析に用いることができる。その結果、相対発現量が0近傍となる非変化発現データの影響を排除した多変量解析を実施することができるため、得られる解析結果の信頼性をより一層向上させることができる。
なお、以上説明した本実施の形態における解析システム10cは、前記参考例または実施の形態1と同様に、以上説明したS301〜S313までのステップを含む網羅的発現プロファイル解析方法を機能させるためのプログラムにより、コンピュータで実現されるようになっていてもよい。
また、本実施の形態では、前記実施の形態1と同様、前記参考例における偏り誤差を除去する構成・方法を組み合わせて用いているが、必ずしもこれに限定されるものではない。すなわち、例えば、得られる解析用変量において、偏り誤差が無視できるのであれば、解析システム10cには、変量分類部31・補正変量算出部32は備えられていなくても良く、本発明にかかる解析方法では、S304〜S307までのステップは実施されなくても良い。
〔実施の形態3〕
本発明における第3の実施の形態について図10および図11に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態1または2で用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例、実施の形態1または2では、解析システム10a・10b・10cを構成する各手段がそれぞれ独立した構成となっていたが、本発明はこれに限定されるものではなく、上記各手段の少なくとも2つ以上を一つの装置として一体化してなる構成であってもよい。
具体的には、例えば、図10に示すように、本実施の形態における解析システム10dは、画像読取部11、入力部12、表示部13、画像形成部14、記憶部15、および解析装置20からなる構成であってもよい。
上記解析装置20は、実施の形態1における解析システム10bに備えられている制御部21、バックグラウンド補正部22、変量解析部23、変量分類部31、補正変量算出部32、相関変量抽出部41、相関変量選抜部42、および相関係数算出部43を一つの装置として一体化してなる構成を有している。もちろん、実施の形態2と同様に、相関変量選抜部42および相関係数算出部43に代えて、相関因子設定部44および加重相関係数算出部45を備えていても良い。特に、プログラムにより本発明にかかる解析方法をコンピュータで実行させる場合には、コンピュータそのものが上記解析装置20に対応し得る。
また、上記記憶部15は、解析装置20と一体化されていてもよいが、解析装置20とは別体となっている外部記憶装置となっていてもよく、さらには、一体化された記憶部15と外部記憶装置とが両方とも備えられている構成であってもよい。例えば、一体化した記憶部15としては、内臓型のハードディスクや解析装置20に組み込まれたフロッピーディスクドライブ、CD−ROMドライブ、DVD−ROMドライブ等が挙げられ、外部記憶装置としては、外付けハードディスクや外付け型の上記各種ディスクドライブ等が挙げられる。
さらに、画像読取部11、入力部12、表示部13、および画像形成部14の少なくとも一つが、上記解析装置20に一体化されていてもよい。
あるいは、機能的により連携している手段を一体化してもよい。例えば、図11(a)に示すように、補正変量を算出するための上記変量分類部31および補正変量算出部32を一体化して、変量分類機能および補正変量算出機能を有する変量補正部30としてもよい。
同様に、図11(b)に示すように、実施の形態1における相関変量抽出部41、相関変量選抜部42、および相関係数算出部43を一体化して、相関変量抽出機能、相関変量選抜機能、および相関係数算出機能を有する相関係数生成部40aとしてもよいし、図11(c)に示すように、実施の形態2における相関変量抽出部41、相関因子設定部44、および加重相関係数算出部45を一体化して、相関変量抽出機能、相関因子設定機能、および加重相関係数算出機能を有する相関係数生成部40bとしてもよい。
このように、本発明にかかる解析システムでは、該システムを構成する各手段のうちの少なくとも一つ、好ましくは、解析用変量の処理に関わる手段を一体化しておくことで、システム構成を簡素化することができる。それゆえ、例えば設置場所を小さくして使用時の省スペース化を図ることが可能となる。また、入力部12を、解析装置20の操作に特化させた構成で一体化させることで、本発明にかかる解析システムの操作の煩雑化を回避することも可能となる。
〔実施の形態4〕
本発明における第4の実施の形態について図12および図13に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態1〜3の何れかで用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例、実施の形態1〜3では、マイクロアレイを用いた網羅的発現プロファイル実験を例に挙げて説明したが、本発明はこれに限定されるものではなく、マクロアレイやディファレンシャルディスプレイ等の他の発現プロファイル実験を実施した場合でも、本発明にかかる解析システムまたは解析方法を好適に用いることができる。
例えば、図12に示すように、マクロアレイを用いた実験で得られるイメージングフィルター52から遺伝子の発現量を信号強度として検出し、これを解析用変量として用いることで、多変量解析が可能となる。
マクロアレイは、スライドガラス等を用いた前記マイクロアレイとは異なり、ナイロンメンブレン等の一般的なメンブレンフィルターの表面にDNAをスポットして作製される。マクロアレイの利点としては、公知のブロット法に準じた方法で、ゲノムワイドで発現プロファイル解析を実施することができることや、スポットしたDNAをアルカリ変性処理してメンブレンフィルターに固定するため、マイクロアレイのようにハイブリダイゼーション中や洗浄中にDNAが剥離することがないこと等が挙げられる。それゆえ、マクロアレイとマイクロアレイとは、用途に応じて使い分けることが可能である。
上記マクロアレイを用いたアッセイは、基本的に前記マイクロアレイと同様である。具体的には、まず、マクロアレイに、33P等のアイソトープで標的したターゲットをハイブリダイズさせる。そして、結合していないターゲットの分子を洗浄して除去し、結合したターゲットの分子のみをマクロアレイ上に残存させる。ここで、結合しているターゲットの分子は上記アイソトープで標識されているため、マイクロアレイとは異なり、スポットをイメージングプレート52へ露光させ、このイメージングプレート52からターゲットの発現量を信号強度として測定する。
このように、マクロアレイによるアッセイは、基本的にマイクロアレイと同様であり、マイクロアレイと同様の網羅的発現プロファイル実験が実施可能である。そのため、例えば図12に示すように、画像読取部11としてイメージングプレート52から信号強度を検出できる構成のものを用いるのみで、前記参考例、実施の形態1〜3における解析システム10a〜10dをそのまま用いることができる。
さらに、画像読取部11として、マイクロアレイからもイメージングプレート52からも信号強度を読み取ることができる構成のものを用いてもよい。なお、図12では、本発明の一例として解析システム10b(および実施の形態1の解析方法)を例に挙げているがもちろんこれに限定されるものではない。
また、図13に示すように、ディファレンシャルディスプレイから遺伝子の発現量を信号強度として検出し、これを解析用変量として用いてもよい。
ディファレンシャルディスプレイは、異なる条件下にある細胞における遺伝子の発現量の差をゲル上のバンドプロファイルの差として検出し、その遺伝子を回収、同定する技術である。ディファレンシャルディスプレイは、全mRNAを網羅的に解析する手法ではないが、同一のmRNAで、網羅的に多数の試料を同時に比較できるという利点がある。
上記ディファレンシャルディスプレイによるアッセイを、例えば蛍光ディファレンシャルディスプレイを例に挙げて説明する。まず、全RNAから蛍光アンカープライマーを用いた逆転写で第一鎖DNAを合成し、これを鋳型として、任意プライマーと蛍光アンカープライマーとを用いてPCRを実施して、複数のcDNA断片を増幅してなるPCR産物を得る。そして、例えば無蛍光ガラス製のゲル板を用いて変性ポリアクリルアミドゲルを作製し、このPCR産物を変性ポリアクリルアミドゲルで分離後、ゲル板から蛍光イメージを信号強度として測定する。
このように、ディファレンシャルディスプレイによるアッセイも、マイクロアレイと同様の発現プロファイル実験が実施可能である。そのため、例えば図13に示すように、画像読取部11として、電気泳動後のポリアクリルアミドゲルのゲル板53から信号強度を検出できる構成のものを用いるのみで、前記参考例、実施の形態1〜3における解析システム10a〜10dをそのまま用いることができる。
さらに、画像読取部11として、マイクロアレイ、イメージングプレート52、およびゲル板53の何れからも信号強度を読み取ることができる構成のものを用いてもよい。なお、図13では、本発明の一例として解析システム10c(および実施の形態2の解析方法)を例に挙げているがもちろんこれに限定されるものではない。
このように、本発明では、解析用変量を得るための実験としては、マイクロアレイに限定されるものではなく、マクロアレイやディファレンシャルディスプレイといった、遺伝子の発現量を信号強度として読み取ることができる各種実験方法を好適に用いることができる。
また、本発明にかかる解析システムまたは解析方法は、上記(網羅的)発現プロファイル実験により得られる多変量を解析する用途に限定されるものではなく、前述したように、log(Yik/Zik)の形式の多変量で記述された大量の標本からなるデータセットに対しても適用することができる。
〔実施の形態5〕
本発明における第5の実施の形態について図14に基づいて説明すれば以下の通りである。なお、本発明はこれに限定されるものではない。また、説明の便宜上、参考例、実施の形態1〜4の何れかで用いた部材と同一の機能を有する部材には同一の部材番号を付記し、その説明を省略する。
前記参考例、実施の形態1〜4では、解析用変量(信号強度)や解析結果等の各種情報は、一つの解析システム(または一つの装置)内でのみ入出力されていたが、本発明はこれに限定されるものではなく、インターネットを含む通信ネットワークを介して各種情報が入出力されるようになっていてもよい。
例えば、図14に示すように、本実施の形態では、本発明にかかる解析システム10が、通信インターフェース16を備えており、通信ネットワークに接続して各種情報の送受信が可能になっている。図14では、同一構内にある解析システム10、パーソナルコンピュータ(PC)60aおよび60b、並びにサーバ63が通信回線64に接続されてバス型のLAN(ローカルエリアネットワーク)を構成しており、さらにこのLANがインターネットを介して、他地域にあるPC60cとも接続されている。
上記解析システム10としては、本発明に含まれる構成となっていれば全く限定されるものではなく、例えば、前記参考例、実施の形態1〜4で述べた各種解析システム10a〜dを好適に用いることができる。上記通信インターフェース16の具体的な構成についても、特に限定されるものではなく、公知のLANカード、LANボード、LANアダプタや、モデム等を好適に用いることができる。
上記PC60a〜60cについては、モデム等の通信手段を備えた公知のパーソナルコンピュータを好適に用いることができ、デスクトップ型やノート型等に限定されるものではない。なお、PC60a〜60cは、CRTディスプレイや液晶ディスプレイ等の表示部とキーボードやマウス等の入力部を備えた基本構成となっているものとする。なお、説明の便宜上、PC60a〜60cに備えられている図示しない表示部や入力部をPC表示部・PC入力部と表現する。
上記PC60a〜60cのうち、PC60bにはスキャナ61が備えられており、PC60cには、スキャナ61に加えてプリンタ62も備えられているとする。もちろん、PC60a〜60cが備える外付けハードウェアは、一般的なパーソナルコンピュータに外付けできるものであれば特に限定されるものではなく、上記PC60a〜60cの区分けは、本実施の形態を説明するための便宜上のものである。
上記サーバ63の具体的構成も特に限定されるものではなく、LANを構成するクライアントである、PC60a〜60c、解析システム10に対してサービスを提供できるコンピュータであればよい。さらには、このサーバ63は、データベースサーバやファイルサーバを兼ねていてもよい。
上記通信回線64の具体的構成も特に限定されるものではなく、従来公知の一般的な通信回線を用いることができる。また、この通信回線64を用いて構築されるLANの型式もバス型に限定されるものではなく、スター型やリング型等、従来公知の型式であればよい。
さらに図示しないが、上記LANには、共用のプリンタ等、他の端末が含まれていても良い。加えて図示しないが、上記LANを含む図14に示す通信ネットワークには、通信可能な携帯型の各種端末等が含まれていても良い。
上記構成のネットワークでは、例えば、解析システム10で、前記参考例、実施の形態1〜4で説明したような発現プロファイル解析を実施した後、その解析結果を単に解析システム10内(すなわち図1における表示部13や画像形成部14等)で出力するだけでなく、LANを介してPC60a〜60cに送信することもできる。PC60a〜60cでは、解析システム10から得られた結果を、PC表示部で表示したり、プリンタ62で印刷したりすることができ、さらにはPC入力部からの入力によって、解析結果を加工することもできる。
つまり本実施の形態では、上記通信インターフェース16は、通信手段としてだけでなく、解析システム10の入力手段としても機能することになる。
また、例えばPC60bやPC60cの場合、スキャナ61を備えているため、このスキャナ61が、マイクロアレイ等から画像データを読み取ることができるものであれば、解析用変量としての信号強度を、解析システム10外部から入力することもできる。そして、解析システム10で多変量解析を実施し、その解析結果をPC60bやPC60cに返送する。
特に、上記PC60cのように、インターネットを介して、解析システム10の所在する場所から離れた遠隔地で、解析用変量を送信したり解析結果を受信したりする場合には、任意の顧客に対して発現プロファイル解析を提供する解析サービスを行うことが可能となる。
また、上記PC60a・60bのように、LANを介して解析システム10とつながっている場合には、例えば研究施設や医療施設等に一つ解析システム10があれば、他の研究者や医療従事者はPC60a・60b等の情報端末を介して解析システム10を共用することができる。それゆえ、本発明にかかる解析システム10をより効率的に使用することができる。
さらに、上記サーバ63がデータベースサーバやファイルサーバを兼ねている場合には、通信ネットワークを介して解析された発現プロファイル解析の解析結果を、通信ネットワークを介してサーバ63に蓄積していくことができる。その結果、解析結果をより一層有効利用することが可能となる。
加えて、本発明には、本発明にかかる解析方法を、コンピュータ上でプログラムにより実施することが可能となっているが、このプログラムを記録する記録媒体には、通信ネットワークからダウンロードするように流動的にプログラムを担持する媒体も含まれる。例えば、サーバ63の記録手段に解析方法のプログラムが記録されていれば、解析システム10は、サーバ63から適宜、解析方法のプログラムをダウンロードして使用するようになっていてもよい。ただし、解析システム10が通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは、予め解析システム10本体に格納しておくか、別の記録媒体からインストールされるようになっている。
さらに、PC60cのように、スキャナ61やプリンタ62を備えているコンピュータが、通信ネットワークを介してサーバ63に接続されている場合には、サーバ63から解析方法のプログラムをダウンロードすることで、PC60cそのものを本発明にかかる解析システムとして用いることができる。ただし、この場合、PC60cが備えている上記スキャナ61やプリンタ62は、発現プロファイル解析に好適な構成となっている。
このように、本発明にかかる解析システム、解析方法、プログラムおよびこれを記録する記録媒体は、通信ネットワーク技術にも適用可能となっている。そのため、さまざまな解析対象の遺伝子を、効率的かつグローバルに解析し、しかも得られた解析結果も効率的かつグローバルに利用することができる。
なお、本発明は、上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれることはいうまでもない。
以下、実施例および図15ないし図19に基づいて本発明をより具体的に説明するが、本発明はこれらに限定されるものではない。なお、以下の実施例では、ターゲットDNAを大腸菌野生株(Escherichia coli K12)から調製し、発現プロファイル実験には、上記大腸菌野生株のゲノムにおける全てのタンパク質コード領域がスポットされているマイクロアレイを用いた。ターゲットDNAの調製法およびマイクロアレイの作製法について、先に説明する。
〔ターゲットDNAの調製例1〕
LB培地200mlで培養し、対数増殖期における培養液から遠心分離して得られた大腸菌のペレットから、Qiagen社製RneasyRMaxiキットを用いてmRNAを抽出した。抽出したmRNA30μgから、XL life science社製AMV XLリバーストランスクリプテースキットを用いてCy3またはCy5で蛍光標識されたcDNAをそれぞれ得た。得られたこれら2種類の蛍光標識cDNAをターゲットDNAとして用いた。なお、Cy3で標識されたcDNAを、以下、Cy3ターゲットと称し、Cy5で標識されたcDNAを、以下、Cy5ターゲットと称する。
〔マイクロアレイ〕
タカラ社製のカスタムマイクロアレイを用いた。DNAフラグメントは、Archive cloneよりPCR増幅して作製した。
〔実施例1〕
本実施例では、前記参考例で説明した解析システム10aを用いた。具体的には、富士通製パーソナルコンピュータを用いて、参考例で説明した解析方法をプログラムにより実行させることで、本発明にかかる解析システム10aを実現した。
まず、前記調整例1で得られたCy3ターゲットおよびCy5ターゲットを前記作製例で得られたマイクロアレイにハイブリダイズさせた。そして、Genetic MicroSystems社製DNAマイクロアレイ用スキャナー(画像読取部11に対応)を用いて、上記マイクロアレイから、mRNA量をCy3およびCy5の蛍光強度として測定(検出)し、この蛍光強度を、遺伝子の発現量のデータとなる信号強度(解析用変量)として解析システムに入力した(解析用変量入力ステップ、S11・S12)。
次に、バックグラウンド補正部22により、バックグラウンド補正を実施した(バックグラウンド補正ステップ・S13)。なお、i番目の遺伝子において、検出されたCy3およびCy5の蛍光号強度を、それぞれS(Cy3) iおよびS(Cy5) iとし、バックグラウンドとなる蛍光強度を、それぞれB(Cy3) iおよびB(Cy5) iとすると、バックグラウンド補正がなされた第1データ(Cy3の蛍光)の蛍光強度f(Cy3) i、および第2データ(Cy5の蛍光)の蛍光強度f(Cy5) i は、それぞれ次式(16)・(17)で表すものとする。
f(Cy3) i=S(Cy3) i−B(Cy3) i ・・・(16)
f(Cy5) i=S(Cy5) i−B(Cy5) i ・・・(17)
また、DNAと無関係なヒトベータアクチンをネガティブコントロール(以下、ネガコンと略す)として、Cy3およびCy5の蛍光強度の検出限界を、ネガコンの平均値+標準偏差の条件により決定した。なお、Cy3またはCy5の蛍光の蛍光強度における検出限界を、それぞれS(NCy3)およびS(NCy5)とする。
具体的には、Cy3およびCy5の蛍光の蛍光強度のネガコンの個数を、それぞれNC1およびNC2とした場合、ネガコンに対するCy3およびCy5の蛍光の蛍光強度を、それぞれf(NCy3) 1,f(NCy3) 2,...,f(NCy3) NC1およびf(NCy5) 1,f(NCy5) 2,...,f(NCy5) NC2とする。このとき、ネガコンの蛍光強度の平均Av[f(NCy3)]およびAv[f(NCy5)]は、それぞれ次式(18)・(19)で表され、標準偏差SD[f(NCy3)]およびSD[f(NCy5)]は、それぞれ次式(20)・(21)で表される。
それゆえ、上記検出限界S(NCy3)およびS(NCy5)は、それぞれ次式(22)および(23)に示すように、ネガコンの蛍光強度の平均および標準偏差の和として表される。
S(NCy3)=Av[f(NCy3)]+SD[f(NCy3)] ・・・(22)
S(NCy5)=Av[f(NCy5)]+SD[f(NCy5)] ・・・(23)
本実施例では、ネガコンとして、Cnt90ヒトベータアクチン(Cnt09 Human Beta-actin 90000)を用いた。このとき、ネガコンに対するCy3およびCy5の蛍光の蛍光強度がそれぞれf(NCy3)<0およびf(NCy5)<0となるスポットを除くと、ネガコンの蛍光強度の平均は、それぞれAv[f(NCy3)]=91.2,Av[f(NCy5)]=27.1となり、標準偏差は、それぞれSD[f(NCy3)]=72.5,SD[f(NCy5)]=22.6となったので、上記式(22)および(23)より、検出限界は、それぞれS(NCy3)=163.7,S(NCy5)=49.7となった。
次に、変量分類部31により、上記蛍光強度の検出限界を分類基準値として用いて、上記第1データおよび第2データの組み合わせからなる解析用変量を分類した(変量分類ステップ・S14)。具体的には、前記参考例で説明したように、以下に示すクラス1・2Aおよび2B・3に分類した。
クラス1 :f(Cy3) i >S(NCy3)かつf(Cy5) i>S(NCy5)
クラス2A:f(Cy3) i <S(NCy3)かつf(Cy5) i>S(NCy5)
クラス2B:f(Cy3) i >S(NCy3)かつf(Cy5) i <S(NCy5)
クラス3 :f(Cy3) i <S(NCy3)かつf(Cy5) i<S(NCy5)
次に、補正変量算出部32により、変量分類部31で分類された解析用変量のうち、高信頼性変量を構成する第1データおよび第2データの対数比を算出した(対数比算出ステップ・S15)。
具体的には、上記各クラスに属するサンプルのうち、クラス1に属するサンプルのみがCy3およびCy5の蛍光の蛍光強度を比較することができる。それゆえ、上記クラス1に分類されたデータを高信頼性変量として用いる。なお、クラス2Aおよび2Bについては、一方の蛍光強度(f(Cy3) i <S(NCy3)またはf(Cy5) i <S(NCy5))が0と見なされるため、Cy3およびCy5の蛍光の蛍光強度を比較することはできないが、2つの条件の間に有意な差があることを示しており、本実施例においては参考データとなり得る。
そして、次式(24)および(25)に示すように、上記クラス1に属する各蛍光強度から、ネガコンの蛍光強度の平均を引くことで、ゼロ点補正を実施した。
f’(Cy3) i=f(Cy3) i−Av[f(NCy3) i] ・・・(24)
f’(Cy5) i=f(Cy5) i−Av[f(NCy5) i] ・・・(25)
その後、ゼロ点補正を実施した上記各蛍光強度f’(Cy3) iおよびf’(Cy5) iの対数比log(f’(Cy3) i/f’(Cy5) i)を、i番目の遺伝子の相対発現量として算出した。
なお、log(f’(Cy3) i)およびlog(f’(Cy5) i)におけるマイクロアレイ上でのスポットの分布を、図15(a)および(b)それぞれに示す。なお、図15(a)・(b)では、縦軸がスポット数(The number of spots)を示し、横軸がi番目の遺伝子における発現量の対数(log(f’)と略して表記する)を示す。
次に、同じく補正変量算出部32により、全ての対数比log(f’(Cy3) i/f’(Cy5) i)に対する補正項REFi=1,2,…,N [log(f’(Cy3) i/f’(Cy5) i)]を算出した(補正項算出ステップ・S16)。具体的には、上記補正項REFi=1,2,…,N[log(f’(Cy3) i /f’(Cy5) i)]として、次式(26)で示す相対平均値Av[log(f’(Cy3) /f’(Cy5))]を用いた。
次に、同じく補正変量算出部32により、上記対数比log(f’(Cy3) i/f’(Cy5) i)と相対平均値(補正項)Av[log(f’(Cy3) /f’(Cy5))]との差を、次式(27)で示すように、補正変量Fiとして算出した(補正変量算出ステップ・S17)。
Fi=log(f’(Cy3) i/f’(Cy5) i)−Av[log(f’(Cy3) /f’(Cy5))] ・・・(27)
上記補正変量Fiによるマイクロアレイ上でのスポットの分布を図16に示す。なお、図16では、縦軸がマイクロアレイ上でのスポット数であり、横軸が補正変量Fiである。また、Av(Error)は、平均誤差を示す。
i番目の遺伝子が全く同一の条件で発現する理想的な場合では、Cy3およびCy5のそれぞれの蛍光強度に偏りがなく、f’(Cy3) i/f’(Cy5) i=1となり、log(f’(Cy3) i/f’(Cy5) i)=0となる。しかしながら、図15(a)および(b)の結果から明らかなように、蛍光の蛍光強度はおおまかにlog-正規分布を示していることがわかり、さらに、図15(a)および(b)の比較から明らかなように、同一のサンプルにおいても、それぞれのスポットの蛍光における蛍光強度に偏りが生じることがわかる。それゆえ、Cy3およびCy5のそれぞれの蛍光強度に偏りがあることは明らかである。
そこで、本発明にかかる解析方法を用いることで補正変量Fiを得ると、図16に示す結果が得られる。この結果から明らかなように、本発明では、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
また、参考例の解析方法で補正した場合の相対蛍光強度の平均誤差は0.193であった(図16参照)のに対して、補正せずに偏りを除去しなかった場合の相対蛍光強度の平均誤差は0.235であり、補正を実施したことで平均誤差は有意に小さくなっている。それゆえ、参考例における解析システムおよび解析方法が有効であることがわかる。
〔ターゲットDNAの調製例2〕
前記調製例1において、mRNAを抽出する対象として、大腸菌野生株に加えて、表1に示す特定の遺伝子を破壊した変異株を用いた以外は同様にしてmRNAを抽出した。その後、調製例1と同様にして、野生株由来のmRNAからCy3で蛍光標識したcDNAを、変異株由来のmRNAからCy5で蛍光標識したcDNAを得て、これらをターゲットDNAとして用いた。
〔実施例2〕
本実施例では、前記実施の形態1で説明した解析システム10bを用いた。具体的には、富士通社製パーソナルコンピュータを用いて、実施の形態1で説明した解析方法をプログラムにより実行させることで、本発明にかかる解析システム10bを実現した。
まず、前記調整例2で得られたCy3ターゲットおよびCy5ターゲットを作成例で得られたマイクロアレイにハイブリダイズさせた。そして、Genetic MicroSystems社製DNAマイクロアレイ用スキャナー(画像読取部11に対応)を用いて、上記マイクロアレイから、mRNA量をCy3およびCy5の蛍光強度として測定(検出)し、前記実施の形態1と同様にしてS201〜S207の補正を実施した。
次に、相関変量抽出部41により相関変量(Fis・Fit)i=1,…,Nを抽出し(相関変量抽出ステップ・S208)、相関変量選抜部42により、実験誤差に基づいて実験系毎に選抜基準値α=log(1.1),log(1.2),log(1.3),log(1.4),log(1.5)を設定した(S209)。次に、上記相関変量選抜部42により、上記相関変量から、該選抜基準値αに基づく選抜規定(前記実施の形態1における規定IおよびII)を満たす相関変量を実験系毎に選抜した(相関変量選抜ステップ・S210)。次に、相関係数算出部43で、相関変量を用いて、2つの実験系の間における相関係数を回帰分析により算出した(相関係数算出ステップ・S211)。
得られた相関係数の例を図17(a)〜(o)、図18(a)〜(j)、図19(a)〜(o)に示す。なお、図17〜19に示す棒グラフでは、欄外の下に相関係数を算出する対象となっている実験(s、t)のペアを、表1の実験番号を用いてハイフンでつないだ「s−t」として表している。例えば図17の実験ペア24−37は、表1における実験24(baeSR遺伝子を破壊した変異株を使用)と実験37(kdpABCDE遺伝子を破壊した変異株を使用)との相関係数を示すものである。
また、図17〜19における各棒グラフは、図中左から、選抜基準値αを設定しなかったとき(全体のデータに対する)、α=log(1.1)を設定したとき、α=log(1.2)を設定したとき、α=log(1.3)を設定したとき、α=log(1.4)を設定したとき、α=log(1.5)を設定したときの相関係数を示す。また、縦軸は相関係数の数値を示し、上側がプラス、下側がマイナスで、何れも最大値は1(絶対値)である。
図17(a)〜(o)は、α=log(1.5)と設定したときに、最小の相関係数を得た15組の実験ペアを示している。この結果から、負の相関関係を有する実験ペアでは、α=log(1.5)と設定した際に、最小の負の相関係数を示すことがわかる。
図18(a)〜(j)は、α=log(1.5)と設定したときに、相関関係がほとんど認められない10組の実験ペアを示している。この結果から、αを大きくすれば相関係数の絶対値は必ず大きくなるわけではないことが例証される。これは、本発明にかかる解析方法が2つの実験の間における相関を探索するために有効であることを意味する。
図19(a)〜(o)は、α=log(1.5)としたときに最大の相関係数を有する15組の実験ペアを示している。この結果から、相関係数はα=log(1.5)において最も大きくなっていることがわかる。
それゆえ、例えば、実施例1では、平均誤差0.193より大きな選抜基準値、すなわちα>log(1.3)となる選抜基準値αを設定したときに、原点付近に存在する実験間の値の関係を除去することが可能となる。その結果、2つの実験の間で良好な相関関係を得ることができる。
また、例えば、実験ペア26−28の相関関係としては、α=log(1.5)において、高い相関係数0.81が得られた。Two-Component Signal Transduction(James A.Hoch and Thomas J.Sihavy監修、American Society Microbiology、1995年発行)では、上記2つの実験26・28で破壊された、creABCD遺伝子およびphoBR遺伝子が、他の遺伝子の発現制御において類似の挙動を示すことを報告している。それゆえ、本発明は、マイクロアレイに代表されるように、非常に大多数の遺伝子の発現データが得られるものの誤差が比較的大きなデータを多数含む実験系を比較するために有効であるだけでなく、発現制御の観点から調節タンパク質の類似性を探索する目的にも有効に用いることができる。
本発明の多変量解析システムは、母集団を構成する複数の要素のそれぞれから、実験により、第1データとその対照である第2データとの組み合わせからなる解析用変量を得た上で、これら各データの比を用いて、多変量解析を実施する多変量解析システムにおいて、上記解析用変量の変化範囲のうち、信頼性の低い範囲から高い範囲に移行する閾値を分類基準値として用い、上記要素毎に複数得られた上記解析用変量を上記分類基準値に基づいて分類する変量分類手段と、該変量分類手段で分類された上記解析用変量のうち、信頼性の高い範囲に分類された高信頼性変量のみを用いて、該高信頼性変量を構成する第1データおよび第2データの対数比を算出するとともに、全ての高信頼性変量の対数比に対する補正項を算出し、さらに、上記対数比と補正項との差を補正変量として算出する補正変量算出手段とを備えていることが好ましい。
上記構成によれば、変量分類手段および補正変量算出手段により、母集団を構成する全体の要素の解析結果についての平均値によって解析結果を補正することができる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
本発明の多変量解析システムにおいては、上記の構成に加えて、上記変量分類手段による分類の前段で、分類前の全ての解析用変量に共通するバックグラウンド数値を除去するバックグラウンド補正手段を備えていることが好ましい。
上記構成によれば、バックグラウンド補正によって、読み取った発現量のデータに共通する上記バックグラウンド数値を除去するため、解析の精度をより向上させることができる。
本発明の多変量解析システムにおいては、上記の構成に加えて、上記補正項として、全ての高信頼性変量の対数比における相加平均値、相乗平均値、または中央値が用いられることが好ましい。
上記構成によれば、上記何れかの値を用いることで、より一層確実な補正を実施して、信頼性の高い補正変量を得ることができる。
本発明の発現プロファイル解析方法は、特定の生物のゲノムに含まれる全ての遺伝子またはその一部から、発現プロファイル実験によって各遺伝子の発現量を解析用変量として検出し、コンピュータを用いて多変量解析する発現プロファイル解析方法において、上記発現プロファイル実験として、特定条件下で実施される第1実験とその対照となる第2実験とが実施され、各実験から、上記各遺伝子の発現量が信号強度として検出される場合に、第1実験で得られた第1データと、第2実験で得られた第2データとを組み合わせて解析用変量として生成する変量生成ステップと、上記信号強度の検出限界を分類基準値として用い、該分類基準値に基づいて、生成された複数の上記解析用変量を分類する変量分類ステップと、分類された上記解析用変量のうち、信号強度の検出限界を超えるもののみを高信頼性変量として用い、該高信頼性変量を構成する第1データおよび第2データの対数比を算出する対数比算出ステップと、全ての高信頼性変量の対数比に対する補正項を算出する補正項算出ステップと、上記対数比と補正項との差を補正変量として算出する補正変量算出ステップとを含むことが好ましい。
上記方法によれば、変量分類ステップおよび補正変量算出ステップにより、母集団を構成する全体の要素の解析結果についての平均値によって解析結果を補正することができる。その結果、特定の遺伝子に注目することなくデータから偏り誤差を取り除くことができ、網羅的発現プロファイル解析の結果の精度を向上させることができる。
本発明の発現プロファイル解析方法は、さらに、上記変量分類ステップの前段で、分類前の全ての解析用変量に共通するバックグラウンド数値を除去するバックグラウンド補正ステップを含むことが好ましい。
上記方法によれば、バックグラウンド補正ステップによって、読み取った発現量のデータに共通する上記バックグラウンド数値を除去するため、解析の精度をより向上させることができる。
本発明の発現プロファイル解析方法は、上記補正項算出ステップでは、補正項として、全ての高信頼性変量の対数比における相加平均値、相乗平均値、または中央値を算出することが好ましい。
上記方法によれば、補正項算出ステップで、上記何れかの値を用いれば、より一層確実な補正を実施して、信頼性の高い補正変量を得ることができる。