JP4438414B2 - 遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体 - Google Patents
遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体 Download PDFInfo
- Publication number
- JP4438414B2 JP4438414B2 JP2003569831A JP2003569831A JP4438414B2 JP 4438414 B2 JP4438414 B2 JP 4438414B2 JP 2003569831 A JP2003569831 A JP 2003569831A JP 2003569831 A JP2003569831 A JP 2003569831A JP 4438414 B2 JP4438414 B2 JP 4438414B2
- Authority
- JP
- Japan
- Prior art keywords
- gene
- fluorescence intensity
- window
- confidence limit
- axis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Description
本発明は、遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体に関し、特に、DNAマイクロアレイやDNAチップなどの測定値データのバックグラウンド補正を行い、発現量が変化した遺伝子を統計的に高い信頼度で抽出することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体に関する。
背景技術
分子生物学の研究、新薬の研究開発、臨床診断などにおいて、メッセンジャーRNAの発現量が変化した遺伝子を探索すること、および、その遺伝子を同定することは非常に重要である。そこで、現在RNAレベルでの発現変化を調べる方法として、メッセンジャーRNAから逆転写酵素を用いて逆転写したcDNA断片をスライドガラス上に高密度に固定化したDNAマイクロアレイ、および、微細加工技術を用いて多種類のオリゴヌクレオチドを基板上に合成したアフィメトリクス社(会社名)のDNAチップ(商品名)が注目を集め、利用されている。
これらのDNAマイクロアレイやDNAチップを用いた発現遺伝子解析法は、数百から数万遺伝子に対して一度に網羅的に発現量が変動した遺伝子を同定するのに有効であり、現在、一般的に測定値の補正方法は、バックグラウンド補正工程、および、ノーマライズ工程とよばれる大きく二つの工程を含んでいる。
バックグラウンド補正工程では、単純に個々の測定値からブランクのスポットの平均バックグラウンド値、あるいは、各スポットの周囲の領域のバックグラウンド値を、スポットの蛍光強度測定値から引くことによってバックグラウンドの補正を行なう方法が主に用いられている。
一方、ノーマライズ工程は、最小自乗法やLowess平滑化(近傍領域に対応してバンド幅を用いた局所二次推定量)などで求めたノンパラメトリック回帰直線を蛍光強度散布図(スキャッタープロット)のY=X直線に変換する係数で全ての遺伝子の測定値を補正する手法を用いている。
しかしながら、DNAマイクロアレイやDNAチップを用いた発現遺伝子解析法は、信頼度の高い測定値の解析手法が確立されていないという問題点を有していた。以下この問題点について具体的に説明する。
まず、従来の補正法は、測定装置、標本間の誤差、および、蛍光標識効率などの違いにより容易に影響を受けるという問題点を有している。また、ノーマライズ工程においては、最小自乗法は厳密には回帰直線が2本引けてしまい、一方、Lowess平滑化(Dudoit S,Yang YH,Callow MJ,Speed TP(2000)Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments.Technical report,DePartment of Statistics,UC−Berkeley.http://www.stat.berkeley.edu/users/terry/zarray/Html/papersindex.html等)は経験則に基づく正規化処理であり根拠のないものに過ぎないという問題点を有していた。
さらに、発現量が変動した遺伝子の抽出法においては、従来の基準では任意の倍率以上の補正蛍光強度比を示した遺伝子を発現に差がある遺伝子として抽出しており、その基準となる倍率は、無根拠に2倍、3倍などに設定されていた(Chen Y,Dougherty ER,Bittner ML(1997)Ratio−based decisions and the quantitative analysis of cDNA microarray images.J Biomed Opt 2:364−374、Susan G.Hilsenbeck,etc.(1999)Statistical analysis of array expression data as applied to the problem of tamoxifen resistance.Journal of the National Cancer Institute,Vol.91,No.5等)という問題点を有していた。
一方、誤差モデルや遺伝子発現の確率分布を仮定して、最適化により遺伝子の検出を行なう手法(Chen Y,Dougherty ER,Bittner ML(1997)Ratio−based decisions and the quantitative analysis of cDNA microarray images.J Biomed Opt 2:364−374、Newton MA,Kendziorski CM,Richmond CS,Blattner FR,Tsui KW(2001)On differential variability of expression ratios: Improving statistical inference about gene expression changes from microarray data.J Comp Biol 8: 37−52.等)もいくつか開発されているが、これらの手法は、安定性と再現性に乏しく、必ずしも実用レベルまで達していないという問題点を有していた。また、理想的な検出信頼度を得るために、実験を何回繰り返せばいいという実験の指針となる統計表も存在しないため、実験の繰り返し回数と検出感度と検出信頼度の関係は明らかにされていない。
従って、本発明は、DNAマイクロアレイ、および、DNAチップを用いた発現遺伝子解析法において、遺伝子の発現量を確実に比較するための一般式を提供し、実際のデータ分布に合わせた頑健(ロバスト)な信頼度の高い発現変動遺伝子の抽出法を提供することを目的としている。
発明の開示
本発明にかかる遺伝子発現情報解析装置は、2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成するバックグラウンド補正手段と、上記バックグラウンド補正手段によりバックグラウンド補正された上記輝度データの対数をX−Y軸にとり蛍光強度散布図を作成し、各遺伝子のスポットについて蛍光強度平衡軸に対するバイアスを求め、上記輝度データから当該バイアスを除去することにより上記蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するバイアス補正手段と、上記バイアス補正手段により構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する遺伝子検出手段とを備えたことを特徴とする。
この装置によれば、DNAマイクロアレイやDNAチップなどにより2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成する。ここで、個々のスポットの蛍光強度測定値からブランクのスポットの蛍光強度測定値の平均をバックグラウンド値として用いてもよく、あるいは、各スポットの周囲の領域のブランクの蛍光強度測定値の平均値をバックグラウンド値として用いてもよい。また、これ以外のいかなる方法によりバックグラウンド補正を行ってもよい。
また、本装置によれば、バックグラウンド補正された輝度データの対数(自然対数または2の対数等)をX−Y軸にとり蛍光強度散布図(スキャッタープロット)を作成し、各遺伝子のスポットについて同じ蛍光強度を示す蛍光強度平衡軸(すなわち、各遺伝子のスポットについて、2つの条件で発現量が同等である遺伝子集団より得られた漸近線)に対するバイアスを求め、輝度データから当該バイアスを除去することにより蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、より多くのバイアスを含む蛍光成分の判定を行い、このバイアスを除去した上で蛍光強度平衡軸と発現量の倍数軸とを2軸とする新しい直行軸系を構築することができるようになる。
また、本装置によれば、構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出するので、従来の遺伝子検出法に比べて、測定装置、標本間の誤差、および、蛍光標識効率などの違いの影響を受けずに正確に発現量が変動した遺伝子を検出することができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記バイアス補正手段は、発現量が多い遺伝子集団の対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める第一主成分作成手段と、上記第一主成分作成手段により求めた上記漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算する座標回転手段と、上記座標回転手段による座標軸回転後の上記発現量が少ない遺伝子集団の座標を用いて、上記蛍光強度平衡軸の傾きを計算し、計算された傾きに基づいて2つの条件の上記輝度データのうちどちらに上記バイアスが多く含まれているかを判定するバイアス判定手段と、上記バイアス判定手段にて上記バイアスが多く含まれていると判定された条件の上記輝度データから上記バイアスを差し引くことにより上記蛍光強度平衡軸と上記発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する補正プロット生成手段とをさらに備えたことを特徴とする。
これはバイアス補正手段の一例を一層具体的に示すものである。この装置によれば、DNA濃度希釈系列の品質管理用のコントロール遺伝子サンプル(例えば外部遺伝子λDNAサンプル、あるいは発現量がほとんど変わらないリボソームなどのHouse−keeping遺伝子サンプル)を目的遺伝子サンプルと同時に測定し、蛍光強度データの積の一番小さい遺伝子から順に一つずつコントロール遺伝子を除き、残りすべてのコントロール遺伝子サンプルのデータから遺伝子の発現量とDNA量の検量線をそれぞれ作成し、データの相関係数を計算し、順番に計算される上記の相関係数が最初に強い相関が認められる基準(例えば0.8以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値1とし、二つの条件における蛍光強度データの積が閾値1を上回るすべての遺伝子サンプルの集団を発現量が多い遺伝子集団とし、上記発現量が順番に計算される相関係数度が最初に弱い相関が認められる基準(例えば0.5以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値2とし(ただし、閾値2<閾値1)、二つの条件における蛍光強度データの積が閾値2を下回るすべての遺伝子サンプルの集団を発現量が少ない遺伝子集団とし、発現量が多い遺伝子集団の蛍光強度対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求め、求めた漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算し、座標軸回転後の発現量が少ない遺伝子集団の座標を用いて、蛍光強度平衡軸の傾きを計算し、計算された傾き(例えば、正、負、ゼロ等)に基づいて2つの条件の輝度データのうちどちらにバイアスが多く含まれているかを判定し、バイアスが多く含まれていると判定された条件の輝度データからバイアスを差し引くこと(例えば、一定のバイアスをもつ遺伝子集団について座標を回転させる等)により蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、実測値のバイアスを効率的に除去し、かつ、データの性質を明白に表現できる蛍光強度散布図を作成することができるようになる。
なお、本装置は軸回転後にバイアスの大小を判定するものに限定されず、例えば、軸回転の前にも高発現漸近線と低発現漸近線の傾きを比較することにより、バイアスの大小を判定してもよい。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記主成分分析は、分散・共分散行列を用いて行うことを特徴とする。
これは主成分分析の一例を一層具体的に示すものである。この装置によれば、主成分分析は、分散・共分散行列を用いて行うので、従来から発現遺伝子解析に用いられている相関行列を用いた主成分分析法と比較して正規化を要しないため、効率的に主成分分析を行うことができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記遺伝子検出手段は、上記蛍光強度平衡軸方向に予め定めた区間内のウィンドウを設定するウィンドウ設定手段と、上記ウィンドウ設定手段により設定された各ウィンドウ内において信頼限界点を決定する信頼限界点決定手段と、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動するウィンドウ移動手段と、上記ウィンドウ移動手段により移動した各ウィンドウについて上記信頼限界点決定手段により各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成手段と、上記信頼境界線作成手段により作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出する変動遺伝子抽出手段とをさらに備えたことを特徴とする。
これは遺伝子検出手段の一例を一層具体的に示すものである。この装置によれば、予め定めた区間内のウィンドウを設定し、設定された各ウィンドウ内において遺伝子の輝度データの平均値、標準偏差、P値(例えば、p=0.05)、重心などのうち少なくとも一つを用いて信頼限界点を決定する。そして、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動し、移動した各ウィンドウについて各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成手段と、上記信頼境界線作成手段により作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出するので、安定性、再現性、および、信頼度の高い発現遺伝子抽出を行うことができるようになる。
また、これにより、誤差の範囲が異なる実験データであっても、その誤差に応じて、発現量変動倍率の閾値が決められるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記信頼限界点決定手段は、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて上記信頼限界点を決定することを特徴とする。
これは信頼限界点決定の一例を一層具体的に示すものである。この装置によれば、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて信頼限界点を決定するので、従来手法と比較して正確かつ効率的に信頼限界点を求めることができるようになる。また、この重複データの検定表によると実験設計の段階で必要となる重複実験の数を求められる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記信頼境界線作成手段は、上記複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い上記信頼境界線を作成することを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。この装置によれば、複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い信頼境界線を作成するので、効率的に信頼限界点を補完して信頼曲線を作成することができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記信頼境界線作成手段は、蛍光強度の高い領域については、最後の上記ウィンドウで求めた信頼限界点の水平延長線を用いて上記信頼限界線を作成することを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。この装置によれば、蛍光強度の高い領域については、最後のウィンドウ(最も右側にあるウィンドウ)で求めた信頼限界点のX軸に対する水平延長線を用いて信頼限界線を作成するので、傾きが少なくどちらに収束するか判断不能の場合であっても、適切な信頼限界線を作成することができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記信頼境界線作成手段は、蛍光強度の低い領域については、各ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いることを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。この装置によれば、蛍光強度の低い領域については、例えば、最初から数十程度の各ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いるので、蛍光強度が低い遺伝子のスポットについても的確に検出することができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、利用者にウィンドウ内の遺伝子数を入力させる遺伝子数入力手段をさらに備え、上記ウィンドウ設定手段は、上記遺伝子数入力手段により入力された上記遺伝子数の上記遺伝子が含まれる上記区間内で上記ウィンドウを設定することを特徴とする。
これはウィンドウ設定の一例を一層具体的に示すものである。この装置によれば、利用者にウィンドウ内の遺伝子数を入力させ、入力された遺伝子数の遺伝子が含まれる区間内でウィンドウを設定するので、実験毎に利用者が設定する遺伝子数を変動させることができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、利用者に信頼限界値を入力させる信頼限界値入力手段をさらに備え、上記信頼限界点決定手段は、上記ウィンドウ内において上記信頼限界値入力手段により入力された上記信頼限界値に基づいて上記信頼限界点を決定することを特徴とする。
これは信頼限界点決定の一例を一層具体的に示すものである。この装置によれば、利用者に信頼限界値を入力させ、ウィンドウ内において入力された信頼限界値に基づいて信頼限界点を決定するので、実験毎に利用者が設定する信頼限界値を変動させることができ、各実験の誤差を適切な範囲に収めることができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、利用者に、上記変動しない遺伝子の分布の形、上記変動遺伝子の分布の形、上記変動遺伝子の検出基準、実験の繰り返し数、および、シミュレーション回数のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させるシミュレーション条件設定手段と、上記シミュレーション条件設定手段にて設定された上記シミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、上記遺伝子検出手段を実行し、上記発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、上記シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成するシミュレーション実行手段と、上記シミュレーション条件毎に、上記シミュレーション実行手段によるシミュレーション結果を出力するシミュレーション結果出力手段とをさらに備えたことを特徴とする。
この装置によれば、利用者に、変動しない遺伝子の分布の形(例えば、分布の標準偏差(例えば、発現が変わらない遺伝子の分布を標準正規分布として標準偏差σ=1、中心μ=0としたときに、標準偏差σの幅を0.1から1.5の範囲で設定する))、上記変動遺伝子の分布の形(例えば、中心(例えば、当該条件のときに、中心μの幅を0.4から3の範囲で設定する))、上記変動遺伝子の検出基準(例えば、全体数からみた検出された遺伝子の割合を、2/3、2/4、3/4、3/6、4/6などで設定する)、実験の繰り返し数、および、シミュレーション回数(例えば、3回から10回の範囲で設定する)のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させ、設定されたシミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、遺伝子検出を実行し、発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成し、シミュレーション条件毎に、シミュレーション実行によるシミュレーション結果を出力するので、様々な条件におけるシミュレーション結果を組み合わせることにより上記の組み合わせによる検出力と検出信頼度を知ることができる。すなわち、同じ条件の対照実験を繰り返して行い、得られたそれぞれ異なったデータセットに対して変動遺伝子の検出を行い、あらかじめ決めた回数以上検出される遺伝子のみを選択することにより、期待通りの信頼度あるいは検出力で変動遺伝子を検出できるようになる。
また、これにより、発現量が変わらない遺伝子が変動遺伝子として検出されたエラー(第一種のエラー)や、変動遺伝子が発現が変わらない遺伝子として検出されたエラー(第二種のエラー)を算出して比較することにより、シミュレーションのデータから上記の手法による変動遺伝子を検出する検出力と信頼度を把握でき、実際の実験データに対して、期待される検出力と信頼度を得るために、実験の繰り返し数と変動遺伝子の検出基準、および信頼限界点の組み合わせを設定することができる。
また、これにより、何回実験を行えば、正確な実験データを取ることができるかを予測することが可能になり、実験効率を著しく向上させることができるようになる。
つぎの発明にかかる遺伝子発現情報解析装置は、上記に記載の遺伝子発現情報解析装置において、上記遺伝子検出手段は、各スポットの偏差値を計算する偏差値計算手段をさらに備えたことを特徴とする。
これは遺伝子検出の一例を一層具体的に示すものである。この装置によれば、各スポットの偏差値を計算するので、このように計算された各スポットの偏差値を変動比率(倍率)の代わりに用いることで、スライド間の誤差の差異に影響されない解析が可能になる。
また、これにより、本装置により計算される偏差値を、クラスター解析に代表される多変量解析において変動比率の対数や正規化した変動比率の変わりに用いることができ、発現量の大小による誤差の影響の違いに左右されない解析が可能になる。
また、本発明は遺伝子発現情報解析方法に関するものであり、本発明にかかる遺伝子発現情報解析方法は、2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成するバックグラウンド補正ステップと、上記バックグラウンド補正ステップによりバックグラウンド補正された上記輝度データの対数をX−Y軸にとり蛍光強度散布図を作成し、各遺伝子のスポットについて蛍光強度平衡軸に対するバイアスを求め、上記輝度データから当該バイアスを除去することにより上記蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するバイアス補正ステップと、上記バイアス補正ステップにより構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する遺伝子検出ステップとを含むことを特徴とする。
この方法によれば、DNAマイクロアレイやDNAチップなどにより2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成する。ここで、個々のスポットの蛍光強度測定値からブランクのスポットの蛍光強度測定値の平均をバックグラウンド値として用いてもよく、あるいは、各スポットの周囲の領域のブランクの蛍光強度測定値の平均値をバックグラウンド値として用いてもよい。また、これ以外のいかなる方法によりバックグラウンド補正を行ってもよい。
また、本方法によれば、バックグラウンド補正された輝度データの対数(自然対数または2の対数等)をX−Y軸にとり蛍光強度散布図(スキャッタープロット)を作成し、各遺伝子のスポットについて同じ蛍光強度を示す蛍光強度平衡軸に対するバイアスを求め、輝度データから当該バイアスを除去することにより蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、より多くのバイアスを含む蛍光成分の判定を行い、このバイアスを除去した上で蛍光強度平衡軸と発現量の倍数軸とを2軸とする新しい直行軸系を構築することができるようになる。
また、本方法によれば、構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出するので、従来の遺伝子検出法に比べて、測定方法、標本間の誤差、および、蛍光標識効率などの違いの影響を受けずに正確に発現量が変動した遺伝子を検出することができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記バイアス補正ステップは、発現量が多い遺伝子集団の対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める第一主成分作成ステップと、上記第一主成分作成ステップにより求めた上記漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算する座標回転ステップと、上記座標回転ステップによる座標軸回転後の上記発現量が少ない遺伝子集団の座標を用いて、上記蛍光強度平衡軸の傾きを計算し、計算された傾きに基づいて2つの条件の上記輝度データのうちどちらに上記バイアスが多く含まれているかを判定するバイアス判定ステップと、上記バイアス判定ステップにて上記バイアスが多く含まれていると判定された条件の上記輝度データから上記バイアスを差し引くことにより上記蛍光強度平衡軸と上記発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する補正プロット生成ステップとをさらに含むことを特徴とする。
これはバイアス補正ステップの一例を一層具体的に示すものである。この方法によれば、DNA濃度希釈系列の品質管理用のコントロール遺伝子サンプル(例えば外部遺伝子λDNAサンプル、あるいは発現量がほとんど変わらないリボソームなどのHouse−keeping遺伝子サンプル)を目的遺伝子サンプルと同時に測定し、蛍光強度データの積の一番小さい遺伝子から順に一つずつコントロール遺伝子を除き、残りすべてのコントロール遺伝子サンプルのデータから遺伝子の発現量とDNA量の検量線をそれぞれ作成し、データの相関係数を計算し、順番に計算される上記の相関係数が最初に強い相関が認められる基準(例えば0.8以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値1とし、二つの条件における蛍光強度データの積が閾値1を上回るすべての遺伝子サンプルの集団を発現量が多い遺伝子集団とし、上記発現量が順番に計算される相関係数度が最初に弱い相関が認められる基準(例えば0.5以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値2とし(ただし、閾値2<閾値1)、二つの条件における蛍光強度データの積が閾値2を下回るすべての遺伝子サンプルの集団を発現量が少ない遺伝子集団とし、発現量が多い遺伝子集団の蛍光強度対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求め、求めた漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算し、座標軸回転後の発現量が少ない遺伝子集団の座標を用いて、蛍光強度平衡軸の傾きを計算し、計算された傾き(例えば、正、負、ゼロ等)に基づいて2つの条件の輝度データのうちどちらにバイアスが多く含まれているかを判定し、バイアスが多く含まれていると判定された条件の輝度データからバイアスを差し引くこと(例えば、一定のバイアスをもつ遺伝子集団について座標を回転させる等)により蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、実測値のバイアスを効率的に除去し、かつ、データの性質を明白に表現できる蛍光強度散布図を作成することができるようになる。
なお、本方法は軸回転後にバイアスの大小を判定するものに限定されず、例えば、軸回転の前にも高発現漸近線と低発現漸近線の傾きを比較することにより、バイアスの大小を判定してもよい。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記主成分分析は、分散・共分散行列を用いて行うことを特徴とする。
これは主成分分析の一例を一層具体的に示すものである。この方法によれば、主成分分析は、分散・共分散行列を用いて行うので、従来から発現遺伝子解析に用いられている相関行列を用いた主成分分析法と比較して正規化を要しないため、効率的に主成分分析を行うことができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記遺伝子検出ステップは、上記蛍光強度平衡軸方向に予め定めた区間内のウィンドウを設定するウィンドウ設定ステップと、上記ウィンドウ設定ステップにより設定された各ウィンドウ内において信頼限界点を決定する信頼限界点決定ステップと、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動するウィンドウ移動ステップと、上記ウィンドウ移動ステップにより移動した各ウィンドウについて上記信頼限界点決定ステップにより各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成ステップと、上記信頼境界線作成ステップにより作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出する変動遺伝子抽出ステップとをさらに含むことを特徴とする。
これは遺伝子検出ステップの一例を一層具体的に示すものである。この方法によれば、予め定めた区間内のウィンドウを設定し、設定された各ウィンドウ内において遺伝子の輝度データの平均値、標準偏差、P値(例えば、p=0.05)、重心などのうち少なくとも一つを用いて信頼限界点を決定する。そして、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動し、移動した各ウィンドウについて各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成ステップと、上記信頼境界線作成ステップにより作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出するので、安定性、再現性、および、信頼度の高い発現遺伝子抽出を行うことができるようになる。
また、これにより、誤差の範囲が異なる実験データであっても、その誤差に応じて、発現量変動倍率の閾値が決められるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記信頼限界点決定ステップは、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて上記信頼限界点を決定することを特徴とする。
これは信頼限界点決定の一例を一層具体的に示すものである。この方法によれば、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて信頼限界点を決定するので、従来手法と比較して正確かつ効率的に信頼限界点を求めることができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記信頼境界線作成ステップは、上記複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い上記信頼境界線を作成することを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。この方法によれば、複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い信頼境界線を作成するので、効率的に信頼限界点を補完して信頼曲線を作成することができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記信頼境界線作成ステップは、蛍光強度の高い領域については、最後の上記ウィンドウで求めた信頼限界点の水平延長線を用いて上記信頼限界線を作成することを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。この方法によれば、蛍光強度の高い領域については、最後のウィンドウ(最も右側にあるウィンドウ)で求めた信頼限界点のX軸に対する水平延長線を用いて信頼限界線を作成するので、傾きが少なくどちらに収束するか判断不能の場合であっても、適切な信頼限界線を作成することができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記信頼境界線作成ステップは、蛍光強度の低い領域については、各ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いることを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。この方法によれば、蛍光強度の低い領域については、例えば、最初から数十程度の各ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いるので、蛍光強度が低い遺伝子のスポットについても的確に検出することができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、利用者にウィンドウ内の遺伝子数を入力させる遺伝子数入力ステップをさらに含み、上記ウィンドウ設定ステップは、上記遺伝子数入力ステップにより入力された上記遺伝子数の上記遺伝子が含まれる上記区間内で上記ウィンドウを設定することを特徴とする。
これはウィンドウ設定の一例を一層具体的に示すものである。この方法によれば、利用者にウィンドウ内の遺伝子数を入力させ、入力された遺伝子数の遺伝子が含まれる区間内でウィンドウを設定するので、実験毎に利用者が設定する遺伝子数を変動させることができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、利用者に信頼限界値を入力させる信頼限界値入力ステップをさらに含み、上記信頼限界点決定ステップは、上記ウィンドウ内において上記信頼限界値入力ステップにより入力された上記信頼限界値に基づいて上記信頼限界点を決定することを特徴とする。
これは信頼限界点決定の一例を一層具体的に示すものである。この方法によれば、利用者に信頼限界値を入力させ、ウィンドウ内において入力された信頼限界値に基づいて信頼限界点を決定するので、実験毎に利用者が設定する信頼限界値を変動させることができ、各実験の誤差を適切な範囲に収めることができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、利用者に、上記変動しない遺伝子の分布の形、上記変動遺伝子の分布の形、上記変動遺伝子の検出基準、実験の繰り返し数、および、シミュレーション回数のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させるシミュレーション条件設定ステップと、上記シミュレーション条件設定ステップにて設定された上記シミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、上記遺伝子検出手段を実行し、上記発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、上記シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成するシミュレーション実行ステップと、上記シミュレーション条件毎に、上記シミュレーション実行ステップによるシミュレーション結果を出力するシミュレーション結果出力ステップとをさらに含むことを特徴とする。
この方法によれば、利用者に、変動しない遺伝子の分布の形(例えば、分布の標準偏差(例えば、発現が変わらない遺伝子の分布を標準正規分布として標準偏差σ=1、中心μ=0としたときに、標準偏差σの幅を0.1から1.5の範囲で設定する))、上記変動遺伝子の分布の形(例えば、中心(例えば、当該条件のときに、中心μの幅を0.4から3の範囲で設定する))、上記変動遺伝子の検出基準(例えば、全体数からみた検出された遺伝子の割合を、2/3、2/4、3/4、3/6、4/6などで設定する)、実験の繰り返し数、および、シミュレーション回数(例えば、3回から10回の範囲で設定する)のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させ、設定されたシミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、遺伝子検出を実行し、発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成し、シミュレーション条件毎に、シミュレーション実行によるシミュレーション結果を出力するので、様々な条件におけるシミュレーション結果を組み合わせることにより上記の組み合わせによる検出力と検出信頼度を知ることができる。すなわち、同じ条件の対照実験を繰り返して行い、得られたそれぞれ異なったデータセットに対して変動遺伝子の検出を行い、あらかじめ決めた回数以上検出される遺伝子のみを選択することにより、期待通りの信頼度あるいは検出力で変動遺伝子を検出できるようになる。
また、これにより、発現量が変わらない遺伝子が変動遺伝子として検出されたエラー(第一種のエラー)や、変動遺伝子が発現が変わらない遺伝子として検出されたエラー(第二種のエラー)を算出して比較することにより、シミュレーションのデータから上記の手法による変動遺伝子を検出する検出力と信頼度を把握でき、実際の実験データに対して、期待される検出力と信頼度を得るために、実験の繰り返し数と変動遺伝子の検出基準、および信頼限界点の組み合わせを設定することができる。
また、これにより、何回実験を行えば、正確な実験データを取ることができるかを予測することが可能になり、実験効率を著しく向上させることができるようになる。
つぎの発明にかかる遺伝子発現情報解析方法は、上記に記載の遺伝子発現情報解析方法において、上記遺伝子検出ステップは、各スポットの偏差値を計算する偏差値計算ステップをさらに含むことを特徴とする。
これは遺伝子検出の一例を一層具体的に示すものである。この方法によれば、各スポットの偏差値を計算するので、このように計算された各スポットの偏差値を変動比率(倍率)の代わりに用いることで、スライド間の誤差の差異に影響されない解析が可能になる。
また、これにより、本方法により計算される偏差値を、クラスター解析に代表される多変量解析において変動比率の対数や正規化した変動比率の変わりに用いることができ、発現量の大小による誤差の影響の違いに左右されない解析が可能になる。
また、本発明はプログラムに関するものであり、本発明にかかるプログラムは、2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成するバックグラウンド補正ステップと、上記バックグラウンド補正ステップによりバックグラウンド補正された上記輝度データの対数をX−Y軸にとり蛍光強度散布図を作成し、各遺伝子のスポットについて蛍光強度平衡軸に対するバイアスを求め、上記輝度データから当該バイアスを除去することにより上記蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するバイアス補正ステップと、上記バイアス補正ステップにより構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する遺伝子検出ステップとを含む遺伝子発現情報解析方法をコンピュータに実行させることを特徴とする。
このプログラムによれば、DNAマイクロアレイやDNAチップなどにより2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成する。ここで、個々のスポットの蛍光強度測定値からブランクのスポットの蛍光強度測定値の平均をバックグラウンド値として用いてもよく、あるいは、各スポットの周囲の領域のブランクの蛍光強度測定値の平均値をバックグラウンド値として用いてもよい。また、これ以外のいかなるプログラムによりバックグラウンド補正を行ってもよい。
また、本プログラムによれば、バックグラウンド補正された輝度データの対数(自然対数または2の対数等)をX−Y軸にとり蛍光強度散布図(スキャッタープロット)を作成し、各遺伝子のスポットについて同じ蛍光強度を示す蛍光強度平衡軸に対するバイアスを求め、輝度データから当該バイアスを除去することにより蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、より多くのバイアスを含む蛍光成分の判定を行い、このバイアスを除去した上で蛍光強度平衡軸と発現量の倍数軸とを2軸とする新しい直行軸系を構築することができるようになる。
また、本プログラムによれば、構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出するので、従来の遺伝子検出法に比べて、測定プログラム、標本間の誤差、および、蛍光標識効率などの違いの影響を受けずに正確に発現量が変動した遺伝子を検出することができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記バイアス補正ステップは、発現量が多い遺伝子集団の対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める第一主成分作成ステップと、上記第一主成分作成ステップにより求めた上記漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算する座標回転ステップと、上記座標回転ステップによる座標軸回転後の上記発現量が少ない遺伝子集団の座標を用いて、上記蛍光強度平衡軸の傾きを計算し、計算された傾きに基づいて2つの条件の上記輝度データのうちどちらに上記バイアスが多く含まれているかを判定するバイアス判定ステップと、上記バイアス判定ステップにて上記バイアスが多く含まれていると判定された条件の上記輝度データから上記バイアスを差し引くことにより上記蛍光強度平衡軸と上記発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する補正プロット生成ステップとをさらに含むことを特徴とする。
これはバイアス補正ステップの一例を一層具体的に示すものである。このプログラムによれば、DNA濃度希釈系列の品質管理用のコントロール遺伝子サンプル(例えば外部遺伝子λDNAサンプル、あるいは発現量がほとんど変わらないリボソームなどのHouse−keeping遺伝子サンプル)を目的遺伝子サンプルと同時に測定し、蛍光強度データの積の一番小さい遺伝子から順に一つずつコントロール遺伝子を除き、残りすべてのコントロール遺伝子サンプルのデータから遺伝子の発現量とDNA量の検量線をそれぞれ作成し、データの相関係数を計算し、順番に計算される上記の相関係数が最初に強い相関が認められる基準(例えば0.8以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値1とし、二つの条件における蛍光強度データの積が閾値1を上回るすべての遺伝子サンプルの集団を発現量が多い遺伝子集団とし、上記発現量が順番に計算される相関係数度が最初に弱い相関が認められる基準(例えば0.5以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値2とし(ただし、閾値2<閾値1)、二つの条件における蛍光強度データの積が閾値2を下回るすべての遺伝子サンプルの集団を発現量が少ない遺伝子集団とし、発現量が多い遺伝子集団の蛍光強度対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求め、求めた漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算し、座標軸回転後の発現量が少ない遺伝子集団の座標を用いて、蛍光強度平衡軸の傾きを計算し、計算された傾き(例えば、正、負、ゼロ等)に基づいて2つの条件の輝度データのうちどちらにバイアスが多く含まれているかを判定し、バイアスが多く含まれていると判定された条件の輝度データからバイアスを差し引くこと(例えば、一定のバイアスをもつ遺伝子集団について座標を回転させる等)により蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、実測値のバイアスを効率的に除去し、かつ、データの性質を明白に表現できる蛍光強度散布図を作成することができるようになる。
なお、本プログラムは軸回転後にバイアスの大小を判定するものに限定されず、例えば、軸回転の前にも高発現漸近線と低発現漸近線の傾きを比較することにより、バイアスの大小を判定してもよい。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記主成分分析は、分散・共分散行列を用いて行うことを特徴とする。
これは主成分分析の一例を一層具体的に示すものである。このプログラムによれば、主成分分析は、分散・共分散行列を用いて行うので、従来から発現遺伝子解析に用いられている相関行列を用いた主成分分析法と比較して正規化を要しないため、効率的に主成分分析を行うことができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記遺伝子検出ステップは、上記蛍光強度平衡軸方向に予め定めた区間内のウィンドウを設定するウィンドウ設定ステップと、上記ウィンドウ設定ステップにより設定された各ウィンドウ内において信頼限界点を決定する信頼限界点決定ステップと、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動するウィンドウ移動ステップと、上記ウィンドウ移動ステップにより移動した各ウィンドウについて上記信頼限界点決定ステップにより各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成ステップと、上記信頼境界線作成ステップにより作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出する変動遺伝子抽出ステップとをさらに含むことを特徴とする。
これは遺伝子検出ステップの一例を一層具体的に示すものである。このプログラムによれば、予め定めた区間内のウィンドウを設定し、設定された各ウィンドウ内において遺伝子の輝度データの平均値、標準偏差、P値(例えば、p=0.05)、重心などのうち少なくとも一つを用いて信頼限界点を決定する。そして、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動し、移動した各ウィンドウについて各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成ステップと、上記信頼境界線作成ステップにより作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出するので、安定性、再現性、および、信頼度の高い発現遺伝子抽出を行うことができるようになる。
また、これにより、誤差の範囲が異なる実験データであっても、その誤差に応じて、発現量変動倍率の閾値が決められるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記信頼限界点決定ステップは、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて上記信頼限界点を決定することを特徴とする。
これは信頼限界点決定の一例を一層具体的に示すものである。このプログラムによれば、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて信頼限界点を決定するので、従来手法と比較して正確かつ効率的に信頼限界点を求めることができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記信頼境界線作成ステップは、上記複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い上記信頼境界線を作成することを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。このプログラムによれば、複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い信頼境界線を作成するので、効率的に信頼限界点を補完して信頼曲線を作成することができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記信頼境界線作成ステップは、蛍光強度の高い領域については、最後の上記ウィンドウで求めた信頼限界点の水平延長線を用いて上記信頼限界線を作成することを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。このプログラムによれば、蛍光強度の高い領域については、最後のウィンドウ(最も右側にあるウィンドウ)で求めた信頼限界点のX軸に対する水平延長線を用いて信頼限界線を作成するので、傾きが少なくどちらに収束するか判断不能の場合であっても、適切な信頼限界線を作成することができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記信頼境界線作成ステップは、蛍光強度の低い領域については、各ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いることを特徴とする。
これは信頼境界線作成の一例を一層具体的に示すものである。このプログラムによれば、蛍光強度の低い領域については、例えば、最初から数十程度の各ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いるので、蛍光強度が低い遺伝子のスポットについても的確に検出することができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、利用者にウィンドウ内の遺伝子数を入力させる遺伝子数入力ステップをさらに含み、上記ウィンドウ設定ステップは、上記遺伝子数入力ステップにより入力された上記遺伝子数の上記遺伝子が含まれる上記区間内で上記ウィンドウを設定することを特徴とする。
これはウィンドウ設定の一例を一層具体的に示すものである。このプログラムによれば、利用者にウィンドウ内の遺伝子数を入力させ、入力された遺伝子数の遺伝子が含まれる区間内でウィンドウを設定するので、実験毎に利用者が設定する遺伝子数を変動させることができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、利用者に信頼限界値を入力させる信頼限界値入力ステップをさらに含み、上記信頼限界点決定ステップは、上記ウィンドウ内において上記信頼限界値入力ステップにより入力された上記信頼限界値に基づいて上記信頼限界点を決定することを特徴とする。
これは信頼限界点決定の一例を一層具体的に示すものである。このプログラムによれば、利用者に信頼限界値を入力させ、ウィンドウ内において入力された信頼限界値に基づいて信頼限界点を決定するので、実験毎に利用者が設定する信頼限界値を変動させることができ、各実験の誤差を適切な範囲に収めることができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、利用者に、上記変動しない遺伝子の分布の形、上記変動遺伝子の分布の形、上記変動遺伝子の検出基準、実験の繰り返し数、および、シミュレーション回数のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させるシミュレーション条件設定ステップと、上記シミュレーション条件設定ステップにて設定された上記シミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、上記遺伝子検出手段を実行し、上記発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、上記シミーレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成するシミュレーション実行ステップと、上記シミュレーション条件毎に、上記シミュレーション実行ステップによるシミュレーション結果を出力するシミュレーション結果出力ステップとをさらに含むことを特徴とする。
このプログラムによれば、利用者に、変動しない遺伝子の分布の形(例えば、分布の標準偏差(例えば、発現が変わらない遺伝子の分布を標準正規分布として標準偏差σ=1、中心μ=0としたときに、標準偏差σの幅を0.1から1.5の範囲で設定する))、上記変動遺伝子の分布の形(例えば、中心(例えば、当該条件のときに、中心μの幅を0.4から3の範囲で設定する))、上記変動遺伝子の検出基準(例えば、全体数からみた検出された遺伝子の割合を、2/3、2/4、3/4、3/6、4/6などで設定する)、実験の繰り返し数、および、シミュレーション回数(例えば、3回から10回の範囲で設定する)のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させ、設定されたシミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、遺伝子検出を実行し、発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成し、シミュレーション条件毎に、シミュレーション実行によるシミュレーション結果を出力するので、様々な条件におけるシミュレーション結果を組み合わせることにより上記の組み合わせによる検出力と検出信頼度を知ることができる。すなわち、同じ条件の対照実験を繰り返して行い、得られたそれぞれ異なったデータセットに対して変動遺伝子の検出を行い、あらかじめ決めた回数以上検出される遺伝子のみを選択することにより、期待通りの信頼度あるいは検出力で変動遺伝子を検出できるようになる。
また、これにより、発現量が変わらない遺伝子が変動遺伝子として検出されたエラー(第一種のエラー)や、変動遺伝子が発現が変わらない遺伝子として検出されたエラー(第二種のエラー)を算出して比較することにより、シミュレーションのデータから上記の手法による変動遺伝子を検出する検出力と信頼度を把握でき、実際の実験データに対して、期待される検出力と信頼度を得るために、実験の繰り返し数と変動遺伝子の検出基準、および信頼限界点の組み合わせを設定することができる。
また、これにより、何回実験を行えば、正確な実験データを取ることができるかを予測することが可能になり、実験効率を著しく向上させることができるようになる。
つぎの発明にかかるプログラムは、上記に記載のプログラムにおいて、上記遺伝子検出ステップは、各スポットの偏差値を計算する偏差値計算ステップをさらに含むことを特徴とする。
これは遺伝子検出の一例を一層具体的に示すものである。このプログラムによれば、各スポットの偏差値を計算するので、このように計算された各スポットの偏差値を変動比率(倍率)の代わりに用いることで、スライド間の誤差の差異に影響されない解析が可能になる。
また、これにより、本プログラムにより計算される偏差値を、クラスター解析に代表される多変量解析において変動比率の対数や正規化した変動比率の変わりに用いることができ、発現量の大小による誤差の影響の違いに左右されない解析が可能になる。
また、本発明は記録媒体に関するものであり、本発明にかかる記録媒体は、上記に記載されたプログラムを記録したことを特徴とする。
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、上記に記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
発明を実施するための最良の形態
以下に、本発明にかかる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。尚、この実施の形態によりこの発明が限定されるものではない。
[本装置の概要]
以下、本装置の基本概念を説明し、その後、本発明の各実施例における本装置の構成、処理等について詳細に説明する。
[本装置の基本概念]
以下、図1〜図6および図11〜図14を用いて本発明の基本概念について説明する。
1.対照蛍光測定値の2段階データ補正
DNAマイクロアレイ、または、DNAチップを用いた発現遺伝子の測定では、各遺伝子の発現量は、各遺伝子に対応する蛍光測定値の輝度に反映され、各遺伝子の発現量比は、対照蛍光測定値との比率として観測される。しかし、DNAマイクロアレイやDNAチップの誤差、蛍光標識反応の誤差、測定誤差、蛍光物質のモル蛍光係数の違いなどにより、蛍光測定値の比率そのままでは正確に発現量の比を反映しない。そこで、本発明では、これらの誤差を処理するため以下の処理を行う。
(1)バックグラウンド補正
第一段階のデータ補正として、バックグラウンド補正を行なう。まず、遺伝子iの二つの条件で測定された輝度を(ai,bi)とし、各遺伝子の輝度からバックグラウンド(BKGai,BKGbi)を差し引く。この修正結果(ai−BKGai,bi−BKGbi)を(Ai,Bi)とする。
(2)バイアス補正
次に、第二段階のデータ補正として、以下の手順によりバイアスの補正を行なう。まず、本発明のバイアス補正の概要を説明する。DNA濃度希釈系列の品質管理用のコントロール遺伝子サンプル(例えば外部遺伝子λDNAサンプル、あるいは発現量がほとんど変わらないリボソームなどのHouse−keeping遺伝子サンプル)を目的遺伝子サンプルと同時に測定し、蛍光強度データの積の一番小さい遺伝子から順に一つずつコントロール遺伝子を除き、残りすべてのコントロール遺伝子サンプルのデータから遺伝子の発現量とDNA量の検量線をそれぞれ作成し、データの相関係数を計算し、順番に計算される上記の相関係数が最初に強い相関が認められる基準(例えば0.8以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値1とし、二つの条件における蛍光強度データの積が閾値1を上回るすべての遺伝子サンプルの集団を発現量が多い遺伝子集団とし、上記発現量が順番に計算される相関係数度が最初に弱い相関が認められる基準(例えば0.5以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値2とし(ただし、閾値2<閾値1)、二つの条件における蛍光強度データの積が閾値2を下回るすべての遺伝子サンプルの集団を発現量が少ない遺伝子集団とし、発現量が多い遺伝子集団の蛍光強度対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求め、求めた漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算し、座標軸回転後の発現量が少ない遺伝子集団の座標を用いて、蛍光強度平衡軸の傾きを計算し、計算された傾き(例えば、正、負、ゼロ等)に基づいて2つの条件の輝度データのうちどちらにバイアスが多く含まれているかを判定し、バイアスが多く含まれていると判定された条件の輝度データからバイアスを差し引くこと(例えば、一定のバイアスをもつ遺伝子集団について座標を回転させる等)により蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、実測値のバイアスを効率的に除去し、かつ、データの性質を明白に表現できる蛍光強度散布図を作成することができるようになる。
以下にバイアス補正手順の一例を詳細に説明する。
i)対照蛍光測定値の一般関係式
本発明によるバイアスkの補正は、蛍光測定値AとBの関係を表す一般式(1)あるいは(1’)に基づく。
ここで、a,b,kは未知のパラメータ定数である。AとBのうち、より多くのバイアスを含む方から、平均バイアスkを差し引く。すなわち、AのバックグラウンドのノイズがBより大きく、多くのバイアスを含んでいる場合には、式1を用いることになり、一方、BのバックグラウンドのノイズがAより大きく、多くのバイアスを含んでいる場合には、式1’を用いることになる。a、b、および、kは(Log2A−Log2B)の直交軸系の蛍光測定値のプロット図から推測する。
ii)分散・共分散行列を用いた主成分分析による蛍光強度平衡軸の抽出
発現量が同じであれば、DNAマイクロアレイやDNAチップの対照実験の蛍光測定値は、理論的には(Log2A−Log2B)直交軸系の蛍光強度散布図上において1:1を示す直線Log2A=Log2B上に位置するはずである。しかし、蛍光物質の性質の違い、実験条件の違い等の原因で、同じ蛍光強度を示す蛍光強度平衡軸(すなわち、各遺伝子のスポットについて、2つの条件で発現量が同等である遺伝子集団より得られた漸近線)がLog2A=Log2Bに従わないことがある。この場合、調べる遺伝子数は標本として十分(例えば、千以上)であり、また、発現量が変化する遺伝子である変動遺伝子の数は全体数に対して低い割合であることを前提として、蛍光強度平衡軸は(Log2Ai,Log2Bi)集団の漸近線であると仮定する。
ここで、AiとBiがkよりはるかに大きい値の場合、つまりバイアスの影響が少なく無視できる場合、式1と式1’は
に近似できる。このとき、傾きaと切片bを求めるために、分散・共分散行列を用いた主成分分析を行なう。尚、分散・共分散行列を用いた主成分分析は、従来から遺伝子の解析で使われている相関行列を用いた主成分分析法と異なり、正規化を要しない。
ここで、図1は分散・共分散行列を用いた主成分分析の概念を示す図である。Log2Aをxに、Log2Bをyに簡略化すると、漸近線を表す式2は、
となる。
従って、各点(xi,yi)から漸近線までの距離diは、
により求められる。
また、全ての点から漸近線までの距離Dは、
となる。
ここで、距離Dが最小となる場合に、分布図上で最も適切となる漸近線のパラメータaとbが決められる。
距離Dが最小の場合には、
の二つの条件を満たす。
また、式6より、
また、式7より、
となる。ただし、式9で、aは二つの解のうち、ゼロより大きいものとする。また、Sxはxiの分散、Syはyiの分散、Sxyはxiとyiの共分散を意味する。実際の補正では、aとbは積AiBiの上位遺伝子集団(Log2A,Log2B)を用いる。簡単な計算法としては全遺伝子の積AiBiの上位(例として70%)の遺伝子集団を用いて求める。正確求めるには、DNA濃度希釈系列の品質管理用のコントロール遺伝子サンプル(例えば外部遺伝子λDNAサンプル、あるいは発現量がほとんど変わらないリボソームなどのHouse−keeping遺伝子サンプル)を目的遺伝子サンプルと同時に測定し、蛍光強度データの積の一番小さい遺伝子から順に一つずつコントロール遺伝子を除き、残りすべてのコントロール遺伝子サンプルのデータから遺伝子の発現量とDNA量の検量線をそれぞれ作成し、データの相関係数を計算し、順番に計算される上記の相関係数が最初に強い相関が認められる基準(例えば0.8以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値1とし、二つの条件における蛍光強度データの積が閾値1を上回るすべての遺伝子サンプルの集団を発現量が多い遺伝子集団とする。
iii)バイアスの修正
(Log2A−Log2B)の直交軸系では、Aはバックグラウンドのノイズが大きく、Bより多くのバイアスを含んでいる場合、漸近線とLog2A軸との交わる点の座標は(Ac,0)とすると、式1より
となり、
となる。
また、Bはバックグラウンドのノイズが大きく、Aより多くのバイアスを含んでいる場合、漸近線とLog2B軸との交わる点の座標は(0,Bc)とすると、式1’より、
となり、
となる。
ここで、a,bはすでに求められているため、AcとBcはそれぞれ(Log2A−Log2B)の直交軸系の積AiBiの下位遺伝子集団(Log2A,Log2B)から求められた漸近線とLog2A軸、あるいは、Log2B軸の交差点の値として求められる。蛍光測定値の小さい遺伝子は、誤差の強い影響を受けるため、積AiBiの下位遺伝子集団(Log2A,Log2B)の漸近線の計算に使われる遺伝子は,簡単な計算法は全遺伝子の積AiBiの下位(例として10%)を用いる。正確に求めるには、DNA濃度希釈系列の品質管理用のコントロール遺伝子サンプル(例えば外部遺伝子λDNAサンプル、あるいは発現量がほとんど変わらないリボソームなどのHouse−keeping遺伝子サンプル)を目的遺伝子サンプルと同時に測定し、蛍光強度データの積の一番小さい遺伝子から順に一つずつコントロール遺伝子を除き、残りすべてのコントロール遺伝子サンプルのデータから遺伝子の発現量とDNA量の検量線をそれぞれ作成し、データの相関係数を計算し、順番に計算される上記の相関係数が最初に弱い相関が認められる基準(例えば0.5以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値2とし(ただし、閾値2<閾値1)、二つの条件における蛍光強度データの積が閾値2を下回るすべての遺伝子サンプルの集団を発現量が少ない遺伝子集団とする。
また、測定値(Ai)と(Bi)とのどちらがより大きいバイアスを含むことを判断するには、漸近線がLog2A軸とLog2B軸のどちらかに交差することにより判断できる。このとき、
あるいは、
となる。
iv)バイアスの判定
図2は新しい座標系での漸近線を求める処理の概念を示す図である。
最小二乗法により、積AiBiの下位遺伝子集団の漸近線として、
が求められる。
ただし、最小二乗法の独立変数と従属変数を決めるには、まず(Log2A−Log2B)軸系は積AiBiの上位遺伝子集団から求めた漸近線を新たなX軸とする軸系に回転する必要がある。よって、(Log2Ai,Log2Bi)の新しい座標(Log2Ai’,Log2Bi’)は、
より求められる。
また、傾きα=tanθから、
が求められる。
次に、新しい座標系でAiBiの下位遺伝子集団(Ai’,Bi’)の漸近線を最小二乗法で求める。ここで漸近線を
とする。mが負数の場合、BがAより多くのバイアスを含むと判定する。一方、mが正数の場合、AがBより多くのバイアスを含んでいると判定する。
v)バイアスの計算
式17で示す漸近線において、mが負数の場合、(Log2A,Log2B)軸系において、積AiBiの下位遺伝子集団(Ai’,Bi’)のデータを用いてLog2B軸との切片は、最小二乗法(Log2Aは独立変数、Log2Bは従属変数)より求められる。
とする場合、
となる。
一方、mが正数の場合、(Log2A,Log2B)軸系において、積AiBiの下位遺伝子集団(Ai’,Bi’)のデータを用いてLog2A軸との切片は、最小二乗法より(Log2Bは独立変数、Log2Aは従属変数)で求められる。
とする場合、
となる。
第二段間のデータ補正は、対照測定値の片方のデータ全体に対して、式11、あるいは、式13で得られたバイアスを差し引くことで行われる。
以上の補正により、新たなデータプロット図(Log2Ai,Log2(Bi−k))、あるいは、(Log2(Ai−k),Log2Bi)を用いて(以下、「補正プロット(Log2Ai,Log2Bi)」という)、次段階の分析に進む。従って、式1、あるいは、式1’は、
として表現できる。
2.多重検定による発現量が変化した遺伝子の頑健(ロバスト)検出法
本方法において、補正されたデータは発現量が変わる遺伝子集団と発現量が変わらない遺伝子集団との混合分布で構成されていると仮定する。まず、データ対ごとに、蛍光強度平衡軸方向に一定区間内のウィンドウを設定し、各ウィンドウ内でスチューデントのt−分布に基づいた任意危険率の信頼限界点を求める。続いて、蛍光強度平衡軸(X軸)方向に一定遺伝子ずつウィンドウを移動させ、各信頼限界点を求める。求めた複数の信頼限界点を平滑化(スプライン)により補完し、信頼境界線(信頼曲線)とする。
この結果より、信頼境界線の外側に位置する遺伝子を発現量が変わった遺伝子として選択する。さらに高い抽出信頼性を得るため、繰り返し実験による多数決の比率を基準にして、確実に発現量の変わった遺伝子を選択する。次に、抽出の第一種のエラーを減らすため、マルチテストで、決められた回数以上発現量が変化したとして抽出された場合にのみ、遺伝子の発現量が変化したと認める。
(1)蛍光強度平衡軸と発現量の比によるデータ分布の再構築
図3は、分布図の再構築を概念的に示す図である。図3に示すように、各補正プロット(Log2Ai,Log2Bi)から蛍光強度平衡軸Log2Bi=κLog2Ai+Iまでの垂直の距離は、発現量の比に比例すると考えられる。また、蛍光強度平衡軸上、右へ移動する程、蛍光強度が比例して高くなるのは明らかである。従って、各遺伝子から蛍光強度平衡軸までの距離を計算してY軸の値とし、蛍光強度平衡軸をX軸にした蛍光強度散布図はデータの性質を明白に表現できる。ここで各遺伝子のY軸の値d2(発現量の倍率)は、式4により計算する。
また、各遺伝子のX軸の値d1(蛍光強度)は、蛍光測定値AとBの集団は様々な誤差を含んでいるにもかかわらず、全体的にAとBの関係を示す式22に従う。そして、再構築した蛍光強度散布図は、(蛍光強度−発現量の変化率)のX−Y軸を持つ。
(2)発現量が変わる遺伝子集団と、発現量が変わらない遺伝子集団との混合分布モデルの多重検定
図4から図6は、発現倍率の混合正規分布モデルを示す図である。
実際のデータの分布は、発現量が変わった遺伝子(変動遺伝子)の集団と、発現量が変わらない遺伝子(非変動遺伝子)の集団の混合分布であると考えることができる。本方法の混合分布モデルは、図4に示すように、発現量の変化率を表すY軸において、ゼロを中心とした非変動遺伝子の集団分布と、それぞれ発現比が上昇、および、下降したある一点を中心とした変動遺伝子の集団分布からなっていると仮定している。ここでは説明の便宜上、正規分布のみを示すが、本発明は正規分布の場合に限定されず、全ての分布のデータに適用することができる。
ここで、図5に示すように、変動遺伝子の全体に対する割合がそれほど大きくない場合(例えば、変動遺伝子の集団が全体数の10%を占める場合など)には、その混合分布は図6のように、正規分布に近似する。従って、一定の信頼限界値であるP値(P−value)を条件にした混合分布の蛍光倍率データに対してt分布に基づき、変動遺伝子を抽出できる。
本方法は、実際のデータの分散と中心の計算に基づいて発現量変動倍率の閾値を決めているため、本方法は頑健(ロバスト)であるという特徴を持っている。すなわち、本方法は誤差の範囲が異なる実験データでもその誤差に応じて、発現量変動倍率の閾値が決められる。また、本方法のもう一つの特徴として、同じ条件の対照実験で得られた異なるデータセットに対して、数回の検出を行ない、あらかじめ決めた回数以上検出される遺伝子のみを選択することにより、高い信頼度で変動遺伝子を検出できることが挙げられる。
さらに、非変動遺伝子、および、変動遺伝子集団の混合分布を、六つのパラメータ(全遺伝子数、発現が変動する遺伝子の割合、遺伝子分布の標準偏差(幅)、発現が変動する遺伝子の分布の中心、検出基準(検出数/全体数)、および、各データセット(ウィンドウ)内の信頼限界値(P−value))を変えてシミュレーションすることにより、第一種の検出エラーと第二種の検出エラーを計算できる。その結果は、実験のガイドラインとすることができる。ここで、「第一種の検出エラー」は、変わらないものが変わるものとして検出された偽陽性エラーをいい、「第二種の検出エラー」は、変わるものが変わらないものとして検出された偽陰性エラーをいう。
(3)移動ウィンドウ法を用いたデータに合わせた発現変動信頼曲線の作成
蛍光強度の小さい遺伝子ほど、その発現変化量の値がバックグラウンドなどの誤差に強い影響を受ける。例えば、対照実験で各蛍光値に除去不可能の誤差αAとαBが存在するとすれば、ある遺伝子iの発現変化量は、蛍光倍率=(Ai−αAi)/(Bi−αBi)として現れる。従って、Ai>>αAi、そして、Bi>>αBiの場合、蛍光倍率はAi/Biとして近似できるが、AiとαAi、そして、BiとαBiの値が近い場合は、その誤差による影響は無視できない。よって、実際にt分布に基づき、遺伝子を選択する場合、バックグラウンドなどの誤差により異なる程度をもって影響を受ける遺伝子集団が混在することを考えると、蛍光強度に応じて異なる集団のt値を決定するべきである。
ここで、図11〜図14は、信頼曲線の作成を概念的に示した図である。まず、図11に示すように、本装置は、一定遺伝子数で構成されたウィンドウ内の遺伝子の発現量の倍率分布に対して分散と中心を計算して、倍率変化のt値を決める(倍率座標軸の値に相当する)。尚、この発現変化の信頼限界点の蛍光強度平衡軸上の値はウィンドウ内部の全ての遺伝子の蛍光強度平衡軸値median値を用いることとする。
次に、本装置は、図12に示すように、ウィンドウ内の蛍光強度平衡軸上下において、発現変化の信頼限界点の座標をそれぞれ決めた後、蛍光強度平衡軸が増加する方向に一定遺伝子分ウィンドウを移動させる。以降、この操作を繰り返す。
本装置は、全ての発現変化の信頼限界点の計算を行なった後、発現変化の信頼限界点を3次スプライン曲線によって、信頼限界点同士をつなぎ発現変化境界線である発現変動信頼曲線を作成する。ここで、両端のウィンドウにおいて、3次スプライン曲線による補完ができない蛍光強度の領域では、図13で示すように、蛍光強度の高いところ(点線で示す)では最後のウィンドウで求めた発現変化の信頼限界点の水平延長線を用い、また蛍光強度の低いところ(点線で示す)では一番左から続いた数十個のウィンドウの境界点から最小二乗法により求めた漸近線の補外を発現変動信頼曲線(補外発現変化境界線)とする。
ついで、図14に示すように、蛍光強度平衡軸上下の発現変動信頼曲線で挟んだ領域より外れた遺伝子を、発現量が変化した遺伝子、つまり、発現量が上昇、あるいは、下降したものとして抽出する。最終的な遺伝子の抽出は、前述した多重検定(2−(2))により行なう。
[装置構成]
次に、遺伝子発現情報解析装置の構成について以下に図22〜図25を参照して説明する。図22は、本発明が適用される本装置の構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
図22において遺伝子発現情報解析装置100は、概略的に、遺伝子発現情報解析装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この遺伝子発現情報解析装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワークに通信可能に接続されてもよい。
記憶部106に格納される各種のデータベースやテーブル(測定輝度データ106aおよびシミュレーション結果データ106b)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
これら記憶部106の各構成要素のうち、測定輝度データ106aは、DNAチップやDNAマイクロアレイなどにより実験された遺伝子の発現量を示す各スポットの測定輝度データを各実験毎に格納した測定輝度データ格納手段である。また、シミュレーション結果データ106bは、本装置によるシミュレーション結果データを格納したシミュレーション結果データ格納手段である。
また、図22において、通信制御インターフェース部104は、遺伝子発現情報解析装置100とネットワーク(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
また、図22において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
また、図22において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、バックグラウンド補正部102a、バイアス補正部102b、遺伝子検出部102c、および、シミュレーション部102dを備えて構成されている。
このうち、バックグラウンド補正部102aは、2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成するバックグラウンド補正手段である。
また、バイアス補正部102bは、バックグラウンド補正手段によりバックグラウンド補正された輝度データの対数をX−Y軸にとり蛍光強度散布図を作成し、各遺伝子のスポットについて蛍光強度平衡軸に対するバイアスを求め、輝度データから当該バイアスを除去することにより蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するバイアス補正手段である。
ここで、図23は、バイアス補正部102bの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図23に示すように、バイアス補正部102bは、機能概念的に、第一主成分作成部102e、座標回転部102f、バイアス判定部102g、および、補正プロット生成部102hを備えて構成されている。
図23において、第一主成分作成部102eは、発現量が多い遺伝子集団の対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める第一主成分作成手段である。
また、座標回転部102fは、第一主成分作成手段により求めた漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算する座標回転手段である。
また、バイアス判定部102gは、座標回転手段による座標軸回転後の発現量が少ない遺伝子集団の座標を用いて、蛍光強度平衡軸の傾きを計算し、計算された傾きに基づいて2つの条件の輝度データのうちどちらにバイアスが多く含まれているかを判定するバイアス判定手段である。
また、補正プロット生成部102hは、バイアス判定手段にてバイアスが多く含まれていると判定された条件の輝度データからバイアスを差し引くことにより蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する補正プロット生成手段である。
再び図22に戻り、遺伝子検出部102cは、バイアス補正手段により構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する遺伝子検出手段である。
ここで、図24は、遺伝子検出部102cの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図24に示すように、遺伝子検出部102cは、機能概念的に、ウィンドウ設定部102i、信頼限界点決定部102j、ウィンドウ移動部102k、信頼境界線作成部102m、変動遺伝子抽出部102n、遺伝子数入力部102p、信頼限界値入力部102q、および、偏差値処理部102uを備えて構成されている。
図24において、ウィンドウ設定部102iは、蛍光強度平衡軸方向に予め定めた区間内のウィンドウを設定するウィンドウ設定手段である。
また、信頼限界点決定部102jは、ウィンドウ設定手段により設定された各ウィンドウ内において信頼限界点を決定する信頼限界点決定手段である。
また、ウィンドウ移動部102kは、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動するウィンドウ移動手段である。
また、信頼境界線作成部102mは、ウィンドウ移動手段により移動した各ウィンドウについて信頼限界点決定手段により各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成手段である。
また、変動遺伝子抽出部102nは、信頼境界線作成手段により作成された信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出する変動遺伝子抽出手段である。
また、遺伝子数入力部102pは、利用者にウィンドウ内の遺伝子数を入力させる遺伝子数入力手段である。
また、信頼限界値入力部102qは、利用者に信頼限界値を入力させる信頼限界値入力手段である。
また、偏差値処理部102uは、各スポットの偏差値を計算する偏差値計算手段である。
再び図22に戻り、シミュレーション部102dは、予め定めた条件に従って、複数回のシミュレーションを実行してシミュレーション結果を条件毎に出力するシミュレーション手段である。
ここで、図25は、シミュレーション部102dの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。図25に示すように、シミュレーション部102dは、機能概念的に、シミュレーション条件設定部102r、シミュレーション実行部102s、および、シミュレーション結果出力部102tを備えて構成されている。
図25において、シミュレーション条件設定部102rは、利用者に、遺伝子の分布の標準偏差、変動遺伝子の分布の中心、変動遺伝子の検出基準、および、シミュレーション回数のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させるシミュレーション条件設定手段である。
また、シミュレーション実行部102sは、シミュレーション条件設定手段にて設定されたシミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、遺伝子検出手段を実行し、発現遺伝子を検出するシミュレーションを複数回実行し、検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成するシミュレーション実行手段である。
また、シミュレーション結果出力部102tは、シミュレーション条件毎に、シミュレーション実行手段によるシミュレーション結果を出力するシミュレーション結果出力手段である。
なお、これら各部によって行なわれる処理の詳細については、後述する。
[本装置の処理]
次に、このように構成された本実施の形態における本装置の本実施形態の処理の一例について、以下に図7〜図10、図15〜図28を参照して詳細に説明する。
[本装置のメイン処理]
まず、本装置のメイン処理について図15を参照して説明する。図15は本実施形態の本装置のメイン処理の一例を示すフローチャートである。
まず、遺伝子発現情報解析装置100は、バックグラウンド補正部102aの処理により、図16を用いて後述するバックグラウンド補正処理を実行する(ステップS−1)。すなわち、バックグラウンド補正部102aは、DNAマイクロアレイやDNAチップなどにより2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成する。
ついで、遺伝子発現情報解析装置100は、バイアス補正部102bの処理により、図17を用いて後述するバイアス補正処理を実行する(ステップS−2)。すなわち、バイアス補正部102bは、バックグラウンド補正された輝度データの対数(自然対数または2の対数等)をX−Y軸にとり蛍光強度散布図(スキャッタープロット)を作成し、各遺伝子のスポットについて同じ蛍光強度を示す蛍光強度平衡軸に対するバイアスを求め、輝度データから当該バイアスを除去することにより蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する。
ついで、遺伝子発現情報解析装置100は、遺伝子検出部102cの処理により、図18および図20を用いて後述する移動ウィンドウによる遺伝子検出処理を実行する(ステップS−3)。すなわち、遺伝子検出部102cは、構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する。
ついで、遺伝子発現情報解析装置100は、シミュレーション部102dの処理により、図19および図21等を用いて後述するシミュレーション処理を実行する(ステップS−4)。すなわち、シミュレーション部102dは、予め定めた条件に従って、複数回のシミュレーションを実行してシミュレーション結果を条件毎に出力する。
これにて、本装置のメイン処理が終了する。
[バックグラウンド補正処理]
次に、バックグラウンド補正処理の詳細について図16を用いて説明する。図16は本実施形態の本装置のバイアス補正処理の一例を示すフローチャートである。
まず、遺伝子発現情報解析装置100は、バックグラウンド補正部102aの処理により、遺伝子の二つの条件で測定された輝度から、平均あるいは局部のバックグラウンド値を求め(ステップSA−1)、このバックグラウンド値を測定値から除去し、この修正の結果をA群、および、B群とする(ステップSA−2)。
すなわち、バックグラウンド補正部102aは、個々のスポットの蛍光強度測定値からブランクのスポットの平均バックグラウンド値、あるいは、各スポットの周囲の領域のバックグラウンド値を、各スポットの蛍光強度測定値から引くことにより、バックグラウンド補正を行う。これにてバックグラウンド補正処理を終了する。
[バイアス補正処理]
次に、バイアス補正処理の詳細について、図17を参照して説明する。図17は本実施形態の本装置のバイアス補正処理の一例を示すフローチャートである。まず、バイアス補正部102bは、第一主成分作成部102eの処理により、A群、および、B群に対し、2を底にした対数を計算し、Log2A,Log2BをX,Y軸とした直交軸系にスキャッタープロットする(ステップSB−1)。
次に、バイアス補正部102bは、第一主成分作成部102eの処理により、積ABの上位遺伝子集団(例えば、上位70%までの遺伝子集団)の対数値を用いて、分散・共分散行列を用いた主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める(ステップSB−2)。
ついで、バイアス補正部102bは、座標回転部102fの処理により、求めた漸近線とLog2A軸の角度をθとし、積ABの下位に属する遺伝子集団(例えば、下位10%に含まれる遺伝子の集団など)のLog2A−Log2B軸系における座標を右にθ角度回転した座標を計算する(ステップSB−3)。
ついで、バイアス補正部102bは、バイアス判定部102gの処理により、座標軸回転後の積ABの下位遺伝子集団の座標を用いて、漸近線の傾きを計算する(ステップSB−4)。
ついで、バイアス補正部102bは、バイアス判定部102gの処理により、漸近線の傾きが、正数か否か判定する(ステップSB−5)。正数の場合、バイアス判定部102gは、Aのデータはより多くのバイアスを含んでいると判定する。従って、バイアス補正部102bは、バイアス判定部102gの処理により、Log2A−Log2B軸系にある積ABの下位遺伝子集団(例えば、下位10%に含まれる遺伝子の集団など)の座標を用い、Log2B軸のデータを独立変数として、Log2Aのデータを従属変数として用いた最小二乗法により、下位遺伝子集団の漸近線とLog2A軸との交差点(Ac,0)の値Acを求める(ステップSB−6)。
ついで、バイアス補正部102bは、補正プロット生成部102hの処理により、バイアスを求め、対照測定値のデータからバイアスを差し引く(ステップSB−7)。
一方、ステップSB−5において、漸近線の傾きが正数でない場合、バイアス判定部102gは、ゼロであるか否か判定する(ステップSB−8)。ゼロの場合、バイアス補正処理を終了する。
また、ステップSB−8において、漸近線の傾きがゼロでない場合、バイアス判定部102gは、Bのデータがより多くのバイアスを含んでいると判定する。従って、バイアス補正部102bは、補正プロット生成部102hの処理により、Log2A−Log2B軸系にある積ABの下位遺伝子集団(例えば、下位10%に含まれる遺伝子の集団など)の座標を用い、Log2A軸のデータを独立変数として、Log2Bのデータを従属変数として用いた最小二乗法により、下位遺伝子集団の漸近線とLog2B軸との交差点(0,Bc)の値Bcを求め(ステップSB−9)、上述したステップSB−7の処理を行なう。
次に、バイアス補正部102bは、補正プロット生成部102hの処理により、バイアスを差し引いたデータを用いて、直交軸系Log2(A−k)−Log2B軸系あるいはLog2A−Log2(B−k)軸系を構築する(ステップSB−10)。これにてバイアス補正処理を終了する。
[遺伝子検出処理]
次に、遺伝子検出処理の詳細について、図18を参照して説明する。図18は本実施形態の本装置の遺伝子検出処理の一例を示すフローチャートである。
まず、遺伝子発現情報解析装置100の遺伝子検出部102cは、ウィンドウ設定部102iの処理により、利用者に対して、図11を用いて上述したウィンドウ内の遺伝子数、および、信頼限界値である信頼度(Pe値)を設定させるための遺伝子抽出条件設定画面を出力装置114に出力する(ステップSC−1)。
ここで、図20は、ウィンドウ設定部102iの処理により、出力装置114に出力される遺伝子抽出条件設定画面の一例を示す図である。図20に示すように、遺伝子抽出条件設定画面は、ウィンドウ内遺伝子数の入力領域MA−1、信頼限界値である信頼度(Pe値)の入力領域MA−2、設定終了ボタンMA−3等を含んで構成される。
ここで、利用者が、図20に示す遺伝子抽出条件設定画面を見ながら入力装置112を用いて、入力領域MA−1、MA−2の各項目の入力を完了した後、設定終了ボタンMA−3を選択すると、遺伝子数入力部102pおよび信頼限界値入力部102qは、遺伝子抽出条件設定画面で設定された情報に基づいて、図11に示すウィンドウ内の遺伝子が設定値となるようにウィンドウの大きさを調整する。
再び図18に戻り、遺伝子検出部102cは、信頼限界点決定部102jの処理により、X軸の最左端から、ウィンドウ内の各点のY軸(変化倍率)の値を用いて、分散と中心を計算し、信頼限界点である発現量変化が増加の境界値ylimit+、減少の倍率の境界値ylimit、および、X軸の重心を求める(ステップSC−2)。
ついで、遺伝子検出部102cは、ウィンドウ移動部102kの処理により、X軸の蛍光強度が増す方向にウィンドウを一定遺伝子分移動させ、信頼限界点決定部102jの処理により、新たなウィンドウでの信頼限界点となる発現量変化倍率の境界値ylimit+とylimit、および、X軸の重心を求める(ステップSC−3)。
ついで、遺伝子検出部102cは、この処理をウィンドウがX軸の最右端になるまで繰り返す(ステップSC−4)。
ついで、遺伝子検出部102cは、信頼境界線作成部102mの処理により、全てのウィンドウの発現変化の信頼限界点である発現量変化倍率境界点を3次スプライン曲線によりつなぎ、発現変動信頼曲線である発現倍率の増加境界線、および、減少境界線を決める(ステップSC−5)。
ついで、遺伝子検出部102cは、変動遺伝子抽出部102nの処理により、発現変動信頼曲線である発現倍率の増加境界線、および、減少境界線で挟んだ領域より外れた遺伝子(変動遺伝子)を抽出することにより、多重検定により発現量が変化した遺伝子を頑健(ロバスト)に検出することができる(ステップSC−6)。
また、本発明は、各スポットの偏差値を計算することにより、遺伝子検出効率の向上を行ってもよい。以下に、本実施形態の本装置の偏差値を用いた遺伝子検出処理の詳細について、図26および図27を参照して説明する。図26は本実施形態の本装置の偏差値を用いた遺伝子検出処理の一例を示すフローチャートである。
まず、利用者がウィンドウ内の遺伝子数および信頼度(Pe値)を設定した後(ステップSE−1)、偏差値処理部102uは、上述したように蛍光強度平衡軸方向に一定数の遺伝子を含むウィンドウを設定し、各ウィンドウ内全遺伝子の発現量の変化率を表すY軸の値を用いて、平均値、標準偏差値を求める。次に、偏差値処理部102uは、全遺伝子のX軸の値を用いて重心(蛍光強度の中間値に相当する)を求める(ステップSE−2)。
続いて、偏差値処理部102uは、X軸方向に一定遺伝子ずつウィンドウを移動させ、最右端のウィンドウまで同様の処理を繰り返す(ステップSE−3)。
ついで、偏差値処理部102uは、求めた複数の(蛍光強度の中間値、平均値)のデータセットを一連の(x,y)のデータとして平滑化により補完し(例えば、3次スプライン曲線を作成)、図27に示す平均値の平滑線とする。また、偏差値処理部102uは、同様に複数の(蛍光強度の中間値、標準偏差値)のデータセットを平滑化により補完し(例えば、3次スプライン曲線を作成)、図27に示す標準偏差値の平滑線とする(ステップSE−4)。
ついで、偏差値処理部102uは、各遺伝子の蛍光強度平衡軸の値(X軸の値)より、それに対応する平均値の平滑線上のY値、そして標準偏差値の平滑線上のY値を用いて、以下の数式により偏差値を計算する(ステップSE−5)。
偏差値 = (遺伝子のy値−平滑線から得られた平均値)/
平滑線から得られた標準偏差値σ
このように計算された各スポットの偏差値を変動比率(倍率)の代わりに用いることにより、スライド間の誤差の差異に影響されない解析が可能になる。すなわち、従来各マイクロアレイなどの物理的な誤差、各チップごとに検出する際の人為的な誤差が一定ではないため、チップ間等の比較を行うことが困難であったが、偏差値を用いることによりチップ間等の比較が容易になる。
また、従来から遺伝子発現パターンの分類や共発現遺伝子の抽出のために階層的クラスタリング(一次元、二次元)、K−Means法、自己組織化マップ法などを用いたクラスター解析に代表される多変量解析が行われている。例えば、変動比率の対数を用いるものとして、MB Eisen,PT Spellman,PO Brown,D Botstein(1998),”Cluster analysis and display of genome−wide expression patterns”,Proceedings of the National Academy of Sciences,95(25):14863−14868が公知である。また、正規化した変動比率を用いるものとして、TR Golub,DK Slonim,P Tamayo,C Huard,M Caasenbeek,JP Mesirov,H Coller,ML Loh,JR Downing,MA Caligiuri,CD Bloomfield,ES Lander(1999)、”Molecular classification of cancer: class discovery and class prediction by gene expression monitoring”,Science,286:531−537が公知である。ここで、本方法により計算される偏差値を、クラスター解析に代表される多変量解析において変動比率の対数や正規化した変動比率の代わりに用いることにより、発現量の大小による誤差の影響の違いに左右されない解析が可能になる。
これにて遺伝子検出処理が終了する。
[シミュレーション処理]
次に、本発明のシミュレーション処理の詳細について、図19および図21を参照して説明する。図19は本実施形態の本装置の遺伝子検出処理の一例を示すフローチャートである。
まず、遺伝子発現情報解析装置100のシミュレーション部102dは、シミュレーション条件設定部102rの処理により、利用者に対して、シミュレーションの各種の条件パラメータ(例えば、遺伝子分布の標準偏差(幅)、発現が変動する遺伝子の分布の中心、検出基準(検出数/全体数)、および、シミュレーション回数)を設定させるためのシミュレーション条件設定画面を出力装置114に出力する(ステップSD−1)。
ここで、図21は、シミュレーション条件設定部102rの処理により、出力装置114に出力されるシミュレーション条件設定画面の一例を示す図である。図21に示すように、シミュレーション条件設定画面は、遺伝子分布の標準偏差の入力領域MB−1、遺伝子分布の中心の入力領域MB−2、検出基準の入力領域MB−3、シミュレーション回数の入力領域MB−4、設定終了ボタンMB−5を含んで構成される。
なお、遺伝子の分布の標準偏差は、例えば、発現が変わらない遺伝子の分布を標準正規分布として標準偏差σ=1、中心μ=0としたときに、標準偏差σの幅を0.1から1.5の範囲で設定してもよい。また、変動遺伝子の分布の中心は、例えば、当該条件のときに、中心μの幅を0.4から3の範囲で設定してもよい。また、変動遺伝子の検出基準は、例えば、全体数からみた検出された遺伝子の割合を、2/3、2/4、3/4、3/6、4/6などで設定してもよい。また、シミュレーション回数は、例えば、3回から10回の範囲で設定してもよい。
ここで、利用者が、シミュレーション条件設定画面を見ながら入力装置112を用いて、入力領域MB−1〜入力領域MB−4の各項目の入力を完了した後、設定終了ボタンMB−5を選択すると、シミュレーション部102dは、シミュレーション実行部102sの処理により、シミュレーション条件設定画面で設定された情報に基づいて、上述したバックグラウンド補正処理、バイアス補正処理、および、遺伝子検出処理を繰り返して実行して、遺伝子検出処理により抽出した発現量が変わる遺伝子集団(変動遺伝子集団)、および、発現量が変動しなかった遺伝子集団(非変動遺伝子集団)の混合分布のシミュレーション処理を行う(ステップSD−2)。
ついで、シミュレーション部102dは、シミュレーション結果出力部102tの処理により、図7から図10に示すシミュレーション結果画面用データを出力装置114に出力する(ステップSD−3)。
ここで、図7から図10は、シミュレーションによる第一種の検出エラー(偽陽性)の計算結果の一例を示した図である。混合分布は、上述した六つのシミュレーション条件で設定したパラメータ(全遺伝子数、発現が変動する遺伝子の割合、遺伝子分布の標準偏差(幅)、発現が変動する遺伝子の分布の中心、検出基準(検出数/全体数)、および、各データセット(ウィンドウ)内の信頼限界値(P−value))に依存する。
図7は、発現が変わる遺伝子集団(変動遺伝子集団)の中心μ’を±σ、標準偏差を1に設定し、検出基準を3回のうち2回が検出されるとき(検出基準=2/3)、第一種の検出エラーの計算結果をグラフ出力した図である。
一方、図8は、発現が変わる遺伝子集団(変動遺伝子集団)の中心μ’を±σ、標準偏差を1に設定し、検出基準を4回のうち3回が検出されたら、発現が変わったとする場合を示した図である。
これら2つの図の比較により、α(第一種の検出エラー)は各ウィンドウ内で検出するPe値に大きく依存することがわかる。尚、図の横軸は発現が変動した遺伝子集団が全遺伝子を占める割合を表している。
すなわち、発現が変わらない遺伝子の分布を標準正規分布(標準偏差σ=1、中心μ=0)として発生し、一方、発現が変わる遺伝子の分布は標準正規分布の左か右に50%の確率で発生する。
ただし、混合分布は合計六つのパラメータ(すべての遺伝子の数、発現が変わる遺伝子が全体に占める割合、発現が変わる遺伝子の分布の標準偏差と中心、そして検出の基準および各データセット内の信頼限界)に依存する。
また、多重検定の第一種のエラーα、すなわち、発現が変わらない遺伝子が変わる遺伝子として検出されたエラーのみを示し、またすべての結果はパラメータを固定した後、十回の計算結果の平均を表している。また、発現が変わる遺伝子集団の中心μ’=±σ、標準偏差=1のとき、(a)検出基準:3回のうち2回が検出されたら、発現が変わったとする場合(図7の場合)と、(b)検出基準:4回のうち3回が検出されたら、発現が変わったとする場合(図8の場合)との比較により、αは各ウィンドウ内で検出するPe値に大きく依存することがわかる。
さらに、図9、および、図10は、発現が変わる遺伝子集団(変動遺伝子集団)の標準偏差を1とした場合を示した図である。図9では、Pe=0.15となり、図10では、Pe=0.25となる。従って95%の信頼度を得るためには、検定基準を3回中2回とする場合は、データセット内の信頼限界Peを0.15以下に設定すればよく、一方、検定基準を4回中3回とする場合は、データセット内の信頼限界Peを0.25以下に設定すればよいことがわかる。尚、図の横軸は、発現が変わる遺伝子集団の中心と発現が変わらない遺伝子集団の標準偏差とを積算した数値を表し、図中の「TNum」は全遺伝子数、「dif_x%」は発現が変わる遺伝子集団が占める割合、そして、「2/3」、および、「3/4」は検出基準を意味する。
これにて、シミュレーション処理を終了する。
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部、または、一部を手動的に行なうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行なうこともできる。
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、シミュレーション条件等のパラメータを含む情報、画面例については、特記する場合を除いて任意に変更することができる。
また、シミュレーション部102dは、ガンマ分布などの他の分布と混合分布シミュレーションをすることにより、上述した信頼度(Pe値)、第一種、第二種の検出エラー等を求めてもよい。上述した実施形態においては、変動しない遺伝子の分布と変動する遺伝子の分布が正規分布となる場合を一例として説明したが、例えば、変動する遺伝子の分布は正規分布以外の分布(たとえばガンマ分布)で発生させてもよく、本発明をあらゆる分布をとる遺伝子集団に適用することが可能である。
また、上述した本装置のバイアス判定部102gによるバイアス判定処理は、軸回転後にバイアスの大小を判定するものに限定されず、例えば、図28に示すように、軸回転の前に高発現漸近線の傾きaと低発現漸近線の傾きbとを比較することにより、バイアスの大小を判定してもよい。また、本処理において座標の回転は必要条件ではない。
また、遺伝子発現情報解析装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、遺伝子発現情報解析装置100の各部が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部、または、任意の一部を、CPU(Central Processing Unit)、および、当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。尚、プログラムは、後述する記録媒体に記録されており、必要に応じて遺伝子発現情報解析装置100に機械的に読み取られる。
また、遺伝子発現情報解析装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等のコンピュータ(情報処理装置)にプリンタ、モニタ、イメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
さらに、遺伝子発現情報解析装置100の分散・統合の具体的形態は図示のものに限られず、その全部、または、一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」は、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
また、「プログラム」は、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。尚、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリーとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。尚、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
また、遺伝子発現情報解析装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、遺伝子発現情報解析装置100とは別筺体で構成されるクライアント端末からネットワークを介して送信される要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
ここで、ネットワークは、遺伝子発現情報解析装置100と外部のクライアント装置とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式、または、PDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網、無線呼出網、Bluetooth等の局所無線網、PHS網、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本装置は、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
以上詳細に説明したように、本発明によれば、DNAマイクロアレイやDNAチップなどにより2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、バックグラウンド補正された輝度データの対数(自然対数または2の対数等)をX−Y軸にとり蛍光強度散布図(スキャッタープロット)を作成し、各遺伝子のスポットについて同じ蛍光強度を示す蛍光強度平衡軸に対するバイアスを求め、輝度データから当該バイアスを除去することにより蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、より多くのバイアスを含む蛍光成分の判定を行い、このバイアスを除去した上で蛍光強度平衡軸と発現量の倍数軸とを2軸とする新しい直行軸系を構築することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出するので、従来の遺伝子検出法に比べて、測定装置、標本間の誤差、および、蛍光標識効率などの違いの影響を受けずに正確に発現量が変動した遺伝子を検出することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、DNA濃度希釈系列の品質管理用のコントロール遺伝子サンプル(例えば外部遺伝子λDNAサンプル、あるいは発現量がほとんど変わらないリボソームなどのHouse−keeping遺伝子サンプル)を目的遺伝子サンプルと同時に測定し、蛍光強度データの積の一番小さい遺伝子から順に一つずつコントロール遺伝子を除き、残りすべてのコントロール遺伝子サンプルのデータから遺伝子の発現量とDNA量の検量線をそれぞれ作成し、データの相関係数を計算し、順番に計算される上記の相関係数が最初に強い相関が認められる基準(例えば0.8以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値1とし、二つの条件における蛍光強度データの積が閾値1を上回るすべての遺伝子サンプルの集団を発現量が多い遺伝子集団とし、上記発現量が順番に計算される相関係数度が最初に弱い相関が認められる基準(例えば0.5以上)を満たした場合のコントロールサンプルの二つの条件における蛍光強度データの積を閾値2とし(ただし、閾値2<閾値1)、二つの条件における蛍光強度データの積が閾値2を下回るすべての遺伝子サンプルの集団を発現量が少ない遺伝子集団とし、発現量が多い遺伝子集団の蛍光強度対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求め、求めた漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算し、座標軸回転後の発現量が少ない遺伝子集団の座標を用いて、蛍光強度平衡軸の傾きを計算し、計算された傾き(例えば、正、負、ゼロ等)に基づいて2つの条件の輝度データのうちどちらにバイアスが多く含まれているかを判定し、バイアスが多く含まれていると判定された条件の輝度データからバイアスを差し引くこと(例えば、一定のバイアスをもつ遺伝子集団について座標を回転させる等)により蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するので、実測値のバイアスを効率的に除去し、かつ、データの性質を明白に表現できる蛍光強度散布図を作成することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、主成分分析は、分散・共分散行列を用いて行うので、従来から発現遺伝子解析に用いられている相関行列を用いた主成分分析法と比較して正規化を要しないため、効率的に主成分分析を行うことができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、予め定めた区間内のウィンドウを設定し、設定された各ウィンドウ内において遺伝子の輝度データの平均値、標準偏差、P値(例えば、95%値)、重心などのうち少なくとも一つを用いて信頼限界点を決定する。そして、蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動し、移動した各ウィンドウについて各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成手段と、上記信頼境界線作成手段により作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出するので、安定性、再現性、および、信頼度の高い発現遺伝子抽出を行うことができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、誤差の範囲が異なる実験データであっても、その誤差に応じて、発現量変動倍率の閾値が決められる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて信頼限界点を決定するので、従来手法と比較して正確かつ効率的に信頼限界点を求めることができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い信頼境界線を作成するので、効率的に信頼限界点を補完して信頼曲線を作成することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、蛍光強度の高い領域については、最後のウィンドウ(最も右側にあるウィンドウ)で求めた信頼限界点のX軸に対する水平延長線を用いて信頼限界線を作成するので、傾きが少なくどちらに収束するか判断不能の場合であっても、適切な信頼限界線を作成することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、蛍光強度の低い領域については、例えば、最初から数十程度の各ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いるので、蛍光強度が低い遺伝子のスポットについても的確に検出することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、利用者にウィンドウ内の遺伝子数を入力させ、入力された遺伝子数の遺伝子が含まれる区間内でウィンドウを設定するので、実験毎に利用者が設定する遺伝子数を変動させることができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、利用者に信頼限界値を入力させ、ウィンドウ内において入力された信頼限界値に基づいて信頼限界点を決定するので、実験毎に利用者が設定する信頼限界値を変動させることができ、各実験の誤差を適切な範囲に収めることができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、利用者に、変動しない遺伝子の分布の形(例えば、分布の標準偏差(例えば、発現が変わらない遺伝子の分布を標準正規分布として標準偏差σ=1、中心μ=0としたときに、標準偏差σの幅を0.1から1.5の範囲で設定する))、上記変動遺伝子の分布の形(例えば、中心(例えば、当該条件のときに、中心μの幅を0.4から3の範囲で設定する))、上記変動遺伝子の検出基準(例えば、全体数からみた検出された遺伝子の割合を、2/3、2/4、3/4、3/6、4/6などで設定する)、実験の繰り返し数、および、シミュレーション回数(例えば、3回から10回の範囲で設定する)のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させ、設定されたシミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、遺伝子検出を実行し、発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成し、シミュレーション条件毎に、シミュレーション実行によるシミュレーション結果を出力するので、様々な条件におけるシミュレーション結果を組み合わせることにより上記の組み合わせによる検出力と検出信頼度を知ることができる。すなわち、同じ条件の対照実験を繰り返して行い、得られたそれぞれ異なったデータセットに対して変動遺伝子の検出を行い、あらかじめ決めた回数以上検出される遺伝子のみを選択することにより、期待通りの信頼度あるいは検出力で変動遺伝子を検出できる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、発現量が変わらない遺伝子が変動遺伝子として検出されたエラー(第一種のエラー)や、変動遺伝子が発現が変わらない遺伝子として検出されたエラー(第二種のエラー)を算出して比較することにより、シミュレーションのデータから上記の手法による変動遺伝子を検出する検出力と信頼度を把握でき、実際の実験データに対して、期待される検出力と信頼度を得るために、実験の繰り返し数と変動遺伝子の検出基準、および信頼限界点の組み合わせを設定することができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、シミュレーションにより得られた重複データの検定統計表に基づき、何回実験を行えば、正確な実験データを取ることができるかを予測することが可能になり、実験効率を著しく向上させることができる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
また、本発明によれば、各スポットの偏差値を計算するので、このように計算された各スポットの偏差値を変動比率(倍率)の代わりに用いることで、スライド間の誤差の差異に影響されない解析が可能になる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
さらに、本発明によれば、本装置により計算される偏差値を、クラスター解析に代表される多変量解析において変動比率の対数や正規化した変動比率の変わりに用いることができ、発現量の大小による誤差の影響の違いに左右されない解析が可能になる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体を提供することができる。
産業上の利用可能性
以上のように、本発明にかかる遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体は、DNAマイクロアレイやDNAチップなどの測定値データの解析を行うバイオインフォマティクス分野において極めて有用である。
本発明は、産業上多くの分野、特に医薬品、食品、化粧品、医療、遺伝子発現解析等の分野で広く実施することができ、極めて有用である。
【図面の簡単な説明】
第1図は、本発明による分散・共分散行列を用いた主成分分析の概念を示す図であり、第2図は、本発明による新しい座標系での漸近線を求める処理の概念を示す図であり、第3図は、本発明による分布図の再構築を概念的に示す図であり、第4図は、本発明による発現倍率の混合正規分布モデルを示す図であり、第5図は、本発明による発現倍率の混合正規分布モデルを示す図であり、第6図は、本発明による発現倍率の混合正規分布モデルを示す図であり、第7図は、本発明によるシミュレーションによる第一種の検出エラーの計算結果の一例を示した図であり、第8図は、本発明によるシミュレーションによる第一種の検出エラーの計算結果の一例を示した図であり、第9図は、本発明によるシミュレーションによる第一種の検出エラーの計算結果の一例を示した図であり、第10図は、本発明によるシミュレーションによる第一種の検出エラーの計算結果の一例を示した図であり、第11図は、本発明による発現変動信頼曲線の作成を概念的に示した図であり、第12図は、本発明による発現変動信頼曲線の作成を概念的に示した図であり、第13図は、本発明による発現変動信頼曲線の作成を概念的に示した図であり、第14図は、本発明による発現変動信頼曲線の作成を概念的に示した図であり、第15図は、本実施形態の本装置のメイン処理を示すフローチャートであり、第16図は、本実施形態の本装置のバックグラウンド補正処理の一例を示すフローチャートであり、第17図は、本実施形態の本装置のバイアス補正処理の一例を示すフローチャートであり、第18図は、本実施形態の本装置の遺伝子検出処理の一例を示すフローチャートであり、第19図は、本実施形態の本装置のシミュレーション処理の一例を示すフローチャートであり、第20図は、ウィンドウ設定部102iの処理により、出力装置114に出力される遺伝子抽出条件設定画面の一例を示す図であり、第21図は、シミュレーション条件設定部102rの処理により、出力装置114に出力されるシミュレーション条件設定画面の一例を示す図であり、第22図は、本発明が適用される本装置の構成の一例を示すブロック図であり、第23図は、バイアス補正部102bの構成の一例を示すブロック図であり、第24図は、遺伝子検出部102cの構成の一例を示すブロック図であり、第25図は、シミュレーション部102dの構成の一例を示すブロック図であり、第26図は、本実施形態の本装置の偏差値を用いた遺伝子検出処理の一例を示すフローチャートであり、第27図は、本実施形態の本装置の偏差値の計算を示す概念図であり、第28図は、本実施形態の本装置のバイアス判定処理の一例を示す概念図である。
Claims (34)
- 少なくとも記憶部と制御部を備えた遺伝子発現情報解析装置において、
上記記憶部は、
2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データを記憶する測定輝度データ記憶手段、
を備え、
上記制御部は、
上記測定輝度データ記憶手段に記憶された上記各スポットの上記測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成するバックグラウンド補正手段と、
上記バックグラウンド補正手段によりバックグラウンド補正された上記輝度データの対数をX−Y軸にとり蛍光強度散布図を作成し、各遺伝子のスポットについて蛍光強度平衡軸に対するバイアスを求め、上記輝度データから当該バイアスを除去することにより上記蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するバイアス補正手段と、
上記バイアス補正手段により構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する遺伝子検出手段と、
を備え、
上記遺伝子検出手段は、
上記蛍光強度平衡軸方向に予め定めた区間内のウィンドウを設定するウィンドウ設定手段と、
上記ウィンドウ設定手段により設定された各ウィンドウ内において信頼限界点を決定する信頼限界点決定手段と、
蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動するウィンドウ移動手段と、
上記ウィンドウ移動手段により移動した各ウィンドウについて上記信頼限界点決定手段により各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成手段と、
上記信頼境界線作成手段により作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出する変動遺伝子抽出手段と、
をさらに備えたことを特徴とする遺伝子発現情報解析装置。 - 上記バイアス補正手段は、
発現量が多い遺伝子集団の対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める第一主成分作成手段と、
上記第一主成分作成手段により求めた上記漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算する座標回転手段と、
上記座標回転手段による座標軸回転後の上記発現量が少ない遺伝子集団の座標を用いて、上記蛍光強度平衡軸の傾きを計算し、計算された傾きに基づいて2つの条件の上記輝度データのうちどちらに上記バイアスが多く含まれているかを判定するバイアス判定手段と、
上記バイアス判定手段にて上記バイアスが多く含まれていると判定された条件の上記輝度データから上記バイアスを差し引くことにより上記蛍光強度平衡軸と上記発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する補正プロット生成手段と、
をさらに備えたことを特徴とする請求の範囲第1項に記載の遺伝子発現情報解析装置。 - 上記主成分分析は、分散・共分散行列を用いて行うこと、
を特徴とする請求の範囲第2項に記載の遺伝子発現情報解析装置。 - 上記信頼限界点決定手段は、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて上記信頼限界点を決定すること、
を特徴とする請求の範囲第1項〜第3項のいずれか一つに記載の遺伝子発現情報解析装置。 - 上記信頼境界線作成手段は、上記複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い上記信頼境界線を作成すること、
を特徴とする請求の範囲第1項〜第4項のいずれか一つに記載の遺伝子発現情報解析装置。 - 上記信頼境界線作成手段は、蛍光強度の高い領域については、最後の上記ウィンドウで求めた信頼限界点の水平延長線を用いて上記信頼限界線を作成すること、
を特徴とする請求の範囲第1項〜第5項のいずれか一つに記載の遺伝子発現情報解析装置。 - 上記信頼境界線作成手段は、蛍光強度の低い領域については、上記ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いること、
を特徴とする請求の範囲第1項〜第6項のいずれか一つに記載の遺伝子発現情報解析装置。 - 上記遺伝子発現情報解析装置は、入力装置に接続されており、
上記制御部は、
利用者に上記入力装置を介してウィンドウ内の遺伝子数を入力させる遺伝子数入力手段、
をさらに備え、
上記ウィンドウ設定手段は、上記遺伝子数入力手段により入力された上記遺伝子数の上記遺伝子が含まれる上記区間内で上記ウィンドウを設定すること、
を特徴とする請求の範囲第1項〜第7項のいずれか一つに記載の遺伝子発現情報解析装置。 - 上記遺伝子発現情報解析装置は、入力装置に接続されており、
上記制御部は、
利用者に上記入力装置を介して信頼限界値を入力させる信頼限界値入力手段、
をさらに備え、
上記信頼限界点決定手段は、上記ウィンドウ内において上記信頼限界値入力手段により入力された上記信頼限界値に基づいて上記信頼限界点を決定すること、
を特徴とする請求の範囲第1項〜第8項のいずれか一つに記載の遺伝子発現情報解析装置。 - 上記遺伝子発現情報解析装置は、入力装置に接続されており、
上記制御部は、
利用者に、上記入力装置を介して、上記変動しない遺伝子の分布の形、上記変動遺伝子の分布の形、上記変動遺伝子の検出基準、実験の繰り返し数、および、シミュレーション回数のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させるシミュレーション条件設定手段と、
上記シミュレーション条件設定ステップにて設定された上記シミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、上記遺伝子検出手段を実行し、上記発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、上記シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成するシミュレーション実行手段と、
上記シミュレーション条件毎に、上記シミュレーション実行手段によるシミュレーション結果を出力するシミュレーション結果出力手段と、
をさらに備えたことを特徴とする請求の範囲第1項〜第9項のいずれか一つに記載の遺伝子発現情報解析装置。 - 上記遺伝子検出手段は、
各スポットの偏差値を計算する偏差値計算手段、
をさらに備えたことを特徴とする請求の範囲第1項〜第10項のいずれか一つに記載の遺伝子発現情報解析装置。 - 少なくとも記憶部と制御部を備えたコンピュータにおいて実行される遺伝子発現情報解析方法であって、
上記記憶部は、
2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データを記憶する測定輝度データ記憶手段、
を備え、
上記制御部において実行される、
上記測定輝度データ記憶手段に記憶された上記各スポットの上記測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成するバックグラウンド補正ステップと、
上記バックグラウンド補正ステップによりバックグラウンド補正された上記輝度データの対数をX−Y軸にとり蛍光強度散布図を作成し、各遺伝子のスポットについて蛍光強度平衡軸に対するバイアスを求め、上記輝度データから当該バイアスを除去することにより上記蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するバイアス補正ステップと、
上記バイアス補正ステップにより構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する遺伝子検出ステップと、
を含み、
上記遺伝子検出ステップは、
上記蛍光強度平衡軸方向に予め定めた区間内のウィンドウを設定するウィンドウ設定ステップと、
上記ウィンドウ設定ステップにより設定された各ウィンドウ内において信頼限界点を決定する信頼限界点決定ステップと、
蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動するウィンドウ移動ステップと、
上記ウィンドウ移動ステップにより移動した各ウィンドウについて上記信頼限界点決定ステップにより各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成ステップと、
上記信頼境界線作成ステップにより作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出する変動遺伝子抽出ステップと、
をさらに含むことを特徴とする遺伝子発現情報解析方法。 - 上記バイアス補正ステップは、
発現量が多い遺伝子集団の対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める第一主成分作成ステップと、
上記第一主成分作成ステップにより求めた上記漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算する座標回転ステップと、
上記座標回転ステップによる座標軸回転後の上記発現量が少ない遺伝子集団の座標を用いて、上記蛍光強度平衡軸の傾きを計算し、計算された傾きに基づいて2つの条件の上記輝度データのうちどちらに上記バイアスが多く含まれているかを判定するバイアス判定ステップと、
上記バイアス判定ステップにて上記バイアスが多く含まれていると判定された条件の上記輝度データから上記バイアスを差し引くことにより上記蛍光強度平衡軸と上記発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する補正プロット生成ステップと、
をさらに含むことを特徴とする請求の範囲第12項に記載の遺伝子発現情報解析方法。 - 上記主成分分析は、分散・共分散行列を用いて行うこと、
を特徴とする請求の範囲第13項に記載の遺伝子発現情報解析方法。 - 上記信頼限界点決定ステップは、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて上記信頼限界点を決定すること、
を特徴とする請求の範囲第12項〜第14のいずれか一つに記載の遺伝子発現情報解析方法。 - 上記信頼境界線作成ステップは、上記複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い上記信頼境界線を作成すること、
を特徴とする請求の範囲第12項〜第15項のいずれか一つに記載の遺伝子発現情報解析方法。 - 上記信頼境界線作成ステップは、蛍光強度の高い領域については、最後の上記ウィンドウで求めた信頼限界点の水平延長線を用いて上記信頼限界線を作成すること、
を特徴とする請求の範囲第12項〜第16項のいずれか一つに記載の遺伝子発現情報解析方法。 - 上記信頼境界線作成ステップは、蛍光強度の低い領域については、上記ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いること、
を特徴とする請求の範囲第12項〜第17項のいずれか一つに記載の遺伝子発現情報解析方法。 - 上記コンピュータは、入力装置に接続されており、
上記制御部において実行される、
利用者に上記入力装置を介してウィンドウ内の遺伝子数を入力させる遺伝子数入力ステップ、
をさらに含み、
上記ウィンドウ設定ステップは、上記遺伝子数入力ステップにより入力された上記遺伝子数の上記遺伝子が含まれる上記区間内で上記ウィンドウを設定すること、
を特徴とする請求の範囲第12項〜第18項のいずれか一つに記載の遺伝子発現情報解析方法。 - 上記コンピュータは、入力装置に接続されており、
上記制御部において実行される、
利用者に上記入力装置を介して信頼限界値を入力させる信頼限界値入力ステップ、
をさらに含み、
上記信頼限界点決定ステップは、上記ウィンドウ内において上記信頼限界値入力ステップにより入力された上記信頼限界値に基づいて上記信頼限界点を決定すること、
を特徴とする請求の範囲第12項〜第19項のいずれか一つに記載の遺伝子発現情報解析方法。 - 上記コンピュータは、入力装置に接続されており、
上記制御部において実行される、
利用者に、上記入力装置を介して、上記変動しない遺伝子の分布の形、上記変動遺伝子の分布の形、上記変動遺伝子の検出基準、実験の繰り返し数、および、シミュレーション回数のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させるシミュレーション条件設定ステップと、
上記シミュレーション条件設定ステップにて設定された上記シミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、上記遺伝子検出手段を実行し、上記発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、上記シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成するシミュレーション実行ステップと、
上記シミュレーション条件毎に、上記シミュレーション実行ステップによるシミュレーション結果を出力するシミュレーション結果出力ステップと、
をさらに含むことを特徴とする請求の範囲第12項〜第20項のいずれか一つに記載の遺伝子発現情報解析方法。 - 上記遺伝子検出ステップは、
各スポットの偏差値を計算する偏差値計算ステップ、
をさらに含むことを特徴とする請求の範囲第12項〜第21項のいずれか一つに記載の遺伝子発現情報解析方法。 - 少なくとも記憶部と制御部を備えたコンピュータに遺伝子発現情報解析方法を実行させるためのプログラムであって、
上記記憶部は、
2つの条件で同一の遺伝子の発現量を示す蛍光強度を測定した各スポットの測定輝度データを記憶する測定輝度データ記憶手段、
を備え、
上記制御部において実行される、
上記測定輝度データ記憶手段に記憶された上記各スポットの上記測定輝度データからバックグラウンド値を除去することによりバックグラウンド補正された輝度データを作成するバックグラウンド補正ステップと、
上記バックグラウンド補正ステップによりバックグラウンド補正された上記輝度データの対数をX−Y軸にとり蛍光強度散布図を作成し、各遺伝子のスポットについて蛍光強度平衡軸に対するバイアスを求め、上記輝度データから当該バイアスを除去することにより上記蛍光強度平衡軸と発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築するバイアス補正ステップと、
上記バイアス補正ステップにより構築された新たなX−Y軸系の蛍光強度散布図に基づいて発現量が変動した変動遺伝子を検出する遺伝子検出ステップと、
を含み、
上記遺伝子検出ステップは、
上記蛍光強度平衡軸方向に予め定めた区間内のウィンドウを設定するウィンドウ設定ステップと、
上記ウィンドウ設定ステップにより設定された各ウィンドウ内において信頼限界点を決定する信頼限界点決定ステップと、
蛍光強度平衡軸方向に一定遺伝子ずつウィンドウを移動するウィンドウ移動ステップと、
上記ウィンドウ移動ステップにより移動した各ウィンドウについて上記信頼限界点決定ステップにより各信頼限界点を求め、求めた複数の信頼限界点に基づいて信頼境界線を作成する信頼境界線作成ステップと、
上記信頼境界線作成ステップにより作成された上記信頼境界線の外側に位置する遺伝子を発現量が変動した変動遺伝子として抽出する変動遺伝子抽出ステップと、
をさらに含む遺伝子発現情報解析方法をコンピュータに実行させることを特徴とするプログラム。 - 上記バイアス補正ステップは、
発現量が多い遺伝子集団の対数値を用いて主成分分析を実行し、第一主成分となる漸近線の傾きと切片を求める第一主成分作成ステップと、
上記第一主成分作成ステップにより求めた上記漸近線とX軸との角度をθとし、発現量が少ない遺伝子集団のX−Y軸系における座標を右にθ角度回転した座標を計算する座標回転ステップと、
上記座標回転ステップによる座標軸回転後の上記発現量が少ない遺伝子集団の座標を用いて、上記蛍光強度平衡軸の傾きを計算し、計算された傾きに基づいて2つの条件の上記輝度データのうちどちらに上記バイアスが多く含まれているかを判定するバイアス判定ステップと、
上記バイアス判定ステップにて上記バイアスが多く含まれていると判定された条件の上記輝度データから上記バイアスを差し引くことにより上記蛍光強度平衡軸と上記発現量の倍率軸を2軸とする新たなX−Y軸系の蛍光強度散布図を構築する補正プロット生成ステップと、
をさらに含むことを特徴とする請求の範囲第23項に記載のプログラム。 - 上記主成分分析は、分散・共分散行列を用いて行うこと、
を特徴とする請求の範囲第24項に記載のプログラム。 - 上記信頼限界点決定ステップは、シミュレーションにより得られた重複データの検定統計表に基づき、t−分布を用いて上記信頼限界点を決定すること、
を特徴とする請求の範囲第23項〜第25項のいずれか一つに記載のプログラム。 - 上記信頼境界線作成ステップは、上記複数の信頼限界点に基づいてスプライン曲線を作成することにより平滑化を行い上記信頼境界線を作成すること、
を特徴とする請求の範囲第23項〜第26項のいずれか一つに記載のプログラム。 - 上記信頼境界線作成ステップは、蛍光強度の高い領域については、最後の上記ウィンドウで求めた信頼限界点の水平延長線を用いて上記信頼限界線を作成すること、
を特徴とする請求の範囲第23項〜第27項のいずれか一つに記載のプログラム。 - 上記信頼境界線作成ステップは、蛍光強度の低い領域については、上記ウィンドウで求めた信頼限界点から最小二乗法により求めた漸近線の補外を上記信頼限界線として用いること、
を特徴とする請求の範囲第23項〜第28項のいずれか一つに記載のプログラム。 - 上記コンピュータは、入力装置に接続されており、
上記制御部において実行される、
利用者に上記入力装置を介してウィンドウ内の遺伝子数を入力させる遺伝子数入力ステップ、
をさらに含み、
上記ウィンドウ設定ステップは、上記遺伝子数入力ステップにより入力された上記遺伝子数の上記遺伝子が含まれる上記区間内で上記ウィンドウを設定すること、
を特徴とする請求の範囲第23項〜第29項のいずれか一つに記載のプログラム。 - 上記コンピュータは、入力装置に接続されており、
上記制御部において実行される、
利用者に上記入力装置を介して信頼限界値を入力させる信頼限界値入力ステップ、
をさらに含み、
上記信頼限界点決定ステップは、上記ウィンドウ内において上記信頼限界値入力ステップにより入力された上記信頼限界値に基づいて上記信頼限界点を決定すること、
を特徴とする請求の範囲第23項〜第30項のいずれか一つに記載のプログラム。 - 上記コンピュータは、入力装置に接続されており、
上記制御部において実行される、
利用者に、上記入力装置を介して、上記変動しない遺伝子の分布の形、上記変動遺伝子の分布の形、上記変動遺伝子の検出基準、実験の繰り返し数、および、シミュレーション回数のうち少なくとも一つに関する情報を含むシミュレーション条件を入力させるシミュレーション条件設定ステップと、
上記シミュレーション条件設定ステップにて設定された上記シミュレーション条件に従って、同一の遺伝子群に対して同じ分布から繰り返して生成し、上記遺伝子検出手段を実行し、上記発現遺伝子を検出するシミュレーションを複数回実行し、上記検出手段による結果の偽陽性率と偽陰性率を計算し、実験の繰り返し数、上記シミュレーション条件、および検出感度と検出信頼度との関係を計算し、発現量が変わる遺伝子の検定統計表を作成するシミュレーション実行ステップと、
上記シミュレーション条件毎に、上記シミュレーション実行ステップによるシミュレーション結果を出力するシミュレーション結果出力ステップと、
をさらに含むことを特徴とする請求の範囲第23項〜第31項のいずれか一つに記載のプログラム。 - 上記遺伝子検出ステップは、
各スポットの偏差値を計算する偏差値計算ステップ、
をさらに含むことを特徴とする請求の範囲第23項〜第32項のいずれか一つに記載のプログラム。 - 上記請求の範囲第23項から第33項のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002045407 | 2002-02-21 | ||
JP2002045407 | 2002-02-21 | ||
PCT/JP2003/001900 WO2003070938A1 (fr) | 2002-02-21 | 2003-02-21 | Analyseur de donnees d'expression genique et procede, programme et support d'enregistrement pour l'analyse des donnees d'expression genique |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2003070938A1 JPWO2003070938A1 (ja) | 2005-06-09 |
JP4438414B2 true JP4438414B2 (ja) | 2010-03-24 |
Family
ID=27750582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003569831A Expired - Fee Related JP4438414B2 (ja) | 2002-02-21 | 2003-02-21 | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4438414B2 (ja) |
AU (1) | AU2003211240A1 (ja) |
WO (1) | WO2003070938A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4736516B2 (ja) * | 2005-04-22 | 2011-07-27 | ソニー株式会社 | 生体情報処理装置および方法、プログラム並びに記録媒体 |
JP5698471B2 (ja) | 2009-06-30 | 2015-04-08 | シスメックス株式会社 | マイクロアレイを用いた核酸の検出方法およびマイクロアレイデータ解析用プログラム |
JP6929015B2 (ja) * | 2016-02-18 | 2021-09-01 | 株式会社東芝 | バイオマーカー探索装置、バイオマーカー探索方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6351712B1 (en) * | 1998-12-28 | 2002-02-26 | Rosetta Inpharmatics, Inc. | Statistical combining of cell expression profiles |
EP1313055A4 (en) * | 2000-06-28 | 2004-12-01 | Toudai Tlo Ltd | METHOD FOR PROCESSING GENE EXPRESSION DATA AND PROCESSING PROGRAMS |
-
2003
- 2003-02-21 WO PCT/JP2003/001900 patent/WO2003070938A1/ja active Application Filing
- 2003-02-21 AU AU2003211240A patent/AU2003211240A1/en not_active Abandoned
- 2003-02-21 JP JP2003569831A patent/JP4438414B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
AU2003211240A1 (en) | 2003-09-09 |
WO2003070938A1 (fr) | 2003-08-28 |
JPWO2003070938A1 (ja) | 2005-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lähnemann et al. | Eleven grand challenges in single-cell data science | |
Yeung et al. | From co-expression to co-regulation: how many microarray experiments do we need? | |
Wolfe et al. | Systematic survey reveals general applicability of" guilt-by-association" within gene coexpression networks | |
Petersen et al. | A generic method for assignment of reliability scores applied to solvent accessibility predictions | |
Yang et al. | Identifying differentially expressed genes from microarray experiments via statistic synthesis | |
Shedden et al. | Comparison of seven methods for producing Affymetrix expression scores based on False Discovery Rates in disease profiling data | |
US8214157B2 (en) | Method and apparatus for representing multidimensional data | |
Nykter et al. | Simulation of microarray data with realistic characteristics | |
O’Connor | The distribution of common-variant effect sizes | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
Garge et al. | Reproducible clusters from microarray research: whither? | |
Yu et al. | Bootstrapping estimates of stability for clusters, observations and model selection | |
Brown et al. | Statistical methods for analyzing immunosignatures | |
Hartmann et al. | IRECS: a new algorithm for the selection of most probable ensembles of side‐chain conformations in protein models | |
JP5854346B2 (ja) | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 | |
De Hertogh et al. | A benchmark for statistical microarray data analysis that preserves actual biological and technical variance | |
Wang et al. | A hybrid framework for improving uncertainty quantification in deep learning-based QSAR regression modeling | |
Roder et al. | Improving the power of gene set enrichment analyses | |
Balagurunathan et al. | Noise factor analysis for cDNA microarrays | |
Kraus et al. | Multi-objective selection for collecting cluster alternatives | |
JP4438414B2 (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、プログラム、および、記録媒体 | |
Martin et al. | Rank Difference Analysis of Microarrays (RDAM), a novel approach to statistical analysis of microarray expression profiling data | |
Bordner et al. | Protein docking using surface matching and supervised machine learning | |
Xue et al. | Similarity search profiling reveals effects of fingerprint scaling in virtual screening | |
Abu‐Asab et al. | Evolutionary medicine: a meaningful connection between omics, disease, and treatment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090723 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R155 | Notification before disposition of declining of application |
Free format text: JAPANESE INTERMEDIATE CODE: R155 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091228 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |