JP2005106755A - マイクロアレイ実験等から得られるデータの新規解析方法 - Google Patents
マイクロアレイ実験等から得られるデータの新規解析方法 Download PDFInfo
- Publication number
- JP2005106755A JP2005106755A JP2003343862A JP2003343862A JP2005106755A JP 2005106755 A JP2005106755 A JP 2005106755A JP 2003343862 A JP2003343862 A JP 2003343862A JP 2003343862 A JP2003343862 A JP 2003343862A JP 2005106755 A JP2005106755 A JP 2005106755A
- Authority
- JP
- Japan
- Prior art keywords
- gene
- genes
- log
- average
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/30—Microarray design
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
【課題】マイクロアレイ実験等により得られたデータ内の測定誤差や偏り誤差を補正・軽減して、当該データの適切な評価を実現すること、及び当該データの新たな活用法を提供すること。
【解決手段】本発明は、(1)測定シグナル強度からバックグラウンド強度を引いた値が負となるデータ値をもとに閾値を規定し、この閾値によって対照実験におけるシグナル値と目的実験におけるシグナル値との対数比において定量性が保障される範囲を決定し、さらに(2)同対数比を平均強度に対してプロットした場合に見られる偏り誤差を、平均強度を複数の区間に分割し、各区間における同対数比の平均値を求め、この平均値をもとに補正する。また、(3)マイクロアレイ実験等から得られる隣接遺伝子間の発現プロファイルの相関の有無を判定し、微生物ゲノム上の転写単位を高精度に予測する。
【選択図】図1
【解決手段】本発明は、(1)測定シグナル強度からバックグラウンド強度を引いた値が負となるデータ値をもとに閾値を規定し、この閾値によって対照実験におけるシグナル値と目的実験におけるシグナル値との対数比において定量性が保障される範囲を決定し、さらに(2)同対数比を平均強度に対してプロットした場合に見られる偏り誤差を、平均強度を複数の区間に分割し、各区間における同対数比の平均値を求め、この平均値をもとに補正する。また、(3)マイクロアレイ実験等から得られる隣接遺伝子間の発現プロファイルの相関の有無を判定し、微生物ゲノム上の転写単位を高精度に予測する。
【選択図】図1
Description
本発明は、マイクロアレイ実験やマクロアレイ実験等の遺伝子発現解析から得られるデータの新規解析方法、及び同方法を実行するためのプログラム等に関するものである。
マイクロアレイ実験やマクロアレイ実験等は、膨大な遺伝子発現に関する情報を1回の実験で素早く得ることが可能である。例えば、発生段階や成長分裂段階に時間特異的に発現する遺伝子群、組織・器官特異的あるいは疾患・病態特異的に発現する遺伝子群、化学物質、熱、光等の外的刺激により活性化される遺伝子群、転写因子の下流で制御される遺伝子群、といった様々な条件下での遺伝子発現を網羅的・包括的に解析することができる。このようなマイクロアレイ実験等により得られた遺伝子発現情報(発現プロファイル)は、遺伝子発現調節機構の網羅的理解、ひいては生命現象の解明に資するものであるが、これにとどまらず、例えば疾患と遺伝子との関係に基づく新薬の開発・ゲノム創薬、新たな検査・診断法、予防・治療法の確立にも貢献しうるものである。
現在最も多用されているマイクロアレイ実験は、(1)Affymetrix型チップを用いて、標識したcRNAをチップ上のプローブとハイブリダイズさせる方法と、(2)スポット型アレイを用いて、標識したcDNAをスライドガラス上のプローブとハイブリダイズさせる方法とに大別されるが、いずれも細胞等から抽出したmRNAをもとに個々の遺伝子発現量の変化を評価する点で共通する。例えば、標識cDNAを用いた実験では、対照実験用に抽出したmRNAと目的(標的)実験用に抽出したmRNAとからそれぞれ蛍光標識したcDNAを調製し、スライドガラス上に形成された大量のプローブとハイブリダイズさせる。その後、スキャナーによりプローブ各位置の蛍光を測定し、対照実験(c)における遺伝子(k)の発現量(シグナル強度)xC(k)と、目的実験(T) における遺伝子(k)の発現量xT(k)との対数比(log[xT(k)/xC(k)])によって個々の遺伝子(k)の発現量の変化を評価する。
マイクロアレイ実験は、大量の遺伝子発現解析を迅速に行う上で今後益々重要であり、有効な方法であるが、同実験から得られたデータには実験上の様々な理由から測定誤差や偏り誤差が存在し、そのため従来は遺伝子発現変化量の適切な評価が困難であった。例えば、対照実験及び目的実験において、各々の遺伝子の測定シグナル強度(バックグラウンド強度を引く前の実測値)は理想的にはバックグラウンド強度以上の値をとる筈であるが、実際にはバックグラウンド強度より低い測定値をとるものがデータ上存在した。また、バックグラウンド強度以上の値をとるものであっても、測定シグナル強度の低いものでは、上記対数比(log[xT(k)/xC(k)])に定量性が保障されなくなるが、どこまで定量性が保障されるとするかは主観的ないし経験的に決められていた。
マイクロアレイ実験では、大半の遺伝子の発現量(蛍光強度)は対照実験(c)及び目的実験(T)の二つの実験においてほぼ同一であり、一部遺伝子について発現量変化が認められる。このことは、上記対数比(log[xT(k)/xC(k)])をとった場合、大半の遺伝子はlog[xT(k)/xC(k)] =0近傍に分布することを意味する。ところが、実際には図1の上段グラフに示すように、横軸の平均強度に依存した偏り誤差が対数比に含まれることがしばしばある。
従来の補正方法として、マイクロアレイ上にスポットされた全ての遺伝子(u=1,2, …N;ここでNは全ての遺伝子数である)におけるlog[xT(k)/xC(k)]について中央値MDを求め、すべての遺伝子に対してlog[xT(k)/xC(k)]-MDを計算し補正することは従来行われていた(後記の非特許文献1参照)。しかし、このような従来の補正方法では、上記の平均強度に依存した偏り誤差を軽減することができない。
マイクロアレイ実験では、前述のように、対照実験及び目的実験の二つの実験における遺伝子の発現強度の変化を比(対数比)の形式で評価する。この比(対数比)における定量性は、複数のマイクロアレイ実験から類似の発現プロファイルを有する遺伝子を探索する場合に影響を及ぼす。
ところで、微生物ゲノムの同一のDNA鎖上の隣接遺伝子集合のうち同一のmRNAに転写される隣接遺伝子集合を転写単位と呼ぶが、この転写単位を明らかにすることは、ゲノムにおける遺伝子発現制御機構を理解する上で非常に重要である。そこで、例えば複数のマイクロアレイ実験から得られるデータをもとに複数の遺伝子の発現プロファイルの相関により転写単位を予測・推定する方法が開発されれば産業上も有用であるが、未だこのような方法は開発されていない。
林崎良英著、必ずデータが出るDNAマイクロアレイ実験マニュアル、羊土社、2000年
本発明は、上記問題点に鑑みなされたものであり、その目的は、マイクロアレイ実験やマクロアレイ実験等の大量遺伝子発現解析から得られるデータの新規解析方法を提供することにあり、より具体的には、(1)上記対数比(log[xT(k)/xC(k)])に定量性が保障される範囲と保障されない範囲とを統計的に明確に分けて評価する方法、(2)同対数比の平均強度に依存した偏り誤差を補正・低減する方法、及び、(3)複数のマイクロアレイ実験等から得られるデータをもとに微生物ゲノム上の転写単位を予測・推定する方法、並びに、これらの方法をコンピュータ上で実行するためのプログラム等を提供することにある。
本発明の第1のデータ解析方法は、上記の課題を解決するため、マイクロアレイ実験、マクロアレイ実験、その他これら実験に類する遺伝子発現解析の結果得られたデータの解析方法であって、対照実験における遺伝子(k)のシグナル強度xC(k)と、目的実験における遺伝子(k)のシグナル強度xT(k)との対数比に定量性があると認められる範囲を下記(a)〜(c)の工程により決定することを特徴としている。
(a)対照実験における各々の遺伝子(k)の測定シグナル強度sc(k)及びバックグラウンド強度bc(k)と、目的実験における各々の遺伝子(k)の測定シグナル強度sT(k)及びバックグラウンド強度bT(k)のデータを取得する、
(b)sc(k)-bc(k)が負の値となるデータ値をもとに、シグナル強度xC(k)が実質的に0とみなされる範囲を規定する第1の閾値を決定する一方、sT(k)-bT(k) が負の値となるデータ値をもとに、シグナル強度xT(k)が実質的に0とみなされる範囲を規定する第2の閾値を決定する、
(c)シグナル強度xC(k)が第1の閾値以上又はこれより大きい値をとり、かつ、シグナル強度xT(k)が第2の閾値以上又はこれより大きい値をとる場合に、xC(k)とxT(k)との対数比に定量性があると決定する。
(a)対照実験における各々の遺伝子(k)の測定シグナル強度sc(k)及びバックグラウンド強度bc(k)と、目的実験における各々の遺伝子(k)の測定シグナル強度sT(k)及びバックグラウンド強度bT(k)のデータを取得する、
(b)sc(k)-bc(k)が負の値となるデータ値をもとに、シグナル強度xC(k)が実質的に0とみなされる範囲を規定する第1の閾値を決定する一方、sT(k)-bT(k) が負の値となるデータ値をもとに、シグナル強度xT(k)が実質的に0とみなされる範囲を規定する第2の閾値を決定する、
(c)シグナル強度xC(k)が第1の閾値以上又はこれより大きい値をとり、かつ、シグナル強度xT(k)が第2の閾値以上又はこれより大きい値をとる場合に、xC(k)とxT(k)との対数比に定量性があると決定する。
上記(b)の工程において、第1の閾値をu×SDc(但し、uは任意の正数であり、SDcは下記の式(1)で表される統計量)と設定する一方、第2の閾値をu×SDT(但し、uは任意の正数であり、SDTは下記の式(2)で表される統計量)と設定することは好ましい。
(但し、yC(k)=sC(k)-bC(k) < 0 及び yT(k)=sT(k)-bT(k) < 0であり、式(1)のkはsC(k)-bC(k)が負の値をとるNc個のシグナルを、式(2)のkはsT(k)-bT(k) が負の値をとるNT個のシグナルをそれぞれ示す変数であり、logの底は1より大きい任意の正数である。)
(但し、yC(k)=sC(k)-bC(k) < 0 及び yT(k)=sT(k)-bT(k) < 0であり、式(1)のkはsC(k)-bC(k)が負の値をとるNc個のシグナルを、式(2)のkはsT(k)-bT(k) が負の値をとるNT個のシグナルをそれぞれ示す変数であり、logの底は1より大きい任意の正数である。)
本発明の第2のデータ解析方法は、上記の課題を解決するため、マイクロアレイ実験、マクロアレイ実験、その他これら実験に類する遺伝子発現解析の結果得られたデータの解析方法であって、対照実験における遺伝子(k)のシグナル強度xC(k)と、目的実験における遺伝子(k)のシグナル強度xT(k)との対数比における平均強度に依存した偏り誤差を下記(a)〜(c)の工程により補正することを特徴としている。
(a)xC(k)とxT(k)との平均強度Av[k](={log[xC(k)]+log[xT(k)]}/2)を値の大小に応じて複数の区間に分割し、s番目の区間に属する遺伝子(u=1,2,...,NsでありNsはs番目の区間に属する遺伝子の総数である)について、xC(u)とxT(u)との対数比の平均値PAv(s)を求める、
(b)k番目の遺伝子の平均強度Av[k]がAvs-1(s-1番目の区間の平均強度の最小値と最大値との平均)とAvs(s番目の区間の平均強度の最小値と最大値との平均)との間にあるとき、その平均強度Av[k]における基準強度crit(k)を平均値PAv(s-1)とPAv(s)とを用いて線形補間により求める、
(c)補正対数比LOG[k]を下記の式(3)により定義することで、xC(k)とxT(k)との対数比log(xT(k)/ xC(k))を補正する。
LOG[k] = log(xT(k)/ xC(k))-crit(k) (3)
(a)xC(k)とxT(k)との平均強度Av[k](={log[xC(k)]+log[xT(k)]}/2)を値の大小に応じて複数の区間に分割し、s番目の区間に属する遺伝子(u=1,2,...,NsでありNsはs番目の区間に属する遺伝子の総数である)について、xC(u)とxT(u)との対数比の平均値PAv(s)を求める、
(b)k番目の遺伝子の平均強度Av[k]がAvs-1(s-1番目の区間の平均強度の最小値と最大値との平均)とAvs(s番目の区間の平均強度の最小値と最大値との平均)との間にあるとき、その平均強度Av[k]における基準強度crit(k)を平均値PAv(s-1)とPAv(s)とを用いて線形補間により求める、
(c)補正対数比LOG[k]を下記の式(3)により定義することで、xC(k)とxT(k)との対数比log(xT(k)/ xC(k))を補正する。
LOG[k] = log(xT(k)/ xC(k))-crit(k) (3)
上記データ解析方法において、k番目の遺伝子の補正対数比LOG[k]の絶対値が、当該遺伝子につき設定した閾値Th以上又はこれより大きい値をとる場合に、k番目の遺伝子は統計的に有意な発現量変化が得られたシグナル対と判定することは好ましい。また、閾値Thを下記(a)〜(c)の工程により設定することは好ましい。
(a)s番目の区間に属する遺伝子(k)について、これら遺伝子のLOG[k]に対してSDcritを設定し、-SDcrit < LOG[k] < SDcritを満たすサンプルに対して標準偏差を求め、これをSD1[s]とする、
(b)標準偏差SD1[s]をもとに前後2点(s-2,s-1,s,s+1,s+2)の合計5点の平均値Smth[s]を求め、これを平均強度Avs(s番目の区間の平均強度の最小値と最大値との平均)における代表値とする、
(c)平均強度AvuとAvu+1との間にAv[k]が位置するとき、Smth[u]とSmth[u+1]とを用いて線形補間により、
SD[k] =Smth[u+1]+(Av[k]-Avu+1)(Smth[u+1]-Smth[u])/(Avu+1-Avu)
を求め、2×SD[k]を閾値Thとする。
(a)s番目の区間に属する遺伝子(k)について、これら遺伝子のLOG[k]に対してSDcritを設定し、-SDcrit < LOG[k] < SDcritを満たすサンプルに対して標準偏差を求め、これをSD1[s]とする、
(b)標準偏差SD1[s]をもとに前後2点(s-2,s-1,s,s+1,s+2)の合計5点の平均値Smth[s]を求め、これを平均強度Avs(s番目の区間の平均強度の最小値と最大値との平均)における代表値とする、
(c)平均強度AvuとAvu+1との間にAv[k]が位置するとき、Smth[u]とSmth[u+1]とを用いて線形補間により、
SD[k] =Smth[u+1]+(Av[k]-Avu+1)(Smth[u+1]-Smth[u])/(Avu+1-Avu)
を求め、2×SD[k]を閾値Thとする。
さらに、本発明の上記第1のデータ解析方法と上記第2のデータ解析方法とを組み合わせて、実験により得られたシグナルを複数の区分に分類することは好ましい。
本発明の第3のデータ解析方法は、上記の課題を解決するため、マイクロアレイ実験、マクロアレイ実験、その他これら実験に類する遺伝子発現解析の結果得られたデータの解析方法であって、複数の遺伝子の発現プロファイルとこれら遺伝子のゲノム情報とに基づいて転写単位を下記(a)〜(d)の工程により推定することを特徴としている。
(a)ゲノム上で隣接しかつ同一の核酸鎖に位置する二つの遺伝子の発現プロファイルにおける相関係数を算出する、
(b)上記相関係数に基づきs番目の遺伝子の発現プロファイルと同遺伝子の3’側に隣接するs+1番目の遺伝子の発現プロファイルとに有意な相関があると判定されると、転写単位集合にこれら遺伝子を帰属させ、続いて、s番目とs+2番目の遺伝子発現プロファイルにおいて有意な相関が得られるときにs+2番目の遺伝子を同集合に帰属させ、以下同様の処理をs+3, s+4, …と繰り返し有意な相関が得られなくなったところで終了する、
(c)s番目の遺伝子と、同遺伝子の5’側に隣接する遺伝子(s-1番目,s-2番目,…)との発現プロファイルにおける有意な相関の有無を上記工程(b)と同様に判定する、
(d)上記工程(b)と(c)により得られた集合の中で、最小の順位にある遺伝子と最大の順位にある遺伝子とにより挟まれた遺伝子群を一つの転写単位と推定する。
(a)ゲノム上で隣接しかつ同一の核酸鎖に位置する二つの遺伝子の発現プロファイルにおける相関係数を算出する、
(b)上記相関係数に基づきs番目の遺伝子の発現プロファイルと同遺伝子の3’側に隣接するs+1番目の遺伝子の発現プロファイルとに有意な相関があると判定されると、転写単位集合にこれら遺伝子を帰属させ、続いて、s番目とs+2番目の遺伝子発現プロファイルにおいて有意な相関が得られるときにs+2番目の遺伝子を同集合に帰属させ、以下同様の処理をs+3, s+4, …と繰り返し有意な相関が得られなくなったところで終了する、
(c)s番目の遺伝子と、同遺伝子の5’側に隣接する遺伝子(s-1番目,s-2番目,…)との発現プロファイルにおける有意な相関の有無を上記工程(b)と同様に判定する、
(d)上記工程(b)と(c)により得られた集合の中で、最小の順位にある遺伝子と最大の順位にある遺伝子とにより挟まれた遺伝子群を一つの転写単位と推定する。
上記工程(a)において、相関係数を下記の式(4)により算出することは好ましい。
(但し、隣接する二つの遺伝子をs、tとする。NstはM個の実験のうち二つの遺伝子s、tの両方について値を得ることができた実験の個数であり、このNst個の実験をそれぞれjにより表している。Xjsは遺伝子sについてj番目の実験の発現プロファイル、Xjtは遺伝子tについてj番目の実験の発現プロファイル、Xsバーは遺伝子sについてNst種類の実験の発現プロファイルの平均、Xtバーは遺伝子tについてNst種類の実験の発現プロファイルの平均、をそれぞれ示す。)
(但し、隣接する二つの遺伝子をs、tとする。NstはM個の実験のうち二つの遺伝子s、tの両方について値を得ることができた実験の個数であり、このNst個の実験をそれぞれjにより表している。Xjsは遺伝子sについてj番目の実験の発現プロファイル、Xjtは遺伝子tについてj番目の実験の発現プロファイル、Xsバーは遺伝子sについてNst種類の実験の発現プロファイルの平均、Xtバーは遺伝子tについてNst種類の実験の発現プロファイルの平均、をそれぞれ示す。)
本発明のプログラムは、上記の課題を解決するため、上記第1〜第3のデータ解析方法のうち少なくとも1つの方法をコンピュータに実行させることを特徴としている。
本発明の記録媒体は、上記本発明のプログラムを記録した、コンピュータで読み取り可能な記録媒体である。また、本発明のデータ解析装置は、上記本発明のプログラムと、同プログラムにより上記第1〜第3のデータ解析方法のうち少なくとも1つの方法を実行するコンピュータとを備えたデータ解析装置である。
本発明によれば、(1)マイクロアレイ実験等から得られたシグナル強度の対数比において定量性が保障される範囲を統計的手法により客観的に定めることができる、また(2)同対数比の平均強度に依存した偏り誤差を補正・軽減することができるので、従来と比べて同対数比による遺伝子発現変化量の適切な評価が可能になる、さらに(3)マイクロアレイ実験等から得られたデータを活用して、微生物ゲノム上の転写単位を高精度に予測することが可能になる。
以下、本発明の実施の一形態について説明する。
(1)シグナルデータの対数比に定量性が保障される範囲を決定する方法(対数比に定量性が保障されるシグナルの検出方法)
ここでは、cDNAを試料に用いたマイクロアレイ実験(cDNAマイクロアレイ実験)により得られたデータの解析を例に挙げて説明する。通常、cDNAマイクロアレイ実験においては、各々の遺伝子(k=1,2,…,N)について対照実験(c)および目的実験(T)それぞれについての測定シグナル強度とバックグラウンド強度とからなる。これらをそれぞれ、sC(k)、bC(k)ならびにsT(k)、bT(k)とする。sC(k)-bC(k)およびsT(k)-bT(k)の値は理想的には0以上である。sC(k)-bC(k)およびsT(k)-bT(k)における負の値は本来0となるべき値であることから、0となるべき値に対するバラツキである。このバラツキを評価する統計量SDCならびにSDTをそれぞれ以下の式(1)・(2)で示す。
(但し、yC(k)=sC(k)-bC(k) < 0 及び yT(k)=sT(k)-bT(k) < 0であり、式(1)のkはsC(k)-bC(k)が負の値をとるNc個のシグナルを、式(2)のkはsT(k)-bT(k) が負の値をとるNT個のシグナルをそれぞれ示す変数であり、logの底は1より大きい任意の正数である。)
(1)シグナルデータの対数比に定量性が保障される範囲を決定する方法(対数比に定量性が保障されるシグナルの検出方法)
ここでは、cDNAを試料に用いたマイクロアレイ実験(cDNAマイクロアレイ実験)により得られたデータの解析を例に挙げて説明する。通常、cDNAマイクロアレイ実験においては、各々の遺伝子(k=1,2,…,N)について対照実験(c)および目的実験(T)それぞれについての測定シグナル強度とバックグラウンド強度とからなる。これらをそれぞれ、sC(k)、bC(k)ならびにsT(k)、bT(k)とする。sC(k)-bC(k)およびsT(k)-bT(k)の値は理想的には0以上である。sC(k)-bC(k)およびsT(k)-bT(k)における負の値は本来0となるべき値であることから、0となるべき値に対するバラツキである。このバラツキを評価する統計量SDCならびにSDTをそれぞれ以下の式(1)・(2)で示す。
(但し、yC(k)=sC(k)-bC(k) < 0 及び yT(k)=sT(k)-bT(k) < 0であり、式(1)のkはsC(k)-bC(k)が負の値をとるNc個のシグナルを、式(2)のkはsT(k)-bT(k) が負の値をとるNT個のシグナルをそれぞれ示す変数であり、logの底は1より大きい任意の正数である。)
一方、(シグナル強度)-(バックグラウンド強度)が0以上の値を有する場合にはxc(k)=sC(k)-bC(k) (≧0) およびxT(k)=sT(k)-bT(k) (≧0)で表す。
本方法においては、対照実験におけるシグナル値xc(k)が、
xc(k) < u * SDc (I)
を満たすとき、xc(k)は0であるとみなされる。ここでuは任意の正数であり、u=1のとき統計的には68%の範囲のデータが分布する領域を示す。
xc(k) < u * SDc (I)
を満たすとき、xc(k)は0であるとみなされる。ここでuは任意の正数であり、u=1のとき統計的には68%の範囲のデータが分布する領域を示す。
同様に、目的実験におけるシグナル強度xT(k)が、
xT(k) < u * SDT (II)
を満たすとき、xT(k)は0であるとみなされる。
xT(k) < u * SDT (II)
を満たすとき、xT(k)は0であるとみなされる。
本方法においては、xc(k)が上記の式(I)を満たす場合、あるいはxT(k)が上記の式(II)を満たす場合には、k番目の遺伝子に対しては対数比により表現ができない。即ち、これらの何れかを満たす場合には対数比において定量性は保障されないと判断する。
(2)対数比における偏り誤差の低減方法
k番目の遺伝子について上記の式(I)および(II)の両方を満たさないとき対数比による評価が可能となる。縦軸に対数比log[xT(k)/xC(k)](又はlog[xC(k)/xT(k)]、logの底は1より大きい任意の正数で、例えば10)をとり横軸に平均強度Av[k](={log[xc(k)]+log[xT(k)]}/2)をとれば、大半の遺伝子はlog[xT(k)/xC(k)]=0近傍に分布すると期待される。ところが、実際には図1の上段グラフに示すように、横軸の平均強度に依存した偏り誤差が対数比に含まれることがしばしばある。この偏り誤差を以下の方法で軽減する。まず、平均強度を一定の刻み幅で複数の区間に分割する。s番目の区間に属する遺伝子kについて、対数比の平均値PAv(s)を下記の式(5)により求める。
(但し、kはs番目の区間に属するNs個のシグナルを示す変数であり、min(s)はs番目の区間の平均強度の最小値を、max(s)はs番目の区間の平均強度の最大値をそれぞれ示す。)
k番目の遺伝子について上記の式(I)および(II)の両方を満たさないとき対数比による評価が可能となる。縦軸に対数比log[xT(k)/xC(k)](又はlog[xC(k)/xT(k)]、logの底は1より大きい任意の正数で、例えば10)をとり横軸に平均強度Av[k](={log[xc(k)]+log[xT(k)]}/2)をとれば、大半の遺伝子はlog[xT(k)/xC(k)]=0近傍に分布すると期待される。ところが、実際には図1の上段グラフに示すように、横軸の平均強度に依存した偏り誤差が対数比に含まれることがしばしばある。この偏り誤差を以下の方法で軽減する。まず、平均強度を一定の刻み幅で複数の区間に分割する。s番目の区間に属する遺伝子kについて、対数比の平均値PAv(s)を下記の式(5)により求める。
(但し、kはs番目の区間に属するNs個のシグナルを示す変数であり、min(s)はs番目の区間の平均強度の最小値を、max(s)はs番目の区間の平均強度の最大値をそれぞれ示す。)
マイクロアレイ実験においては、平均強度が小さいほど対数比のばらつきが大きくなる傾向があるため、平均強度が小さい区間ほど多数のサンプルにより平均値を求めることが重要となる。いま、平均強度が小さい区間から大きい区間に向かってs=1,2,…,Stotalとした場合に、各区間に必要なサンプル数を、
s・(Nstart-Nfinal)/(1-Stotal) +(Nfinal-Nstart・Stotal)/(1-Stotal) ・・・(A)
と設定する。ここでNstartはs=1におけるサンプル数であり、Nfinalはs=Stotalにおけるサンプル数である。(例えばNstart=40, Nfinal=5などと設定する。)ここでNstart>Nfinalと設定する。この条件を満たすときのみ(つまり、各区間の実際のサンプル数が上記設定値(A)以上、またはこの値より大きいとき)平均強度Avs=[min(s)+max(s)]/2におけるPAv(s)を代表値として用いる。十分な数のサンプルが得られないときにはAvsにおける代表値が得られないため、前後の(Avq, PAv(q))および(Avt, PAv(t))の線形補間によりPAv(s)を求める。
s・(Nstart-Nfinal)/(1-Stotal) +(Nfinal-Nstart・Stotal)/(1-Stotal) ・・・(A)
と設定する。ここでNstartはs=1におけるサンプル数であり、Nfinalはs=Stotalにおけるサンプル数である。(例えばNstart=40, Nfinal=5などと設定する。)ここでNstart>Nfinalと設定する。この条件を満たすときのみ(つまり、各区間の実際のサンプル数が上記設定値(A)以上、またはこの値より大きいとき)平均強度Avs=[min(s)+max(s)]/2におけるPAv(s)を代表値として用いる。十分な数のサンプルが得られないときにはAvsにおける代表値が得られないため、前後の(Avq, PAv(q))および(Avt, PAv(t))の線形補間によりPAv(s)を求める。
k番目の遺伝子に対する平均強度Av[k]がAvs-1(=[min(s-1)+max(s-1)]/2)とAvs(=[min(s)+max(s)]/2)との間にあるとき、PAv(s-1)およびPAv(s)から平均強度Av[k]における基準強度crit(k)を線形補間によって下記の式(6)により求める。
この基準強度をもとにして以下の式(7)により補正対数比LOG[k]を定義する。
LOG(k) = log(xT(k)/xc(k) )-crit(k) (7)
上記の補正対数比LOG[k]によって対数比の偏り誤差を補正した結果が図1の下段グラフに示される。
LOG(k) = log(xT(k)/xc(k) )-crit(k) (7)
上記の補正対数比LOG[k]によって対数比の偏り誤差を補正した結果が図1の下段グラフに示される。
ユーザーにより決められたLOG[k]=0のばらつきの範囲を-SDcrit < LOG[k] < SDcritとする。つまり、SDcritは実験の結果得られたデータ等に基づきユーザーにより設定される。平均強度の値にしたがってサンプルを複数(s)の区間(s=0,1,... ,Stotal-1;区間は0.1きざみで規定したが、勿論刻み幅はこれに限定されるものではない。)に分割し、それぞれの区間について-SDcrit < LOG[k] < SDcritを満たすサンプルに対して標準偏差を求める(SDcritはそれぞれの区間について独自の値に設定してもよいし、全区間について同じ値でもよい)。これをSD1[s]とする。SD1[s]は50以上のサンプル数をもとに算出されることが望ましいが、これに限定されるものではない。
このようにして得られた標準偏差SD1[s]をもとに前後2点(s-2,s-1,s,s+1,s+2)の合計5点の平均値Smth[s]を求め、これを平均強度Avs=[min(s)+max(s)]/2における代表値とする。
k番目の遺伝子が平均強度Av[k]でLOG[k]の値をもち、平均強度AVuとAvu+1との間にAv[k]が位置するときには、Smth[u]とSmth[u+1]とを用いて線形補間により、
SD[k] =Smth[u+1]+(Av[k]-AVu+1)(Smth[u+1]-Smth[u])/(AVu+1-AVu)
を求める。そして、2×SD[k] < |LOG[k]|のとき、k番目の遺伝子は統計的に有意な発現量変化が得られたシグナル対と判定する。
SD[k] =Smth[u+1]+(Av[k]-AVu+1)(Smth[u+1]-Smth[u])/(AVu+1-AVu)
を求める。そして、2×SD[k] < |LOG[k]|のとき、k番目の遺伝子は統計的に有意な発現量変化が得られたシグナル対と判定する。
本方法により、マイクロアレイ実験のシグナルは以下の4つのグループA〜Dに分類される。グループA・Bは複数のマイクロアレイ実験データにおいて類似の発現プロファイルをもつ遺伝子を探索するといった定量解析に用いることができるシグナルの条件ということができる。また、グループA〜Dは対照実験および目的実験の二つの実験において有意な差のある遺伝子を探索するといった定性解析に用いることができる(あわせて図2参照。尚、図2ではさらにグループE・Fを加えた6つのグループに分類している)。
グループA:対数比に定量性が保障され、かつ、統計的に有意な発現量変化が得られるシグナル対。条件:SDc < xc(k)かつSDT < xT(k)であり、2×SD[k] < |LOG[k]|
グループB:対数比に定量性が保障されるが、統計的に有意な発現量変化が得られないシグナル対。条件:SDc < xc(k)かつSDT < xT(k)であり、2×SD[k] > |LOG[k]|
グループC:シグナルの一方が0とみなされるため対数比に定量性が保障されないが、二つのシグナルに差が得られているシグナル対。条件:(i) SDc > xc(k)かつSDT < xT(k)、あるいは、(ii) SDc < xc(k)かつSDT > xT(k)
グループD:シグナルの両方が0とみなされるため対数比に定量性が保障されず、かつ二つのシグナルに差がないと判断されるシグナル対。条件:SDc > xc(k)かつSDT > xT(k)
グループB:対数比に定量性が保障されるが、統計的に有意な発現量変化が得られないシグナル対。条件:SDc < xc(k)かつSDT < xT(k)であり、2×SD[k] > |LOG[k]|
グループC:シグナルの一方が0とみなされるため対数比に定量性が保障されないが、二つのシグナルに差が得られているシグナル対。条件:(i) SDc > xc(k)かつSDT < xT(k)、あるいは、(ii) SDc < xc(k)かつSDT > xT(k)
グループD:シグナルの両方が0とみなされるため対数比に定量性が保障されず、かつ二つのシグナルに差がないと判断されるシグナル対。条件:SDc > xc(k)かつSDT > xT(k)
(3)転写単位の推定法
バクテリアの遺伝子発現におけるゲノムの同一のDNA鎖上の隣接遺伝子集合のうち同一のmRNAに転写される隣接遺伝子集合を転写単位と呼ぶ。この転写単位を予測することは、ゲノムにおける遺伝子発現制御の観点から非常に重要である。マイクロアレイデータに代表される個々の遺伝子の様々な条件における発現量もしくは発現変化量をもとに転写単位を推定する方法を以下に述べる。
バクテリアの遺伝子発現におけるゲノムの同一のDNA鎖上の隣接遺伝子集合のうち同一のmRNAに転写される隣接遺伝子集合を転写単位と呼ぶ。この転写単位を予測することは、ゲノムにおける遺伝子発現制御の観点から非常に重要である。マイクロアレイデータに代表される個々の遺伝子の様々な条件における発現量もしくは発現変化量をもとに転写単位を推定する方法を以下に述べる。
ゲノム上で連続して同一方向に並ぶ遺伝子集合をディレクトンと呼ぶ。複数の遺伝子が同一の転写単位に属するとき、これらの遺伝子は同一のmRNAとして転写されるので、理論的にはこれらの発現プロファイルに正の相関を有する。そこで、同一のディレクトンに属する遺伝子間のマイクロアレイ発現プロファイルの相関を算出する。いまM種類のマイクロアレイ実験(遺伝子N個に対しての発現プロファイルが得られるマイクロアレイ)を行ったとすると、各遺伝子の発現プロファイルはN×Mの行列により次のように表記することができる。
ここで、第s番目の遺伝子の発現プロファイルXsはM次元のベクトルにより次のように記述することができる。
Xs = (Xs1,Xs2,…,Xsj,…,XsM )
Xs = (Xs1,Xs2,…,Xsj,…,XsM )
ベクトルで記述されたXs,Xtを用いて、ゲノム上で隣接しかつ同一のDNA鎖に位置する二つの遺伝子(s,t)の発現プロファイルの相関により転写単位を予測する本方法のアルゴリズムを以下説明する。このアルゴリズムでは必ずしも隣接遺伝子間の相関に関する情報が得られなくとも転写単位を推定することができる。
本方法では、発現プロファイルとゲノム情報とに基づき、下記のステップ1〜4により転写単位を推定する。
本方法では、発現プロファイルとゲノム情報とに基づき、下記のステップ1〜4により転写単位を推定する。
〔ステップ1:同一のディレクトンに属する遺伝子間の相関係数の算出〕
同一のディレクトン上の第s番目と第t番目の遺伝子対の発現プロファイルXs,Xtにおける相関係数r(s,t)を算出する。ここで、s=1,2,…,N、t=1,2,…,Nであり、Nは、注目したディレクトンに属する遺伝子の総数である。ここでディレクトンとは連続して同一のDNA鎖に位置づけられている遺伝子集合である。
同一のディレクトン上の第s番目と第t番目の遺伝子対の発現プロファイルXs,Xtにおける相関係数r(s,t)を算出する。ここで、s=1,2,…,N、t=1,2,…,Nであり、Nは、注目したディレクトンに属する遺伝子の総数である。ここでディレクトンとは連続して同一のDNA鎖に位置づけられている遺伝子集合である。
〔ステップ2:隣接関係を考慮した発現相間のある遺伝子の3’方向への探索〕
s番目の遺伝子の発現プロファイルXsと隣接する遺伝子(s+1)の発現プロファイルXs+1とに有意な相関があるとき、転写単位集合にこの遺伝子を帰属させる。続いて、s番目とs+2番目の遺伝子発現プロファイルにおいて有意な相関が得られるときにs+2番目の遺伝子を同集合に帰属させる。この操作をs+3, s+4,…と繰り返し有意な相関が得られなくなったところで終了する。
s番目の遺伝子の発現プロファイルXsと隣接する遺伝子(s+1)の発現プロファイルXs+1とに有意な相関があるとき、転写単位集合にこの遺伝子を帰属させる。続いて、s番目とs+2番目の遺伝子発現プロファイルにおいて有意な相関が得られるときにs+2番目の遺伝子を同集合に帰属させる。この操作をs+3, s+4,…と繰り返し有意な相関が得られなくなったところで終了する。
〔ステップ3:隣接関係を考慮した発現相間のある遺伝子の5’方向への探索〕
s-1番目,s-2番目,・・・に対して上記ステップ2と同様の操作を行う。
s-1番目,s-2番目,・・・に対して上記ステップ2と同様の操作を行う。
〔ステップ4:転写単位区間の候補の列挙〕
上記ステップ2と3とにより得られた集合の中で、最小の順位にある遺伝子と最大の順位にある遺伝子とにより挟まれた遺伝子群を一つの転写単位と推定する。
上記ステップ2と3とにより得られた集合の中で、最小の順位にある遺伝子と最大の順位にある遺伝子とにより挟まれた遺伝子群を一つの転写単位と推定する。
尚、上記ステップ1における相関係数r(s,t)の具体的な算出方法などについては、後述の実施例で説明する。
勿論、本発明は、これまで説明した本実施形態の上記(1)〜(3)の方法に限定されるものではなく、本発明の範囲内で種々の変更が可能である。例えば、上記(1)〜(3)の方法で使用した閾値、基準値などの値は任意であり、用途・目的などに応じて適切な値を設定すればよい。また、上記(1)〜(3)の方法の工程(ステップ)に対してさらに付加的ステップを追加してもよい。
(4)本発明の有用性(利用分野)
本発明は、マイクロアレイ実験やマクロアレイ実験等の遺伝子発現解析から得られるデータの新規解析方法、及び同方法を実行するためのプログラム等に関するものであり、マイクロアレイ実験等により得られたデータの適切な評価、及び当該データの新たな活用が可能になり、研究用ツールとしての用途は勿論のこと、これにとどまらず、例えば疾患と遺伝子との関係に基づく新薬の開発・ゲノム創薬、新たな検査・診断法、予防・治療法の確立にも貢献しうるものである。
本発明は、マイクロアレイ実験やマクロアレイ実験等の遺伝子発現解析から得られるデータの新規解析方法、及び同方法を実行するためのプログラム等に関するものであり、マイクロアレイ実験等により得られたデータの適切な評価、及び当該データの新たな活用が可能になり、研究用ツールとしての用途は勿論のこと、これにとどまらず、例えば疾患と遺伝子との関係に基づく新薬の開発・ゲノム創薬、新たな検査・診断法、予防・治療法の確立にも貢献しうるものである。
本発明の利用方法の一例を挙げれば、マイクロアレイ実験のシグナル強度に応じて解析法を設定することが可能となる。例えば、複数のマイクロアレイ実験データにおいて類似の発現プロファイルをもつ遺伝子を探索する場合には、前述のグループA・Bの条件を満たす遺伝子のみを解析の対象とする。また、単に、一つのマイクロアレイ実験において有意な変化がある遺伝子の探索には、前述のグループA〜Dの条件を満たす遺伝子を対象とする。このように、定量解析あるいは定性解析に適した対象遺伝子群の範囲を決めることができる。これにより、通常、マイクロアレイ解析として用いられる多変量解析の精度を向上できる。
本発明のプログラムは、本発明の方法(例えば前記(1)〜(3)の何れかの方法)をコンピュータに実行させるものであり、本発明の記録媒体は、本発明のプログラムを記録したものであって、コンピュータによってアクセスされ、読み取られうる任意の記録媒体をいう。このような記録媒体としては、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW等の光学記憶媒体、RAMやROM等の電気記憶媒体、およびMO等の磁気/光学記憶媒体を例示することができるが、これらに限定されるものではない。
本発明の「データ解析装置」は、本発明のプログラムと、同プログラムにより本発明の方法(例えば前記(1)〜(3)の何れかの方法)を実行するコンピュータとを備えて構成される。コンピュータは、基本的に、本発明の方法を実行しうる構成であれば足り、入力装置、データ記憶装置、中央演算処理装置および出力装置によって構成される。
以下、実施例により本発明をより具体的に説明するが、本発明はこれら実施例により何ら限定されるものではない。
〔解析例〕
特定の遺伝子が欠損した大腸菌変異株ならびに大腸菌の時系的変化における発現プロファイルを市販の大腸菌マイクロアレイを用いて測定した。測定条件は図3に示される。
特定の遺伝子が欠損した大腸菌変異株ならびに大腸菌の時系的変化における発現プロファイルを市販の大腸菌マイクロアレイを用いて測定した。測定条件は図3に示される。
〔実施例1:対数比(相対値)に定量性が認められるシグナルの検出方法〕
対照実験及び目的実験におけるシグナル値xc(k)、xT(k)が、
xc(k) < SDC (I)
xT(k) < SDT (II)
を満たすとき、xc(k)、xT(k)を0とみなした場合についての解析結果を以下に示す。xc(k)が式(I)を満たす場合、あるいはxT(k)が式(II)を満たす場合には、k番目の遺伝子に対しては対数比により表現ができない。即ち、これら何れかの式を満たす場合には対数比において定量性は保障されない。このことは、xc(k)ならびにxT(k)を同一の条件により測定したときに、xT(k)とxc(k)に対する対数比log[xT(k)/xc(k)]において下記の条件2-1ならびに条件2-2の標準偏差は条件1の標準偏差に比べ大きくなることにより示される。
条件1 :対数比に定量性が保障される。条件:SDc < xc(k)かつSDT < xT(k)
条件2-1:シグナルの一方が0となるため対数比に定量性が保障されないが、二つのシグナルに差が得られている。条件:(i) SDc > xc(k)かつSDT < xT(k)あるいは(ii) SDc < xc(k)かつSDT > xT(k)
条件2-2:シグナルの両方が0となるため対数比に定量性が保障されず、かつ二つのシグナルに差がないと判断される。条件:SDc > xc(k)かつSDT > xT(k)
対照実験及び目的実験におけるシグナル値xc(k)、xT(k)が、
xc(k) < SDC (I)
xT(k) < SDT (II)
を満たすとき、xc(k)、xT(k)を0とみなした場合についての解析結果を以下に示す。xc(k)が式(I)を満たす場合、あるいはxT(k)が式(II)を満たす場合には、k番目の遺伝子に対しては対数比により表現ができない。即ち、これら何れかの式を満たす場合には対数比において定量性は保障されない。このことは、xc(k)ならびにxT(k)を同一の条件により測定したときに、xT(k)とxc(k)に対する対数比log[xT(k)/xc(k)]において下記の条件2-1ならびに条件2-2の標準偏差は条件1の標準偏差に比べ大きくなることにより示される。
条件1 :対数比に定量性が保障される。条件:SDc < xc(k)かつSDT < xT(k)
条件2-1:シグナルの一方が0となるため対数比に定量性が保障されないが、二つのシグナルに差が得られている。条件:(i) SDc > xc(k)かつSDT < xT(k)あるいは(ii) SDc < xc(k)かつSDT > xT(k)
条件2-2:シグナルの両方が0となるため対数比に定量性が保障されず、かつ二つのシグナルに差がないと判断される。条件:SDc > xc(k)かつSDT > xT(k)
LB培地で大腸菌を培養し抽出された同一のmRNAサンプルについて算出された上述の3つの条件における対数比の標準偏差を図4に示す。(A)および(B)は、それぞれ対数増殖期において独立に2回抽出されたmRNAに対して上述の3つの条件における対数比の標準偏差を算出した結果である。実験誤差のない理想的系においてこれらの標準偏差は全て0となる。しかし実際には誤差によりデータのばらつきが生じ、このことが標準偏差により定量される。この誤差の程度は条件2-1ならびに条件2-2において明らかに条件1に比べて大きくなる。このことから条件2-1ならびに条件2-2において対数比により発現量変化を定量的に評価することが困難となると結論付けられる。
〔実施例2:対数比における偏り誤差の低減方法〕
前述したグループA・Bの何れかの条件を満たすシグナルについては、対数比において定量性が保障される。
グループA: 対数比に定量性が保障され、かつ、統計的に有意な発現量変化が得られるシグナル対。条件:SDc < xc(k)かつSDT < xT(k)であり、2×SD[k] < |LOG[k]|
グループB: 対数比に定量性が保障されるが、統計的に有意な発現量変化が得られないシグナル対。条件:SDc < xc(k)かつSDT < xT(k)であり、2×SD[k] > |LOG[k]|
前述したグループA・Bの何れかの条件を満たすシグナルについては、対数比において定量性が保障される。
グループA: 対数比に定量性が保障され、かつ、統計的に有意な発現量変化が得られるシグナル対。条件:SDc < xc(k)かつSDT < xT(k)であり、2×SD[k] < |LOG[k]|
グループB: 対数比に定量性が保障されるが、統計的に有意な発現量変化が得られないシグナル対。条件:SDc < xc(k)かつSDT < xT(k)であり、2×SD[k] > |LOG[k]|
上記A・B何れかの条件を満たすシグナルについて、対数比および補正対数比のそれぞれ原点を基準としたときの標準偏差を求めた。本発明の補正法により偏り誤差が軽減されていることは、補正対数比において原点を基準とした標準偏差が補正をしない場合の対数比の標準偏差よりも小さくなることにより確認することができる。
LB培地で大腸菌を培養し抽出された同一のmRNAサンプルについて、条件A又はBを満たす各シグナルの補正なし対数比と補正対数比(LOG[k])について算出した標準偏差を図5に示す。同図に示すように、補正対数比において原点を基準とした標準偏差は、補正をしない場合の対数比の標準偏差よりも小さくなる結果が得られた。尚、(A)および(B)は、それぞれ対数増殖期において独立に2回抽出されたmRNAに対して同様の実験を行い、標準偏差を算出した結果である。
条件Bは、対数比に定量性が保障されるが統計的に有意な発現変化が得られないシグナル対であるから、対照実験と目的実験において異なった条件でmRNAを抽出した場合にも本発明の補正方法により偏り誤差が緩和されているとすると、補正対数比における原点を基準とした標準偏差は補正をしない場合の対数比の標準偏差よりも小さくなる。このことを確かめるため、実際に図3に示される欠損株と野生株との比較、あるいは特定の時刻とそれに対する任意の時刻との比較において測定された発現強度をもとに、条件Bを満たすシグナルについて、補正対数比(LOG[k])における標準偏差と補正を施さない場合の対数比における標準偏差との関係を求め、図6のグラフに示した。同図に示すように、補正対数比における原点を基準とした標準偏差は。補正をしない場合の対数比における標準偏差よりも小さくなる結果が得られた。
〔実施例3:転写単位の推定法〕
転写単位とは、同一のmRNAに転写される遺伝子群のことであるから、ゲノム上で同一鎖上にあり隣接した遺伝子の中で発現プロファイルにおいて正の相関があるものを見つけることにより、同一の転写単位にある遺伝子群を見つけることができる。発現プロファイルをマイクロアレイにより測定した場合、一つの実験に対して、数千個の遺伝子の発現プロファイルを測定することができる一方で、条件により発現プロファイルが測定できない遺伝子も多々存在する。本推定法は、i番目とj番目の遺伝子について全ての実験条件Mにおいて発現データが揃わない場合にも転写単位を推定することができる。また、同一のディレクトンに属する全ての遺伝子対を対象としているため、隣接の遺伝子の相関係数自体が欠落している場合においても転写単位を推定することができる。すなわち、このような二種の欠落を補いながら転写単位を以下のように推定・予測する。
転写単位とは、同一のmRNAに転写される遺伝子群のことであるから、ゲノム上で同一鎖上にあり隣接した遺伝子の中で発現プロファイルにおいて正の相関があるものを見つけることにより、同一の転写単位にある遺伝子群を見つけることができる。発現プロファイルをマイクロアレイにより測定した場合、一つの実験に対して、数千個の遺伝子の発現プロファイルを測定することができる一方で、条件により発現プロファイルが測定できない遺伝子も多々存在する。本推定法は、i番目とj番目の遺伝子について全ての実験条件Mにおいて発現データが揃わない場合にも転写単位を推定することができる。また、同一のディレクトンに属する全ての遺伝子対を対象としているため、隣接の遺伝子の相関係数自体が欠落している場合においても転写単位を推定することができる。すなわち、このような二種の欠落を補いながら転写単位を以下のように推定・予測する。
ゲノム上で連続して同一の転写方向を有する遺伝子を5'側から順番に1、2、…、 i、 j、…、nとする。ここでi < jとする。 i番目とj番目の遺伝子についてsij対の実験条件で発現プロファイルが測定され、相関係数r(i、j、sij)が求められたとする。本方法では下記のピアソンの相関式を用いた。
ここで、r(s,t,Nst)はs番目とt番目の遺伝子について、M種の実験のうちNst対について実験により値を得ることができたことを示す。
n個の遺伝子については、n(n-1)/2対と対応した相関係数が求められる。
ここで、r(s,t,Nst)はs番目とt番目の遺伝子について、M種の実験のうちNst対について実験により値を得ることができたことを示す。
n個の遺伝子については、n(n-1)/2対と対応した相関係数が求められる。
(1) 相関係数r(i、j、sij)が基準値r(sij、α)より大きいとき、相関係数r(i、j、sij)は統計的に有意に正の相関があることが保証される。ここで、基準相関値r(sij、α)は、
により求めることができる。ここで有意水準αにおけるt値をtαとする。tαは統計検定における有意水準αであり、統計におけるt分布表より得ることができる。
いま、r(i、j、sij)が有意な正の相関であるとすると、i番目とj番目の遺伝子は同一の転写単位にある可能性があることを意味する。すなわち、i番目からj番目のj-i+1個の遺伝子は同一の転写単位にある可能性がある。
により求めることができる。ここで有意水準αにおけるt値をtαとする。tαは統計検定における有意水準αであり、統計におけるt分布表より得ることができる。
いま、r(i、j、sij)が有意な正の相関であるとすると、i番目とj番目の遺伝子は同一の転写単位にある可能性があることを意味する。すなわち、i番目からj番目のj-i+1個の遺伝子は同一の転写単位にある可能性がある。
(2) 相関係数r(i、j、sij)が負の値を有するとき、第i番目と第j番目の遺伝子は異なった転写単位に帰属される。このことは、さらに、x≦i、j≦yの関係にある遺伝子対(x、 y)の発現プロファイルに正の相関があったとしても、これらの二つの遺伝子x、yは異なった転写単位にあることを意味する。
(3) 第i番目の遺伝子を基準としたときに、i+1番目、 i+2番目、 …、 i+k番目のk個の遺伝子が有意に正の相関があるときには、これらの遺伝子は同一の転写単位にあることを意味する。また、i-1番目、i-2番目、…、i-m番目のm個の遺伝子が有意に正の相関があるときには、これらの遺伝子は同一の転写単位にあることを意味する。
これらの三つの条件(1)〜(3)に基づいた以下の工程により転写単位を推定した。
これらの三つの条件(1)〜(3)に基づいた以下の工程により転写単位を推定した。
(工程1) ゲノム上で連続して同一の転写方向を有する遺伝子を5'側から順番に1、2、…、 i、 j、…、 nとする。ここでi < jとする。 i番目とj番目の遺伝子についてsij対の実験条件についての発現プロファイルによる相関係数r(i、j、sij)を求める。n個の遺伝子については、n(n-1)/2対と対応した相関係数が求められる。
(工程2) 相関係数r(i、j、sij)のうち正の統計的有意な相関係数を選択する。相関係数r(i、j、sij)が基準値r(sij、α)より大きいとき、統計的に有意に正の相関があることが保証される。ここで、基準相関値r(sij、α)は、
により求めることができる。
により求めることができる。
(工程3) 負の相関係数r(i、j、sij)を有する遺伝子対を求める。この遺伝子対をi、jとするとき、x≦i、j≦yの関係にある遺伝子対(x、y)の発現プロファイルに正の相関があったとしても、これらの二つの遺伝子x、yは異なった転写単位にあるため同一の転写単位には含めない。
(工程4) 第u番目の遺伝子を基準としたときに、上記の工程2によりu-1番目、u-2番目、…、u-k1番目のk1 個の遺伝子ならびにu+1番目、 u+2番目、 …、 u+k2番目のk2個の遺伝子について第u番目の遺伝子の発現プロファイルと有意な正の相関が得られ、かつ工程3により負の相関係数を有する遺伝子対もなかった場合は、これらのk2 - k1 + 1個の遺伝子は同一の転写単位であると推定する。
〔本推定法の評価方法〕
現在までに明らかにされている転写単位をiにより番号づける(i=1、2、…、q、…Nq)。q番目の転写単位に属する遺伝子の集合Tqで表し、帰属される遺伝子を、それぞれ、t(Tq) 1、 t(Tq) 2、 …t(Tq) N[Tq]とする。第u番目の遺伝子を基準に本推定法により予測された転写単位に属する遺伝子の集合をPuで表す。この転写単位に帰属される遺伝子を、それぞれ、p(Pu) 1、 p(Pu) 2、 …p(Pu) N[Pu]とする。第u番目の遺伝子が集合Tqに帰属されることをTq(u)と表記する。いま、第u番目の遺伝子が、Tqに帰属されるとき、理想的には、集合Puと集合Tq(u)の要素は一致する。集合Puと集合Tq(u)の共通の要素数をN[Pu∩Tq(u)]とする。集合Puと集合Tq(u)の要素数は、それぞれ、N[Pu]およびN[Tq(u)]である。
現在までに明らかにされている転写単位をiにより番号づける(i=1、2、…、q、…Nq)。q番目の転写単位に属する遺伝子の集合Tqで表し、帰属される遺伝子を、それぞれ、t(Tq) 1、 t(Tq) 2、 …t(Tq) N[Tq]とする。第u番目の遺伝子を基準に本推定法により予測された転写単位に属する遺伝子の集合をPuで表す。この転写単位に帰属される遺伝子を、それぞれ、p(Pu) 1、 p(Pu) 2、 …p(Pu) N[Pu]とする。第u番目の遺伝子が集合Tqに帰属されることをTq(u)と表記する。いま、第u番目の遺伝子が、Tqに帰属されるとき、理想的には、集合Puと集合Tq(u)の要素は一致する。集合Puと集合Tq(u)の共通の要素数をN[Pu∩Tq(u)]とする。集合Puと集合Tq(u)の要素数は、それぞれ、N[Pu]およびN[Tq(u)]である。
予測された転写単位と既知の転写単位とが一致すれば、以下の二つの式(式(8)および(9))はともに0となる。
E[Pu] = N[Pu] - N[Pu∩Tq(u)] (8)
E[Tq(u)] = N[Tq(u)] - N[Pu∩Tq(u)] (9)
E[Pu]とE[Tq(u)]はともに0以上の数値であり、E[Pu]>0のときには、予測された転写単位に既知の転写単位よりも多くの遺伝子が含まれる、いわゆる過剰予測を意味する。
E[Pu] = N[Pu] - N[Pu∩Tq(u)] (8)
E[Tq(u)] = N[Tq(u)] - N[Pu∩Tq(u)] (9)
E[Pu]とE[Tq(u)]はともに0以上の数値であり、E[Pu]>0のときには、予測された転写単位に既知の転写単位よりも多くの遺伝子が含まれる、いわゆる過剰予測を意味する。
〔解析結果〕
実験により報告されている転写単位をもとに転写単位の予測精度を検討した。その結果、E[Pu]=0となる遺伝子は、600個あり、予測精度の検討対象とした68%の遺伝子については、現在までに既知とされている転写単位と一致する転写単位を予測することができた。全体の90%の遺伝子は、2個以内の過剰予測の範囲に含まれている。また、E[Tq(u)] > 0となるときには、予測と既知の転写単位の共通要素数に比べて既知の転写単位に含まれる遺伝子数が多いことを示す。すなわち、既知の転写単位に帰属する全ての遺伝子を予測できなかったことを意味する。同様に、転写単位が既知の877遺伝子について、E[Tq(u)]の値を求めた。E[Tq(u)]=0となる遺伝子は、498個あり、57%の遺伝子については既知の転写単位を再現できたことを意味する。また、2個の遺伝子の過不足を許す範囲では、80%の遺伝子の転写単位を予測することができた。
実験により報告されている転写単位をもとに転写単位の予測精度を検討した。その結果、E[Pu]=0となる遺伝子は、600個あり、予測精度の検討対象とした68%の遺伝子については、現在までに既知とされている転写単位と一致する転写単位を予測することができた。全体の90%の遺伝子は、2個以内の過剰予測の範囲に含まれている。また、E[Tq(u)] > 0となるときには、予測と既知の転写単位の共通要素数に比べて既知の転写単位に含まれる遺伝子数が多いことを示す。すなわち、既知の転写単位に帰属する全ての遺伝子を予測できなかったことを意味する。同様に、転写単位が既知の877遺伝子について、E[Tq(u)]の値を求めた。E[Tq(u)]=0となる遺伝子は、498個あり、57%の遺伝子については既知の転写単位を再現できたことを意味する。また、2個の遺伝子の過不足を許す範囲では、80%の遺伝子の転写単位を予測することができた。
以上のように、本発明は、マイクロアレイ実験やマクロアレイ実験等の遺伝子発現解析から得られるデータの新規解析方法、及び同方法を実行するためのプログラム等に関するものであり、前述したとおり、マイクロアレイ実験等により得られたデータの適切な評価、及び当該データの新たな活用が可能になり、研究用ツールとしての用途は勿論のこと、これにとどまらず、例えば疾患と遺伝子との関係に基づく新薬の開発・ゲノム創薬、新たな検査・診断法、予防・治療法の確立にも貢献しうるものである。
Claims (11)
- マイクロアレイ実験、マクロアレイ実験、その他これら実験に類する遺伝子発現解析の結果得られたデータの解析方法であって、対照実験における遺伝子(k)のシグナル強度xC(k)と、目的実験における遺伝子(k)のシグナル強度xT(k)との対数比に定量性があると認められる範囲を下記(a)〜(c)の工程により決定する方法。
(a)対照実験における各々の遺伝子(k)の測定シグナル強度sc(k)及びバックグラウンド強度bc(k)と、目的実験における各々の遺伝子(k)の測定シグナル強度sT(k)及びバックグラウンド強度bT(k)のデータを取得する、
(b)sc(k)-bc(k)が負の値となるデータ値をもとに、シグナル強度xC(k)が実質的に0とみなされる範囲を規定する第1の閾値を決定する一方、sT(k)-bT(k) が負の値となるデータ値をもとに、シグナル強度xT(k)が実質的に0とみなされる範囲を規定する第2の閾値を決定する、
(c)シグナル強度xC(k)が第1の閾値以上又はこれより大きい値をとり、かつ、シグナル強度xT(k)が第2の閾値以上又はこれより大きい値をとる場合に、xC(k)とxT(k)との対数比に定量性があると決定する。 - 上記(b)の工程において、第1の閾値をu×SDc(但し、uは任意の正数であり、SDcは下記の式(1)で表される統計量)と設定する一方、第2の閾値をu×SDT(但し、uは任意の正数であり、SDTは下記の式(2)で表される統計量)と設定することを特徴とする、請求項1記載のデータ解析方法。
(但し、yC(k)=sC(k)-bC(k) < 0 及び yT(k)=sT(k)-bT(k) < 0であり、式(1)のkはsC(k)-bC(k)が負の値をとるNc個のシグナルを、式(2)のkはsT(k)-bT(k) が負の値をとるNT個のシグナルをそれぞれ示す変数であり、logの底は1より大きい任意の正数である。) - マイクロアレイ実験、マクロアレイ実験、その他これら実験に類する遺伝子発現解析の結果得られたデータの解析方法であって、対照実験における遺伝子(k)のシグナル強度xC(k)と、目的実験における遺伝子(k)のシグナル強度xT(k)との対数比における平均強度に依存した偏り誤差を下記(a)〜(c)の工程により補正する方法。
(a)xC(k)とxT(k)との平均強度Av[k](={log[xC(k)]+log[xT(k)]}/2)を値の大小に応じて複数の区間に分割し、s番目の区間に属する遺伝子(u=1,2,...,NsでありNsはs番目の区間に属する遺伝子の総数である)について、xC(u)とxT(u)との対数比の平均値PAv(s)を求める、
(b)k番目の遺伝子の平均強度Av[k]がAvs-1(s-1番目の区間の平均強度の最小値と最大値との平均)とAvs(s番目の区間の平均強度の最小値と最大値との平均)との間にあるとき、その平均強度Av[k]における基準強度crit(k)を平均値PAv(s-1)とPAv(s)とを用いて線形補間により求める、
(c)補正対数比LOG[k]を下記の式(3)により定義することで、xC(k)とxT(k)との対数比log(xT(k)/ xC(k))を補正する。
LOG[k] = log(xT(k)/ xC(k))-crit(k) (3) - k番目の遺伝子の補正対数比LOG[k]の絶対値が、当該遺伝子につき設定した閾値Th以上又はこれより大きい値をとる場合に、k番目の遺伝子は統計的に有意な発現量変化が得られたシグナル対と判定することを特徴とする、請求項3記載のデータ解析方法。
- 閾値Thを下記(a)〜(c)の工程により設定することを特徴とする、請求項4記載のデータ解析方法。
(a)s番目の区間に属する遺伝子(k)について、これら遺伝子のLOG[k]に対してSDcritを設定し、-SDcrit < LOG[k] < SDcritを満たすサンプルに対して標準偏差を求め、これをSD1[s]とする、
(b)標準偏差SD1[s]をもとに前後2点(s-2,s-1,s,s+1,s+2)の合計5点の平均値Smth[s]を求め、これを平均強度Avs(s番目の区間の平均強度の最小値と最大値との平均)における代表値とする、
(c)平均強度AvuとAvu+1との間にAv[k]が位置するとき、Smth[u]とSmth[u+1]とを用いて線形補間により、
SD[k] =Smth[u+1]+(Av[k]-Avu+1)(Smth[u+1]-Smth[u])/(Avu+1-Avu)
を求め、2×SD[k]を閾値Thとする。 - 請求項1又は2記載の方法と、請求項3、4又は5記載の方法とを組み合わせて、実験により得られたシグナルを複数の区分に分類することを特徴とするデータ解析方法。
- マイクロアレイ実験、マクロアレイ実験、その他これら実験に類する遺伝子発現解析の結果得られたデータの解析方法であって、複数の遺伝子の発現プロファイルとこれら遺伝子のゲノム情報とに基づいて転写単位を下記(a)〜(d)の工程により推定する方法。
(a)ゲノム上で隣接しかつ同一の核酸鎖に位置する二つの遺伝子の発現プロファイルにおける相関係数を算出する、
(b)上記相関係数に基づきs番目の遺伝子の発現プロファイルと同遺伝子の3’側に隣接するs+1番目の遺伝子の発現プロファイルとに有意な相関があると判定されると、転写単位集合にこれら遺伝子を帰属させ、続いて、s番目とs+2番目の遺伝子発現プロファイルにおいて有意な相関が得られるときにs+2番目の遺伝子を同集合に帰属させ、以下同様の処理をs+3, s+4, …と繰り返し有意な相関が得られなくなったところで終了する、
(c)s番目の遺伝子と、同遺伝子の5’側に隣接する遺伝子(s-1番目,s-2番目,…)との発現プロファイルにおける有意な相関の有無を上記工程(b)と同様に判定する、
(d)上記工程(b)と(c)により得られた集合の中で、最小の順位にある遺伝子と最大の順位にある遺伝子とにより挟まれた遺伝子群を一つの転写単位と推定する。 - 請求項1〜8の何れか1項に記載の方法をコンピュータに実行させることを特徴とするプログラム。
- 請求項9記載のプログラムを記録した、コンピュータで読み取り可能な記録媒体。
- 請求項9記載のプログラムと、同プログラムにより請求項1〜8の何れか1項に記載の方法を実行するコンピュータとを備えたデータ解析装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003343862A JP2005106755A (ja) | 2003-10-01 | 2003-10-01 | マイクロアレイ実験等から得られるデータの新規解析方法 |
PCT/JP2003/015637 WO2005034003A1 (ja) | 2003-10-01 | 2003-12-05 | マイクロアレイ実験等から得られるデータの新規解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003343862A JP2005106755A (ja) | 2003-10-01 | 2003-10-01 | マイクロアレイ実験等から得られるデータの新規解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005106755A true JP2005106755A (ja) | 2005-04-21 |
Family
ID=34419362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003343862A Pending JP2005106755A (ja) | 2003-10-01 | 2003-10-01 | マイクロアレイ実験等から得られるデータの新規解析方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2005106755A (ja) |
WO (1) | WO2005034003A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100817103B1 (ko) | 2006-08-03 | 2008-03-31 | 재단법인서울대학교산학협력재단 | 마이크로어레이 데이터 분석 방법 및 시스템 |
JP2008082876A (ja) * | 2006-09-27 | 2008-04-10 | Toray Ind Inc | 解析装置、および補正方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101001057B (zh) | 2006-01-12 | 2012-01-04 | 宇太光电科技股份有限公司 | 可携式太阳能供电系统及其应用架构 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69904165T2 (de) * | 1998-04-22 | 2003-08-21 | Imaging Res Inc | Verfahren zur bewertung chemischer und biologischer tests |
US6351712B1 (en) * | 1998-12-28 | 2002-02-26 | Rosetta Inpharmatics, Inc. | Statistical combining of cell expression profiles |
JP3983569B2 (ja) * | 2002-02-28 | 2007-09-26 | 独立行政法人科学技術振興機構 | 多変量解析システム、発現プロファイル解析方法、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 |
-
2003
- 2003-10-01 JP JP2003343862A patent/JP2005106755A/ja active Pending
- 2003-12-05 WO PCT/JP2003/015637 patent/WO2005034003A1/ja active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100817103B1 (ko) | 2006-08-03 | 2008-03-31 | 재단법인서울대학교산학협력재단 | 마이크로어레이 데이터 분석 방법 및 시스템 |
JP2008082876A (ja) * | 2006-09-27 | 2008-04-10 | Toray Ind Inc | 解析装置、および補正方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2005034003A1 (ja) | 2005-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hung et al. | Analysis of microarray and RNA-seq expression profiling data | |
US20050159896A1 (en) | Apparatus and method for analyzing data | |
CN108913776B (zh) | 放化疗损伤相关的dna分子标记的筛选方法和试剂盒 | |
Mieth et al. | DeepCOMBI: explainable artificial intelligence for the analysis and discovery in genome-wide association studies | |
KR102351306B1 (ko) | 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법 | |
US20230086774A1 (en) | Method and system for predicting biological age on basis of various omics data analyses | |
CN110791565A (zh) | 一种用于ii期结直肠癌复发预测的预后标记基因及随机生存森林模型 | |
KR101936933B1 (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
CN111868832A (zh) | 识别拷贝数异常的方法 | |
AU2019269742A1 (en) | Inferring selection in white blood cell matched cell-free DNA variants and/or in RNA variants | |
CN115394357A (zh) | 用于判断样本配对或污染的位点组合及其筛选方法和应用 | |
Li et al. | Genome-wide distribution of genetic diversity and linkage disequilibrium in elite sugar beet germplasm | |
KR102165933B1 (ko) | 둘 이상의 데이터 세트를 이용한 비정상적인 시그널의 검출 | |
US8700381B2 (en) | Methods for nucleic acid quantification | |
US20190250143A1 (en) | Multipore determination of fractional abundance of polynucleotide sequences in a sample | |
CN114038502A (zh) | 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法 | |
US20220392639A1 (en) | Using Machine Learning-Based Trait Predictions For Genetic Association Discovery | |
US20040110193A1 (en) | Methods for classification of biological data | |
JP2005106755A (ja) | マイクロアレイ実験等から得られるデータの新規解析方法 | |
JP4461240B2 (ja) | 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム | |
CN114420214A (zh) | 核酸测序数据的质量评估方法和筛选方法 | |
Kelley et al. | Correcting for gene-specific dye bias in DNA microarrays using the method of maximum likelihood | |
US6816790B2 (en) | Method and apparatus for determining gene expression levels | |
US10032001B2 (en) | Methods and systems for identifying the quantitation cycle for a PCR amplification reaction | |
KR102659915B1 (ko) | 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070214 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070612 |