JP2003256407A - 多変量解析システムおよび発現プロファイル解析方法 - Google Patents
多変量解析システムおよび発現プロファイル解析方法Info
- Publication number
- JP2003256407A JP2003256407A JP2002055017A JP2002055017A JP2003256407A JP 2003256407 A JP2003256407 A JP 2003256407A JP 2002055017 A JP2002055017 A JP 2002055017A JP 2002055017 A JP2002055017 A JP 2002055017A JP 2003256407 A JP2003256407 A JP 2003256407A
- Authority
- JP
- Japan
- Prior art keywords
- variable
- correlation
- analysis
- variables
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
れる多変量解析において、偏り誤差の影響と、変量が0
近傍となるデータの影響とを有効に軽減し、確実な解析
ができる多変量解析システム、およびコンピュータにて
実現可能な発現プロファイル解析方法とを提供する。 【解決手段】 画像読取部11から入力された第1デー
タおよび第2データからなる解析用変量を、変量補正部
31にて分類基準値に基づいて分類する。補正変量算出
部32では、分類された解析用変量を用いて、第1デー
タおよび第2データの対数比と補正項との差を補正変量
として算出し、変量解析部23で解析する。さらに、上
記補正変量から相関係数を算出して、実験系の間の相関
関係を解析に利用しても良い。
Description
析する用途、特に網羅的な解析に好適に用いられる多変
量解析システムと、該多変量解析システムで実施可能な
解析方法であって、遺伝子の発現を解析する用途で用い
る場合に好適な発現プロファイル解析方法と、該発現プ
ロファイル解析方法をコンピュータに実行させるコンピ
ュータプログラムと、該コンピュータプログラムを記録
したコンピュータ読み取り可能な記録媒体とに関するも
のである。
展により、多数のモデル生物の全ゲノム配列がすでに決
定されており、また、ヒトゲノム・プロジェクトによる
ヒトゲノム配列の解読のように、全ゲノム配列が決定さ
れつつあるものも多い。このように分子生物学の研究
は、ポストゲノム(ポストシークエンス)の時代に移行
しつつある。
析では、その研究手法も変化し始めている。具体的に
は、ゲノム機能解析の主流は、以前のような、特定の生
命現象に関与する個々の遺伝子をクローニングして解析
するようなピンポイント的手法から、遺伝子の機能をゲ
ノムスケールで解析する体系的・網羅的手法へと、明ら
かに移行している。
子の発現頻度を解析する遺伝子解析ステップと、バイオ
インフォマティクスによって候補遺伝子を絞り込む遺伝
子絞込みステップと、該候補遺伝子のタンパク質を発現
させてその機能を解析するタンパク質解析ステップとを
含むプロトコルが挙げられる。
プでは、マイクロアレイ、マクロアレイ、ディファレン
シャルディスプレイ等を用いた網羅的発現プロファイル
解析が実施される。この解析では、遺伝子の発現実験
は、特定条件下で実施されるとともに、その対照実験も
実施される。すなわち遺伝子の発現は、異なる条件下で
実施され、かつ比較可能な第1および第2実験がセット
となった、1セットの実験対で解析される。
おける遺伝子の発現は、蛍光色素により発色で確認され
るが、この発色は、画像解析等による信号として数値化
することができるので、上記遺伝子の発現量は、信号強
度として測定することができる。
トの実験対を実施した場合に、上記第1実験における特
定遺伝子の発現量(第1データ)が信号強度fCで、第
2実験における遺伝子の発現量(第2データ)が信号強
度fBで測定されたとすれば、特定遺伝子の発現量は、
第1データおよび第2データを対数比(信号強度の相対
値の対数)log(fC/fB)に補正することで評価され
る。この対数比は、特定遺伝子の補正相対値であり、こ
の補正相対値を推定量として用いることで、特定遺伝子
の発現量を推定することが可能になる。なお、上記補正
相対値(対数比)を、以下、相対発現量Fと称する。
上記網羅的発現プロファイル解析では、多数の遺伝子
(数千レベル)に対して上記実験対を同時に実施できる
ので、一度に数千レベルのデータ(上記2つの信号強度
fC・fB)が得られる。しかも、1セットの実験対を複
数セット実施(例えば、M回実施)すれば、数千レベル
を103レベルとして、M×103のデータが得られるこ
とになる。
おいては、i番目の遺伝子に注目すれば、Mセットの実
験対が実施されたとして、任意のkセット目(k=1,
2,・・・,M)の実験対により得られた相対発現量Fiを
Fik=log(fC ik/fB ik)とすると、i番目の遺伝子に
おける相対発現量の標本は、次式(1)に示すベクトル
で表すことができる。
(Nは1を超える整数で、通常103レベル)の遺伝子
が含まれているとすれば、上記ベクトルxiはN個得ら
れることになる(i=1,2,・・・,N)。
トルxiで表される標本を得て、これを解析すれば、網
羅的に発現プロファイルのデータを得ることが可能とな
る。
上記網羅的発現プロファイル解析では、次に示す2つの
大きな問題点が生じ、発現プロファイルのデータの信頼
性を高めるには未だ不十分となっている。
プロファイル解析で標本を得る目的は、それを用いて母
集団(ゲノムに含まれる遺伝子)の母数(遺伝子の発現
量)の推定値を得ることにある。得られた推定値は母数
の推定に用いられる統計量すなわち推定量となる。ここ
で、推定量に対しては不偏であることが要求される。不
偏であるとは、推定量の標本分布の平均が推定すべき母
数に等しいということである。
目した場合、推定量の標本分布は上記ベクトルxiであ
り、母数はi番目の遺伝子の発現量μiである。それゆ
え、上記ベクトルxiの成分である相対発現量Fiの平均
値E[Fi]は、i番目の遺伝子の発現量μiに等しくなる
(E[Fi]=μi)はずである。
る信号強度fCにも、第2データである信号強度fBにも
誤差が生じることは避けられないため、各セットで得ら
れた相対発現量Fiにも誤差が生じる。それゆえ、相対
発現量Fiの平均値E[Fi]≠μiとなり、ベクトルxiは
偏りを有することになる。
つの信号強度fC・fBには、偏り誤差が直接含まれるこ
とになるため、正確な遺伝子の発現量μを解析するため
には、この偏り誤差の影響を排除しなければならない。
ために、特定の標準サンプル(R)を設定する手法が採用
されている。具体的には、上記標準サンプル(R)を設定
し、その信号強度(fC(R) ik,fB(R) ik)が同一であると
仮定する。そして、実験対で実際に得られた2つの信号
強度(fC ik,fB ik)一方を補正する。しかしながら、こ
の手法では、標準サンプル(R)の設定によって信号強度
の補正も異なるため、安定性に乏しいだけでなく、補正
も煩雑化する。
タの影響〕上記問題点1における偏り誤差の影響を排除
したと仮定した場合、kセット目の実験対が同一の条件
であるとすれば、全ての遺伝子の相対発現量Fは理想的
には0となる。
1実験の条件と第2実験の条件とが同一であれば、双方
の遺伝子の発現量には差が生じない。そのため、i番目
の遺伝子における発現量の相違が、第1実験と第2実験
との間で小さければ、Fik=log(fC ik/fB ik)が0近
傍となる。
は、相対発現量Fが0付近にある遺伝子が多数出現す
る。これは、第1実験と第2実験とにおけるi番目の遺
伝子における相違がないことを意味する。なお、相対発
現量Fが0近傍となるデータを、以下、非変化発現デー
タと称する。
(N個)の遺伝子の発現量が得られるとともに、これら
複数の遺伝子の発現について相関関係を多変量解析する
ことになる。ところが、多変量解析とは、複数の変量の
相関関係を解析するものであるため、上記複数の変量
(発現量のデータ)に上記非変化発現データが含まれて
いれば、解析結果に大きな影響を及ぼすことになる。そ
の結果、得られる解析結果の信頼性は低下してしまう。
ファイル解析では、マイクロアレイを一つのみ用いて行
う実験よりも、多数のマイクロアレイを用いて、得られ
た結果を比較することにより、発現が変化している遺伝
子の意味付けをする実験の方が重要となっている。とこ
ろが、上記多数の実験を比較する場合には、上記問題点
1・2が生じるため、ランダムノイズを含む可能性が高
いデータを除去することによって、信頼性の高い多変量
解析を実施する体系だった技術は知られていない。
のであって、その目的は、遺伝子の発現プロファイル解
析、特に網羅的な発現プロファイル解析に代表される多
変量解析において、偏り誤差の影響と、変量が0近傍と
なるデータの影響とを有効に軽減し、確実な解析ができ
る多変量解析システムと、このシステムに利用される発
現プロファイル解析方法と、この解析方法をコンピュー
タにて実現するためのプログラムまたはプログラムを記
録した記録媒体とを提供することにある。
る多変量解析システムは、上記の課題を解決するため
に、母集団を構成する複数の要素のそれぞれから、実験
により、第1データとその対照である第2データとの組
み合わせからなる解析用変量を得た上で、これら各デー
タの比を用いて、多変量解析を実施する多変量解析シス
テムにおいて、上記解析用変量の変化範囲のうち、信頼
性の低い範囲から高い範囲に移行する閾値を分類基準値
として用い、上記要素毎に複数得られた上記解析用変量
を上記分類基準値に基づいて分類する変量分類手段と、
該変量分類手段で分類された上記解析用変量のうち、信
頼性の高い範囲に分類された高信頼性変量のみを用い
て、該高信頼性変量を構成する第1データおよび第2デ
ータの対数比を算出するとともに、全ての高信頼性変量
の対数比に対する補正項を算出し、さらに、上記対数比
と補正項との差を補正変量として算出する補正変量算出
手段とを備えていることを特徴としている。
正変量算出手段により、母集団を構成する全体の要素の
解析結果についての平均値によって解析結果を補正する
ことができる。その結果、特定の遺伝子に注目すること
なくデータから偏り誤差を取り除くことができ、網羅的
発現プロファイル解析の結果の精度を向上させることが
できる。
テムにおいては、上記請求項1に記載の構成に加えて、
上記変量分類手段による分類の前段で、分類前の全ての
解析用変量に共通するバックグラウンド数値を除去する
バックグラウンド補正手段を備えていることを特徴とし
ている。
によって、読み取った発現量のデータに共通する上記バ
ックグラウンド数値を除去するため、解析の精度をより
向上させることができる。
テムにおいては、上記請求項1または2に記載の構成に
加えて、上記補正項として、全ての高信頼性変量の対数
比における相加平均値、相乗平均値、または中央値が用
いられることを特徴としている。
ることで、より一層確実な補正を実施して、信頼性の高
い補正変量を得ることができる。
テムは、母集団を構成する複数の要素のそれぞれから、
実験により、第1データとその対照である第2データと
の組み合わせからなる解析用変量を得た上で、これら各
データの比を用いて、多変量解析を実施する多変量解析
システムにおいて、上記解析用変量から、上記第1デー
タおよび第2データの対数比を含む補正変量を算出する
変量補正手段と、1回の実験により、複数の要素のそれ
ぞれから同時期に上記解析用変量が得られ、かつ、同一
の実験により得られた解析用変量より算出される補正変
量が、同一の実験系に所属する補正変量として分類でき
る場合に、同一の要素より得られかつ異なる実験系に所
属する2つの補正変量を、相関変量として抽出する相関
変量抽出手段と、上記相関変量を用いて、2つの実験系
の間における相関係数を算出する相関係数算出手段とを
備えていることを特徴としている。
係を、上記相関変量から相関係数として算出できるの
で、対数比が0近傍となるデータの影響を排除した多変
量解析を実施することができる。その結果、得られる解
析結果の信頼性をより一層向上させることができる。
項1にかかる構成と組み合わせて用いることで、得られ
る解析結果の信頼性を非常に向上させることができる。
テムは、上記請求項4に記載の構成に加えて、さらに、
実験誤差に基づいて実験系毎に選抜基準値を設定し、上
記相関変量から、該選抜基準値に基づく選抜規定を満た
す相関変量を実験系毎に選抜する相関変量選抜手段を備
えており、上記相関係数算出手段は、上記変量選抜手段
により選抜された相関変量を用いて、2つの実験系の間
における相関係数を算出することを特徴としている。
抜された相関変量を用いて、相関係数を算出してこれを
多変量解析に用いる。そのため、相対発現量が0近傍と
なる非変化発現データの影響を排除した多変量解析を実
施することができる。その結果、得られる解析結果の信
頼性をさらに一層向上させることができる。
テムは、上記請求項5に記載の構成に加えて、上記選抜
基準値が1以上の絶対値である場合に、上記選抜規定
は、2つの実験系に所属する相関変量が、正の選抜基準
値を超える範囲か、または負の選抜基準値未満の範囲に
存在する規定として設定されていることを特徴としてい
る。
に設定されることで、相関変量をより適切に選抜するこ
とができる。その結果、相関係数の算出精度を向上する
ことができる。
テムは、上記請求項4に記載の構成に加えて、さらに、
実験誤差に基づいて実験系毎に因子基準値を設定し、該
因子基準値に基づく因子規定を用いて、2つの実験系の
間における相関因子を要素毎に設定する相関因子設定手
段を備えており、上記相関係数算出手段は、上記相関変
量と上記相関因子とを用いて、該相関因子により重みの
ついた、2つの実験系の間における相関係数を算出する
ことを特徴としている。
関因子を得た上で、相関係数算出手段により、重みのつ
いた相関係数を算出して多変量解析に用いる。そのた
め、相対発現量が0近傍となる非変化発現データの影響
を排除した多変量解析を実施することができる。その結
果、得られる解析結果の信頼性をさらに一層向上させる
ことができる。
テムは、上記請求項5に記載の構成に加えて、上記因子
規定は、2つの実験系に所属する相関変量が、因子基準
値を超える範囲か、または因子基準値の逆数未満の範囲
に存在する規定として設定されていることを特徴として
いる。
に設定されることで、相関因子をより適切に選抜するこ
とができる。その結果、重みつき相関係数の算出精度を
向上することができる。
テムは、上記請求項1ないし8の何れか1項に記載の構
成に加えて、さらに、上記母集団を構成する複数の要素
から得られる解析用変量を入力する入力手段を備えてい
ることを特徴としている。
いることで、本発明にかかる多変量解析システムに解析
用変量を適切かつ容易に入力することができる。
ステムは、上記請求項1ないし9の何れか1項に記載の
構成に加えて、上記母集団が特定の生物のゲノムに含ま
れる全ての遺伝子またはその一部であり、該母集団を構
成する要素が個々の遺伝子であるとともに、各要素から
実験により得られる解析用変量が、個々の遺伝子の発現
量であることを特徴としている。
解析システムは、上記請求項10に記載の構成に加え
て、さらに、上記実験として、発現プロファイル実験が
用いられることを特徴としている。
近傍となるデータの影響が大きい遺伝子の発現量の解
析、特に、発現プロファイル解析に、本発明を適用する
ことになるので、遺伝子の発現プロファイル解析をより
適切に実施することが可能となる。
ステムは、上記請求項11に記載の構成に加えて、上記
発現プロファイル実験では、マイクロアレイ、マクロア
レイ、およびディファレンシャルディスプレイの少なく
とも何れかが用いられることを特徴としている。
解析システムは、上記請求項10ないし12に記載の構
成に加えて、上記解析用変量として得られる第1データ
および第2データが、遺伝子の発現量に比例して変化す
る信号強度として検出されるとともに、上記入力手段
は、該信号強度を入力可能することを特徴としている。
ロアレイ、およびディファレンシャルディスプレイの少
なくとも何れかを用いた発現プロファイル解析では、蛍
光やアイソトープ等で遺伝子の発現量を定量化するが、
このような定量化では、偏り誤差や対数比が0近傍とな
るデータの影響が大きくなる。そこで、本発明を適用す
ることで、遺伝子の発現プロファイル解析をより適切に
実施することが可能となる。
ステムは、上記請求項13に記載の構成に加えて、上記
分類基準値として、上記信号強度の検出限界が用いられ
るとともに、信号強度の検出限界を超える範囲が、信頼
性の高い範囲として用いられることを特徴としている。
下のデータは誤差である可能性が高く、信頼性に欠ける
ので、上記分類基準値として信号強度の検出限界を用い
ることで、信頼性の高い範囲を的確に規定することがで
きる。
ステムは、上記請求項1ないし14の何れか1項に記載
の構成に加えて、上記各手段の少なくとも2つ以上を一
つの装置として一体化してなることを特徴としている。
構成する各手段のうちの少なくとも一つ、好ましくは、
解析用変量の処理に関わる手段を一体化しておくこと
で、システム構成を簡素化することができる。それゆ
え、例えば設置場所を小さくして使用時の省スペース化
を図ることが可能となるとともに、本発明にかかる多変
量解析システムの操作の煩雑化を回避することも可能と
なる。
イル解析方法は、上記の課題を解決するために、特定の
生物のゲノムに含まれる全ての遺伝子またはその一部か
ら、発現プロファイル実験によって各遺伝子の発現量を
解析用変量として検出し、コンピュータを用いて多変量
解析する発現プロファイル解析方法において、上記発現
プロファイル実験として、特定条件下で実施される第1
実験とその対照となる第2実験とが実施され、各実験か
ら、上記各遺伝子の発現量が信号強度として検出される
場合に、第1実験で得られた第1データと、第2実験で
得られた第2データとを組み合わせて解析用変量として
生成する変量生成ステップと、上記信号強度の検出限界
を分類基準値として用い、該分類基準値に基づいて、生
成された複数の上記解析用変量を分類する変量分類ステ
ップと、分類された上記解析用変量のうち、信号強度の
検出限界を超えるもののみを高信頼性変量として用い、
該高信頼性変量を構成する第1データおよび第2データ
の対数比を算出する対数比算出ステップと、全ての高信
頼性変量の対数比に対する補正項を算出する補正項算出
ステップと、上記対数比と補正項との差を補正変量とし
て算出する補正変量算出ステップとを含むことを特徴と
している。
び補正変量算出ステップにより、母集団を構成する全体
の要素の解析結果についての平均値によって解析結果を
補正することができる。その結果、特定の遺伝子に注目
することなくデータから偏り誤差を取り除くことがで
き、網羅的発現プロファイル解析の結果の精度を向上さ
せることができる。
イル解析方法は、上記請求項16に記載の方法におい
て、さらに、上記変量分類ステップの前段で、分類前の
全ての解析用変量に共通するバックグラウンド数値を除
去するバックグラウンド補正ステップを含むことを特徴
としている。
ステップによって、読み取った発現量のデータに共通す
る上記バックグラウンド数値を除去するため、解析の精
度をより向上させることができる。
イル解析方法は、上記請求項16または17に記載の方
法において、上記補正項算出ステップでは、補正項とし
て、全ての高信頼性変量の対数比における相加平均値、
相乗平均値、または中央値を算出することを特徴として
いる。
で、上記何れかの値を用いれば、より一層確実な補正を
実施して、信頼性の高い補正変量を得ることができる。
イル解析方法は、上記請求項16、17または18に記
載の方法に加えて、上記発現プロファイル実験を複数回
実施することで、同一の遺伝子から解析用変量が複数得
られ、かつ、同一の実験により得られた解析用変量から
算出される補正変量が同一の実験系に所属する補正変量
として分類できる場合に、同一の遺伝子より得られかつ
異なる実験系に所属する2つの補正変量を、相関変量と
して抽出する相関変量抽出ステップと、上記相関変量を
用いて、2つの実験系の間における相関係数を算出する
相関係数算出ステップとを含むことを特徴としている。
係を、上記相関変量から相関係数として算出できるの
で、相対発現量が0近傍となる非変化発現データの影響
を排除した多変量解析を実施することができる。その結
果、得られる解析結果の信頼性をより一層向上させるこ
とができる。
イル解析方法は、上記請求項19に記載の方法に加え
て、さらに、発現プロファイル実験に伴う実験誤差に基
づいて実験系毎に選抜基準値を設定し、上記相関変量か
ら、該選抜基準値に基づく選抜規定を満たす相関変量を
実験系毎に選抜する相関変量選抜ステップを含むととも
に、上記相関係数算出ステップでは、選抜された上記相
関変量を用いて、2つの実験系の間における相関係数を
算出することを特徴としている。
切な相関変量を選抜し、相関係数算出ステップで相関係
数を算出してこれを多変量解析に用いる。そのため、相
対発現量が0近傍となる非変化発現データの影響を排除
した多変量解析を実施することができる。その結果、得
られる解析結果の信頼性をさらに一層向上させることが
できる。
イル解析方法は、上記請求項19または20に記載の方
法において、上記選抜基準値が1以上の絶対値である場
合に、上記選抜規定は、2つの実験系に所属する相関変
量が、正の選抜基準値を超える範囲か、または負の選抜
基準値未満の範囲に存在する規定として設定されている
ことを特徴としている。
で、選抜規定が上記のように設定されることで、相関変
量をより適切に選抜することができる。その結果、相関
係数の算出精度を向上することができる。
イル解析方法は、上記請求項19に記載の構成に加え
て、さらに、発現プロファイル実験に伴う実験誤差に基
づいて実験系毎に因子基準値を設定し、該因子基準値に
基づく因子規定を用いて、2つの実験系の間における相
関因子を要素毎に設定する相関因子設定ステップを含む
とともに、上記相関係数算出ステップでは、相関変量と
上記相関因子とを用いて、該相関因子により重みのつい
た、2つの実験系の間における相関係数を算出すること
を特徴としている。
で相関因子を得た上で、相関係数算出ステップで、重み
のついた相関係数を算出して多変量解析に用いる。その
ため、相対発現量が0近傍となる非変化発現データの影
響を排除した多変量解析を実施することができる。その
結果、得られる解析結果の信頼性をさらに一層向上させ
ることができる。
イル解析方法は、上記請求項22に記載の方法におい
て、上記因子規定は、2つの実験系に所属する相関変量
が、因子基準値を超える範囲か、または因子基準値の逆
数未満の範囲に存在する規定として設定されていること
を特徴としている。
で、因子規定が上記のように設定されることで、相関因
子をより適切に選抜することができる。その結果、重み
つき相関係数の算出精度を向上することができる。
イル解析方法は、上記請求項16ないし23の何れか1
項に記載の方法において、さらに、上記遺伝子の発現量
を、信号強度として検出した上で解析用変量として入力
する解析用変量入力ステップを含むことを特徴としてい
る。
テップを備えていることで、本発明にかかる発現プロフ
ァイル解析方法で解析対象となる解析用変量を、適切か
つ容易に得ることができる。
プログラムは、上記請求項16ないし24の何れか1項
に記載の発現プロファイル解析方法をコンピュータに実
行させるものである。
体は、上記請求項16ないし24の何れか1項に記載の
発現プロファイル解析方法を行うプログラムをコンピュ
ータに実行させるコンピュータプログラムを記録した機
械読み取り可能な記録媒体である。
明にかかる解析方法をコンピュータで実行させることに
なるため、コンピュータそのものを本発明にかかる多変
量解析システム(発現プロファイル解析システム)とす
ることができる。その結果、本発明の汎用性を高めるこ
とができるとともに、本発明を、通信ネットワーク上で
利用することも容易となる。
第1の実施の形態について図1ないし図3に基づいて説
明すれば以下の通りである。なお、本発明はこれに限定
されるものではない。
変量で記述された情報から該情報を得るに伴う誤差の影
響を低減することが可能なシステムであり、より具体的
には、コンピュータを用いて、発現プロファイル実験、
特に網羅的発現プロファイル実験により得られる多変量
としての遺伝子の発現量から実験誤差の影響を軽減し、
因子を探索する目的に、好適に用いることができるシス
テムである。
コンピュータで実施する場合の発現プロファイル解析方
法も含まれ、さらには、この探索手順をコンピュータに
実行させるコンピュータプログラム、あるいはこのコン
ピュータプログラムを記録したコンピュータ読み取り可
能な記録媒体も含まれる。
は、母集団を構成する複数の要素のそれぞれから、解析
対象となる変量(以下、解析用変量とする)を得て解析
するが、この解析用変量は、第1データとその対照であ
る第2データとの組み合わせからなっており、実際の解
析には、これら各データの比が用いられる。それゆえ、
本発明にかかる多変量解析システムとしては、少なくと
も上述した多変量解析を実施するものであれば特に限定
されるものではないが、具体的には、例えば、図1に示
すように、マイクロアレイ51から網羅的発現プロファ
イル実験の結果を得て、遺伝子の発現量を解析するマイ
クロアレイ解析システム10a(以下、単に解析システ
ムと略す)が挙げられる。
ローブDNA(以下、プローブと略す)をガラスなどの
固相面に高密度に配置したものである。通常、顕微鏡で
用いられるスライドガラス程度の大きさの支持体に、D
NAを高密度に固定したものであって、DNAチップと
も呼ばれる。このマイクロアレイ51を用いれば、数千
以上のDNA分子に対する反応を同時に実施し、かつ結
果の検出も同時に行うことができる。それゆえ、多数の
遺伝子の発現プロファイルを観察することが可能にな
る。
の概要について説明すると、まず、マイクロアレイ51
に、蛍光色素で標的したターゲットDNA(以下、ター
ゲットと略す)をハイブリダイズさせる。このとき、マ
イクロアレイ51上で、プローブと相補的な配列を含む
ターゲットの分子は、上記プローブの分子と相補的に結
合(ハイブリダイズ)するが、それ以外のターゲットの
分子は結合しない。そこで、結合していないターゲット
の分子を洗浄して除去することで、結合したターゲット
の分子のみをマイクロアレイ51上に残存させる。この
ターゲットの分子は蛍光色素で標識されているため、タ
ーゲットの蛍光を、信号強度として測定し、ハイブリダ
イズしているプローブを同定する。
には、比較したい2つの状態(第1の状態および第2の
状態とする)の細胞からmRNAを抽出し、蛍光表示さ
れたヌクレオチドの存在下で逆転写反応を実施すること
で作製される。このとき、上記2つの状態毎に、異なる
検出波長を有する2種類の蛍光色素を用いる。したがっ
て、ターゲット中には、発現量の多い遺伝子のcDNA
が多く含まれていることになるので、上記蛍光の信号強
度は、各状態における遺伝子の発現量に応じたものとな
る。それゆえ、上記信号強度を測定すれば、特定の遺伝
子の発現量を検出することが可能になる。
プローブを配列できるため、数回のハイブリダイズの実
施で発現量のデータを大量に得ることができる。各発現
量のデータは何れも連続変量であり、しかも、遺伝子相
互の関係により、発現量は変化する可能性があるため、
このような多数のデータを多変量解析することは重要と
なる。
においては、上記母集団が特定の生物のゲノムに含まれ
る全ての遺伝子またはその一部となり、該母集団を構成
する要素が個々の遺伝子となる。そして、各要素、すな
わち各遺伝子から得られる解析用変量は遺伝子の発現量
となり、これは蛍光の信号強度のデータとなるが、より
具体的には、第1の状態における遺伝子の発現量が、第
1データとして、第2の状態における遺伝子の発現量が
第2データとして得られ、これら第1・第2データの組
み合わせが解析用変量として利用されることになる。
構成する多数の遺伝子(数千レベル、103レベルとす
る)に対して実験を複数回(例えば、M回実施)実施す
ることで、M×103のデータが得られる。それゆえ、
上記解析用変量から得られる相対発現量Fikを用いれ
ば、i番目の遺伝子における相対発現量の標本は、次式
(1)に示すベクトルで表すことができる。
ために、例えば、図1に示すような解析システム10a
を用いる。
1、入力部12、表示部13、画像形成部14、記憶部
15、制御部21、バックグラウンド補正部22、変量
解析部23、変量分類部31、および補正変量算出部3
2を備えている。
1から、プローブにハイブリダイズしたターゲットの蛍
光を、信号強度という画像データとして読み取ること
で、遺伝子の発現量を検出する。つまり、上記画像読取
部11は、解析用変量としてマイクロアレイ51から得
られる第1データおよび第2データを、遺伝子の発現量
に比例して変化する信号強度として検出して多変量解析
システムに入力する入力手段である。
は、例えば、蛍光スキャナー等が好適に用いられるが、
特にこれに限定されるものではなく、ターゲットを標識
している色素の種類に応じて、適切な構成の画像読取部
11を選択すればよい。
aの動作に関わる情報を入力可能とする。具体的には、
キーボードやタブレット等、従来公知の入力手段を好適
に用いることができる。また、マイクロアレイ51から
の得られる遺伝子の発現量は、必ずしも上記画像読取部
11から読み取られるものではなく、例えば、別の読取
手段等で読み取られた後に具体的な数値データに変換さ
れたとすれば、上記入力部12から上記解析システム1
0aに入力することもできる。
素である遺伝子から、網羅的発現プロファイル実験によ
り解析用変量としての発現量のデータが得られればよ
く、解析システム10aへの入力の動作としては、画像
読取部11による信号強度の直接読み取りに限定される
ものではない。それゆえ、本発明においては、入力手段
として、上記画像読取部11および入力部12の少なく
とも一方を備えていることが好ましいが、入力手段とし
ては、上記画像読取部11や入力部12に限定されるも
のではなく、その他の入力手段を備えていても良い。
らの信号強度の読み取りや、読み取った信号強度の解析
等を含む、上記解析システム10aの動作に関わる情報
や解析結果等の各種情報を表示する。具体的には、公知
のCRTディスプレイや、液晶ディスプレイ等といった
各種表示装置が好適に用いられるが特に限定されるもの
ではない。
表示可能な各種情報をPPC用紙等の記録材に記録(印
刷・画像形成)する。具体的には、公知のインクジェッ
トプリンタやレーザープリンタ等の画像形成装置が好適
に用いられるが特に限定されるものではない。
は、まとめて出力手段と表現することもできる。すなわ
ち、表示部13は、各種情報をソフトコピーで出力する
手段であり、画像形成部14は、各種情報をハードコピ
ーで出力する手段である。したがって、本発明で用いら
れる出力手段としては、上記表示部12や画像形成部1
3に限定されるものではなく、その他の出力手段を備え
ていても良い。
aで利用される各種情報(制御情報、解析結果、その他
情報等)を記憶する。具体的には、例えば、RAMやR
OM等の半導体メモリ、フロッピー(登録商標)ディス
クやハードディスク等の磁気ディスクやCD−ROM/
MO/MD/DVD等の光ディスクのディスク系、IC
カード(メモリカードを含む)/光カード等のカード系
等、従来公知の各種記憶手段を好適に用いることができ
る。
上記解析システム10aの動作を制御する。具体的に
は、図1の点線の矢印で示すように、画像読取部11、
入力部12、表示部13、画像形成部14、記憶部1
5、バックグラウンド補正部22、変量解析部23、変
量分類部31、および補正変量算出部32の各手段に対
して、上記制御部21から制御情報が出力される。この
制御情報に基づいて上記各手段が連携して動作すること
で、上記解析システム10a全体が動作する。また、制
御部21に対しては、入力部12から解析システム10
aを動作させるための指示情報も入力可能となっている
ので、図1では、制御情報のやりとりを示す点線の矢印
は双方向となっている。
読取部11から入力された解析用変量に共通するバック
グラウンド数値を除去する補正(バックグラウンド補
正)を実施する。このバックグラウンド補正は、後述す
る解析用変量の分類前に実施すると、より正確な分類が
可能になるため好ましい。
(あるいは入力部12)から入力された解析用変量、す
なわち遺伝子の発現量のデータを解析し、その解析結果
を、制御部21の制御に基づいて表示部13および画像
形成部14の少なくとも一方に出力する。具体的には、
クラスタリング等を行う公知のアレイ専用解析ソフトウ
エアを用いた構成を挙げることができる。また、変量解
析部23では、発現プロファイル解析だけでなく、遺伝
情報まで解読されるようになっていてもよい。すなわ
ち、上記変量解析部23では、遺伝子を用いたあらゆる
種類の解析処理が実施可能である。
すなわち遺伝子の発現量における変化範囲のうち、信頼
性の低い範囲から高い範囲に移行する閾値を分類基準値
として用い、遺伝子毎に複数得られた遺伝子の発現量の
データを上記分類基準値に基づいて分類する。
部31で分類された上記解析用変量(遺伝子の発現量の
データ)のうち、信頼性の高い範囲に分類された高信頼
性変量のみを用いて、該高信頼性変量を構成する第1デ
ータおよび第2データの対数比を算出するとともに、全
ての高信頼性変量の対数比に対する補正項を算出し、さ
らに、上記対数比と補正項との差を補正変量として算出
する。
ステム10aでは、図1の実線の矢印で示すように、画
像読取部11から得られた解析用変量が、バックグラウ
ンド補正部22に出力されてバックグラウンド補正がな
され、次に、変量分類部31に出力されて分類され、次
に、補正変量算出部32に出力されて補正変量が算出さ
れ、次に、変量解析部23に出力されて解析され、最終
的に、表示部13および/または画像解析部14に出力
されることになる。
析用変量の入力を明確に説明する便宜上、入力部12か
らの解析用変量の入力については、実線で図示せず省略
している。
22、変量解析部23、変量分類部31、および補正変
量算出部32の具体的な構成は特に限定されるものでは
なく、従来公知の演算手段が好適に用いられる。上記各
手段は、それぞれ独立した演算手段となっていてもよい
が、好ましくは、後述する実施の形態4で説明するよう
に、上記各手段の2つ以上が1つの演算手段として一体
化した解析装置となっている。具体的には、コンピュー
タの中央処理装置(CPU)としてまとまっており、そ
の動作はコンピュータプログラムにしたがって実行され
る構成であれば非常に好ましい。
テム10aの具体的な動作、すなわち本実施の形態にお
ける網羅的発現プロファイル解析方法について、図2の
フローチャートおよび図3の変量変遷チャートに基づい
て説明する。
イル実験を実施する。具体的には、前述したように、特
定の生物のゲノムに含まれる全ての遺伝子またはその一
部をプローブとして用いたマイクロアレイ51に対し
て、蛍光色素で標的したターゲットDNA(以下、ター
ゲットと略す)をハイブリダイズさせる。上記マイクロ
アレイ51は、従来公知の手法で作製することができ、
その作製手法については特に限定されるものではない。
ル実験は、1回のみ実施されてもよいが、通常は複数回
実施される。そこで、ステップ11(以下、ステップを
適宜Sと略す)として、ターゲットの蛍光を、画像読取
部11で信号強度として測定(検出)し、解析用変量と
なる遺伝子の発現量のデータを入力する(解析用変量入
力ステップ)。
果からデータを入力し終わるまで繰り返される。それゆ
え、S12として、全ての発現量のデータが入力された
か否かを判定し、入力されていれば、S13に進む一
方、入力されていなければ、S11に戻る。
上記ターゲットは、比較したい第1の状態および第2の
状態の細胞からそれぞれmRNAを抽出し、各状態別に
異なる蛍光色素を用いて表示されたヌクレオチドの存在
下で、逆転写反応を実施することで作製される。上記第
1の状態のターゲットと、第2の状態のターゲットは、
通常、混合されて同時にマイクロアレイ51にハイブリ
ダイズされる。それゆえ、1回のハイブリダイズで、第
1実験(上記第1の状態の実験)および第2実験(上記
第2の状態の実験)の結果がセットとなった1セットの
実験対の結果が得られることになる。
用変量は、第1実験で得られた第1データと、第2実験
で得られた第2データとを組み合わせたものとして生成
される。それゆえ、本発明にかかる解析方法には、解析
用変量を生成する変量生成ステップが含まれることが好
ましい。この変量生成ステップは、本実施の形態では、
S11で、画像読取部11による読み取りと同時に実施
されるが、別途、変量生成部を設けて、読み取った画像
データから解析用変量としての信号強度を生成するよう
にしてもよい。
部22により、バックグラウンド補正を実施する(バッ
クグラウンド補正ステップ)。具体的には、ハイブリダ
イズ後のマイクロアレイ51から信号強度を読み取る際
に、本来なら蛍光が全く検出されないはずのハイブリダ
イズされていないプローブやプローブのない背景領域か
ら、バックグラウンドの蛍光が検出される場合がある。
そこで、バックグラウンド補正によって、読み取った発
現量のデータに共通する上記バックグラウンドの蛍光
(バックグラウンド数値)を除去する。
た後に、i番目の遺伝子に対して実施されたkセット目
(k=1〜Mセット)の実験対で得られる結果のうち、
第1データとなる信号強度をfC ikと表現し、第2デー
タとなる信号強度をfB ikと表現する。
り、所定の分類基準値に基づいて、生成された複数の上
記解析用変量が分類される(変量分類ステップ)。上記
分類基準値としては、本実施の形態では、上記信号強度
の検出限界が用いられる。
アレイ51から信号強度を読み取る場合、読み取り可能
な蛍光のレベルが存在する。上記信号強度の検出限界と
は、この読み取り可能な蛍光のレベルであり、読み取ら
れた信号強度が上記検出限界を超えておれば、解析上で
十分信頼できるデータとなるが、上記検出限界未満であ
れば、誤差の影響が非常に大きく信頼できるデータとは
見なせない。
わち発現量に比例する蛍光レベルの変化範囲のうち、信
頼性の低い範囲から高い範囲に移行する閾値となる上記
検出限界を分類基準値として用い、蛍光の信号強度とし
て検出された上記解析用変量を分類する。これによっ
て、網羅的発現プロファイル解析の精度を向上させるこ
とができる。
としては特に限定されるものではなく、実験的に得られ
た結果を利用しても良いし、過去の実験で得られたデー
タから推定しても良い。また、分類の具体的な手法も特
に限定されるものではない。例えば、第1実験および第
2実験の信号強度の検出限界を、それぞれSNCおよびS
NBと推定したとすれば、i番目の遺伝子の信号強度fC
ikおよびfB ikを、上記SNCおよびSNBにより以下のク
ラスの何れかに分類する手法が挙げられる。
のは、クラス1に分類された信号強度のみでよい。それ
ゆえ、S14では、例えば、クラス1およびそれ以外の
クラス(クラス非1)に分類するだけでもよいが、後段
の変量解析部23やその前段等で、クラス2A・2B・
3の信号強度を用いることも可能であるので、上記のよ
うなクラス分けであってもよい。
により、変量分類部31で分類された解析用変量のう
ち、信号強度の検出限界を超える解析用変量(高信頼性
変量とする)を構成する第1データおよび第2データの
対数比を算出する(対数比算出ステップ)。具体的に
は、上記第1データおよび第2データであるi番目の遺
伝子の信号強度fC ikおよびfB ikを用いて、該i番目の
遺伝子の相対発現量log(f C ik/fB ik)を算出する。
部32により、全ての高信頼性変量の対数比に対する補
正項を算出する(補正項算出ステップ)。具体的には、
例えば、上記S14でクラス1に分類された高信頼性変
量の全ての数をN個(1<N≦M)とすれば、このN個
の高信頼性変量全てについての相対発現量(対数比)lo
g(fC ik/fB ik)に対する補正項REFi=1,2,…,N [log(f
C ik/fB ik)]を算出する。上記補正項REFi=1,2,…,N [l
og(fC ik/fB ik)]としては、具体的には、相対平均
値、相乗平均値、または中央値等を用いることができ
る。
32により、上記対数比と補正項との差を補正変量とし
て算出する(補正変量算出ステップ)。具体的には、補
正変量Fikは、次式(2)に示すように表すことができ
る。
により解析することで、網羅的発現プロファイル解析が
実施される(多変量解析ステップ)。
相対発現量の標本は、前記式(1)に示すベクトルxik
で表すことができ、解析対象のゲノムまたはその一部
に、N個の遺伝子が含まれていれば、上記ベクトルxik
はN個得られる。ここで、上記ベクトルxikは、上記補
正変量Fikで表されることになるので、このベクトルx
iで表される標本を解析することで、偏り誤差を除去し
た解析が可能となる。
る。具体的には、表示部13に表示したり、画像形成部
14でプリントアウト(印刷)したりする(解析結果出
力ステップ)。
ステム10aには、上記変量分類部31および補正変量
算出部32が設けられている。そのため、上記S15〜
S17で得られる補正変量は、第1データである信号強
度fC ikと、第2データである信号強度fB ikとの間の偏
り誤差を除去した相対値となる。それゆえ、この相対値
を用いれば、変量解析部23では、母集団を構成する全
体の遺伝子の解析結果についての平均値によって解析結
果を補正することになる。その結果、特定の遺伝子に注
目することなくデータから偏り誤差を取り除くことがで
き、網羅的発現プロファイル解析の結果の精度を向上さ
せることができる。
解析システム10aは、以上説明したS11〜S19ま
でのステップを含む網羅的発現プロファイル解析方法を
機能させるためのプログラムにより、コンピュータで実
現されるようになっていてもよい。
可能な記録媒体に格納されていればよい。具体的には、
図1に示す記憶部15、具体的には、例えばROMのよ
うなものそのものがプログラムメディアであってもよい
し、上記記憶部15として、プログラム読み取り装置が
設けられている場合には、そこに記録媒体を挿入するこ
とで読み取り可能なプログラムメディアであってもよ
い。上記プログラムメディアとしては、記憶部15の具
体例として挙げた公知の構成を好適に用いることができ
る。
ログラムは制御部21がアクセスして実行させる構成で
あってもよいし、プログラムを読み出し、読み出された
プログラムを、図示しないプログラム記憶エリアにダウ
ンロードして、そのプログラムを実行する方式であって
もよい。このダウンロード用のプログラムは予め記憶部
15等に格納されているものとする。また、上記記録媒
体に格納されている内容はプログラムに限定されるもの
ではなく、例えばデータであってもよい。
ド補正を実施する構成・方法を用いているが、必ずしも
これに限定されるものではない。すなわち、例えば、得
られる解析用変量において、バックグラウンド数値が無
視できるのであれば、解析システム10aには、バック
グラウンド補正部22は備えられていなくても良く、本
発明にかかる解析方法では、S13は実施されなくても
良い。
施の形態について図4ないし図6に基づいて説明すれば
以下の通りである。なお、本発明はこれに限定されるも
のではない。また、説明の便宜上、実施の形態1で用い
た部材と同一の機能を有する部材には同一の部材番号を
付記し、その説明を省略する。
析システム10aが、前記変量分類部31および補正変
量算出部32を備えることで、特定の遺伝子に注目する
ことなくデータから偏り誤差を取り除いた補正変量を生
成できる構成となっていたが、本実施の形態では、さら
に、上記補正変量を用いた解析に際して、個々の要素す
なわち各遺伝子の間の相関関係を算出し、これを解析に
利用する。
は、全てが同じように発現するわけではなく、各種発現
調節機構によって、その発現の時機はそれぞれ異なるよ
う制御されている。それゆえ、網羅的発現プロファイル
実験では、相対発現量が0付近となる遺伝子が多数出現
する。
発現するとして、この特定条件CDNiで網羅的発現プロフ
ァイル実験を実施すると、解析用変量として1セットの
実験対の結果が得られる。
ため、相対発現量すなわち前記実施の形態1で算出され
る補正変量Fikはもちろん一定の値を示す。
変化がない遺伝子については、第1実験とその比較対照
となる第2実験との間には、遺伝子の発現量には有意な
差が生じない。そのため、信号強度fC ik(第1デー
タ)およびfB ik(第2データ)がほぼ同一となり、算
出される相対発現量すなわち上記補正変量Fikは0付近
(Fik≒0)の数値を示す。もちろん理想的な条件で
は、補正変量Fik=0となる。なお、上記相対発現量が
0近傍となるデータを、以下、非変化発現データと称す
る。
(N個)の遺伝子の発現量が得られ、これら複数の遺伝
子の発現について相関関係を多変量解析するが、上記非
変化発現データが含まれていると、解析結果に大きな影
響を及ぼすことになる。
現データの影響を除去するために、例えば、図4に示す
ような解析システム10bを用いる。
ステム10bは、図4に示すように、前記実施の形態1
における解析システム10aと同様、画像読取部11、
入力部12、表示部13、画像形成部14、記憶部1
5、制御部21、バックグラウンド補正部22、変量解
析部23、変量分類部31、および補正変量算出部32
を備えており、さらに、相関変量抽出部41、相関変量
選抜部42、および相関係数算出部43を備えている。
13、画像形成部14、記憶部15、制御部21、バッ
クグラウンド補正部22、変量解析部23、変量分類部
31、および補正変量算出部32については、前記実施
の形態1と同様であるのでその説明を省略する。なお、
上記補正変量算出部32は、解析用変量から、第1デー
タおよび第2データの対数比を含む補正変量を算出する
変量補正手段に相当する。また、前記実施の形態1の記
載から明らかなように、変量分類部31および補正変量
算出部32の双方をまとめて変量補正手段とみなしても
よい。
より、複数の遺伝子(要素)のそれぞれから同時期に解
析用変量(2つの信号強度の組み合わせ)が得られ、か
つ、同一の実験により得られた解析用変量より算出され
る補正変量が、同一の実験系に所属する補正変量として
分類できる場合に、同一の遺伝子より得られかつ異なる
実験系に所属する2つの補正変量を、相関変量として抽
出する。
レイ51を用いた実験では、1回の実験により、i番目
の遺伝子(要素)について1セットの実験対の結果とし
て、信号強度fC・fBの組み合わせ(第1・第2デー
タ)が得られるが、この実験を複数回繰り返すことで、
i番目の遺伝子から複数の結果が得られることになる。
さらに、実験の条件によっては、複数の遺伝子のそれぞ
れから同時期に結果(解析用変量)が得られることにな
る。そこで、同一の実験により得られた信号強度の組み
合わせより算出される補正変量は、同一の実験系に所属
する補正変量として分類される。
ば、実験を1〜k回繰り返した場合に、i番目の遺伝子
およびj番目の遺伝子からそれぞれk個の補正変量Fi1
〜F ikおよびFj1〜Fjkが算出されたとすれば、Fi1お
よびFj1、Fi2およびFj2、・・・FikおよびFjkをそ
れぞれ同一の実験系に所属するものとして分類できる。
k個の補正変量Fi1〜Fik、または、j番目の遺伝子か
ら得られたk個の補正変量Fj1〜Fjkは、それぞれ、同
一の遺伝子より得られかつ異なる実験系に所属する補正
変量の集合であると見なすことができる。
(k=s回目およびt回目の実験)において、上記相関
変量抽出部41は、上記補正変量の集合から、実験系s
よりFisを、実験系tよりFitをそれぞれ抽出して相関
変量とし、各補正変量が所属する実験系s,t、すなわ
ちs回目の実験とt回目の実験との間の相関係数を算出
するために利用する。なお、母集団の中に含まれる要素
としての遺伝子はi=1〜N個存在するので、相関変量
もN個得られることになる。なお、全相関変量を(Fis
・Fit)i=1,…,Nと表すものとする。
づいて実験系毎に選抜基準値αを設定し、上記相関変量
から、該選抜基準値αに基づく選抜規定を満たす相関変
量を実験系毎に選抜する。
設定されるものであり、具体的には、実験系毎の相対値
の標準偏差に基づいて設定される。それゆえ、このよう
な選抜基準値αに基づいて得られた相関変量(Fis・F
it)i=1,…,Nから選抜規定に合致する相関変量のみを選
抜して利用することで、実験系sと実験系tとの間にお
ける相関係数をより的確に算出することができる。
を用いて、2つの実験系の間における相関係数を算出す
るが、本実施の形態では、上記変量選抜部42により選
抜された相関変量を用いて、2つの実験系の間における
相関係数を算出するようになっている。
いて、2つの実験系s,tの間における相関係数r
(s,t)を、回帰分析を用いて算出する。この点の詳
細については後述する。
ステム10bでも、前記実施の形態1における解析シス
テム10aと同様、図1の実線の矢印で示すように、解
析用変量が出力される。
用変量が、バックグラウンド補正部22に出力されてバ
ックグラウンド補正がなされ、次に、変量分類部31に
出力されて分類され、次に、補正変量算出部32に出力
されて補正変量が算出される。その後さらに、補正変量
が相関変量抽出部41に出力されて相関変量が抽出さ
れ、次に、相関変量選抜部42に出力されて選抜規定を
満たす相関変量が選抜され、次に、相関係数算出部43
に出力されて相関係数が算出される。
出部32から出力される補正変量と、相関係数算出部4
3から算出される相関係数とを用いて多変量解析を実施
し、解析結果を、表示部13および/または画像解析部
14に出力することになる。
42、相関係数算出部43の具体的な構成は特に限定さ
れるものではなく、前記実施の形態1で述べたように、
制御部21等と同じく従来公知の演算手段が好適に用い
られる。上記各手段は、それぞれ独立した演算手段とな
っていてもよいが、好ましくは、後述する実施の形態4
で説明するように、制御部21、バックグラウンド補正
部22、変量解析部23、変量分類部31、補正変量算
出部32を含む上記各手段の2つ以上が1つの演算手段
として一体化した解析装置となっている。具体的には、
コンピュータの中央処理装置(CPU)としてまとまっ
ており、その動作はコンピュータプログラムにしたがっ
て実行される構成であれば非常に好ましい。
テム10bの具体的な動作、すなわち本実施の形態にお
ける網羅的発現プロファイル解析方法について、図5の
フローチャートおよび図6の相関係数算出チャートに基
づいて説明する。
めて、前記実施の形態1におけるS11〜S17と同様
であるため、その説明は省略する。すなわち、網羅的発
現プロファイル実験を実施してから補正変量を算出する
までは前記実施の形態1と同様のステップを実施する。
部41により、同一の遺伝子より得られかつ異なる実験
系に所属する2つの補正変量を、相関変量として抽出す
る(相関変量抽出ステップ)。
の2つの実験系s,tにおいて、算出されたそれぞれの
補正変量の集合から相関変量(Fis・Fit)を抽出す
る。得られる全相関変量は(Fis・Fit)i=1,…,Nとな
る。
部42により、実験誤差に基づいて実験系毎に選抜基準
値αを設定する。具体的には、実験誤差に基づいて、実
験系s,tのそれぞれに対して選抜基準値αsおよびαt
を定義する。なお、αs>1、αt>1である。
部42により、上記相関変量から、該選抜基準値αに基
づく選抜規定を満たす相関変量を実験系毎に選抜する
(相関変量選抜ステップ)。具体的には、例えば、選抜
規定として、次の2つの規定I・IIを規定し、これら選
抜規定の双方を満たす相関変量を選抜する。
上の絶対値が設定されるとともに、S210では、選抜
規定として、2つの実験系に所属する相関変量が、正の
選抜基準値を超えるか、または負の選抜基準値未満の範
囲内に存在する規定が設定され、これに基づいて相関変
量が選抜される。
す行列(3)で表すことができる。このとき、選抜され
た上記相関変量は、I=1,2,...,N(s,t)
として、(FIs・FIt)と表すものとする。
部43では、相関変量を用いて、2つの実験系の間にお
ける相関係数を算出する(相関係数算出ステップ)。本
実施の形態では、選抜された上記相関変量を用いて、2
つの実験系の間における相関係数を算出する。
(3)に基づいて実験系s,tの相関係数r(s,t)
を、次式(4)に示す回帰分析を用いて算出する。
t)は、次式(5)に示す実験系s,tに所属する全補
正変量についての共分散であり、var(s)は、次式
(6)に示す実験系sに所属する全補正変量についての
分散であり、var(t)は、次式(7)に示す実験系tに
所属する全補正変量についての分散である。
(s)およびAv(t)は、それぞれ次式(8)および(9)
に示すように、実験系sおよび実験系tに所属する全補
正変量についての平均値である。
れた補正変量およびS211で得られた相関係数を用い
て変量解析部23により解析することで、網羅的発現プ
ロファイル解析が実施され(多変量解析ステップ)、S
213として、表示部13や画像形成部14により解析
結果が出力される。(解析結果出力ステップ)。
ステム10bには、上記相関変量抽出部41・相関変量
選抜部42・相関係数算出部43が設けられている。そ
のため、上記S208〜S211で相関係数r(s,
t)を算出してこれを多変量解析に用いることができ
る。その結果、相対発現量が0近傍となる非変化発現デ
ータの影響を排除した多変量解析を実施することができ
るため、得られる解析結果の信頼性をより一層向上させ
ることができる。
解析システム10bは、前記実施の形態1と同様に、以
上説明したS201〜S213までのステップを含む網
羅的発現プロファイル解析方法を機能させるためのプロ
グラムにより、コンピュータで実現されるようになって
いてもよい。
1における偏り誤差を除去する構成・方法を組み合わせ
て用いているが、必ずしもこれに限定されるものではな
い。すなわち、例えば、得られる解析用変量において、
偏り誤差が無視できるのであれば、解析システム10b
には、変量分類部31・補正変量算出部32は備えられ
ていなくても良く、本発明にかかる解析方法では、S2
04〜S207までのステップは実施されなくても良
い。
施の形態について図7ないし図9に基づいて説明すれば
以下の通りである。なお、本発明はこれに限定されるも
のではない。また、説明の便宜上、実施の形態1または
2で用いた部材と同一の機能を有する部材には同一の部
材番号を付記し、その説明を省略する。
いた解析に際して、個々の要素すなわち各遺伝子の間の
相関関係を算出して解析に利用する例を挙げたが、この
相関関係の算出は、前記実施の形態2で示したような相
関係数に限定されるものではない。本実施の形態では、
相関関係を算出する他の例として、重みつき相関係数
(加重相関係数)を算出する場合について説明する。
ステム10cは、図7に示すように、前記実施の形態2
における解析システム10bと同様、画像読取部11、
入力部12、表示部13、画像形成部14、記憶部1
5、制御部21、バックグラウンド補正部22、変量解
析部23、変量分類部31、補正変量算出部32、およ
び相関変量抽出部41を備えているが、さらに、前記相
関変量選抜部42および相関係数算出部43に代えて、
相関因子設定部44および加重相関係数算出部45とを
備えている。
13、画像形成部14、記憶部15、制御部21、バッ
クグラウンド補正部22、変量解析部23、変量分類部
31、補正変量算出部32、および相関変量抽出部41
については、前記実施の形態1または2と同様であるの
でその説明を省略する。
づいて実験系毎に因子基準値βを設定し、該因子基準値
βに基づく規定を用いて、2つの実験系の間における相
関因子を遺伝子(要素)毎に設定する。
標準偏差に基づいて設定されるものであり、例えば、本
実施の形態では、前記実施の形態2における選抜基準値
αをそのまま用いることができる。それゆえ、前記得ら
れた相関変量(Fis・Fit) i=1,…,Nを要因として、上
記因子基準値βに基づいて、該要因から因子規定に合致
する相関変量から相関因子wi(s,t)を設定して利
用することで、実験系sと実験系tとの間における相関
係数をより的確に算出することができる。
と上記相関因子とを用いて、該相関因子により重みのつ
いた、2つの実験系s,tの間における重みつき相関係
数(加重相関係数)wr(s,t)を算出する。なお、
本実施の形態では、相関変量から相関因子を設定して利
用するため、上記加重相関係数算出部45は、基本的に
は、相関変量を用いて2つの実験系の間における相関係
数を算出する相関係数算出手段に含まれる。
(s,t)を用いて、2つの実験系s,tの間における
加重相関係数wr(s,t)を、因子分析を用いて算出
する。この点の詳細については後述する。
ステム10cでも、前記実施の形態2における解析シス
テム10bと同様、図1の実線の矢印で示すように、解
析用変量が出力される。
用変量が相関変量抽出部41に出力されて相関変量が抽
出されるまでは前記実施の形態2と同様であり、さらに
その後、相関因子設定部44に出力されて因子規定を満
たす相関因子が設定され、次に、加重相関係数算出部4
5に出力されて加重相関係数が算出される。そして、変
量解析部23では、補正変量算出部32から出力される
補正変量と、加重相関係数算出部45から算出される加
重相関係数とを用いて多変量解析を実施し、解析結果
を、表示部13および/または画像解析部14に出力す
ることになる。
出部45の具体的な構成は特に限定されるものではな
く、前記実施の形態1または2で述べたように、制御部
21等と同じく従来公知の演算手段が好適に用いられ
る。上記各手段は、それぞれ独立した演算手段となって
いてもよいが、好ましくは、後述する実施の形態4で説
明するように、制御部21等を含む上記各手段の2つ以
上が1つの演算手段として一体化した解析装置となって
いる。具体的には、コンピュータの中央処理装置(CP
U)としてまとまっており、その動作はコンピュータプ
ログラムにしたがって実行される構成であれば非常に好
ましい。
テム10cの具体的な動作、すなわち本実施の形態にお
ける網羅的発現プロファイル解析方法について、図8の
フローチャートおよび図9の相関係数算出チャートに基
づいて説明する。
めて、前記実施の形態2におけるS201〜S208と
同様であるため、その説明は省略する。すなわち、網羅
的発現プロファイル実験を実施してから補正変量を算出
し、相関変量を抽出するまでは前記実施の形態2と同様
のステップを実施する。
部44により、実験誤差に基づいて実験系毎に因子基準
値βを設定する。具体的には、本実施の形態では、前記
実施の形態2と同じく実験誤差に基づいて、実験系s,
tのそれぞれに対して選抜基準値と同じ因子基準値βs
=αsおよびβt=αtを定義する(αs>1、αt>
1)。
部44により、上記相関変量を要因として、上記因子基
準値βに基づく因子規定を満たす相関変量から相関因子
を設定する(相関因子設定ステップ)。
の2つの規定III・IVを規定し、i番目の遺伝子におけ
る相関変量(Fis・Fit)がこれら因子規定の双方を満
たすときには、i番目の遺伝子における相関因子をwi
(s、t)=1と設定し、双方を満たさないときには、
i番目の遺伝子における相関因子をwi(s、t)=0
と設定する。
に所属する相関変量が、因子基準値を超える範囲か、ま
たは負の因子基準値未満の範囲に存在する規定が設定さ
れ、これに基づいて相関因子が設定される。
算出部45では、上記相関因子を用いて、2つの実験系
の間における加重相関係数を算出する(相関係数算出ス
テップ)。
因子wi(s、t)により重みのついた相関係数wr
(s,t)を、次式(10)に示す因子分析を用いて算出
する。
t)は、次式(11)に示す実験系s,tに所属する全補
正変量についての重みつき共分散であり、wvar(s)は、
次式(12)に示す実験系sに所属する全補正変量につい
ての重みつき分散であり、wvar(t)は、次式(13)に示
す実験系tに所属する全補正変量についての重みつき分
散である。
v(s)およびwav(t)は、それぞれ次式(14)および(1
5)に示す、実験系sおよび実験系tに所属する全補正
変量についての重みつき平均値である。
れた補正変量およびS311で得られた加重相関係数を
用いて変量解析部23により解析することで、網羅的発
現プロファイル解析が実施され(多変量解析ステッ
プ)、S313として、表示部13や画像形成部14に
より解析結果が出力される。(解析結果出力ステッ
プ)。
ステム10cには、上記相関変量抽出部41・相関因子
設定部44・加重相関係数算出部45が設けられてい
る。そのため、上記S308〜S311で加重相関係数
wr(s,t)を算出して多変量解析に用いることがで
きる。その結果、相対発現量が0近傍となる非変化発現
データの影響を排除した多変量解析を実施することがで
きるため、得られる解析結果の信頼性をより一層向上さ
せることができる。
解析システム10cは、前記実施の形態1または2と同
様に、以上説明したS301〜S313までのステップ
を含む網羅的発現プロファイル解析方法を機能させるた
めのプログラムにより、コンピュータで実現されるよう
になっていてもよい。
2と同様、前記実施の形態1における偏り誤差を除去す
る構成・方法を組み合わせて用いているが、必ずしもこ
れに限定されるものではない。すなわち、例えば、得ら
れる解析用変量において、偏り誤差が無視できるのであ
れば、解析システム10cには、変量分類部31・補正
変量算出部32は備えられていなくても良く、本発明に
かかる解析方法では、S304〜S307までのステッ
プは実施されなくても良い。
施の形態について図10および図11に基づいて説明す
れば以下の通りである。なお、本発明はこれに限定され
るものではない。また、説明の便宜上、実施の形態1、
2または3で用いた部材と同一の機能を有する部材には
同一の部材番号を付記し、その説明を省略する。
テム10a・10b・10cを構成する各手段がそれぞ
れ独立した構成となっていたが、本発明はこれに限定さ
れるものではなく、上記各手段の少なくとも2つ以上を
一つの装置として一体化してなる構成であってもよい。
に、本実施の形態における解析システム10dは、画像
読取部11、入力部12、表示部13、画像形成部1
4、記憶部15、および解析装置20からなる構成であ
ってもよい。
る解析システム10bに備えられている制御部21、バ
ックグラウンド補正部22、変量解析部23、変量分類
部31、補正変量算出部32、相関変量抽出部41、相
関変量選抜部42、および相関係数算出部43を一つの
装置として一体化してなる構成を有している。もちろ
ん、実施の形態3と同様に、相関変量選抜部42および
相関係数算出部43に代えて、相関因子設定部44およ
び加重相関係数算出部45を備えていても良い。特に、
プログラムにより本発明にかかる解析方法をコンピュー
タで実行させる場合には、コンピュータそのものが上記
解析装置20に対応し得る。
一体化されていてもよいが、解析装置20とは別体とな
っている外部記憶装置となっていてもよく、さらには、
一体化された記憶部15と外部記憶装置とが両方とも備
えられている構成であってもよい。例えば、一体化した
記憶部15としては、内臓型のハードディスクや解析装
置20に組み込まれたフロッピーディスクドライブ、C
D−ROMドライブ、DVD−ROMドライブ等が挙げ
られ、外部記憶装置としては、外付けハードディスクや
外付け型の上記各種ディスクドライブ等が挙げられる。
示部13、および画像形成部14の少なくとも一つが、
上記解析装置20に一体化されていてもよい。
を一体化してもよい。例えば、図11(a)に示すよう
に、補正変量を算出するための上記変量分類部31およ
び補正変量算出部32を一体化して、変量分類機能およ
び補正変量算出機能を有する変量補正部30としてもよ
い。
の形態2における相関変量抽出部41、相関変量選抜部
42、および相関係数算出部43を一体化して、相関変
量抽出機能、相関変量選抜機能、および相関係数算出機
能を有する相関係数生成部40aとしてもよいし、図1
1(c)に示すように、実施の形態3における相関変量
抽出部41、相関因子設定部44、および加重相関係数
算出部45を一体化して、相関変量抽出機能、相関因子
設定機能、および加重相関係数算出機能を有する相関係
数生成部40bとしてもよい このように、本発明にかかる解析システムでは、該シス
テムを構成する各手段のうちの少なくとも一つ、好まし
くは、解析用変量の処理に関わる手段を一体化しておく
ことで、システム構成を簡素化することができる。それ
ゆえ、例えば設置場所を小さくして使用時の省スペース
化を図ることが可能となる。また、入力部12を、解析
装置20の操作に特化させた構成で一体化させること
で、本発明にかかる解析システムの操作の煩雑化を回避
することも可能となる。
施の形態について図12および図13に基づいて説明す
れば以下の通りである。なお、本発明はこれに限定され
るものではない。また、説明の便宜上、実施の形態1な
いし4の何れかで用いた部材と同一の機能を有する部材
には同一の部材番号を付記し、その説明を省略する。
アレイを用いた網羅的発現プロファイル実験を例に挙げ
て説明したが、本発明はこれに限定されるものではな
く、マクロアレイやディファレンシャルディスプレイ等
の他の発現プロファイル実験を実施した場合でも、本発
明にかかる解析システムまたは解析方法を好適に用いる
ことができる。
イを用いた実験で得られるイメージングフィルター52
から遺伝子の発現量を信号強度として検出し、これを解
析用変量として用いることで、多変量解析が可能とな
る。
た前記マイクロアレイとは異なり、ナイロンメンブレン
等の一般的なメンブレンフィルターの表面にDNAをス
ポットして作製される。マクロアレイの利点としては、
公知のブロット法に準じた方法で、ゲノムワイドで発現
プロファイル解析を実施することができることや、スポ
ットしたDNAをアルカリ変性処理してメンブレンフィ
ルターに固定するため、マイクロアレイのようにハイブ
リダイゼーション中や洗浄中にDNAが剥離することが
ないこと等が挙げられる。それゆえ、マクロアレイとマ
イクロアレイとは、用途に応じて使い分けることが可能
である。
本的に前記マイクロアレイと同様である。具体的には、
まず、マクロアレイに、33P等のアイソトープで標的し
たターゲットをハイブリダイズさせる。そして、結合し
ていないターゲットの分子を洗浄して除去し、結合した
ターゲットの分子のみをマクロアレイ上に残存させる。
ここで、結合しているターゲットの分子は上記アイソト
ープで標識されているため、マイクロアレイとは異な
り、スポットをイメージングプレート52へ露光させ、
このイメージングプレート52からターゲットの発現量
を信号強度として測定する。
は、基本的にマイクロアレイと同様であり、マイクロア
レイと同様の網羅的発現プロファイル実験が実施可能で
ある。そのため、例えば図12に示すように、画像読取
部11としてイメージングプレート52から信号強度を
検出できる構成のものを用いるのみで、前記実施の形態
1〜4における解析システム10a〜10dをそのまま
用いることができる。
アレイからもイメージングプレート52からも信号強度
を読み取ることができる構成のものを用いてもよい。な
お、図12では、本発明の一例として解析システム10
b(および実施の形態2の解析方法)を例に挙げている
がもちろんこれに限定されるものではない。
シャルディスプレイから遺伝子の発現量を信号強度とし
て検出し、これを解析用変量として用いてもよい。
る条件下にある細胞における遺伝子の発現量の差をゲル
上のバンドプロファイルの差として検出し、その遺伝子
を回収、同定する技術である。ディファレンシャルディ
スプレイは、全mRNAを網羅的に解析する手法ではな
いが、同一のmRNAで、網羅的に多数の試料を同時に
比較できるという利点がある。
るアッセイを、例えば蛍光ディファレンシャルディスプ
レイを例に挙げて説明する。まず、全RNAから蛍光ア
ンカープライマーを用いた逆転写で第一鎖DNAを合成
し、これを鋳型として、任意プライマーと蛍光アンカー
プライマーとを用いてPCRを実施して、複数のcDN
A断片を増幅してなるPCR産物を得る。そして、例え
ば無蛍光ガラス製のゲル板を用いて変性ポリアクリルア
ミドゲルを作製し、このPCR産物を変性ポリアクリル
アミドゲルで分離後、ゲル板から蛍光イメージを信号強
度として測定する。
レイによるアッセイも、マイクロアレイと同様の発現プ
ロファイル実験が実施可能である。そのため、例えば図
13に示すように、画像読取部11として、電気泳動後
のポリアクリルアミドゲルのゲル板53から信号強度を
検出できる構成のものを用いるのみで、前記実施の形態
1〜4における解析システム10a〜10dをそのまま
用いることができる。
アレイ、イメージングプレート52、およびゲル板53
の何れからも信号強度を読み取ることができる構成のも
のを用いてもよい。なお、図13では、本発明の一例と
して解析システム10c(および実施の形態3の解析方
法)を例に挙げているがもちろんこれに限定されるもの
ではない。
るための実験としては、マイクロアレイに限定されるも
のではなく、マクロアレイやディファレンシャルディス
プレイといった、遺伝子の発現量を信号強度として読み
取ることができる各種実験方法を好適に用いることがで
きる。
解析方法は、上記(網羅的)発現プロファイル実験によ
り得られる多変量を解析する用途に限定されるものでは
なく、前述したように、log(Yik/Zik)の形式の多変
量で記述された大量の標本からなるデータセットに対し
ても適用することができる。
施の形態について図14に基づいて説明すれば以下の通
りである。なお、本発明はこれに限定されるものではな
い。また、説明の便宜上、実施の形態1ないし5の何れ
かで用いた部材と同一の機能を有する部材には同一の部
材番号を付記し、その説明を省略する。
量(信号強度)や解析結果等の各種情報は、一つの解析
システム(または一つの装置)内でのみ入出力されてい
たが、本発明はこれに限定されるものではなく、インタ
ーネットを含む通信ネットワークを介して各種情報が入
出力されるようになっていてもよい。
態では、本発明にかかる解析システム10が、通信イン
ターフェース16を備えており、通信ネットワークに接
続して各種情報の送受信が可能になっている。図14で
は、同一構内にある解析システム10、パーソナルコン
ピュータ(PC)60aおよび60b、並びにサーバ6
3が通信回線64に接続されてバス型のLAN(ローカ
ルエリアネットワーク)を構成しており、さらにこのL
ANがインターネットを介して、他地域にあるPC60
cとも接続されている。
含まれる構成となっていれば全く限定されるものではな
く、例えば、前記実施の形態1〜5で述べた各種解析シ
ステム10a〜dを好適に用いることができる。上記通
信インターフェース16の具体的な構成についても、特
に限定されるものではなく、公知のLANカード、LA
Nボード、LANアダプタや、モデム等を好適に用いる
ことができる。
ム等の通信手段を備えた公知のパーソナルコンピュータ
を好適に用いることができ、デスクトップ型やノート型
等に限定されるものではない。なお、PC60a〜60
cは、CRTディスプレイや液晶ディスプレイ等の表示
部とキーボードやマウス等の入力部を備えた基本構成と
なっているものとする。なお、説明の便宜上、PC60
a〜60cに備えられている図示しない表示部や入力部
をPC表示部・PC入力部と表現する。
bにはスキャナ61が備えられており、PC60cに
は、スキャナ61に加えてプリンタ62も備えられてい
るとする。もちろん、PC60a〜60cが備える外付
けハードウェアは、一般的なパーソナルコンピュータに
外付けできるものであれば特に限定されるものではな
く、上記PC60a〜60cの区分けは、本実施の形態
を説明するための便宜上のものである。
れるものではなく、LANを構成するクライアントであ
る、PC60a〜60c、解析システム10に対してサ
ービスを提供できるコンピュータであればよい。さらに
は、このサーバ63は、データベースサーバやファイル
サーバを兼ねていてもよい。
されるものではなく、従来公知の一般的な通信回線を用
いることができる。また、この通信回線64を用いて構
築されるLANの型式もバス型に限定されるものではな
く、スター型やリング型等、従来公知の型式であればよ
い。
用のプリンタ等、他の端末が含まれていても良い。加え
て図示しないが、上記LANを含む図14に示す通信ネ
ットワークには、通信可能な携帯型の各種端末等が含ま
れていても良い。
析システム10で、前記実施の形態1〜5で説明したよ
うな発現プロファイル解析を実施した後、その解析結果
を単に解析システム10内(すなわち図1における表示
部13や画像形成部14等)で出力するだけでなく、L
ANを介してPC60a〜60cに送信することもでき
る。PC60a〜60cでは、解析システム10から得
られた結果を、PC表示部で表示したり、プリンタ62
で印刷したりすることができ、さらにはPC入力部から
の入力によって、解析結果を加工することもできる。
ーフェース16は、通信手段としてだけでなく、解析シ
ステム10の入力手段としても機能することになる。
合、スキャナ61を備えているため、このスキャナ61
が、マイクロアレイ等から画像データを読み取ることが
できるものであれば、解析用変量としての信号強度を、
解析システム10外部から入力することもできる。そし
て、解析システム10で多変量解析を実施し、その解析
結果をPC60bやPC60cに返送する。
ネットを介して、解析システム10の所在する場所から
離れた遠隔地で、解析用変量を送信したり解析結果を受
信したりする場合には、任意の顧客に対して発現プロフ
ァイル解析を提供する解析サービスを行うことが可能と
なる。
LANを介して解析システム10とつながっている場合
には、例えば研究施設や医療施設等に一つ解析システム
10があれば、他の研究者や医療従事者はPC60a・
60b等の情報端末を介して解析システム10を共用す
ることができる。それゆえ、本発明にかかる解析システ
ム10をより効率的に使用することができる。
ーバやファイルサーバを兼ねている場合には、通信ネッ
トワークを介して解析された発現プロファイル解析の解
析結果を、通信ネットワークを介してサーバ63に蓄積
していくことができる。その結果、解析結果をより一層
有効利用することが可能となる。
方法を、コンピュータ上でプログラムにより実施するこ
とが可能となっているが、このプログラムを記録する記
録媒体には、通信ネットワークからダウンロードするよ
うに流動的にプログラムを担持する媒体も含まれる。例
えば、サーバ63の記録手段に解析方法のプログラムが
記録されていれば、解析システム10は、サーバ63か
ら適宜、解析方法のプログラムをダウンロードして使用
するようになっていてもよい。ただし、解析システム1
0が通信ネットワークからプログラムをダウンロードす
る場合には、そのダウンロード用のプログラムは、予め
解析システム10本体に格納しておくか、別の記録媒体
からインストールされるようになっている。
1やプリンタ62を備えているコンピュータが、通信ネ
ットワークを介してサーバ63に接続されている場合に
は、サーバ63から解析方法のプログラムをダウンロー
ドすることで、PC60cそのものを本発明にかかる解
析システムとして用いることができる。ただし、この場
合、PC60cが備えている上記スキャナ61やプリン
タ62は、発現プロファイル解析に好適な構成となって
いる。
ム、解析方法、プログラムおよびこれを記録する記録媒
体は、通信ネットワーク技術にも適用可能となってい
る。そのため、さまざまな解析対象の遺伝子を、効率的
かつグローバルに解析し、しかも得られた解析結果も効
率的かつグローバルに利用することができる。
限定されるものではなく、請求項に示した範囲で種々の
変更が可能であり、異なる実施の形態にそれぞれ開示さ
れた技術的手段を適宜組み合わせて得られる実施の形態
についても、本発明の技術的範囲に含まれることはいう
までもない。
づいて本発明をより具体的に説明するが、本発明はこれ
らに限定されるものではない。なお、以下の実施例で
は、ターゲットDNAを大腸菌野生株(Escherichia co
li K12)から調製し、発現プロファイル実験には、上記
大腸菌野生株のゲノムにおける全てのタンパク質コード
領域がスポットされているマイクロアレイを用いた。タ
ーゲットDNAの調製法およびマイクロアレイの作製法
について、先に説明する。
200mlで培養し、対数増殖期における培養液から遠心
分離して得られた大腸菌のペレットから、Qiagen社製Rn
easyR Maxiキットを用いてmRNAを抽出した。抽出し
たmRNA30μgから、XL life science社製AMV XLリ
バーストランスクリプテースキットを用いてCy3またはC
y5で蛍光標識されたcDNAをそれぞれ得た。得られた
これら2種類の蛍光標識cDNAをターゲットDNAと
して用いた。なお、Cy3で標識されたcDNAを、以
下、Cy3ターゲットと称し、Cy5で標識されたcDNA
を、以下、Cy5ターゲットと称する。
マイクロアレイを用いた。DNAフラグメントは、Arch
ive cloneよりPCR増幅して作製した。
態1で説明した解析システム10aを用いた。具体的に
は、富士通製パーソナルコンピュータを用いて、実施の
形態1で説明した解析方法をプログラムにより実行させ
ることで、本発明にかかる解析システム10aを実現し
た。
ットおよびCy5ターゲットを前記作製例で得られたマイ
クロアレイにハイブリダイズさせた。そして、Genetic
MicroSystems社製DNAマイクロアレイ用スキャナー
(画像読取部11に対応)を用いて、上記マイクロアレ
イから、mRNA量をCy3およびCy5の蛍光強度として測
定(検出)し、この蛍光強度を、遺伝子の発現量のデー
タとなる信号強度(解析用変量)として解析システムに
入力した(解析用変量入力ステップ、S11・S1
2)。
り、バックグラウンド補正を実施した(バックグラウン
ド補正ステップ・S13)。なお、i番目の遺伝子にお
いて、検出されたCy3およびCy5の蛍光号強度を、それぞ
れS(Cy3) iおよびS(Cy5) iとし、バックグラウンドとな
る蛍光強度を、それぞれB(Cy3) iおよびB(Cy5) iとする
と、バックグラウンド補正がなされた第1データ(Cy3
の蛍光)の蛍光強度f(Cy 3) i 、および第2データ(Cy5
の蛍光)の蛍光強度f(Cy5) i は、それぞれ次式(16)
・(17)で表すものとする。
ブコントロール(以下、ネガコンと略す)として、Cy3
およびCy5の蛍光強度の検出限界を、ネガコンの平均値
+標準偏差の条件により決定した。なお、Cy3またはCy5
の蛍光の蛍光強度における検出限界を、それぞれS
(NCy3)およびS(NCy5)とする。
度のネガコンの個数を、それぞれNC1およびNC2とした場
合、ネガコンに対するCy3およびCy5の蛍光の蛍光強度
を、それぞれf(NCy3) 1,f(NCy3) 2,...,f(NCy3)
NC1およびf(NCy5) 1,f(NCy5) 2,...,f(NCy5) NC2
とする。このとき、ネガコンの蛍光強度の平均Av[f
(NCy3)]およびAv[f(NCy5)]は、それぞれ次式(1
8)・(19)で表され、標準偏差SD[f(NCy3)]およ
びSD[f(NCy5)]は、それぞれ次式(20)・(21)で
表される。
(NCy5)は、それぞれ次式(22)および(23)に示すよう
に、ネガコンの蛍光強度の平均および標準偏差の和とし
て表される。
チン(Cnt09 Human Beta-actin 90000)を用いた。この
とき、ネガコンに対するCy3およびCy5の蛍光の蛍光強度
がそれぞれf(NCy3)<0およびf(NCy5)<0となるスポ
ットを除くと、ネガコンの蛍光強度の平均は、それぞれ
Av[f(NCy3)]=91.2,Av[f (NCy5)]=2
7.1となり、標準偏差は、それぞれSD[f(NCy3)]
=72.5,SD[f(NCy5)]=22.6となったの
で、上記式(22)および(23)より、検出限界は、それ
ぞれS(NCy3)=163.7,S(NCy5)=49.7となっ
た。
度の検出限界を分類基準値として用いて、上記第1デー
タおよび第2データの組み合わせからなる解析用変量を
分類した(変量分類ステップ・S14)。具体的には、
前記実施の形態1で説明したように、以下に示すクラス
1・2Aおよび2B・3に分類した。
(Cy5) i>S(NCy5) クラス2A:f(Cy3) i <S(NCy3)かつf(Cy5) i>S
(NCy5) クラス2B:f(Cy3) i >S(NCy3)かつf(Cy5) i <S
(NCy5) クラス3 :f(Cy3) i <S(NCy3)かつf(Cy5) i<S
(NCy5) 次に、補正変量算出部32により、変量分類部31で分
類された解析用変量のうち、高信頼性変量を構成する第
1データおよび第2データの対数比を算出した(対数比
算出ステップ・S15)。
ルのうち、クラス1に属するサンプルのみがCy3およびC
y5の蛍光の蛍光強度を比較することができる。それゆ
え、上記クラス1に分類されたデータを高信頼性変量と
して用いる。なお、クラス2Aおよび2Bについては、
一方の蛍光強度(f(Cy3) i <S(NCy3)またはf(Cy5) i
<S(NCy5))が0と見なされるため、Cy3およびCy5の蛍
光の蛍光強度を比較することはできないが、2つの条件
の間に有意な差があることを示しており、本実施例にお
いては参考データとなり得る。
うに、上記クラス1に属する各蛍光強度から、ネガコン
の蛍光強度の平均を引くことで、ゼロ点補正を実施し
た。
iおよびf'(Cy5) iの対数比log(f'(Cy3) i/f'(Cy5) i )
を、i番目の遺伝子の相対発現量として算出した。
i)におけるマイクロアレイ上でのスポットの分布を、図
15(a)および(b)それぞれに示す。なお、図15
(a)・(b)では、縦軸がスポット数(The number o
f spots)を示し、横軸がi番目の遺伝子における発現
量の対数(log(f')と略して表記する)を示す。
全ての対数比log(f'(Cy3) i /f'( Cy5) i)に対する補正
項REFi=1,2,…,N [log(f'(Cy3) i /f'(Cy5) i)]を算出
した(補正項算出ステップ・S16)。具体的には、上
記補正項REFi=1,2,…,N [log(f'(Cy3) i /f'(Cy5) i)]
として、次式(26)で示す相対平均値Av[log(f'(
Cy3) /f'(Cy5))]を用いた。
上記対数比log(f'(Cy3) i /f'(Cy 5) i)と相対平均値
(補正項)Av[log(f'(Cy3) /f'(Cy5))]との差
を、次式(27)で示すように、補正変量Fiとして算出
した(補正変量算出ステップ・S17)。
の分布を図16に示す。なお、図16では、縦軸がマイ
クロアレイ上でのスポット数であり、横軸が補正変量F
iである。また、Av(Error)は、平均誤差を示す。
る理想的な場合では、Cy3およびCy5のそれぞれの蛍光強
度に偏りがなく、f'(Cy3) i /f'(Cy5) i=1となり、l
og(f'(Cy3) i /f'(Cy5) i)=0となる。しかしなが
ら、図15(a)および(b)の結果から明らかなよう
に、蛍光の蛍光強度はおおまかにlog-正規分布を示して
いることがわかり、さらに、図15(a)および(b)
の比較から明らかなように、同一のサンプルにおいて
も、それぞれのスポットの蛍光における蛍光強度に偏り
が生じることがわかる。それゆえ、Cy3およびCy5のそれ
ぞれの蛍光強度に偏りがあることは明らかである。
ことで補正変量Fiを得ると、図16に示す結果が得ら
れる。この結果から明らかなように、本発明では、特定
の遺伝子に注目することなくデータから偏り誤差を取り
除くことができ、網羅的発現プロファイル解析の結果の
精度を向上させることができる。
場合の相対蛍光強度の平均誤差は0.193であった
(図16参照)のに対して、補正せずに偏りを除去しな
かった場合の相対蛍光強度の平均誤差は0.235であ
り、補正を実施したことで平均誤差は有意に小さくなっ
ている。それゆえ、実施の形態1における解析システム
および解析方法が有効であることがわかる。
例1において、mRNAを抽出する対象として、大腸菌
野生株に加えて、表1に示す特定の遺伝子を破壊した変
異株を用いた以外は同様にしてmRNAを抽出した。そ
の後、調製例1と同様にして、野生株由来のmRNAか
らCy3で蛍光標識したcDNAを、変異株由来のmRN
AからCy5で蛍光標識したcDNAを得て、これらをタ
ーゲットDNAとして用いた。
態2で説明した解析システム10bを用いた。具体的に
は、富士通社製パーソナルコンピュータを用いて、実施
の形態2で説明した解析方法をプログラムにより実行さ
せることで、本発明にかかる解析システム10bを実現
した。
ットおよびCy5ターゲットを作成例で得られたマイクロ
アレイにハイブリダイズさせた。そして、Genetic Micr
oSystems社製DNAマイクロアレイ用スキャナー(画像
読取部11に対応)を用いて、上記マイクロアレイか
ら、mRNA量をCy3およびCy5の蛍光強度として測定
(検出)し、前記実施の形態2と同様にしてS201〜
S207の補正を実施した。
(Fis・Fit)i=1,…,Nを抽出し(相関変量抽出ステッ
プ・S208)、相関変量選抜部42により、実験誤差
に基づいて実験系毎に選抜基準値α=log(1.1),log
(1.2),log(1.3),log(1.4),log(1.5)を
設定した(S209)。次に、上記相関変量選抜部42
により、上記相関変量から、該選抜基準値αに基づく選
抜規定(前記実施の形態2における規定IおよびII)を
満たす相関変量を実験系毎に選抜した(相関変量選抜ス
テップ・S210)。次に、相関係数算出部43で、相
関変量を用いて、2つの実験系の間における相関係数を
回帰分析により算出した(相関係数算出ステップ・S2
11)。
(o)、図18(a)〜(j)、図19(a)〜(o)
に示す。なお、図17〜19に示す棒グラフでは、欄外
の下に相関係数を算出する対象となっている実験(s、
t)のペアを、表1の実験番号を用いてハイフンでつな
いだ「s−t」として表している。例えば図17の実験
ペア24−37は、表1における実験24(baeSR遺伝
子を破壊した変異株を使用)と実験37(kdpABCDE遺伝
子を破壊した変異株を使用)との相関係数を示すもので
ある。
は、図中左から、選抜基準値αを設定しなかったとき
(全体のデータに対する)、α=log(1.1)を設定し
たとき、α=log(1.2)を設定したとき、α=log
(1.3)を設定したとき、α=log(1.4)を設定した
とき、α=log(1.5)を設定したときの相関係数を示
す。また、縦軸は相関係数の数値を示し、上側がプラ
ス、下側がマイナスで、何れも最大値は1(絶対値)で
ある。
5)と設定したときに、最小の相関係数を得た15組の
実験ペアを示している。この結果から、負の相関関係を
有する実験ペアでは、α=log(1.5)と設定した際
に、最小の負の相関係数を示すことがわかる。
5)と設定したときに、相関関係がほとんど認められな
い10組の実験ペアを示している。この結果から、αを
大きくすれば相関係数の絶対値は必ず大きくなるわけで
はないことが例証される。これは、本発明にかかる解析
方法が2つの実験の間における相関を探索するために有
効であることを意味する。
5)としたときに最大の相関係数を有する15組の実験
ペアを示している。この結果から、相関係数はα=log
(1.5)において最も大きくなっていることがわかる。
差0.193より大きな選抜基準値、すなわちα>log
(1.3)となる選抜基準値αを設定したときに、原点付
近に存在する実験間の値の関係を除去することが可能と
なる。その結果、2つの実験の間で良好な相関関係を得
ることができる。
関係としては、α=log(1.5)において、高い相関係
数0.81が得られた。Two-Component Signal Transdu
ction(James A.Hoch and Thomas J.Sihavy監修、Americ
an Society Microbiology、1995年発行)では、上記
2つの実験26・28で破壊された、creABCD遺伝子お
よびphoBR遺伝子が、他の遺伝子の発現制御において類
似の挙動を示すことを報告している。それゆえ、本発明
は、マイクロアレイに代表されるように、非常に大多数
の遺伝子の発現データが得られるものの誤差が比較的大
きなデータを多数含む実験系を比較するために有効であ
るだけでなく、発現制御の観点から調節タンパク質の類
似性を探索する目的にも有効に用いることができる。
テムおよび解析方法では、特定条件下で実施される第1
実験とその対照となる第2実験とが実施され、各実験か
ら、上記各遺伝子の発現量が信号強度として検出される
場合に、まず、第1実験で得られた第1データと、第2
実験で得られた第2データとを組み合わせて解析用変量
として生成する。そして、上記信号強度の検出限界を分
類基準値として用い、該分類基準値に基づいて、生成さ
れた複数の上記解析用変量を分類し、分類された上記解
析用変量のうち、信号強度の検出限界を超えるもののみ
を高信頼性変量として用い、該高信頼性変量を構成する
第1データおよび第2データの対数比を算出する。その
後、全ての高信頼性変量の対数比に対する補正項を算出
し、上記対数比と補正項との差を補正変量として算出す
る。
一の遺伝子から解析用変量が複数得られ、かつ、同一の
実験により得られた解析用変量から算出される補正変量
が同一の実験系に所属する補正変量として分類できる場
合に、同一の遺伝子より得られかつ異なる実験系に所属
する2つの補正変量を、相関変量として抽出し、上記相
関変量を用いて、2つの実験系の間における相関係数を
算出する。
特定の遺伝子に注目することなくデータから偏り誤差を
取り除くことができ、網羅的発現プロファイル解析の結
果の精度を向上させることができるとともに、相対発現
量が0近傍となる非変化発現データの影響を排除した多
変量解析を実施することができるため、得られる解析結
果の信頼性をより一層向上させることができる。それゆ
え、本発明は、マイクロアレイ等の網羅的発現プロファ
イル解析において、データの解釈を明快かつ容易にする
ことが可能になり、発現プロファイル解析の効率化を図
る上で実用的であるあるという効果を奏する。
プロファイル解析のみに限定されるものではなく、log
(Yik/Zik)の形式の多変量で記述された大量の標本か
らなるデータセットに対しても適用することができる。
ピュータで実現可能となっている。したがって、本発明
には、上記構成や方法をコンピュータで実現させるコン
ピュータプログラム、あるいはこのコンピュータプログ
ラムを記録したコンピュータ読み取り可能な記録媒体も
含まれることはいうまでもない。
システムの構成を示すブロック図である。
方法の処理手順を示すフローチャートである。
方法において、処理の進行に伴って、入力された解析用
変量が変遷する経過を示す変量変遷チャートである。
システムの構成を示すブロック図である。
方法の処理手順を示すフローチャートである。
方法において、相関係数が算出される際の経過を示す相
関係数算出チャートである。
システムの構成を示すブロック図である。
方法の処理手順を示すフローチャートである。
方法において、相関係数が算出される際の経過を示す相
関係数算出チャートである。
析システムの構成を示すブロック図である。
成である、変量補正部の構成を示すブロック図であり、
(b)は、第4の実施の形態にかかる他の構成である、
相関係数生成部の構成を示すブロック図であり、(c)
は、第4の実施の形態にかかる他の構成である、相関係
数生成部の他の構成を示すブロック図である。
析システムの構成を示すブロック図である。
析システムの他の構成を示すブロック図である。
析システムの構成を示すブロック図である。
施の形態にかかる解析方法を利用する対象となる、遺伝
子の発現量のデータlog(f'(Cy3) i)およびlog(f'(Cy5)
i)を用いた、マイクロアレイ上でのスポットの分布の結
果を示すヒストグラムであり、(a)はCy3で標識した
結果を、(b)はCy5で標識した結果を示す。
用して得られた補正変量Fiを用いた、マイクロアレイ
上でのスポットの分布の結果を示すヒストグラムであ
る。
かかる解析方法を利用して得られた補正変量Fiを用い
た、2つの実験の間における相関係数を示す比較棒グラ
フであり、α=log(1.5)としたとき、最小の相関係
数が得られた15組の実験ペアを示す。
かかる解析方法を利用して得られた補正変量Fiを用い
た、2つの実験の間における相関係数を示す比較棒グラ
フであり、α=log(1.5)としたとき、相関係数が0
に最も近い10組の実験ペアの一覧を示す。
かかる解析方法を利用して得られた補正変量Fiを用い
た、2つの実験の間における相関係数を示す比較棒グラ
フであり、α=log(1.5)としたとき、最大の相関係
数が得られた15組の実験ペアの一覧を示す。
ファイル解析システム) 10a 解析システム(多変量解析システム・発現プロ
ファイル解析システム) 10b 解析システム(多変量解析システム・発現プロ
ファイル解析システム) 10c 解析システム(多変量解析システム・発現プロ
ファイル解析システム) 10d 解析システム(多変量解析システム・発現プロ
ファイル解析システム) 11 画像読取部(入力手段) 12 入力部(入力手段) 13 表示部(出力手段) 14 画像形成部(出力手段) 15 記憶部(記憶手段) 20 解析装置(一つの装置) 21 制御部(制御手段) 22 バックグラウンド補正部(バックグラウンド補
正手段) 23 変量解析部(変量解析手段) 30 変量補正部(変量補正手段) 31 変量分類部(変量分類手段) 32 補正変量算出部(補正変量算出手段) 40a 相関係数生成部(相関係数生成手段) 40b 相関係数生成部(相関係数生成手段) 41 相関変量抽出部(相関変量抽出手段) 42 相関変量選抜部(相関変量選抜手段) 43 相関係数算出部(相関係数算出手段) 44 相関因子設定部(相関因子設定手段) 45 加重相関係数算出部(相関係数算出手段) 51 マイクロアレイ 52 イメージングプレート 53 ゲル板
Claims (26)
- 【請求項1】母集団を構成する複数の要素のそれぞれか
ら、実験により、第1データとその対照である第2デー
タとの組み合わせからなる解析用変量を得た上で、これ
ら各データの比を用いて、多変量解析を実施する多変量
解析システムにおいて、 上記解析用変量の変化範囲のうち、信頼性の低い範囲か
ら高い範囲に移行する閾値を分類基準値として用い、上
記要素毎に複数得られた上記解析用変量を上記分類基準
値に基づいて分類する変量分類手段と、 該変量分類手段で分類された上記解析用変量のうち、信
頼性の高い範囲に分類された高信頼性変量のみを用い
て、該高信頼性変量を構成する第1データおよび第2デ
ータの対数比を算出するとともに、全ての高信頼性変量
の対数比に対する補正項を算出し、さらに、上記対数比
と補正項との差を補正変量として算出する補正変量算出
手段とを備えていることを特徴とする多変量解析システ
ム。 - 【請求項2】さらに、上記変量分類手段による分類の前
段で、分類前の全ての解析用変量に共通するバックグラ
ウンド数値を除去するバックグラウンド補正手段を備え
ていることを特徴とする請求項1に記載の多変量解析シ
ステム。 - 【請求項3】上記補正項として、全ての高信頼性変量の
対数比における相加平均値、相乗平均値、または中央値
が用いられることを特徴とする請求項1または2に記載
の多変量変換システム。 - 【請求項4】母集団を構成する複数の要素のそれぞれか
ら、実験により、第1データとその対照である第2デー
タとの組み合わせからなる解析用変量を得た上で、これ
ら各データの比を用いて、多変量解析を実施する多変量
解析システムにおいて、 上記解析用変量から、上記第1データおよび第2データ
の対数比を含む補正変量を算出する変量補正手段と、 1回の実験により、複数の要素のそれぞれから同時期に
上記解析用変量が得られ、かつ、同一の実験により得ら
れた解析用変量より算出される補正変量が、同一の実験
系に所属する補正変量として分類できる場合に、同一の
要素より得られかつ異なる実験系に所属する2つの補正
変量を、相関変量として抽出する相関変量抽出手段と、 上記相関変量を用いて、2つの実験系の間における相関
係数を算出する相関係数算出手段とを備えていることを
特徴とする多変量解析システム。 - 【請求項5】さらに、実験誤差に基づいて実験系毎に選
抜基準値を設定し、上記相関変量から、該選抜基準値に
基づく選抜規定を満たす相関変量を実験系毎に選抜する
相関変量選抜手段を備えており、 上記相関係数算出手段は、上記変量選抜手段により選抜
された相関変量を用いて、2つの実験系の間における相
関係数を算出することを特徴とする請求項4に記載の多
変量解析システム。 - 【請求項6】上記選抜基準値が1以上の絶対値である場
合に、上記選抜規定は、2つの実験系に所属する相関変
量が、正の選抜基準値を超える範囲か、または負の選抜
基準値未満の範囲に存在する規定として設定されている
ことを特徴とする請求項5に記載の多変量変換システ
ム。 - 【請求項7】さらに、実験誤差に基づいて実験系毎に因
子基準値を設定し、該因子基準値に基づく因子規定を用
いて、2つの実験系の間における相関因子を要素毎に設
定する相関因子設定手段を備えており、 上記相関係数算出手段は、上記相関変量と上記相関因子
とを用いて、該相関因子により重みのついた、2つの実
験系の間における相関係数を算出することを特徴とする
請求項4に記載の多変量解析システム。 - 【請求項8】上記因子規定は、2つの実験系に所属する
相関変量が、因子基準値を超える範囲か、または因子基
準値の逆数未満の範囲に存在する規定として設定されて
いることを特徴とする請求項5に記載の多変量変換シス
テム。 - 【請求項9】さらに、上記母集団を構成する複数の要素
から得られる解析用変量を入力する入力手段を備えてい
ることを特徴とする請求項1ないし8の何れか1項に記
載の多変量解析システム。 - 【請求項10】上記母集団が特定の生物のゲノムに含ま
れる全ての遺伝子またはその一部であり、該母集団を構
成する要素が個々の遺伝子であるとともに、各要素から
実験により得られる解析用変量が、個々の遺伝子の発現
量であることを特徴とする請求項1ないし9の何れか1
項に記載の多変量解析システム。 - 【請求項11】さらに、上記実験として、発現プロファ
イル実験が用いられることを特徴とする請求項10に記
載の多変量解析システム。 - 【請求項12】上記発現プロファイル実験では、マイク
ロアレイ、マクロアレイ、およびディファレンシャルデ
ィスプレイの少なくとも何れかが用いられることを特徴
とする請求項11に記載の多変量解析システム。 - 【請求項13】上記解析用変量として得られる第1デー
タおよび第2データが、遺伝子の発現量に比例して変化
する信号強度として検出されるとともに、 上記入力手段は、該信号強度を入力可能することを特徴
とする請求項10、11または12に記載の多変量解析
システム。 - 【請求項14】上記分類基準値として、上記信号強度の
検出限界が用いられるとともに、 信号強度の検出限界を超える範囲が、信頼性の高い範囲
として用いられることを特徴とする請求項13に記載の
多変量変換システム。 - 【請求項15】上記各手段の少なくとも2つ以上を一つ
の装置として一体化してなることを特徴とする請求項1
ないし14の何れか1項に記載の多変量解析システム。 - 【請求項16】特定の生物のゲノムに含まれる全ての遺
伝子またはその一部から、発現プロファイル実験によっ
て各遺伝子の発現量を解析用変量として検出し、コンピ
ュータを用いて多変量解析する発現プロファイル解析方
法において、 上記発現プロファイル実験として、特定条件下で実施さ
れる第1実験とその対照となる第2実験とが実施され、
各実験から、上記各遺伝子の発現量が信号強度として検
出される場合に、第1実験で得られた第1データと、第
2実験で得られた第2データとを組み合わせて解析用変
量として生成する変量生成ステップと、 上記信号強度の検出限界を分類基準値として用い、該分
類基準値に基づいて、生成された複数の上記解析用変量
を分類する変量分類ステップと、 分類された上記解析用変量のうち、信号強度の検出限界
を超えるもののみを高信頼性変量として用い、該高信頼
性変量を構成する第1データおよび第2データの対数比
を算出する対数比算出ステップと、 全ての高信頼性変量の対数比に対する補正項を算出する
補正項算出ステップと、 上記対数比と補正項との差を補正変量として算出する補
正変量算出ステップとを含むことを特徴とする発現プロ
ファイル解析方法。 - 【請求項17】さらに、上記変量分類ステップの前段
で、分類前の全ての解析用変量に共通するバックグラウ
ンド数値を除去するバックグラウンド補正ステップを含
むことを特徴とする請求項16に記載の発現プロファイ
ル解析方法。 - 【請求項18】上記補正項算出ステップでは、補正項と
して、全ての高信頼性変量の対数比における相加平均
値、相乗平均値、または中央値を算出することを特徴と
する請求項16または17に記載の発現プロファイル解
析方法。 - 【請求項19】上記発現プロファイル実験を複数回実施
することで、同一の遺伝子から解析用変量が複数得ら
れ、かつ、同一の実験により得られた解析用変量から算
出される補正変量が同一の実験系に所属する補正変量と
して分類できる場合に、同一の遺伝子より得られかつ異
なる実験系に所属する2つの補正変量を、相関変量とし
て抽出する相関変量抽出ステップと、 上記相関変量を用いて、2つの実験系の間における相関
係数を算出する相関係数算出ステップとを含むことを特
徴とする請求項16、17または18に記載の発現プロ
ファイル解析方法。 - 【請求項20】さらに、発現プロファイル実験に伴う実
験誤差に基づいて実験系毎に選抜基準値を設定し、上記
相関変量から、該選抜基準値に基づく選抜規定を満たす
相関変量を実験系毎に選抜する相関変量選抜ステップを
含むとともに、 上記相関係数算出ステップでは、選抜された上記相関変
量を用いて、2つの実験系の間における相関係数を算出
することを特徴とする請求項19に記載の発現プロファ
イル解析方法。 - 【請求項21】上記選抜基準値が1以上の絶対値である
場合に、上記選抜規定は、2つの実験系に所属する相関
変量が、正の選抜基準値を超える範囲か、または負の選
抜基準値未満の範囲に存在する規定として設定されてい
ることを特徴とする請求項19または20に記載の発現
プロファイル解析方法。 - 【請求項22】さらに、発現プロファイル実験に伴う実
験誤差に基づいて実験系毎に因子基準値を設定し、該因
子基準値に基づく因子規定を用いて、2つの実験系の間
における相関因子を要素毎に設定する相関因子設定ステ
ップを含むとともに、 上記相関係数算出ステップでは、相関変量と上記相関因
子とを用いて、該相関因子により重みのついた、2つの
実験系の間における相関係数を算出することを特徴とす
る請求項19に記載の発現プロファイル解析方法。 - 【請求項23】上記因子規定は、2つの実験系に所属す
る相関変量が、因子基準値を超える範囲か、または因子
基準値の逆数未満の範囲に存在する規定として設定され
ていることを特徴とする請求項22に記載の発現プロフ
ァイル解析方法。 - 【請求項24】さらに、上記遺伝子の発現量を、信号強
度として検出した上で解析用変量として入力する解析用
変量入力ステップを含むことを特徴とする請求項16な
いし23の何れか1項に記載の発現プロファイル解析方
法。 - 【請求項25】請求項16ないし24の何れか1項に記
載の発現プロファイル解析方法をコンピュータに実行さ
せるコンピュータプログラム。 - 【請求項26】請求項16ないし24の何れか1項に記
載の発現プロファイル解析方法を行うプログラムをコン
ピュータに実行させるコンピュータプログラムを記録し
た機械読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002055017A JP3983569B2 (ja) | 2002-02-28 | 2002-02-28 | 多変量解析システム、発現プロファイル解析方法、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002055017A JP3983569B2 (ja) | 2002-02-28 | 2002-02-28 | 多変量解析システム、発現プロファイル解析方法、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006331081A Division JP4255970B2 (ja) | 2006-12-07 | 2006-12-07 | 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003256407A true JP2003256407A (ja) | 2003-09-12 |
JP3983569B2 JP3983569B2 (ja) | 2007-09-26 |
Family
ID=28665966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002055017A Expired - Lifetime JP3983569B2 (ja) | 2002-02-28 | 2002-02-28 | 多変量解析システム、発現プロファイル解析方法、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3983569B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005034003A1 (ja) * | 2003-10-01 | 2005-04-14 | Japan As Represented By The President Of National Institute Of Genetics | マイクロアレイ実験等から得られるデータの新規解析方法 |
JP2007003357A (ja) * | 2005-06-23 | 2007-01-11 | National Institute Of Advanced Industrial & Technology | 糖鎖あるいは複合糖質の解析装置 |
JP2008082876A (ja) * | 2006-09-27 | 2008-04-10 | Toray Ind Inc | 解析装置、および補正方法 |
JP2010522943A (ja) * | 2007-03-27 | 2010-07-08 | ノーム インコーポレイテッド | 個人ゲノム情報を個人的に管理する格納及び検査方法 |
CN117152539A (zh) * | 2023-10-27 | 2023-12-01 | 浙江由由科技有限公司 | 基于降维特征机器校验的生鲜商品分类修正方法 |
-
2002
- 2002-02-28 JP JP2002055017A patent/JP3983569B2/ja not_active Expired - Lifetime
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005034003A1 (ja) * | 2003-10-01 | 2005-04-14 | Japan As Represented By The President Of National Institute Of Genetics | マイクロアレイ実験等から得られるデータの新規解析方法 |
JP2007003357A (ja) * | 2005-06-23 | 2007-01-11 | National Institute Of Advanced Industrial & Technology | 糖鎖あるいは複合糖質の解析装置 |
JP4565237B2 (ja) * | 2005-06-23 | 2010-10-20 | 独立行政法人産業技術総合研究所 | 糖鎖あるいは複合糖質の解析装置 |
JP2008082876A (ja) * | 2006-09-27 | 2008-04-10 | Toray Ind Inc | 解析装置、および補正方法 |
JP2010522943A (ja) * | 2007-03-27 | 2010-07-08 | ノーム インコーポレイテッド | 個人ゲノム情報を個人的に管理する格納及び検査方法 |
CN117152539A (zh) * | 2023-10-27 | 2023-12-01 | 浙江由由科技有限公司 | 基于降维特征机器校验的生鲜商品分类修正方法 |
CN117152539B (zh) * | 2023-10-27 | 2024-01-26 | 浙江由由科技有限公司 | 基于降维特征机器校验的生鲜商品分类修正方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3983569B2 (ja) | 2007-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee | Analysis of microarray gene expression data | |
Causton et al. | Microarray gene expression data analysis: a beginner's guide | |
Dziuda | Data mining for genomics and proteomics: analysis of gene and protein expression data | |
McLachlan et al. | Analyzing microarray gene expression data | |
Zweiger | Knowledge discovery in gene-expression-microarray data: mining the information output of the genome | |
Feng et al. | Research issues and strategies for genomic and proteomic biomarker discovery and validation: a statistical perspective | |
Brentani et al. | Gene expression arrays in cancer research: methods and applications | |
AU2020221845A1 (en) | An integrated machine-learning framework to estimate homologous recombination deficiency | |
US20030225526A1 (en) | Molecular cancer diagnosis using tumor gene expression signature | |
CA3030890A1 (en) | Genetic copy number alteration classifications | |
McShane et al. | Statistical issues in the design and analysis of gene expression microarray studies of animal models | |
Saei et al. | A glance at DNA microarray technology and applications | |
JP2003256407A (ja) | 多変量解析システムおよび発現プロファイル解析方法 | |
Bair | Identification of significant features in DNA microarray data | |
CN112102884A (zh) | 多基因位点联合疾病风险分析评估平台及方法 | |
Mallick et al. | Bayesian analysis of gene expression data | |
JP4255970B2 (ja) | 多変量解析システム、コンピュータプログラム、コンピュータ読み取り可能な記憶媒体 | |
Comander et al. | Argus—a new database system for Web-based analysis of multiple microarray data sets | |
Berrar et al. | Introduction to genomic and proteomic data analysis | |
Mary-Huard et al. | Introduction to statistical methods for microarray data analysis | |
US20230316054A1 (en) | Machine learning modeling of probe intensity | |
EP1267295A1 (en) | A method and system for analyzing gene expression data using a smooth response surface algorithm | |
Wildsmith et al. | Gene expression analysis using microarrays | |
JP3628005B2 (ja) | 遺伝子発現パターン表示方法および装置 | |
dos Santos et al. | Gene expression profiling by microarray |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040917 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061010 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061207 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070704 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |