JP2004357550A - 遺伝子発現データの解析方法 - Google Patents

遺伝子発現データの解析方法 Download PDF

Info

Publication number
JP2004357550A
JP2004357550A JP2003158454A JP2003158454A JP2004357550A JP 2004357550 A JP2004357550 A JP 2004357550A JP 2003158454 A JP2003158454 A JP 2003158454A JP 2003158454 A JP2003158454 A JP 2003158454A JP 2004357550 A JP2004357550 A JP 2004357550A
Authority
JP
Japan
Prior art keywords
probe
oligonucleotide array
intensity
gene expression
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003158454A
Other languages
English (en)
Inventor
Daniel Rajniak
ライニアック ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sankyo Co Ltd
Original Assignee
Sankyo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sankyo Co Ltd filed Critical Sankyo Co Ltd
Priority to JP2003158454A priority Critical patent/JP2004357550A/ja
Publication of JP2004357550A publication Critical patent/JP2004357550A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】本発明は、遺伝子発現量を表す量と転写産物濃度との関係の正当性を評価する方法を提供することを目的とする。
【解決手段】遺伝子発現量に対して発現エラーを算出し、さらに、関連する複数のオリゴヌクレオチドアレイに対して同一の遺伝子の発現量解析を行なう場合、発現量の矛盾を引き起こさないようにプローブアウトライアーを検出し、より精度の高い発現量を再解析する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は生物学的データ分析に関し、詳細には生物学的データを分析するための方法であり、遺伝子サンプルの遺伝子発現情報の解析方法に関する。特に、本発明はオリゴヌクレオチドアレイを使用して遺伝子発現量に対するエラーを統計的に解析して評価する方法に関する。さらに本発明は、かかる遺伝子サンプルの遺伝子発現解析の複数実験(複数遺伝子転写物サンプルをそれぞれハイブリダイゼーションさせたオリゴヌクレオチドアレイ)に対して核酸プローブのプローブアウトライアー(Outlier、はずれ値)を検出し、かかるプローブアウトライアーを考慮して遺伝子発現量の再解析方法に関する。
【0002】
【従来の技術】
遺伝子の本体であるDNAの塩基配列を解析する技術として、ノーザンブロッティング法やディフェレンシャルハイブリダイゼーションなどが従来から公知であるが、サンプルを一つずつ解析していたので、膨大な時間と労力が必要とされていた。近年、迅速な遺伝子解析方法として、病気に関連する遺伝子の有無などを調べる診断ツールである、DNAチップなどが注目されている。DNAチップとは、基板に固定した何通りもの塩基配列と未知のRNAを反応させてDNAの塩基配列を決定させるものであり、数千個以上の異なる遺伝子(DNA断片)を高密度に整列させてある。コンピューターのマイクロチップは大量の情報を高速に処理する道具として開発されたものであるが、DNAチップも同様に小さな半導体基板を用いて大量の遺伝子発現情報やDNA多型情報を得るために開発されたツールである。特に、アフィメトリクス社(米国、カリフォルニア州、サンタクララ)のオリゴヌクレオチドアレイである、GeneChip(登録商標)は大量の遺伝子情報を得るための最も一般的なツールとして使用されている。かかるオリゴヌクレオチドアレイの方法において、遺伝子発現の解析方法の基本は、パーフェクトマッチプローブとミスマッチプローブから構成されるプローブペアを使用する。パーフェクトマッチプローブ(これより以下ではPMプローブと記載する)は、参照とする配列に対して相補的となるように設計されたプローブである。ミスマッチプローブ(これより以下ではMMプローブと記載する)は、参照とする配列に対して中央部位(例えば、25塩基のプローブの13番目)でのホモマー塩基ミスマッチを有することを除いて、参照配列に相補的なプローブであり、クロスハイブリダイゼーション及び非特異的なハイブリダイゼーションにおいてコントロールとしての役割をする。PMプローブとMMプローブの強度差は遺伝子発現の測定値として得られる。個々のプローブデザインと同様に、無作為な現象に関するエラーを排除するために、各遺伝子は、通常20、16又は11ペアのマッチ−ミスマッチプローブによって表される。遺伝子の発現は、統計的なアプローチに基づきすべてのプローブペアに依存する。さらに、チップのユーザによって最も頻繁に使用される主要なパラメータはアベレージディファレンス(Average Difference、アフィメトリクス社の以前のアルゴリズムMAS4)及びシグナル(Signal、アフィメトリクス社のアルゴリズムMAS5)である。アフィメトリクス社製のGeneChipアルゴリズムの取り扱い説明書である、GeneChip3.1 Expression Analysis Algorithm Tutorialに記載されているように、アベレージディファレンスは遺伝子発現量値を表し、アウトライアーとして認識されないプローブにおいてパーフェクトマッチとミスマッチとのシグナル間の平均差として定義される。アウトライアーは遺伝子発現の間違った情報を与えるプローブペアである。近年の研究において、アウトライアー検出の問題が指摘され、アウトライアーを同定する演算法が提案されている(例えば、非特許文献1,2を参照)。
【0003】
アフィメトリクス社のアルゴリズムはすべて、PMプローブとMMプローブの解析に基づいて遺伝子発現量を計算する。アフィメトリクス社の以前のアルゴリズムMAS4は以下のような問題がある。(1)発現エラーを評価するパラメータを算出しない。したがって発現量自体の信頼性を定量的に表すことができない。(2)関連する複数実験に対して同一の遺伝子の発現量解析を行なう場合、MAS4のアウトライアー検出法は発現量の矛盾を引き起こす。
【0004】
最近のアフィメトリクス社のアルゴリズムMAS5は、プローブペアからの遺伝子発現を評価するために統計的手法を用いてp値を算出することにより上に記述したようなMAS4の欠点を部分的に解決したが、依然として発現エラー自体を提供しない。MAS4と違ってMAS5では、プローブアウトライアーのコンセプトがなく、ある遺伝子を構成するプローブに対してPMプローブ強度値からMMプローブ強度値を引いた値(PM−MM)すべての重みつき平均を計算し、それを遺伝子発現量としている。しかしながら、単一の実験のデータに基づいてのみ(すなわち関連実験中の対応するPM,MMプローブ強度値を用いずに)重みを計算するため、関連実験中の発現量の矛盾を完全に解消することはできない。
【0005】
【非特許文献1】
Cheng Li, Wing Hung Wong: Model based analysis of oligonucleotide arrays: model validation, design issues and standard error application, Genome Biology, 2(8)(2001)
【0006】
【非特許文献2】
Felix Naef, Daniel A. Lim, Nila Patil, and Marcelo O. Magnasco: Fromfeatures to expression: High−density oligonucleotide array analysis revisited, http://asterion.rockefeller.edu/marcelo/Reprints/30features2expressions−pre.pdf
【0007】
【発明が解決しようとする課題】
従来のアフィメトリクス社製のGeneChipであるオリゴヌクレオチドアレイは、広範囲の遺伝子発現プロファイル解析用として最も使用されているツールの一つであるが、GeneChipで得られた遺伝子発現量と転写産物濃度との関係を完全に評価できる手段ではない。
【0008】
したがって、本発明は、上述の点に鑑みてなされたものであり、遺伝子発現量のエラー(統計的変動)を評価する方法を提供することを目的とする。かかる変動は測定したアベレージディファレンスに影響を与えるすべての要因、例えばRNAの質、ハイブリダイゼーション及びスキャニング、プローブデザイン、電子ノイズなどを反映した結果である。さらに、本発明は、関連する複数の遺伝子解析実験に対して同一の遺伝子の発現量解析を行なう場合、発現量の矛盾を引き起こさないようにプローブアウトライアーを検出し、より精度の高い発現量を再解析する方法を提供することを目的とする。
【0009】
【課題を解決するための手段】
請求項1に係る発明によれば、オリゴヌクレオチドアレイを使用する遺伝子転写物サンプルの遺伝子発現データの解析方法であって、
(1)遺伝子において発現していないと予測される遺伝子を選択する、ステップと、
(2)前記(1)のステップで選択した遺伝子の各PMプローブ及びMMプローブペアに対して、強度サンプル及びエラーサンプルを算出する、ステップと、
(3)前記(2)のステップで求めたすべての前記強度サンプル及び前記エラーサンプルを利用し、強度値と該強度値のエラー値の一般的な関係を導く、ステップと、
(4)すべての遺伝子を対象として、遺伝子ごとに前記(3)のステップの前記強度値と該強度値のエラー値の一般的な関係を利用してすべてのPMプローブ強度値及びMMプローブ強度値に対して強度エラー値を求める、ステップと、
(5)前記強度エラー値(σPi,σMi)を用いて遺伝子発現量のエラー(σAvgDiff)を算出する、ステップと、
よりなる遺伝子発現データの解析方法を提供することができる。
【0010】
請求項2の発明は、請求項1の発明において、前記遺伝子において発現していないと予測される遺伝子は、アベレージディファレンス<0であることを特徴とする。
【0011】
請求項3の発明は、請求項1の発明において、前記アベレージディファレンスが、
【0012】
【数6】
Figure 2004357550
〔式中、PM、MMはi番目のプローブペアのシグナル強度であり、navgはアベレージディファレンスを算出するための使用するプローブペア数である。〕で定義されることを特徴とする。
【0013】
請求項4の発明は、請求項1の発明において、前記アベレージディファレンスは遺伝子発現量を表し、前記PMプローブと前記MMプローブの一つのプローブペアに対する前記強度サンプル及び前記サエラーサンプルが、次式
【0014】
【数7】
Figure 2004357550
〔式中、PMはPMプローブのシグナル強度であり、MMは同一のプローブペアにおけるMMプローブのシグナル強度であり、左辺の添字PM及びMMはプローブタイプを示す。〕を用いて算出することを特徴とする。
【0015】
請求項5の発明は、請求項1の発明において、前記強度値と該強度値のエラー値の一般的な関係に必要な前記強度のエラー値が、前記強度サンプルがある一定範囲内に属するエラーサンプルの標準偏差(σ)として算出されることを特徴とする。
【0016】
請求項6の発明は、請求項1の発明において、一つのi番目の前記PMプローブと前記MMプローブのプローブペアに対する前記PMプローブ強度値と前記MMプローブ強度値の差分の前記強度エラー値(σ)が、
【0017】
【数8】
Figure 2004357550
〔式中、σPi,σMiはPMとMM強度のそれぞれのエラー値である。〕を用いて算出することを特徴とする。
【0018】
請求項7の発明は、請求項4の発明において、前記発現量のエラー(σAvgDiff)は、
【0019】
【数9】
Figure 2004357550
を用いて算出することを特徴とする。
【0020】
請求項8に係る発明によれば、複数の遺伝子転写物サンプルをそれぞれハイブリダイゼーションさせたオリゴヌクレオチドアレイ群から得られた遺伝子発現データの解析方法であって、
(1)オフセットの影響がすべてのハイブリダイゼーションデータで等価であるように、すべての前記オリゴヌクレオチドアレイ群において、バックグラウンド強度値を同じレベルに調節する、ステップと、
(2)前記オリゴヌクレオチドアレイ群に対して参照オリゴヌクレオチドアレイを選択するステップと、
(3)前記遺伝子ごとに、前記参照オリゴヌクレオチドアレイと前記複数のオリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイとで対応する前記プローブペアからrPMを前記オリゴヌクレオチドアレイ群で使用するすべての前記プローブペアに対して算出を行なうステップと、
(4)最大値と最低値を取り除いた前記ステップ(3)で求めたrPMから平均値と標準偏差を算出し、前記プローブペアに関して該平均値から標準偏差のk倍以上外れたrPMを有するプローブペアをアウトライアーとして同定するステップと、
(5)前記参照オリゴヌクレオチドアレイと前記オリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いた前記オリゴヌクレオチドアレイとの間のすべての組みあわせに対して前記ステップ(4)を適用するステップと、
(6)前記オリゴヌクレオチドアレイ群において全オリゴヌクレオチドアレイを通した前記アウトライアーを指定し、少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定された前記プローブは全オリゴヌクレオチドアレイに対する前記アウトライアーとなることを特徴とする、ステップと、
(7)前記オリゴヌクレオチドアレイ群にわたって共通の前記アウトライアーを検出し、該アウトライアーを除去したうえで遺伝子発現量を再解析するステップと、
よりなる遺伝子発現データの解析方法を提供することができる。
【0021】
請求項9の発明は、請求項8の発明において、前記rPMはオリゴヌクレオチドアレイの各遺伝子に対する前記遺伝子プローブのパーフェクトマッチ及びミスマッチのセットすべてにわたって一定であることを特徴とする。
【0022】
請求項10の発明は、請求項8の発明において、前記rPMの前記平均値はすべての前記遺伝子において、ほぼ1であることを特徴とする。
【0023】
請求項11の発明は、請求項8の発明において、前記アウトライアーは前記rPMの不変性を用いて矛盾した振舞いにより抽出可能であることを特徴とする。
【0024】
請求項12の発明は、請求項8の発明において、前記参照オリゴヌクレオチドアレイは、前記アウトライアーを同定するための基準となる前記rPMを導くオリゴヌクレオチドアレイであり、
【0025】
【数10】
Figure 2004357550
〔式中、PMi,p、MMi,p、PMi,q、及びMMi,qは、対応するオリゴヌクレオチドアレイp又はqのプローブセットのプローブペアiのパーフェクトマッチ又はミスマッチ強度を示す。〕のパラメータqで表されることを特徴とする。
【0026】
請求項13の発明は、請求項1又は8の発明において、前記オリゴヌクレオチドアレイはPMプローブ及びMMプローブを有するアフィメトリクス社のGeneChipのオリゴヌクレオチドアレイ又は前記PMプローブ及び前記MMプローブと同じ機能を備えるオリゴヌクレオチドアレイであることを特徴とする。
【0027】
【発明の実施の形態】
本発明は、図面を参照して下記において詳細に記載される。
【0028】
解析される遺伝子情報はオリゴヌクレオチドアレイ又はcDNAマイクロアレイにより分析される遺伝子情報である。使用することができるオリゴヌクレオチドアレイとしては、アフィメトリクス社製GeneChipを用いる。かかるチップを用い、特定の転写物の発現は、複数のプローブにより検出され得る。各ターゲットは、下記の2つのプローブを用いて検出され、それらは、ターゲット配列から決定された参照配列に完全に相補的であるように設計されるPMプローブと、ターゲットの配列との間のハイブリダイゼーションに有意に影響し得る、幾つかのミスマッチ以外は参照配列に相補的であるように設計されるプローブである、MMプローブである。好ましい実施態様では、MMプローブは、中央(例えば、25塩基のプローブの13番目)位置でのホモマー塩基ミスマッチ以外は、参照配列に相補的であるように設計される。MMプローブは、通常、クロスハイブリダ−ゼーション又は非特異的なハイブリダイゼーションなどにおけるコントロールとして用いられる。一般的に、プローブペアはPM及びその対応するMMプローブからなる。PMプローブとMMプローブとの間の差異は、これらのプローブに対応する遺伝子発現量に相当する量である。
【0029】
同じプールから取得した4サンプルのハイブリダイゼーションのデータ解析結果を図1に示す。アベレージディファレンスが増加するにつれてアベレージディファレンスの標準偏差が増加する傾向があることを示している。このことはPM、MMハイブリダイゼーション強度が同じ傾向を表すと考えられる。
【0030】
ここで、遺伝子発現量エラーの評価方法(エラーモデル)を考察する。
【0031】
一般的に、あるパラメータに対するエラー(ノイズ)を評価するためにはそのパラメータの複数サンプルが必要である。本方法においては、単一の実験からでも、遺伝子を構成している複数のプローブ情報を用いることにより、発現量エラーを得ることができる。
【0032】
遺伝子発現量に関するエラーを得るために最初にパーフェクトマッチとミスマッチプローブ強度値とそのエラーの一般的な関係を導く。かかる関係を発現していない遺伝子のPMプローブ及びMMプローブ強度値から求めた後、オリゴヌクレオチドアレイ上に搭載されているすべての遺伝子(すなわち遺伝子が発現しているものも含めてすべて)に対して適用し、各遺伝子ごとに発現エラーを計算する。
【0033】
発現量エラーを算出するための重要な仮定は以下のとおりである。
【0034】
(1)遺伝子が発現していない場合、又は遺伝子発現量がわずかで装置の検出限界以下である場合には、パーフェクトマッチとミスマッチ強度値は非特異的なハイブリダイゼーションなどのノイズ要因を反映したものである。この場合、PMプローブ及びMMプローブは判別不能であり、単にノイズが重畳された二つの信号サンプルとして扱うことができる。なお、発現していない遺伝子を決定するために、そのような遺伝子のアベレージディファレンスが負値であるという仮定を使用する。
【0035】
無作為に選択された10の実験において、実験につきアベレージディファレンス<0であるすべてのコール(call)に対してアベレージディファレンス<0のA コール(デフォルト設定においてアフィメトリクス社製のアルゴリズムである、アフィメトリクスアブソリュートコール(Affymetrix Absolute Call)を使用した呼び出しであり、A コールは遺伝子が発現していないことをあらわす)の平均値は、MG_U74v2Aタイプのチップにおいて99.89%である。Mu19KsubAタイプのチップにおける同様のパラメータは99.1%であり、上述の仮定を正当化する。エラーの算出において、アベレージディファレンスが0より小さいもの以外のすべての転写産物を無視する。
【0036】
すべてのプローブにおいて、ターゲットとのハイブリダイゼーション、又は蛍光物質のラベリング等を含む熱力学的挙動は等しい。この仮定により、発現していない遺伝子から得られた発現量と発現量エラーの関係(前述の仮定(1))をオリゴヌクレオチドアレイ上のすべての遺伝子に拡大適用することができる。
【0037】
図2を参照するに、遺伝子発現量に対して発現エラーを評価する方法が示される。
【0038】
アベレージディファレンスが負値の遺伝子を選択する。アベレージディファレンスは式15で定義されており、式中、PM、MMはi番目のプローブペアの強度であり、navgはアベレージディファレンスを算出するために使用するプローブペア数である(アフィメトリクス社製のGeneChipアルゴリズムの取り扱い説明書である、GeneChip3.1 Expression Analysis Algorithm Tutorialを参照)。
【0039】
【数11】
Figure 2004357550
選択した遺伝子の各PM及びMMプローブペアに対して、ハイブリダイゼーションシグナル強度とそのエラー(変動)を評価するために、下記の式16、式17、式18を使用する。
【0040】
【数12】
Figure 2004357550
式中、PMはPMプローブのシグナル強度であり、MMは同一のプローブペアにおけるMMプローブのシグナル強度である。左辺の添字PM及びMMはプローブタイプを示す。
【0041】
一般的な関係の強度値と該強度のエラーにおいて、エラーは強度値が一定範囲に属するエラーサンプルの標準偏差として計算される。このようにして、アベレージディファレンス<0の転写産物におけるエラーとプローブ強度の関係を得る。Mu19Kチップでのハイブリダイゼーションにおけるエラーと強度関係の曲線が図3に示されている。3つの直線は様々なS/N比を表し、上のグラフから順にそれぞれS/N比が2,3及び4である。エラーと強度の関係は、すべての個々のパーフェクトマッチシグナルとミスマッチシグナルの効果的なエラーを評価するために使用される。エラーの特定値は、エラーと強度関係の曲線から得られる。
【0042】
次いで、プローブペアの差、PM−MMのエラー(σ)は、式19によって与えられ、式中、σPi,σMiはPMとMM強度のそれぞれのエラー値である。これらの値を用いて、発現量のエラー(σAvgDiff)は式20によって表すことができる。すべての遺伝子を対象として、遺伝子ごとにこれらの計算を行なう。
【0043】
【数13】
Figure 2004357550
式20のエラー(σAvgDiff)は、すべてのエラー要因を表す統計的な値である。本方法である、ここに提案されたモデルの利点は、単一のハイブリダイゼーションから総エラーを決定するための性能を有することである。
【0044】
次いで、遺伝子発現解析の複数実験におけるアウトライアーの検出及び遺伝子発現量の解析方法を考察する。
【0045】
オリゴヌクレオチドアレイは何千もの遺伝子転写産物の解析を可能にするが、エラーの発生から逃れられず、これは遺伝子解析を煩雑にする。オリゴヌクレオチドアレイデータにおけるエラー発生の原因は、アレイ自体に起因するものと実験上発生する原因がある。アレイ自体に起因の要因は、プローブデザイン、アレイの製造不良等である。実験上の要因は、サンプルの品質(汚染度合い)、サンプル処理方法、ハイブリダイゼーション及び他のプロトコール、スキャニング、サンプルの取り扱いなどである。一般的に、実験上派生する要因に対しては何らかの手段でエラーを抑制することができるが、アレイ自体に起因するエラーに対しては有効な手段は存在しない。
【0046】
パーフェクトマッチ及びミスマッチデータを用いた解析が、図4,5に示されている。値rPMは各遺伝子とオリゴヌクレオチドアレイとの間で対応するプローブペアで計算された。平均的な値rPMは同じプローブセットを通して行なわれた。遺伝子のプローブセットすべてにわたって式21のrPMの平均値は一定であり、オリゴヌクレオチドアレイp、qの組合せに関係なく、すべての遺伝子においてrPMの平均値はほぼ1である。
【0047】
【数14】
Figure 2004357550
式中、PMi,p、MMi,p、PMi,q、及びMMi,qは、対応するオリゴヌクレオチドアレイp又はqのプローブセットのプローブペアiのパーフェクトマッチ又は又はミスマッチ強度である。
【0048】
すなわち、式22の左辺の値は、オリゴヌクレオチドアレイp、qのすべてのペアにおける同一の転写産物に属するi番目のプローブペアで統計的に一定に維持される。
【0049】
【数15】
Figure 2004357550
一定のlpqはオリゴヌクレオチドアレイの選択されたペアにわずかに依存するが、ほとんどの場合でほぼ1である。パラメータrPMの値は狭い範囲に限定され、値1.8をほとんど超過しないことが確認された。それに対して、2つの実験で発現量が2倍以上変動した遺伝子の数は数十個から数百個である。これらの事実は、発現量の変動にかかわらずrPMがほぼ一定に保たれていることを示しており、パラメータrPMの不変性を用いて矛盾した振る舞いをしているプローブを抽出可能であることを意味する。すなわち、rPMがある一定の間隔(平均±標準偏差(SD)のk倍)からはずれるようなプローブペアをアウトライアーとして検出することができる。
【0050】
本方法は、アフィメトリクス社オリゴヌクレオチドアレイに基づいており、かかるアレイおいて、全プローブペアに関してパーフェクトマッチからミスマッチ強度値を引き算し(PM−MM)、その値を平均した値はRNA濃度に正比例することが報告されている(David J.Lockhart et al.:Expression monitoring by hybridization to high−density oligonucleotide arrays, Nature Biotechnology, 14, 1675−1680(1996 December)4を参照)。これは式23に表され、式中、kは定数であり、cはRNA濃度であり、nは非線形を表す定数である。
【0051】
【数16】
Figure 2004357550
さらに、ハイブリダイゼーションメカニズムがすべてのプローブペアにおいて等しく、式23が個々のペアからの応答の一次結合であることにより、単一プローブペアのための式24を導くことができる。
【0052】
【数17】
Figure 2004357550
式24のPM、MMは未知変数であるが、これらは式25、26及び27により満たされる。
【0053】
【数18】
Figure 2004357550
変数式25、26に示されるように1次の比例関係の場合には(n=1)、式22に式25及び26を代入すると2実験で決定されるrPMはオリゴヌクレオチドアレイの組み合わせに関わらず1になることがわかる。これが、実験データから得られた事実(rPMが平均1の狭い範囲に限定されること(図4、5))の理論的根拠である。
【0054】
本方法を活用するために、どのようにエラー要因が本方法の結果に影響するかを考慮する(n=1)。エラー要因を3グループに分類する。(1)無作為な要因、例えばクロスハイブリダイゼーション、汚染度、製造不良などである。(2)系統的なエラー要因。(3)非特異的なハイブリダイゼーションによって表される、付加的な要因である。これらのエラー要因を考慮して式25、26を拡張したものを式28、29に示す(添字iは省略)。パーフェクトマッチシグナルにおける式28において、無作為な要因は、kPC(クロスハイブリダイゼーション)に反映され、付加的な要因はkPN(非特異的なハイブリダイゼーション)によって反映され、その他のエラー要因はεによって反映される。式中、kPCはクロスハイブリダイゼーションするプローブ能力を反映する有効な係数であり、cはプローブとクロスハイブリダイゼーションする遺伝子の効果的なRNA濃度であり、kPNはプローブの非特異的ハイブリダイゼーションを反映する有効な係数であり、cは非特異的なハイブリダイゼーションに含まれる産物の効果的な濃度である。ミスマッチシグナルにおける式29のパラメータの意味は式28と同様である。
【0055】
【数19】
Figure 2004357550
これらすべての3要素は、理想的なデータにエラーをもたらし、一連の実験におけるデータ値の矛盾に帰着する。
【0056】
図6は同一のプローブセットにおけるパーフェクトマッチとミスマッチシグナルの様々なレベルを例示する。これは、定数kとkが同一のプローブセットのプローブペアにおいて可変であることを実証する。同一のプローブペアのセットであっても異なるプローブペアが異なるシグナルの絶対強度値を与えるので、アベレージディファレンスの計算において異なる重みを有する。アベレージディファレンスが遺伝子発現の量的なパラメータとして使用される場合、すべてのオリゴヌクレオチドアレイを通して同一のプローブペアから一連のオリゴヌクレオチドアレイのアベレージディファレンスを計算することが必要である。各オリゴヌクレオチドアレイにおけるプローブセットでアウトライアーが決定されると、少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定されたすべてのプローブペアは排除される。
【0057】
ここにアウトライアーを検出するための演算法が示される。
【0058】
アウトライアーの検出方法は式22に基づく。理想的には、式22の値は1である。アウトライアーの同定は、単に値rPMのモニタリングによって達成できる。許容範囲外の値rPMを有するプローブペアはアウトライアーとして考慮される。
【0059】
しかしながら、オリゴヌクレオチドアレイデータで処理する場合、エラー要因がrPMに基づく結果に対してどのように影響するかを考慮すべきである。非特異的なハイブリダイゼーションの要因と同様に、すべてのエラー要因、無作為な要因、エラー要因は、値rPMを1にしない。非特異的なハイブリダイゼーションが効果的なシグナル強度を覆い隠すだけであるが、データの傾向性を変化しない一方で、無作為な要因とエラー要因はデータの傾向性を変化し、一貫性のないデータの振舞いを主に引き起こすものとして処理される。この時点で、非特異的ハイブリダイゼーションの要因をゼロと仮定する。考慮すべきことは、転写された遺伝子の濃度の測定能力がシステムの検出限界(DL)によって制限される場合、たとえどのようなオリゴヌクレオチドアレイの状況においても、rPMの値が1として不変であるかどうかということある。そこで、3つの場合を考察した。
【0060】
(a)遺伝子がpとqの両オリゴヌクレオチドアレイの検出限界を超過して発現した場合、すなわち、c、c>>DLである場合、アウトライアーの検出式は原理的には変化しない。両オリゴヌクレオチドアレイのPM/MMの比率はターゲットである転写産物とハイブリダイズするプローブ性能を反映する。この性能はRNA濃度とは関係ないので、無作為な要因が存在しない限り、値rPMは1に限りなく近い。
【0061】
(b)一つのオリゴヌクレオチドアレイの遺伝子の発現が検出限界に近似する場合、そのオリゴヌクレオチドアレイのパーフェクトマッチとミスマッチシグナルは、ターゲット遺伝子の転写産物とハイブリダイズするプローブ能力における多くの情報を含まない。ノイズ作用が無視できないために、値rPMはもはや1ではない。問題の複雑性により、値rPMを厳密に決定することは不可能である。オリゴヌクレオチドアレイqの遺伝子発現はわずかであり、k−k<εの条件を満たすことを仮定すると、おおまかな値rPMは式30として記載される。
【0062】
【数20】
Figure 2004357550
式30は値rPMがk/kとわずかに転写された遺伝子の濃度cの両者に依存することを示している。したがって、値rPMが遺伝子発現か又はターゲットにハイブリダイズするプローブの特異性に対してもはや不変であるとは考えることはできない。
【0063】
濃度cはプローブペアセットのすべてのプローブペアに対して共通であり、プローブセットでのk/k比率が事前に利用可能であるならば、値rPMはアウトライアー検出において使用できる。
【0064】
(c)遺伝子発現がオリゴヌクレオチドアレイqの検出限界以下である場合、すなわち、c<<DLである場合、値rPMはノイズ変動を強度に反映し、アウトライアーを検出するために有効に使用できない。かかる値の使用は、過剰なほど多くのアウトライアー数を潜在的に導くだろう。これは、付加的な非特異的ハイブリダイゼーションの要因を完全に除外することが好ましくなく、オフセットの要因はノイズ作用を覆い隠し、特に低発現レベルにおいてアウトライアーの数を調整するために効果的に使用できる。付加的な要因の存在は値rPMを1に導かない。付加的な要因が増大すると、値rPMは極限まで達し、さらに付加的な要因が増大すると、値rPMは再度1に接近する。これは、付加的な要因のマスキング作用に対応するためである。
【0065】
図7を参照するに、本発明による複数のオリゴヌクレオチドアレイにおけるアウトライアー検出及び遺伝子発現量の再解析方法が示される。
【0066】
アウトライアーの検出は値rPMに基づき、実施されるアルゴリズムは、次のステップからなる。
【0067】
(1)オフセットの影響がすべてのハイブリダイゼーションデータで等価であるように、すべてのオリゴヌクレオチドアレイ群において、バックグラウンド強度値を同じレベルに調節する。
【0068】
(2)参照オリゴヌクレオチドアレイを選択する。参照オリゴヌクレオチドアレイとは、rPM計算の基準となるオリゴヌクレオチドアレイであり、式21で表される。
【0069】
(3)遺伝子ごとに、参照オリゴヌクレオチドアレイと複数のオリゴヌクレオチドアレイ群から参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイとで対応するプローブペアからrPMを計算する。計算はすべてのプローブペアに対して行なう。
【0070】
(4)(3)で求めたrPM(最大値と最低値を取り除いて)から平均値と標準偏差を計算する。プローブペアに関して平均値からk倍のSD以上外れたrPMを有するプローブペアをアウトライアーとする。
【0071】
(5)オリゴヌクレオチドアレイ群から参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイと参照オリゴヌクレオチドアレイとの間のすべての組み合わせに対して、前述のステップ(4)を適用する。
【0072】
(6)オリゴヌクレオチドアレイ群において全オリゴヌクレオチドアレイを通したアウトライアーを指定する。少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定されたプローブは全オリゴヌクレオチドアレイに対するアウトライアーとなる。
【0073】
(7)オリゴヌクレオチドアレイ群にわたって共通のアウトライアーを検出し、これらアウトライアーを除去したうえで発現量を再解析する。
【0074】
したがって、オリゴヌクレオチドアレイ群にわたって矛盾を生じることなく発現量の再解析が可能となる。
【0075】
プローブデザインに起因するエラーを考慮するに、通常の場合、大半のプローブは正確に設計されていると推定されるが、アウトライアー数が全プローブペアの半数以上である場合は、アベレージディファレンスが生物学上意味のある結果を示すことを確証しない可能性がある。その場合は、アウトライアーを減らすために前記k値を増やす。
【0076】
アウトライアーを検出する本方法の利点は、
(1)実施が容易であり、追加的なデータを必要とせず、煩雑でなく、効率的な解析であり、したがってオンライン処理に適する。
【0077】
(2)オフセット要因のために、低発現の遺伝子におけるアウトライアー数は極端に多くない。
【0078】
(3)アウトライアーの閾値レベルは調節可能である。
【0079】
【実施例】
以下に実施例を挙げて本発明をさらに説明するが、本発明は以下の実施例に限定されるものではない。
【0080】
本発明のエラーモデルにより遺伝子発現量をアベレージディファレンス±エラーとして表現することが可能となり発現量の信頼区間の評価が可能となる。図8は、いくつかの遺伝子に対してそれぞれのエラー区間を含んだ発現レベルを示す。エラーバーは遺伝子発現の信頼区間を示す。信頼区間は±1SDに対応する。例えば、MIP1−B_atは、発現量自体は大きいがエラーは発現量以上であり発現の信頼性が低い。それに対しTNFRII_atは、発現量自体はMIP1−B_atよりも低いがエラー区間が非常に狭いため、この遺伝子に関しては高い確率で発現していると推察される。信頼性に関する1つの指標としてCI(Confidence Index、信頼性の指標)=アベレージディファレンス/エラーを導入し、CI>1の場合に発現していると考えた場合、MIP1−B_atは発現しているがTNFRII_atは発現していない。
【0081】
本発明の方法を同一プールから採取した2つのサンプルのハイブリダイゼーション実験データに適用し、再計算したアベレージディファレンス値及び発現の信頼性をアフィメトリクス社製の解析アルゴリズムである、アブソリュートアナリシス(Absolute Analysis)のMAS4又はMAS5を用いて得たデータと比較した。ハイブリダイゼーションはMG_U74Aチップで行なわれた。図9のデータは前述のアフィメトリクス社のMAS4解析アルゴリズムを用いて前述の実験を解析した結果の散布図である。また、図10aのデータは本発明による方法を用いて前述の実験を解析した結果の散布図である。さらに、図10b及び10cは、本発明による方法及びMAS5解析アルゴリズムを用いて前述の実験を解析した結果の散布図である。アフィメトリクス社のMAS4で得たP−コール(アフィメトリクス社が発現していると判定したもの)判定の遺伝子と本発明の方法で選んだ発現している遺伝子(CI>1)が表示してある。本方法で発現していると判定した遺伝子の数はアフィメトリクスが発現していると判定した遺伝子より多いにもかかわらず、理想的データ(45°度の線)からの偏差は小さい。アフィメトリクス社のMAS5で得たデータと比較すると、本方法で得たデータの偏差のほうが少ない。これは、遺伝子発現解析での新しい方法の優位性を示している。
【0082】
プローブアウトライアーによるアベレージディファレンスの再解析の効果をMouse 11kのマウスチップを利用し、18のハイブリダイゼーション実験のデータで検討した(表1)。
【0083】
【表1】
Figure 2004357550
すなわち、6実験における10遺伝子の発現量に関して、各遺伝子のTaqManPCR(登録商標)の発現データを基準のデータとし、これらとある閾値範囲内で発現量が一致しないと判定される実験の数をアフィメトリクス社のMAS4、MAS5アルゴリズム及び本方法で比較した。本データは図11a,11b,11cに示され、図11a乃至11cにおいて、TMNはTaqManPCRを示し、AFFYNはMAS4を示し、AFFY5NはMAS5を示し、RADNは本発明の方法を示す。表1において、TMNはTaqManPCRを示し、AffyはMAS4を示し、Affy5はMAS5を示し、Radは本発明の方法を示す。括弧内の値(1.5または2.0)は閾値をあらわす。特に、閾値が1.5の場合において、本方法はMAS4,MAS5に比べて一致しない遺伝子の数が顕著に少なく、本方法の優位性は明白である。
【0084】
本発明をある好ましい実施例を参照して説明したが、本発明の趣旨及び範囲内において変形及び修正を行なえることは理解されるであろう。
【0085】
【発明の効果】
上述の如く、本発明によれば、遺伝子発現量に対して発現エラーを評価し、プローブ強度の解析を通して得られた発現モデルに基づくアウトライアーの検出により、複数のオリゴヌクレオチドアレイ間で発現量の矛盾をなくし、より精度の高い発現量の再計算が可能となった。
【図面の簡単な説明】
【図1】同じサンプルプールから採取した4つのマウスサンプルのハイブリダイゼーション実験(MG_U74Aチップ)から得られた標準偏差対アベレージディファレンスのグラフである。
【図2】本発明による遺伝子発現量に対して発現エラーを評価する方法を概略するフローチャートである。
【図3】Mu19KsubAチップを用いたハイブリダイゼーション実験におけるエラーと強度のグラフである。
【図4】Mu11KsubAチップでの平均値rPMのヒストグラムである。
【図5】MG_U74Av2チップでの平均値rPMのヒストグラムである。
【図6】遺伝子w13595_s_atの20のプローブペアにおけるパーフェクトマッチとミスマッチシグナル強度値を示すグラフである。
【図7】本発明による複数実験におけるアウトライアー検出及び遺伝子発現量の再解析方法を概略するフローチャートである。
【図8】MG_U74Aチップで20のコントロール遺伝子におけるアベレージディファレンス及びエラーを示すグラフである。
【図9】MAS4で得た2つのハイブリダイゼーション実験のデータの散布図である。
【図10a】本発明による方法で得た2つのハイブリダイゼーション実験のデータの散布図である。
【図10b】本発明による方法及びMAS5で得た発現データを示すグラフである。
【図10c】本発明による方法及びMAS5で得た発現データを示すグラフである。
【図11a】正規化した遺伝子プロファイルを示すグラフである。
【図11b】正規化した遺伝子プロファイルを示すグラフである。
【図11c】正規化した遺伝子プロファイルを示すグラフである。

Claims (13)

  1. オリゴヌクレオチドアレイを使用する遺伝子転写物サンプルの遺伝子発現データの解析方法であって、
    (1)遺伝子において発現していないと予測される遺伝子を選択する、ステップと、
    (2)前記(1)のステップで選択した遺伝子の各パーフェクトマッチプローブ及びミスマッチプローブペアに対して、強度サンプル及びエラーサンプルを算出する、ステップと、
    (3)前記(2)のステップで求めたすべての前記強度サンプル及び前記エラーサンプルを利用し、強度値と該強度値のエラー値の一般的な関係を導く、ステップと、
    (4)すべての遺伝子を対象として、遺伝子ごとに前記(3)のステップの前記強度値と該強度値のエラー値の一般的な関係を利用してすべてのパーフェクトマッチプローブ強度値及びミスマッチプローブ強度値に対する強度エラー値を求める、ステップと、
    (5)前記強度エラー値(σPi,σMi)を用いて遺伝子発現量のエラー(σAvgDiff)を算出する、ステップと、
    よりなる遺伝子発現データの解析方法。
  2. 前記遺伝子において発現していないと予測される遺伝子は、アベレージディファレンス<0であることを特徴とする請求項1に記載の遺伝子発現データの解析方法。
  3. 前記アベレージディファレンスは、
    Figure 2004357550
    〔式中、PM、MMはi番目のプローブペアのシグナル強度であり、navgはアベレージディファレンスを算出するために使用するプローブペア数である。〕で定義されることを特徴とする請求項1に記載の遺伝子発現データの解析方法。
  4. 前記アベレージディファレンスは遺伝子発現量を表し、前記パーフェクトマッチプローブと前記ミスマッチプローブの一つのプローブペアに対する前記強度サンプル及び前記エラーサンプルは、次式
    Figure 2004357550
    〔式中、PMはPMプローブのシグナル強度であり、MMは同一のプローブペアにおけるMMプローブのシグナル強度であり、左辺の添字PM及びMMはプローブタイプを示す。〕を用いて算出することを特徴とする請求項1に記載の遺伝子発現データの解析方法。
  5. 前記強度値と該強度値のエラー値の一般的な関係に必要な前記強度のエラー値は、前記強度サンプルがある一定範囲内に属するエラーサンプルの標準偏差(σ)として算出されることを特徴とする請求項1に記載の遺伝子発現データの解析方法。
  6. 一つのi番目の前記パーフェクトマッチプローブと前記ミスマッチプローブのプローブペアに対する前記パーフェクトマッチプローブ強度値と前記ミスマッチプローブ強度値の差分の前記強度エラー値(σ)は、
    Figure 2004357550
    〔式中、σPi,σMiはPMとMM強度のそれぞれのエラー値である。〕を用いて算出することを特徴とする請求項1に記載の遺伝子発現データの解析方法。
  7. 前記発現量のエラー(σAvgDiff)は、
    Figure 2004357550
    を用いて算出することを特徴とする請求項4に記載の遺伝子発現データの解析方法。
  8. 複数の遺伝子転写物サンプルをそれぞれハイブリダイゼーションさせたオリゴヌクレオチドアレイ群から得られた遺伝子発現データの解析方法であって、
    (1)オフセットの影響がすべてのハイブリダイゼーションデータで等価であるように、すべての前記オリゴヌクレオチドアレイ群において、バックグラウンド強度値を同じレベルに調節する、ステップと、
    (2)前記オリゴヌクレオチドアレイ群に対して参照オリゴヌクレオチドアレイを選択する、ステップと、
    (3)前記遺伝子ごとに、前記参照オリゴヌクレオチドアレイと前記複数のオリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いたオリゴヌクレオチドアレイとで対応する前記プローブペアからrPMを前記オリゴヌクレオチドアレイ群で使用するすべての前記プローブペアに対して算出を行なう、ステップと、
    (4)最大値と最低値を取り除いた前記ステップ(3)で求めたrPMから平均値と標準偏差を算出し、前記プローブペアに関して該平均値から標準偏差のk倍以上外れたrPMを有するプローブペアをアウトライアーとして同定する、ステップと、
    (5)前記参照オリゴヌクレオチドアレイと前記オリゴヌクレオチドアレイ群から前記参照オリゴヌクレオチドアレイを除いた前記オリゴヌクレオチドアレイとの間のすべての組みあわせに対して前記ステップ(4)を適用するステップと、
    (6)前記オリゴヌクレオチドアレイ群において全オリゴヌクレオチドアレイを通した前記アウトライアーを指定し、少なくとも一つのオリゴヌクレオチドアレイでアウトライアーとして同定された前記プローブは全オリゴヌクレオチドアレイに対する前記アウトライアーとなることを特徴とする、ステップと、
    (7)前記オリゴヌクレオチドアレイ群にわたって共通の前記アウトライアーを検出し、該アウトライアーを除去したうえで遺伝子発現量を再解析するステップと、
    よりなる遺伝子発現データの解析方法。
  9. 前記rPMはオリゴヌクレオチドアレイの各遺伝子に対する前記遺伝子プローブのパーフェクトマッチ及びミスマッチのセットすべてにわたって一定であることを特徴とする請求項8に記載の遺伝子発現データの解析方法。
  10. 前記rPMの前記平均値はすべての前記遺伝子において、ほぼ1であることを特徴とする請求項8に記載の遺伝子発現データの解析方法。
  11. 前記アウトライアーは前記rPMの不変性を用いて矛盾した振舞いにより抽出可能であることを特徴とする請求項8に記載の遺伝子発現データの解析方法。
  12. 前記参照オリゴヌクレオチドアレイは、前記アウトライアーを同定するための基準となる前記rPMを導くオリゴヌクレオチドアレイであり、
    Figure 2004357550
    〔式中、PMi,p、MMi,p、PMi,q、及びMMi,qは、対応するオリゴヌクレオチドアレイp又はqのプローブセットのプローブペアiのパーフェクトマッチ又はミスマッチ強度を示す。〕のパラメータqで表されることを特徴とする、請求項8に記載の遺伝子発現情報のデータ解析方法。
  13. 前記オリゴヌクレオチドアレイはパーフェクトマッチプローブ及びミスマッチプローブを有するアフィメトリクス社のGeneChipのオリゴヌクレオチドアレイ又は前記パーフェクトマッチプローブ及び前記ミスマッチプローブと同じ機能を備えるオリゴヌクレオチドアレイであることを特徴とする請求項1又は8に記載の遺伝子発現データの解析方法。
JP2003158454A 2003-06-03 2003-06-03 遺伝子発現データの解析方法 Pending JP2004357550A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003158454A JP2004357550A (ja) 2003-06-03 2003-06-03 遺伝子発現データの解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003158454A JP2004357550A (ja) 2003-06-03 2003-06-03 遺伝子発現データの解析方法

Publications (1)

Publication Number Publication Date
JP2004357550A true JP2004357550A (ja) 2004-12-24

Family

ID=34051855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003158454A Pending JP2004357550A (ja) 2003-06-03 2003-06-03 遺伝子発現データの解析方法

Country Status (1)

Country Link
JP (1) JP2004357550A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012531211A (ja) * 2009-06-26 2012-12-10 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 系統発生分析のための方法およびシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012531211A (ja) * 2009-06-26 2012-12-10 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 系統発生分析のための方法およびシステム

Similar Documents

Publication Publication Date Title
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
CN112020565A (zh) 用于确保基于测序的测定的有效性的质量控制模板
JP7373047B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
CN110870016A (zh) 用于序列变体呼出的验证方法和系统
WO2013086352A1 (en) Prostate cancer associated circulating nucleic acid biomarkers
Kreil et al. Tutorial section: there is no silver bullet—a guide to low-level data transforms and normalisation methods for microarray data
US9002653B2 (en) Methods for assembling panels of cancer cell lines for use in testing the efficacy of one or more pharmaceutical compositions
Jiang et al. Methods for evaluating gene expression from Affymetrix microarray datasets
WO2017220508A1 (en) Methods for processing next-generation sequencing genomic data
TWI814753B (zh) 用於標靶定序之模型
WO2009091798A1 (en) Quantitative genetic analysis
Snedecor et al. Fast and accurate kinship estimation using sparse SNPs in relatively large database searches
KR101771402B1 (ko) 핵산 정량 방법
Binder et al. " Hook"-calibration of GeneChip-microarrays: Chip characteristics and expression measures
Hollox Analysis of copy number variation using the paralogue ratio test (PRT)
JP2004357550A (ja) 遺伝子発現データの解析方法
Aimone et al. Unbiased characterization of high-density oligonucleotide microarrays using probe-level statistics
Kuśmirek et al. Clustering-based optimization method of reference set selection for improved CNV callers performance
Simpson et al. A comparison of match-only algorithms for the analysis of Plasmodium falciparum oligonucleotide arrays
JP7366129B2 (ja) ゲノムデータを次世代シーケンシングする際のバリアント検出方法
JP2010509904A (ja) 配列が解明された生物を検出および同定するための遺伝子標的の設計と選択
Mehta Microarray analysis of mRNAs: experimental design and data analysis fundamentals
CN115552535A (zh) 基因组测序和检测技术
Zimmermann et al. Analysis of Affymetrix exon arrays
CN115747334A (zh) 杂合性缺失的检测方法及装置