JP2008524627A - マイクロアレイ遺伝子発現プロファイリングデータを規格化するための普遍的参照標準 - Google Patents

マイクロアレイ遺伝子発現プロファイリングデータを規格化するための普遍的参照標準 Download PDF

Info

Publication number
JP2008524627A
JP2008524627A JP2007548286A JP2007548286A JP2008524627A JP 2008524627 A JP2008524627 A JP 2008524627A JP 2007548286 A JP2007548286 A JP 2007548286A JP 2007548286 A JP2007548286 A JP 2007548286A JP 2008524627 A JP2008524627 A JP 2008524627A
Authority
JP
Japan
Prior art keywords
reference standard
gene expression
data
gene
microarray
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007548286A
Other languages
English (en)
Inventor
スン−チー クオ,
クオ−ヤン カオ,
アンドリュー ホアング,
Original Assignee
チャイナ シンセティック ラバー コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by チャイナ シンセティック ラバー コーポレーション filed Critical チャイナ シンセティック ラバー コーポレーション
Publication of JP2008524627A publication Critical patent/JP2008524627A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

特定の生体サンプル用に与えられたマイクロアレイによって得られる遺伝子発現データを規格化する方法であって、各遺伝子ごとに発現度の関数として前記データを分類すること、同一の発現度の関数によって遺伝子発現データの参照標準を分類すること、及び、該参照標準における対応する値に前記特定の遺伝子発現データの発現度を規格化することからなり、参照標準は、前記特定の遺伝子発現データ以外の遺伝子発現データから得られる。この方法は、関連機器のアップデートを含む、様々な条件下において与えられたマイクロアレイによって得られるデータを規格化するために適用される。

Description

この発明は、参照標準遺伝子発現データを使用して遺伝子発現データを規格化することからなる、特定の生体サンプル用に与えられたマイクロアレイ上で得られる遺伝子発現データを規格化する方法に関する。
この出願は、ここで全体を参照することにより組み入れられる、2004年12月20日に提出された米国出願番号11/015,764の一部継続出願である。
親出願11/015,764の付録のコンパクトディスクにある資料は、ここで参照されることにより完全に組み入れられ、コンパクトディスクは、2004年12月16日に作成された、750KBサイズの「参照標準.txt」ファイルを含む。
高密度DNA又はオリゴヌクレオチドのマイクロアレイ技術における最近の進歩は、腫瘍や他の組織における多数の遺伝子発現の測定を可能にしている。腫瘍及び他の病気の性質は、数千の遺伝子の発現によって決定づけられるために、このようなアプローチのための「遺伝子発現プロファイリング」が作られたことによって、我々は、腫瘍性疾患の臨床的性質や因果関係を予想し、患者の臨床的問題を効果的に処理することができる(非特許文献1〜12)。しかしながら、臨床応用のためのマイクロアレイデータの分析は、データベースにおいて、異なる実験条件下で、複数のアレイから時を異にして得られた前の結果と比較することを必要とする。このことは、薬剤使用前における細胞の遺伝子発現プロファイルに対して、細胞の遺伝子発現への薬剤の効果を比較するデータの規格化のような、例えば与えられた実験セット範囲内でのデータの(内部の)規格化と比較して、難しい問題である。そこで、与えられたアレイタイプの普遍的参照標準の使用により、外部規格化の問題が生じる。
ゴラブ TR他,サイエンス 286(1999):531-537 ビットナー M他,ネイチャー 406(2000):536-540 ペロウ CM他,ネイチャー 406(2000):747-752 ヘーデンフォーク I他,New Eng J Med 344(2001):539-548 カーン J他,Nature Med 7(2001):673-679 アリザデー AA他,ネイチャー 403(2000):503-511 ダーナセカラン SM,他ネイチャー 412(2001):822-826 シロタ Y他,ヘパトロジー 33(2001):832-840 ラマズウオーミー S他,PNAS 98(2001):15149-54 ファント ヴィアー LJ他,ネイチャー 415(2002):530-536 シップ MA他,Nature Med 8(2002):68-74 アームストロング SA他,ネイチャー ジェニティックス 30(2002):41-47
結果を不明瞭にし、データ分析を妨げるバラツキを処理するためのマイクロアレイデータの規格化が、主要な問題である。実験的及び/又は技術的な、これらの不明瞭にするバラツキは、通常、サンプルの調製(例えば、cRNAターゲットの異なる標識効率、種々の量のターゲットcRNA、異なる実験室環境等)、マイクロアレイの作成、及びマイクロアレイのプロセス(例えばスキャナーの違い等)に起因する。このように、正規のデータ分析が信頼に足るように実行される前に、遺伝子発現プロファイリングデータの規格化が、これらの不明瞭にするバラツキを補正するために必要とされる。
規格化のための多くの異なったアプローチが報告されている(例えば、非特許文献13及び14)。異なった方法の系統的な比較研究(非特許文献13)によって、クォンタイル規格化方法は、より短時間で、マイクロアレイのバラツキやバイアスの減少に同程度の実績をあげることが示された。しかしながら、遺伝子発現プロファイリングデータの信頼できるクォンタイル規格化を目的とした、十分に適合した参照標準は得られていない。
ボルスタッド他,バイオインフォマティクス 19(2003):185-193 パーク T他,BMC バイオインフォマティクス 4(2003):33-45
この発明は、参照標準遺伝子発現データを使用して遺伝子発現データを規格化することからなる、特定の生体サンプル用に与えられたマイクロアレイ上で得られる遺伝子発現データを規格化する方法に関し、前記参照標準遺伝子発現データが、前記特定のサンプルとは異なる生体サンプルの異なるセットから前記遺伝子の発現を測定し、各セットごとに前記遺伝子の参照標準発現値を計算するために、前記セットの範囲内で各遺伝子ごとに発現データを平均化し、及び、各セットごとの参照標準値が本質的に同一であるように、また、前記セット間で前記参照標準値の相関関係が、極めて充分な優位性を有するように決定することによって、前記与えられたマイクロアレイとして同一の遺伝子を含むマイクロアレイ上で得られたものである。
本発明の他の態様は、特定の生体サンプル用に与えられたマイクロアレイ上で得られる遺伝子発現データを規格化する方法であって、各遺伝子ごとに発現度の関数として前記データを分類すること、発現度の同一の関数によって遺伝子発現データの参照標準を分類すること、該参照標準における対応する値に前記特定の遺伝子発現データの発現度を規格化することからなり、ここで参照標準は、前記特定の遺伝子発現データ以外の遺伝子発現データから得られている。
ある態様においては、参照標準は、各生体サンプルの遺伝子の発現強度を昇順又は降順に配列し、前記順序付けにおける各位置の算術平均を計算することによって得られ、結果として生じた平均値のセットが参照標準を構成する。
本発明の他の態様においては、前記マイクロアレイと関連する新世代の技術、例えばfluidicステーション、スキャナー等のような機器を用いて特定の生体サンプル用に与えられたマイクロアレイにより得られた遺伝子発現データを規格化する方法が提供される。そこでは、旧バージョンのこのような技術で、同一のマイクロアレイに対して得られた参照標準遺伝子発現データが、新世代の規格化のために用いられる。規格化されたデータは、旧世代の機器の使用で得られたデータと同等になる。その結果、例えば、規格化されたデータを、旧世代の機器から集められたデータの使用によって確立された結果や方法に従って分析し、解釈することができる。
信頼できる参照標準が作成されており、これは、例えば、上咽頭癌(NPC)又は他のタイプの腫瘍用のアフィメトリクスHG U133A GeneChipから生じる、遺伝子発現プロファイリングデータのクォンタイル規格化のために使用され得る。この参照標準は、同じ研究室内、及び/又は、同じマイクロアレイ技術を用いる研究室間のバラツキを減らすために使用され得る。
本発明によれば、このような普遍的参照標準の確立によって、上咽頭癌又は他のタイプの腫瘍の症例から得られた、アフィメトリクスHG U133A 遺伝子発現プロファイリングデータの臨床応用のための直接規格化が可能となる。
本発明は、例えば、アフィメトリクスHG U133A GeneChipTMから得られた、上咽頭癌及び他のマイクロアレイデータの規格化のための普遍的参照標準の作成及び使用に関する。例えば、上咽頭癌、他のタイプの腫瘍の遺伝子発現プロファイリングデータ及び他の病気関連のデータを、診断、患者の管理等のために分析することができるように、本発明は、ある意味では、例えばアフィメトリクスHG U133A GeneChipTMから得られた腫瘍マイクロアレイデータのクォンタイル規格化用参照標準をも対象にする。
本発明は、マイクロアレイ基盤、例えばアフィメトリクスHG U133A GeneChipTM遺伝子発現プロファイリングマイクロアレイデータのクォンタイル規格化用の普遍的参照標準を含む。ある好ましい実施形態においては、この参照標準は、164個の原発性上咽頭癌、15個の正常な上咽頭組織、及び23個の転移性上咽頭癌を含むデータセットを用いて作成された。他のサンプルを追加しても、得られた参照標準が更に改善されることはなかった。この参照標準は、広範囲の遺伝子によって発現される遺伝子発現強度に適用可能であり、上咽頭癌や他のタイプの腫瘍のアフィメトリクスHG U133A GeneChip遺伝子発現プロファイリングデータの全てを、規格化するのに適用することができる。このように、確立された参照標準は、全てのタイプの腫瘍に普遍的である。その結果、予知、リスク評価、最適治療等を目的として、腫瘍の臨床的・生物学的治療成績を予測するために、普遍的参照標準に規格化されたマイクロアレイデータを解析することができる。
本発明は、参照データベースの202個の組織サンプル、及び、上咽頭癌、他のタイプの腫瘍(肝臓癌及びその他等)の遺伝子発現プロファイリングデータのクォンタイル規格化のための方法、及び、一般に、アフィメトリクスHG U133A GeneChipTMのようなマイクロアレイによって作成される、一般病状に関するデータ等の、あらゆるタイプの発現データをも規格化する方法を含む。
本発明の様々な特徴及びそれに付随する効果は、添付の図面を考慮することにより、よりよく理解され完全に評価される。ここで、同種の参照文字は、いくつかの図を通して、同一又は同様の部分を示す。
図1は、異なる数とタイプの組織サンプルを用いることによって確立された、参照標準間の相関関係を示す。クォンタイル規格化のための参照標準は、23個の転移性上咽頭癌(NPC)(スタンダード1)、15個の正常な上咽頭組織(スタンダード2)、及び164個の原発性上咽頭癌組織(スタンダード3)からそれぞれ集めたマイクロアレイデータを用いて作成された。4番目の参照標準は、上記した全ての組織(n=202)のマイクロアレイデータを結合することによって構成された。マイクロアレイデータは、アフィメトリクスMAS 5.0ソフトウェアを用いて、トリム平均が500になるようにあわせられた。遺伝子発現の強度は、底が2の対数に変換され、昇順で配列された。2個の参照標準における同じランクの遺伝子発現強度は、互いに相関関係があった。全ての4個の参照標準に対し、6個の相関関係が存在する。ピアソン線形相関分析は、統計学的計算のためのR財団から提供されたRソフトウェアv.2.0.0を用いて行なわれた。各回帰の相関関係係数を各パネルごとに示した。各相関関係のP値は0.0001以下である。
図2は、202個と284個の組織サンプルで確立された参照標準に関する相関関係を示す。より多くの組織サンプルを追加しても、図1で言及されたように202個の組織サンプル全てを用いて確立された参照標準(スタンダード4)を更に改善することがないことを示すために、上咽頭癌サンプル82個を追加して得えられたマイクロアレイデータが、オリジナルの202個の異なる組織サンプルから得られたデータに加えられ、もう一つの参照標準(スタンダード5)が構築された。図1で述べられたような同様の相関研究が実施された。結果は、ほぼ完全なピアソン線形相関関係を示す(r=0.9999,p<0.0001)。
図3は、無作為に選択された10個の上咽頭癌に対する、クォンタイル規格化前後の遺伝子発現に関する相関研究を示す。遺伝子発現プロファイリングデータは、アフィメトリクスHG U133A GeneChipを用いることによって測定された。各遺伝子ごとの発現強度が、リファレンススタンダード4に規格化された。クォンタイル規格化前後における、各遺伝子ごとの発現強度に関するピアソン線形相関が導かれた。ピアソン線形相関分析は、極めて重要な相関関係を示した(r>0.999及びp<0.0001)。この結果は、クォンタイル規格化が遺伝子発現強度をゆがめなかったことを示している。全ての遺伝子発現強度は、底を2とする強度の対数として表された。
図4は、無作為に選択された10個の肝臓癌(肝細胞癌)に対する、普遍的参照標準(リファレンススタンダード4)へのクォンタイル規格化前後の遺伝子発現に関する相関研究を示す。10個の肝臓癌の遺伝子発現強度は、アフィメトリクスHG U133A GeneChipを用いて測定された。各遺伝子ごとの発現強度は、リファレンススタンダード4に規格化された。クォンタイル規格化前後における、各遺伝子ごとの発現強度に関する相関関係が導かれた。ピアソン線形相関分析は、極めて重要な相関関係を示した(r>0.999及びp<0.0001)。この結果は、異なるタイプの腫瘍の遺伝子発現プロファイリングデータを、次の分析のために、リファレンススタンダード4に規格化することが可能であることを示唆している。全ての遺伝子発現強度は、底を2とする強度の対数として表された。
図5は、PMプローブセット参照標準とアフィメトリクスMAS 5.0 参照標準に規格化された、遺伝子発現データの相関関係を示す。クォンタイル規格化参照標準は、4個の上咽頭癌サンプルと1個の正常な上咽頭組織からなるデータセットを用いて作成された。1個の参照標準は、アフィメトリクスPMプローブセットデータ(PMスタンダード)に基づいて作成され、もう1個はアフィメトリクスMAS 5.0 遺伝子発現データ(MAS スタンダード)に基づいて作成された。PMプローブセットデータに対しては、遺伝子発現強度が、RMA エキスプレス2.0 ソフトウェアを用いて読み出された。アフィメトリクスMAS 5.0 遺伝子発現データに対しては、データがMAS 5.0 ソフトウエアを用いて得られた。遺伝子発現データの両セットは、それぞれの参照標準にクォンタイル規格化され、各サンプルごとに相互に関係付けられた。第1サンプル(図5参照)に対する結果は、規格化されたデータの2つのセット間で比例する相関関係を示す。それにもかかわらず、PM参照標準に規格化された遺伝子発現データは、発現強度の低い領域では圧縮されていた。
図6は、図5について先に述べたように、PMプローブセット参照標準と、アフィメトリクスMAS 5.0 参照標準に規格化された遺伝子発現データの相関関係を示す。図6は、図5に示されていない、3個の上咽頭癌サンプルと1個の正常な上咽頭組織の結果を示す。これら残り4つの症例の結果は、図5に示される第1の症例の結果と類似している。
図7は、異なるアフィメトリクスfluidicステーション及びスキャナーで処理された、U133A GeneChip上の同一の上咽頭癌サンプルから得られる遺伝子発現の強度に関する相関関係を示す。X軸は、新GeneChip fluidicステーション450とスキャナー3000を用いて測定された各遺伝子ごとの強度を表し、Y軸は、旧GeneChip fluidicステーション400とスキャンアレイ2500スキャナーを用いて測定された各遺伝子ごとの強度を表す。各サンプルごとの全ての遺伝子発現強度は、MAS 5.0 ソフトウエアによって得られ、互いに相関関係をなす。線形回帰分析は、S-plus 6 ソフトウエア(インサイトフル社)を用いて行なわれた。6個の異なる上咽頭癌サンプルが調べられた。実線で表されたすべての回帰線は1以下の勾配を有し(図7)、それらは0.775と0.945の間にある(表2)。線形回帰のP値は全てのサンプルで<0.001であった。この図において示されるように、遺伝子発現強度は、新世代のfluidicステーション及びマイクロアレイスキャナーで処理されたGeneChipに対して、より高かった。
図8は、異なるアフィメトリクスfluidicステーション及びスキャナーで処理された、U133A GeneChip上の同一上咽頭癌サンプルから得られる遺伝子発現の強度に関する相関関係を示す。図7で調べられたすべての遺伝子発現強度は、上記、例えば、実施例1〜6で詳細に述べられるように、クォンタイル規格化の方法に従って、同一の普遍的参照標準に規格化された。X軸は、新GeneChip Fluidicステーション450とスキャナー3000を用いて測定された、各遺伝子ごとの強度を表す。Y軸は、旧GeneChip Fluidicステーション400とスキャンアレイ2500スキャナーを用いて測定された、各遺伝子ごとの強度を表す。線形回帰分析は、S-plus 6 ソフトウエアを用いて行なわれた。結果は、勾配が1に近く(図8)、0.989と0.995の間の値(表2)を有し、極めて重要な線形相関を示した。線形回帰のP値は、すべてのサンプルで、<0.001であった。回帰線は、本質的に対角線と重なる。
従って、本発明は、あらゆる遺伝子発現データの規格化に対する参照標準を提供することが可能な、遺伝子発現データの1つのセットを作成する方法に関する。好ましくは、例えば、正常組織、腫瘍組織などの多くの生体組織サンプルごとの複数の遺伝子に対するマイクロアレイ基盤を使用して発現データを測定すること、発現度(例えば強度)に従って発現データを、例えば昇順又は降順で分類すること、規格化のための参照標準を提供するために、サンプルの全ての該番号に渡り、各遺伝子について、このように順序付けられた各発現度(例えば強度)ごとの平均強度を計算すること(例えば、すべての前記サンプルに渡る各発現度ごとに算術平均を計算すること)からなるクォンタイル規格化方法を用いる方法である。ここで、該サンプルの数は、生体サンプルを追加して該方法を繰り返しても結果として得られた参照データセットによって提供された規格化の品質が大きく改善されることがない、又は、追加サンプルなしに計算して得られた平均発現値から大きく異なるような平均発現値のセットを提供しないために十分な数である。本発明において「遺伝子発現データ」という用語は、例えば、ハイブリダイゼーション配列によるプローブ、オリゴ、RNA基盤、DNA基盤、その他の核酸基盤などの遺伝子関連配列配列の如何なる種類をも包含する。一般的に、マイクロアレイ中の遺伝子の数は、全て与えられた時間で対応し得る数であり、例えば、人間(又は他の重要な種族)に対しては、市販のマイクロアレイに含有されているように、典型的に1、5、10、20、30、40、50等であり、1000以上の数であってもよい。
一般的に、包含される生体サンプルの数は、少なくとも2であり、例えば、5以上、10以上、50以上、100以上等になる。生体サンプルは、正常組織のみであっても、例えば罹患組織のような異常組織のみであってもよい。罹患組織の例としては、腫瘍、正常血液、病的血液、正常細胞、白血病細胞等を含む癌性組織がある。罹患組織は、全て同一タイプ及び同一ステージの組織であってもよく、例えば、全て上咽頭癌、原発性タイプ又は転移性タイプであってもよく、又は、上咽頭癌組織の代わりに、癌性肝臓、腎臓、大腸、肺等の組織でもよく、更に、様々な又は同一のタイプ若しくは段階の組織であっても良く;又は、例えば異なるタイプの癌のように、異なるタイプの疾患を有するサンプルであってもよく;又は、下記に例証されるような、罹患及び正常の両方の生体サンプルであることが好ましい。
本発明のもう一つの側面においては、規格化に適する参照標準を調製することのできるデータセットは、一見してデータに盛り込まれる組織のタイプを使用する用途、又は、一見して生の遺伝子発現データを生ずるマイクロアレイのタイプを使用する用途のみならず、同タイプのマイクロアレイシステムで生ずる、その他の如何なる生体サンプルのタイプの規格化にも応用することができる、参照標準(遺伝子発現データの規格化に使用することができる1セットのデータ)の調製と併せて、使用することができる。このような態様もまた、以下に例示されている。
本発明は、また、参照標準が算出されるデータセット及び参照標準自身の双方に関し、この双方がこの発明によって調製される。
本発明の他の側面は、参照標準として本発明による参照標準を用いる、該データセットのクォンタイル規格化からなる、1セットの遺伝子発現データの規格化方法に関する。
以下の考察は、現在利用できる遺伝子発現プロファイルマイクロアレイの観点から構成される。この応用の手引きを用いて、本発明の全ての側面が、ここで利用される最新版のマイクロアレイ、その他の如何なるマイクロアレイタイプ等を包含する、如何なる他のマイクロアレイ及び/又は遺伝子発現データに応用され得る。例えば、ある形式の更新手順において、与えられたデータ及びそれに基づく参照標準を準備するために使用された、組織サンプルの既成の態様は、ここで記載されたように、例えば追加の遺伝子、オリゴ等のような、特殊な核酸マイクロアレイの最新版を用いて再分析され得る。ダイアグラムA及びBにおいて、本発明の特定の例が概略的に図示されている。
[ダイアグラムA. アフィメトリクスU133A GeneChipデータ等の遺伝子発現データからの参照標準の作成の手順]
遺伝子発現データからの参照標準の作成手順は、以下のダイアグラムに概説されている。
1:アフィメトリクスU133A GeneChipデータは例である。このような各遺伝子ごとのデータは、例えば、対数変換あり又はなしのアフィメトリクス MAS 5.0ソフトウェア等の、従来のマイクロアレイソフトウェアを通して得られる。その他のサンプルとして、各パーフェクトマッチ(PM)プローブごとのアフィメトリクスのデータも使用することができる。
2:各サンプルごとの全ての遺伝子の強度値を分類した後、第i番目のサンプルにおける第j番目に対する強度値として、yi(j)を定義する。
nをサンプルの総数と定義し、Gjを参照標準の第j番目の平均強度値と定義する。Gjの値は、次の式により算出される。
[ダイアグラムB. GeneChipデータのクォンタイル規格化の手順]
例えば、アフィメトリクス HG U133A GeneChipデータのような、遺伝子発現データのクォンタイル規格化の手順は、以下のダイアグラムに概説されている。
1:例えば、本発明の参照標準が如何にして導かれたかによって、対数変換あり又はなしとされた、アフィメトリクス HG U133A GeneChipデータを使用することができる。
特殊な遺伝子発現データセットを規格化するのに好ましい方法は、ボルスタッド他,バイオインフォマティクス19:185-193,2003で開示されてようなクォンタイル規格化であり、この文献の開示は、ここで参照することにより十分に盛り込まれている。このようにして、参照標準と対比された新たなデータセットをダイアグラムBにより分類した後、与えられた参照標準の列における強度が、同列における前記新たなデータセットの強度と置き換えられる。与えられたマイクロアレイに対する参照標準が本質的に不変性であるので、この単純な置換は便利である。原理的に、クォンタイル規格化の如何なる技術も使用することができる。同様にして、例えば、上記で論じたボルスタッド他、パーク他、ベニト他及びソルリエ他の文献、又はその他の例えば周期性喪失法、対比法、計測法及び他の線形方法、非線形方法、包括性、強度依存等の如何なる規格化の方法を使用することができる。
このように本発明は、遺伝子発現データの規格化のための、普遍的参照標準を提供する。それは、正常組織又は病変組織、若しくは癌(腫瘍)組織を包含するその他の異常組織に対し、及び如何なる種類の遺伝子発現データセットに対しても応用可能である。例えば、本方法は、アフィメトリクス HG U133A GeneChipTMの現行版に存在する全てのヒト遺伝子に応用可能である。好ましい例として、普遍的参照標準は、実施例で示される通り、164個の上咽頭癌、15個の正常上咽頭組織、及び23個の転移性上咽頭癌の遺伝子発現プロファイリングデータタから導かれる。また、上咽頭癌(n=164)のみ、正常上咽頭組織(n=15)のみ、又は転移性咽頭癌(n-23)のみを使用した一連の参照標準も作成された。異なる参照標準の間で、ピアソン線形相関研究が行なわれた(Rソフトウェアv.2.0.0,統計学的計算のためのR財団)。全ての参照標準は、ほぼ完全に相互に線形に関連しており、本質的に一致する(図1)。我々によって、クォンタイル規格化のために作成された参照標準は、同一であると共に、追加組織サンプルを包含することによってもこれ以上向上されないことを、この発見は示唆している。この結論を確認するため、最初の202個の組織サンプル(164個の原発性上咽頭癌、15個の正常上咽頭組織、及び23個の転移性上咽頭癌)に82個の上咽頭癌サンプルを追加したものを包含させることにより、もう一つの参照標準を作成した。284個のサンプルによって作成されたこの新たな参照標準は、ピアソン線形相関分析を使用すると、最初の202個の組織サンプルと相関していた。この結果は、参照標準の双方が本質的に同一であることを示す(図2)。従って、全ての参照標準は、本質的に同一である。202個のサンプルから導かれた本参照標準は、ここでは普遍的参照標準として使用される。
本研究は、この普遍的参照標準が、スタンダードを作成するために使用された同じマイクロアレイ基盤、即ち、アフィメトリクス HG-U133A GeneChipTMから作成された上咽頭癌遺伝子発現プロファイリングデータの、クォンタイル規格化に使用することができるということを立証するために行なわれた。クォンタイル規格化前後の各遺伝子のアフィメトリクス HG-U133A遺伝子発現強度は、ピアソン線形相関分析(図3)を用いて、無作為に選択された10個の上咽頭癌サンプルについて、普遍的参照標準と関連付けられた。この結果は、極めて高い線形関係を示し、また、普遍的参照標準を、アフィメトリクス HG-U133A GeneChipTM型と同一のマイクロアレイにより作成された、上咽頭癌遺伝子発現プロファイリングデータのクォンタイル規格化に使用して、例えば、遺伝子発現データから、病気の予後及び/又は進行についての信頼性のある予測を提供すること等ができることを示した。
また、異なるタイプの腫瘍のサンプルに対する、同型のマイクロアレイ(ここではアフィメトリクス HG-U133A GeneChipTM)から作成された遺伝子発現プロファイリングデータのクォンタイル規格化に、普遍的参照標準を使用することができることを証明した。10個の無作為に選択された肝臓癌について研究を実施した。これら10個の肝臓癌の遺伝子発現プロファイリングデータは、アフィメトリクスHG U133A GeneChipを使用して収集された。これらのデータは、上記の普遍的参照標準に規格化された。規格化された遺伝子発現プロファイリングデータが、ピアソン線形相関分析による規格化を行なうことなしに、遺伝子発現強度と関連付けがされたときは、その結果は、10個の全ての症例において、全ての遺伝子について、高度の線形関係を示した(図4)。この発見は、本発明による普遍的参照標準が、腫瘍の異なるタイプの規格化に適用できると共に、真の普遍性を示す。ここで論じられた他の参照標準のみならずこの普遍的参照標準も、対数変換されたもの、及び、されていないものが、添付CD中のファイル「参照標準.txt」に含まれている。
また、新世代の技術、ここでは上記種々の実験及び実施例1〜6で使用された、GeneChip Fluidicsステーション400、及びGeneArray2500スキャナー(アフィメトリクス製)に替わる、新GeneChip Fluidicsステーション450及びGeneChipスキャナー3000(アフィメトリクス製)を用いて、同型のマイクロアレイ(ここではアフィメトリクス HG-U133A GeneChipTM)により作成された遺伝子発現プロファイリングデータのクォンタイル規格化に普遍的参照標準を使用することができることが証明された。例えば、疾患の診断及び予測、薬物投与可能な標的、個別のリスクに従った治療方法の調整等のために、RNA転写(遺伝子発現)プロファイリング用のDNA及びオリゴヌクレオチドマイクロアレイの活用に対する増加する重要性を考慮して、このような機器の改善がなされる。このように、DNAに関する全ての技術、試薬、機器等及びオリゴヌクレオチドマイクロアレイは、絶え間なく発展している。その結果として、旧世代の技術に由来する結果に基づいて、新世代の技術から作成されるマイクロアレイデータを、如何に最も効果的に分析し、解明するかという疑問が、重要な課題になる。
例えば、新型のFluidic ステーション及び新型のスキャナで計測されたRNA転写強度は、旧世代の機器で計測したものより強い。新型の機器による測定結果は、バックグラウンドノイズがより少なく、シグナル強度がより高い。更に、大抵は、旧世代の機器を使用して得られた結果を基礎に確立された方法に従って、新型の機器から得られたデータを直接分析することができない。機器更新の度に同じ研究を繰り返すことを回避するために、以前の型の機器に由来する参照標準に基づいて、新型の機器により収集されたデータの規格化をできるようにすることが、旧バージョンで作成されたデータと同等、且つ、信頼性において有用なデータを作成するために有用である。この問題に取り組むために一連の実験がなされ、解決方法が提供された(実施例7〜10)。
更なる詳述をしなくても、当業者が先の記載に基づいて本発明の範囲の全てについて、十分に利用することができるものと信じる。以下の好ましい態様は、単に例示であると解釈されるべきであり、開示されたその他の如何なる部分も制限されると解釈されてはならない。
上述及び以下の実施例において、全ての温度は、訂正されていないものについては摂氏であり、全ての部及びパーセントは、特に他に明示しない限り、重量部及び重量%である。
実施例1
a)アフィメトリクス U-133A GeneChipTMを使用した、組織から得られた遺伝子発現プロファイリングデータの決定
患者及び生検標本:遺伝子発現データは、台湾の台北にあるKoo財団孫文癌センター(KF-SYSCC)で、新鮮生検又は外科的切除から集められた組織サンプルから収集された。それらは、1995-2003の間に集められ保存された。サンプルには、原発性上咽頭癌、正常上咽頭組織、転移性上咽頭癌及び肝臓癌の生検が含まれる。サンプルは、KF-SYSCCの施設内倫理委員会に承認されたプロトコールに従って集められた。これらのサンプルは不均一集団であり、抽出されたmRNAの質と量に基づいて、無作為に選択された。
RNA抽出及び精製のプロトコール。約20〜30mgの凍結腫瘍組織を、2mlのポリプロピレンチューブ中の、1mlのトリゾルTM試薬中に速やかに加えた。PowerGen 125 ホモジナイザー(フィッシャー・サイエンティフィック社)を用いて、20〜40秒間、前記組織をホモジナイズし、製造者の取扱説明書に従って、組織溶解物を室温で5分間インキュベートしたPhaseLock gel-heavy(エッペンドルフ)中に移した。クロロホルム(ml当り0.2mlのトリゾル)を加えた。チューブにキャップをした後、15秒間勢いよく振盪し、5分間室温でインキュベートした。インキュベーション混合物を、4℃で10分間、9,300gで遠心分離した。ゲル上部の水相を1.5mlの滅菌マイクロチューブに回収した。0.5mlのイソプロピルアルコールと50マイクログラムのグリコーゲンを加えた後、数秒間穏やかにボルテックスすることでチューブを攪拌し、室温で10分間インキュベートした。次いで、4℃で10分間、9,300gでチューブを微量遠心した。上清を除去し、ペレットを得た。予め-20℃に冷却された75%エタノール1mlを、RNAペレットに加えた。チューブを穏やかに混合し、4℃で5分間、9,300gで微量遠心した。ピペッター及びRNAseフリーの清潔なピペットチップを用いて、上清を除去した。キムワイプTM上でチューブを逆さにし、1-2分間乾燥した。100マイクロリットルのRNAseフリーの水に、RNAペレットを溶解した。製造者の取扱説明書に従って、キアゲン RNeasy キットを使用して、更にRNAを精製した。59マイクロリットルのRNAseフリーの水を用いて、1マイクロリットルのRNAサンプルを60倍に希釈し、260nm及び280nmの吸光度により、濃度と純度の測定を行なった。また、アジレント Lab-on-a-Chip 2100バイオアナライザーを用いて、精製された全RNAの品質を評価した。200ngのRNAを、アジレント バイオアナライザー RNA Labchipにかけた。この機器は、RNAの濃度を測定し、各々のサンプル中の18S及び28Sの量を算出する。高品質の全RNAサンプルは、1.6前後の28S/18S比を有する。質の悪いRNAサンプルは、28S/18S比、及び、より小型のRNA画分が減少する。RNA integrity number (RIN)用として、アジレント2100バイオアナライザーの製造者によって提供されるソフトウェアを用いて、RNAの品質を評価することもできる。許容されるRINの数は≧7である。RIN≧7を有するRNAサンプルのみが、これらの実施例において使用される。0.7Mの酢酸アンモニウム及び70%アルコールを用いて、過剰のRNAを沈殿させ、アフィメトリクス GeneChip分析の準備が整うまで、-70℃で保存する。
GeneChip マイクロアレイ分析:
酢酸アンモニウムとアルコール中に沈殿させた、RIN≧7の全腫瘍RNA約20マイクログラムを移し、4℃で10分間、9,300Gで微量遠心した。予め-20℃に冷却した80%アルコール0.5mlで、RNAペレットを1回洗浄した。微量遠心及びアルコール除去後RNAペレットを風乾し、11マイクロリットルのRNAseフリーの水に溶解した。1マイクロリットルのRNAを60倍希釈し、OD260nmによってRNA濃度の測定を行なった。全RNAから、ハイブリダイゼーションターゲットを準備し、アフィメトリクスのプロトコールに従って、アフィメトリクスHG U133A GeneChipマイクロアレイにハイブリダイズさせた。
手順を以下に記載する:
i) cDNAの合成
製造者の取扱説明書に従って、インビトロジェン キット(dNTPs,スーパースクリプト リバース トランスクリプターゼ,バッファー,DTT)のファーストストランド合成試薬と、全RNAの8マイクログラムを結合させる。T7プロモーター配列を含むオリゴ(dT)24プライマーを加える。約1時間約42℃でインキュベートして、ファーストストランドcDNAを作成する。取扱説明書に従って、セカンドストランド合成試薬(バッファー,dNTP,DNAリガーゼ,DNAポリメラーゼI,RNase H)を加える。16℃で約2時間インキュベートしてRNAを分解し、2本鎖cDNAを合成する。
ii)二本鎖cDNAの精製
取扱説明書に従って、GeneChipサンプルクリーンアップモジュール(アフィメトリクス社)を用いて、二本鎖cDNAを精製する。
iii)ビオチン標識cRNAの合成
in vitroにおけるEnzo診断キット(バッファー,DTT,RNaseインヒビター,T7 RNA ポリメラーゼ)の転写試薬の存在下で、ビオチン標識リボヌクレオチドとcDNAを結合させる。組み込まれたビオチン-ヌクレオチドを使用して、ストレプトアビジンと共役する蛍光色素を結合させる。37℃で約5〜6時間、インキュベーションする。アジレント2100バイオアナライザーによるcRNAサイズ分析用に、1マイクロリットルのcRNAを冷凍庫で保管する。残りのcRNAを用いてプロトコールを続ける。
iv)cRNAの精製及び定量
GeneChipサンプルクリーンアップモジュール(アフィメトリクス社)を使用して、cRNAサンプルを精製する。エタノール含有溶液でカラムを洗浄する。製造者の取扱説明書に従って、マルチプルスピンを用いて過剰のエタノールを除去し、次いで、室温でインキュベートし、水でcRNAを溶出する。
v)cRNA量の定量
良好なハイブリダイゼーションシグナルには、約15マイクログラムの標識されたターゲットが必要とされる。分光光度計の測定値を使用して、各々のcRNAサンプルの濃度及びハイブリダイゼーション混合液に必要な量を決定することができる。260nm及び280nmの波長で吸光度を測定する。高品質サンプルの収量は、通常>20μgであり、約2.0の260/280比を有する。
vi)RNAの化学的な断片化
アフィメトリクスの取扱説明書に従って調製された、40マイクロリットルの断片化バッファーに、全てのcRNAプローブを懸濁する。インキュベーションは、94℃で約35分間行う。断片化されたcRNAは、アフィメトリクスHG U133 A GeneChipにおいて、プローブとハイブリダイゼーションさせるまで、-80℃で凍結させることができる。
vii)断片化されたcRNAのサイズ確認
cRNAターゲットの断片化は、オリゴヌクレオチドマイクロアレイにハイブリダイズしやすくする。約1マイクロリットル(500ng)の断片化されたcRNA及び断片化されていないcRNAを、アジレント バイオアナライザー 2100を用いたRNA Labchipにかける。この分析法は、キャピラリー電気泳動法に基づく公知のマーカーに対するRNA集団のサイズを決定する。高品質のプローブは、200塩基未満のcRNA断片の混合物を含む。必要であれば、大きなcRNA断片を用いたプローブを約94℃でインキュベートし、再度、分析する。
viii)断片化されたcRNAのマイクロアレイへのハイブリダイズ
ハイブリダイゼーションバッファー(27mM MES,0.885M NaCl,20mM EDTA,0.01% Tween 20,0.1 mg/ml ニシン精子DNA,0.5 mg/ml アセチル化ウシ血清アルブミン)と、アフィメトリクスの取扱説明書に従って、その分量に応じて調節された15マイクログラムの断片化したcRNAを結合させる。50pMのオリゴB2(ポジティブコントロール;アレイとグリッドを正しい位置に配置するために用いられる)とEukaryotic ハイブリダイゼーションコントロール(1.5pM BioB,5pM BioC,25pM BioD,100pM CreX;ハイブリダイゼーションの感度を確認するために使用される)を含む。約99℃で約5分間及び約45℃で約5分間、ハイブリダイゼーション混合物を変性させる。断片化したcRNAターゲットを、製造者の説明書に従って、45℃で10分間、ハイブリダイゼーションバッファーを用いて予めハイブリダイズされているアフィメトリクスU133A GeneChipに移す。45℃で少なくとも18時間、回転式オーブン内で、GeneChipをハイブリダイズさせた。
ix)マイクロアレイの洗浄及び染色
U133A GeneChip・カートリッジから、ハイブリダイゼーション混合物を除去し、非-ストリンジェントな洗浄バッファーを満たす。アフィメトリクスfluidicステーションで、非-ストリンジェント及びストリンジェントな一連の条件下でチップを洗浄する。ストレプトアビジン・フィコエリトリン溶液で、アレイを染色する。過剰な染色液を洗い流す。更に、「ビオチン化された抗-ストレプトアビジン抗体溶液」を用いてアレイをインキュベートし、次いで、更にストレプトアビジン・フィコエリトリンを用いて染色とすることによって、シグナルを増幅する。過剰な染色液を洗い流す。全ての上記ステップは、アフィメトリクスの取扱説明書に従って行なった。
x)GeneChipテストアレイの分析
アフィメトリクスGeneArrayスキャナーを用いて処理されたチップ上の蛍光シグナルを検出する。アフィメトリクス Microarray Analysis Suite (MAS) 5.0 ソフトウェアを用いて、蛍光バックグラウンドとコントロールの発現レベルを算出した。
xi)GeneChipテストアレイにおける、コントロール配列を用いたハイブリダイゼーションの品質の確認
GeneChipアレイは、ハウスキーピング遺伝子の5'及び3'領域に補完的なPM及びMMオリゴヌクレオチドのセットを含む。良好なcRNAプローブは、同じ遺伝子由来の双方のオリゴセットに、3'/5'シグナル比が3以下となるようにハイブリダイズする。また、それらは、130ユニット未満の蛍光バックグラウンドを生じ、ハイブリダイゼーション溶液中において、100pM CreX、25pM BioD、5pM BioC及びよく1.5pM BioBの存在を検出する。
b)U133A GeneChipデータファイルのテキスト形式への変換
アフィメトリクススキャナーから算出された遺伝子発現データファイルを、「dat」ファイルとして保存する。「dat」ファイルを、「cel」ファイルに変換する。それから、アフィメトリクスMAS 5.0 ソフトウエアを用いて、各遺伝子ごとの発現強度を計算し、トリム平均を500にあわせ、「chp」ファイルとして保存する。アフィメトリクス「chp」ファイルの「txt」ファイルへの変換は、アフィメトリクスMAS 5.0を使用して、「chp」ファイルを「txt」ファイル形式に保存することによって行なわれた。
c)U133A GeneChipPMプローブセットの強度の修正
バックグラウンド補正及び規格化なしに、RMAExpress 2.0 ソフトウェアを用いてアフィメトリクスの「cel」ファイルから、U133A GeneChip PMプローブセットの遺伝子発現強度を読み出す。次の分析のために、読み出されたデータをテキストファイルで保存する。
実施例2
a)クォンタイル規格化に対する参照標準の作成
対数変換がある又はなしのアフィメトリクスHG U133A GeneChipからの遺伝子発現データを、各サンプルごとに昇順又は降順に分類し、スプレッドシート形式で保存する。各々の列の算術平均を、全てのサンプルについて計算する。昇順又は降順でリストにあげられた全ての列の算術平均は参照標準を構成し、それは、例えば、クォンタイル規格化に利用することができる。本発明によって確立された典型的な参照標準は、ファイル:添付されたCDの「参照標準.txt」に含まれる。
b)U133 A GeneChipのパーフェクトマッチ(PM)プローブセットの強度から作成された参照標準と、アフィメトリクスMAS 5.0ソフトウェアから作成された遺伝子発現強度から作成された参照標準との比較及び相関関係
バックグラウンドの調整がされていないPMプローブから導き出された遺伝子発現データであろうと、或は、中央値を500にあわせたファクターを用いて修正されたアフィメトリクスMAS 5.0ソフトウェアから得られた遺伝子発現データであろうと、参照標準の作成に、より適しているということを決定するために、4つの上咽頭癌と一つの正常上咽頭組織のマイクロアレイデータを無作為に選択した。2つの参照標準は、ダイアグラムAに概説されたステップに従って作成された。1つの参照標準は、PMプローブセットの発現データに基づき(PM参照標準)、その他は、MAS 5.0によって作成された前記あわせられた強度データに基づく(MAS参照標準)。全ての遺伝子発現データは、底を2とする対数で変換された。
ダイアグラムBに記載されたように、各上咽頭癌の5サンプルに対する参照標準を個々に用いて、クォンタイル規格化が行なわれた。各々の規格化された強度は、各上咽頭癌サンプルごとに互いに関連性があった。サンプル1についての典型的な相関関係を図5に示す。結果は、比例の相関関係を示す。同様の比例相関が、その他の3つの上咽頭癌サンプルと1つの正常上咽頭組織でも見られた(図6)。図5及び6に示されるように、遺伝子発現データがPM参照標準(図5及び6のY軸)に規格化された場合には、低発現強度を有する遺伝子は圧縮される。対照的に、遺伝子発現データが、MAS参照標準(図5及び6のX軸)に規格化された場合には、低発現強度を有する遺伝子間で大きな違いが生じる。従って、PM参照標準がクォンタイル規格化に使用された場合には、低強度領域において、異なって発現された遺伝子を特定することはより困難である。マイクロアレイデータのクォンタイル規格化に対するMAS参照標準の使用は、データ圧縮の問題を避けたり、改善することができる。それにもかかわらず、PM及びMAS参照標準の両方が、クォンタイル規格化に適用可能である。
実施例3
クォンタイル規格化のための参照標準の構築における、組織サンプルの数及びタイプの影響。どのくらいのサンプルが必要であるのか決定すること、及び、異なるタイプの上咽頭組織であるかどうかは、上咽頭癌遺伝子発現プロファイリングデータのクォンタイル規格化のために使用する、参照標準の構築に必要である。クォンタイル規格化のための4つの参照標準は、23個の転移性上咽頭癌、15個の正常上咽頭組織及び164個の原発性上咽頭癌からのマイクロアレイデータを用いて作成された。最初の参照標準は、23個の転移性上咽頭癌に基づく。2番目は15個の正常上咽頭組織に基づく。3番目は、164個の原発性上咽頭癌に基づく。4番目は、上記した202個全ての組織に基づく。全ての参照標準は、ダイアグラムAに記載されたステップに従って確立された(ファイル参照:付属CDに含まれる「参照標準.txt」)。
参照標準における全ての数値データが、昇順又は降順に配列され、お互いに関連性がある場合、全ての相関関係は、直線で、高度に有意である(図1)。図1に示される結果は、全ての参照標準が本質的に同一であることを示唆している。4つの参照標準の何れも、例えば、アフィメトリクスHG U133A GeneChipで作成されるマイクロアレイデータの、クォンタイル規格化に使用することができる。
上記参照標準が、更なる症例を含めることによって改善されることがないことを、更に明らかにするために、最初の202個の組織サンプルのデータベース(164個の原発性上咽頭癌、15個の正常上咽頭組織及び23個の転移性上咽頭癌)に、82個の上咽頭癌の新しい症例のマイクロアレイデータを加えることによって5番目の参照標準を作成した。全284個の組織サンプルから作成された5番目の参照標準は、202個の組織サンプルから作成された4番目の参照標準と関連性があった。この5番目の参照標準も付属CD:ファイル=「参照標準.txt」に含まれる。その結果は、それらが本質的に同一であることを示している(図2)。従って、クォンタイル規格化のための、202個の組織サンプルから得られた4番目の参照標準は、更なる82個の組織サンプルのマイクロアレイデータを含めることによって、より一層改善されることはなかった。
上述の結果は、種々のサンプル数から作成された参照標準が、本質的に同一であることを示している。4番目の参照標準は、15個の正常上咽頭組織、164個の原発性上咽頭癌及び23個の転移性上咽頭癌から得られたマイクロアレイデータを組み合わせることによって作成された。この参照標準は、理論的には、より具体的である。我々は、普遍的参照標準として4番目の参照標準を使用する。この普遍的参照標準は、例えば、予測及び分類のための遺伝子発現サインに関する、その後の研究における、上咽頭癌マイクロアレイデータのクォンタイル規格化に使用される。
実施例4
無作為に選択された10個の上咽頭癌サンプルに対するクォンタイル規格化前後の遺伝子発現の比較及び相関関係
アフィメトリクスHG U1333A GeneChip 上咽頭癌マイクロアレイデータのクォンタイル規格化のための、普遍的参照標準を使用することの妥当性を明らかにするため、無作為に選択された10個の上咽頭癌症例で相関研究を行なった。これらの10個の上咽頭癌の遺伝子発現プロファイリングデータは、アフィメトリクスHG U133A GeneChipによって測定された。各遺伝子ごとの強度は、アフィメトリクスMAS 5.0から得られ、ダイアグラムBに記載されているように、普遍的参照標準に規格化した。各遺伝子ごとの規格化された強度は、アフィメトリクスMAS 5.0から算出された遺伝子発現強度と関連があった。図3に示された結果は、各遺伝子ごとの規格化された発現強度が、規格化無しの同じ遺伝子サンプルの発現強度と極めて直線的に関連することを示した。これらの結果は、例えば、アフィメトリクスHG U133A GeneChipから得られるような、マイクロアレイデータのクォンタイル規格化のための普遍的参照標準として使用することの妥当性を、明らかにするものである。
実施例5
無作為に選択された10個の肝臓癌サンプルに対する、クォンタイル規格化前後の遺伝子発現データの比較及び相関関係
この研究の主要目的は、本発明によって得られた普遍的参照標準が、上咽頭癌以外の腫瘍のマイクロアレイデーターを規格化するために、適用することができることを明らかにすることである。この研究のために、10個の肝臓癌の遺伝子発現プロファイリングデータが、アフィメトリクスHG U133A GeneChipを使用して得られた。アフィメトリクスMAS 5.0から得られた各遺伝子ごとの強度は、普遍的参照標準に規格化された。その結果、各遺伝子ごとの規格化された強度は、規格化なしのアフィメトリクスMAS 5.0から生じた強度と相関性があった。その結果は、クォンタイル規格化前後のデータの間で、極めて顕著な線形相関を示した(図4)。従って、本発明によって作成された普遍的参照標準は、さまざまなタイプの腫瘍(例えば、上咽頭癌及び肝臓癌)に対して適用することが可能であり、真に普遍的である。
実施例6
実験的及び技術的バラツキの低減に対するクォンタイル規格化の効果
クォンタイル規格化の目的は、結果を分かり難くし、マイクロアレイのデータ分析を妨げる、実験的及び技術的バラツキを減少させることである。アフィメトリクスHG U133A GeneChipの一貫性と実験手順の丁寧な逐行に起因して、マイクロアレイデータにおけるバラツキは小さい。従って、クォンタイル規格化なしのマイクロアレイデータでさえ、規格化されたデータと高度な相関性がある(図3及び4)。それにもかかわらず、クォンタイル規格化は、いくらかの僅かなバラツキを、更に減少させることが期待される。もし、クォンタイル規格化後に生じるバラツキの減少が起これば、検査される組織サンプルにおける、各遺伝子ごとの発現のバラツキの程度が減少するはずである。従って、我々は、クォンタイル規格化前後において、246個の原発性上咽頭癌サンプルに関するlog2変換あり及びなし、あらゆる遺伝子発現強度のバラツキの程度を比較した。クォンタイル規格化前後における各遺伝子ごとの発現強度の標準偏差(SD)が計算され、SAS 9.1ソフトウェアを使用して、paired t検定によって比較された。その結果は、クォンタイル規格化後の各遺伝子ごとの標準偏差はクォンタイル規格化無しの標準偏差よりも小さいことを示した(p<0.0001)(表1)。この比較研究の結果、クォンタイル規格化が、真にバラツキを減少させることのできることが明らかにされた。
実施例7
クォンタイル規格化が、さまざまな種類のfluidicステーション及びスキャナーを使用して作成された、マイクロアレイデータの差異を補正するために、適用することができることを明らかにするための研究の設計は、ダイアグラムCに描写されている。特に、新GeneChip Fluidicsステーション450及びGeneChipスキャナー3000から得られた、アフィメトリクスHG U133 Aの遺伝子発現プロファイリングデータは、上記のように、旧世代の機器で集められたマイクロアレイデータから作成された、普遍的参照標準を使用したクォンタイル規格化を通して変換することができる。そのような規格化の後、マイクロアレイデータは、旧世代の機器の使用で得られたマイクロアレイデータと同等になる。その結果、規格化されたデータを、臨床用途のために分析することができる。
ダイアグラムC. GeneChip Fluidicsステーション450及びスキャナー3000を使用することにより作成されたアフィメトリクスU133AGeneChipデーターの、GeneChip Fluidicsステーション400及びスキャナー2500を使用することにより作成されたGeneChipデータに対して同等なデータへの変換を有効にするための実験計画
実施例8
アフィメトリクスU-133A GeneChipを使用することによる、患者組織から得られた遺伝子発現プロファイリングデータを測定するための手順は、実施例1に記載のものと同様である。ダイアグラムCに描写されたような研究のために、同じサンプルからの断片化されたビオチン標識cRNAは、二等分された。各々の一定分量から15マイクログラムの断片化されたcRNAを、U133A GeneChip上にハイブリダイズさせ、新又は旧fluidics ステーションとスキャナーを別々に用いて処理した(ダイアグラムC)。遺伝子発現強度は、アフィメトリクスMAS 5.0ソフトウェアを使用して得られた。6個の上咽頭癌サンプルが、研究のために無作為に選択された。
実施例9
遺伝子発現強度データのクォンタイル規格化は、実施例2に記載されたように行なわれた。前述の実施例で確立された普遍的参照標準が、クォンタイル規格化のために使用された。
実施例10
旧又は新アフィメトリクスfluidicステーション及びスキャナーを介して、U133A GeneChipを処理することによって決定されたヒトの遺伝子の発現強度は、前述の実施例に記載されたように、アフィメトリクスMAS 5.0ソフトウェアを使用することによって得られ、各上咽頭癌サンプルごとにクォンタイル規格化前後でお互いに関連させた。普遍的参照標準への「クォンタイル規格化」の手順は、上述したとおりである。直線回帰分析は、S-plus 6ソフトウェア(インサイトフル社)を使用して行なわれた。結果を図7及び8に示す。回帰線を実線で描いた。図7及び8の全ての勾配を表2に示す。その結果は、新世代のfluidicステーション及びスキャナーの使用により測定された遺伝子発現強度が、旧世代の機器の使用によって測定されたものよりも高いことを示している(図7)。クォンタイル規格化後の遺伝子発現強度の回帰線は、本質的に理想的な対角線と重なる(図8)。この結果は、普遍的参照標準へのクォンタイル規格化が、新世代の機器の使用に起因する乖離を補正するために利用できることの正当性を立証するものである。
表1.クオンタイル規格化(QN)1前後における、遺伝子発現の標準偏差(SD)の比較
1.リファレンススタンダード4にクォンタイル規格化した前後における、各遺伝子ごとの発現強度の標準偏差が、164個の原発性上咽頭癌サンプルに対して計算された。計算は、Log2変換した強度とLog2変換しない強度について行なわれた。
2.Log2変換しない生の強度は、MAS 5.0を使用して得られ、トリム平均500にあわせられ、各遺伝子ごとの標準偏差の計算に使用された。
3.生の強度のLog2変換は、各遺伝子の標準偏差の計算に使用された。
4.paired-t検定が、クォンタイル規格化前後における標準偏差の平均を比較するために使用された。結果は、標準偏差がクォンタイル規格化後に小さく、2セットのデータのp値が<0.0001あったことを示している。リファレンススタンダード4へのクォンタイル規格化前後における、最小値、第1クォンタイル、中央値、第3クォンタイル、最大値及び標準偏差の全体平均の標準偏差を表に示した。
表2.図7及び8に示された直線回帰線の勾配
本明細書で引用される全ての出願、特許及び公報の全ての開示は、参照によって本明細書に組み込まれる。
一般記載又は特記された本発明の反応物質及び/又は反応条件を、先行する実施例において使用されたものに置き換えることによって同様に繰り返えすことができる。
前述の記載から、当業者が簡単に本発明の本質的な特徴を確かめることができ、その趣旨と範囲から逸脱することなく、本発明をさまざまな用法及び条件に適合させるために、本発明のさまざまな変更及び修正が可能である。
参考文献
1.ゴラブ TR他,癌の分子レベルの分類:遺伝子発現のモニタリングによる類の発見及び類の予測.サイエンス 286:531-537, 1999.
2.ビットナー M他,遺伝子発現プロファイリングによる皮膚悪性黒色腫の分子レベルの分類.ネイチャー 406:536-540, 2000.
3.ペロウ CM他,分子レベルからみたヒト乳癌.ネイチャー 406:747-752, 2000.
4.ヘーデンフォーク I他,遺伝性乳癌における遺伝子発現プロファイリング. New Eng J Med 344:539-548, 2001.
5.カーン J他,遺伝子発現プロファイリング及び回路網を用いた癌の分類及び診断予測. Nature Med 7:673-679, 2001.
6.アリザデー AA他,遺伝子発現プロファイリングにより分類されるびまん性大細胞型B細胞リンパ腫の明確な分類. ネイチャー 403:503-511, 2000.
7.ダーナセカラン SM他,前立腺癌における予後バイオマーカーの概要説明. ネイチャー 412:822826, 2001.
8.シロタ y他,cDNAマイクロアレイを用いた肝細胞癌において異なる形で発現した遺伝子の同定.ヘパトロジー 33:832-840, 2001.
9.ラマズウオーミー S他,癌遺伝子発現サインを用いたマルチクラスの癌診断法. PNAS 98:15149-15154, 2001.
10.ファント ヴィアー LJ他,遺伝子発現プロファイリングが乳癌の臨床転帰を予測する。ネイチャー 415:530-536, 2002.
11.シップ MA他,遺伝子発現プロファイリング及び管理されたマシンラーニングによる広範性大細胞型リンパ腫の予後予測. Nature Med 8:68-74, 2002.
12.アームストロング SA他, MLL転座が、極めてまれな白血病を識別する明確な遺伝子発現プロファイルを特定する。ネイチャー ジェネティクス 30:41-47, 2002.
13.ボルスタッド他,分散及びバイアスに基づく高密度オリゴヌクレオチドアレイデータの規格化方法の比較. バイオインフォマティクス 19:185-193, 2003.
14.パーク T他, マイクロアレイデータの規格化方法の評価.BMC バイオインフォマティクス 4:33-45, 2003.
15.ベニト M他, 統計的マイクロアレイデータバイアスの調整. バイオインフォマティクス 20:105-114, 2004.
16.ソルリエ T他, 独自の遺伝子発現データセットにおける乳癌サブタイプの報告所見. Proc Nat Acad Sci, USA 100:8418-8423, 2003.
本発明の参照標準は、広範囲の遺伝子によって発現される遺伝子発現強度に適用可能であり、上咽頭癌や他のタイプの腫瘍のアフィメトリクスHG U133A GeneChip遺伝子発現プロファイリングデータの全てを、規格化するのに適用することができる。このように、確立された参照標準は、全てのタイプの腫瘍に普遍的である。その結果、予知、リスク評価、最適治療等を目的として、腫瘍の臨床的・生物学的治療成績を予測するために、普遍的参照標準に規格化されたマイクロアレイデータを解析することができる。
異なる数とタイプの組織サンプルを用いることによって確立された参照標準の間の相関関係 202個及び284個の組織サンプルで確立された参照標準に関する相関関係 無作為に選択された10個の上咽頭癌におけるクォンタイル規格化前後の遺伝子発現プロファイリングデータに関する相関関係[図3-1及び図3-1(つづき)] 無作為に選択された肝臓癌(肝細胞癌)に対する普遍的参照標準(リファレンス スタンダード4)へのクォンタイル規格化前後の遺伝子発現プロファイリングデータに関する相関研究[図4-1及び図4-1(つづき)] PMプローブセット参照標準及びアフィメトリクスMAS 5.0参照標準へ規格化された遺伝子発現データに関する相関関係 PMプローブセット参照標準及びアフィメトリクスMAS 5.0参照標準に規格化された遺伝子発現の相関関係 同一の上咽頭癌サンプルから得られ、異なるアフィメトリクスFluidicステーション及びスキャナーで処理された遺伝子強度に関する相関関係 同一の上咽頭癌サンプルから得られ、異なるアフィメトリクスFluidicステーション及びスキャナーを使用することによりU133A Gene Chip上で処理された遺伝子強度の相関関係におけるクォンタイル規格化の効果

Claims (18)

  1. 参照標準遺伝子発現データを使用して遺伝子発現データを規格化することからなる、特定の生体サンプル用に与えられたマイクロアレイ上で得られる遺伝子発現データを規格化する方法であって、前記参照標準遺伝子発現データが、前記特定のサンプルとは異なる生体サンプルの異なるセットから前記遺伝子の発現を測定し、各セットごとに前記遺伝子の参照標準発現値を計算するために、前記セットの範囲内で各遺伝子ごとに発現データを平均化し、及び、各セットごとの参照標準値が本質的に同一であるように、また、前記セット間で前記参照標準値の相関関係が、極めて充分な優位性を有するように決定することによって、前記与えられたマイクロアレイとして同一の遺伝子を含むマイクロアレイ上で得られたものである、規格化方法。
  2. 特定の生体サンプル用に与えられたマイクロアレイ上で得られる遺伝子発現データを規格化する方法であって、各遺伝子ごとに発現度の関数として前記データを分類すること、発現度の同一の関数によって遺伝子発現データの参照標準を分類すること、及び、該参照標準における対応する値に前記特定の遺伝子発現データの発現度を規格化することからなると共に、参照標準が、前記特定の遺伝子発現データ以外の遺伝子発現データから得らたものである、遺伝子発現データを規格化する方法。
  3. 前記特定のサンプルとは異なる生体サンプルのセットからの前記遺伝子の発現を測定し、各セットごとに前記遺伝子の参照標準発現値を計算するために、前記セットの範囲内で各遺伝子ごとに発現データを平均化し、各セットごとに参照標準値が本質的に同一であるように、また、前記セット間で前記参照標準値の相関関係が、極めて充分な優位性を有するように決定することによって、前記参照標準が、前記与えられたマイクロアレイとして同一の遺伝子を含むマイクロアレイ上で得られる、請求項2に記載された方法。
  4. 前記参照標準が、生体サンプルの各々の遺伝子の発現強度を昇順または降順に配列し、前記順序付けにおける各位置の算術平均を計算することによって得られ、結果として得られた平均値のセットが参照標準を構成する、請求項3に記載された方法。
  5. 生体サンプルの数が5以上である、請求項4に記載された方法。
  6. 生体サンプルの数が50以上である、請求項4に記載された方法。
  7. 前記規格化がクォンタイル規格化である、請求項4に記載された方法。
  8. 前記規格化がクォンタイル規格化である、請求項6に記載された方法。
  9. 前記特定の生体サンプルが、正常及び/又は癌性である上咽頭組織からなる、請求項7に記載された方法。
  10. 前記参照標準を得るために用いられる前記生体サンプルが、正常及び/又は癌性である上咽頭組織からなる、請求項9に記載された方法。
  11. 前記参照標準を得るために用いられる前記生体サンプルが、正常及び/又は癌性である上咽頭組織からなる、請求項7に記載された方法。
  12. 前記特定の生体サンプルが上咽頭組織以外の組織からなる、請求項11に記載された方法。
  13. 前記特定の生体サンプルが、正常及び/又は癌性肝臓組織からなる、請求項12に記載された方法。
  14. 添付のCDにあるファイル「参照標準.txt」の遺伝子発現データからなる、遺伝子発現データのクォンタイル規格化のための参照標準。
  15. 前記参照標準が、添付のCDにあるファイル「参照標準.txt」の参照標準であり、規格化の方法がクォンタイル規格化である、請求項2に記載された方法。
  16. 規格化のための前記遺伝子発現データが、第1関連機器を用いて前記与えられたマイクロアレイによって得られ、前記参照標準データが、前記第1関連機器とは異なる第2関連機器を用いて同等のマイクロアレイによって得られる、請求項2に記載された方法。
  17. 前記第2関連機器が、前記第1関連機器の新世代である、請求項16に記載された方法。
  18. 前記機器が、fluidicsステーシヨン及びgene arrayスキャナーである、請求項17に記載された方法。
JP2007548286A 2004-12-20 2005-12-13 マイクロアレイ遺伝子発現プロファイリングデータを規格化するための普遍的参照標準 Withdrawn JP2008524627A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US1576404A 2004-12-20 2004-12-20
US11/090,294 US20060136145A1 (en) 2004-12-20 2005-03-28 Universal reference standard for normalization of microarray gene expression profiling data
PCT/US2005/045004 WO2006068876A1 (en) 2004-12-20 2005-12-13 Universal reference standard for normalization of microarray gene expression profiling data

Publications (1)

Publication Number Publication Date
JP2008524627A true JP2008524627A (ja) 2008-07-10

Family

ID=36337628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007548286A Withdrawn JP2008524627A (ja) 2004-12-20 2005-12-13 マイクロアレイ遺伝子発現プロファイリングデータを規格化するための普遍的参照標準

Country Status (9)

Country Link
US (1) US20060136145A1 (ja)
EP (1) EP1839220A1 (ja)
JP (1) JP2008524627A (ja)
AU (1) AU2005319494A1 (ja)
CA (1) CA2601335A1 (ja)
IL (1) IL184075A0 (ja)
NO (1) NO20073782L (ja)
TW (1) TW200636535A (ja)
WO (1) WO2006068876A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007010252B4 (de) * 2007-03-02 2013-07-04 Sirs-Lab Gmbh Kontrollgene zur Normalisierung von Genexpressionsanalysedaten
FI20085302A0 (fi) * 2008-04-10 2008-04-10 Valtion Teknillinen Rinnakkaisilta mittalaitteilta tulevan biologisten signaalien mittausten korjaaminen
TWI399661B (zh) * 2009-08-21 2013-06-21 從微陣列資料中分析及篩選疾病相關基因的系統
US10083275B2 (en) * 2012-12-13 2018-09-25 International Business Machines Corporation Stable genes in comparative transcriptomics
US20190383817A1 (en) 2016-02-12 2019-12-19 Skylinedx B.V. Predicting response to immunomodulatory drugs (imids) in multiple myeloma patients
TWI594143B (zh) * 2016-04-11 2017-08-01 Univ Nat Taiwan Normal Method for Correcting Gene Interaction Network Map with Node Exclusion and Attraction Summation Vectors to Present Gene Chip Analysis Result
US20210166789A1 (en) 2017-04-04 2021-06-03 Skylinedx B.V. Method for identifying gene expression signatures
JP2021531831A (ja) 2018-07-25 2021-11-25 スカイラインディーエックス ビー.ブイ. メラノーマの転移及び患者の予後を予測するための遺伝子シグネチャー
CN113728391A (zh) * 2019-04-18 2021-11-30 生命科技股份有限公司 用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法
EP4133490A1 (en) 2020-04-06 2023-02-15 SkylineDx B.V. Method for identifying signatures for predicting treatment response
WO2023014225A1 (en) 2021-08-06 2023-02-09 Erasmus University Medical Center Rotterdam Marker set and its use for the identification of a disease based on pcl-like transcriptomic status

Also Published As

Publication number Publication date
WO2006068876A1 (en) 2006-06-29
NO20073782L (no) 2007-07-19
AU2005319494A1 (en) 2006-06-29
TW200636535A (en) 2006-10-16
CA2601335A1 (en) 2006-06-29
EP1839220A1 (en) 2007-10-03
US20060136145A1 (en) 2006-06-22
IL184075A0 (en) 2007-10-31

Similar Documents

Publication Publication Date Title
JP2008524627A (ja) マイクロアレイ遺伝子発現プロファイリングデータを規格化するための普遍的参照標準
Cieślik et al. Cancer transcriptome profiling at the juncture of clinical translation
JP7042717B2 (ja) 癌の臨床転帰を予測する方法
Yang et al. Identification of differentially expressed genes and signaling pathways in ovarian cancer by integrated bioinformatics analysis
US20200263257A1 (en) Method of predicting breast cancer prognosis
Tsang et al. NanoString, a novel digital color-coded barcode technology: current and future applications in molecular diagnostics
Lenburg et al. Previously unidentified changes in renal cell carcinoma gene expression identified by parametric analysis of microarray data
van Ruissen et al. Evaluation of the similarity of gene expression data estimated with SAGE and Affymetrix GeneChips
Wilson et al. Amplification protocols introduce systematic but reproducible errors into gene expression studies
Chen et al. Comparison of nanostring nCounter® data on FFPE colon cancer samples and Affymetrix microarray data on matched frozen tissues
JP2007509613A (ja) 遺伝子発現プロファイリングのためのqRT−PCRアッセイシステム
WO2009064901A2 (en) Diagnostic biomarkers of diabetes
Riester et al. Hypoxia‐related microRNA‐210 is a diagnostic marker for discriminating osteoblastoma and osteosarcoma
Zhang et al. Identification of differential key biomarkers in the synovial tissue between rheumatoid arthritis and osteoarthritis using bioinformatics analysis
Reinholz et al. Expression profiling of formalin-fixed paraffin-embedded primary breast tumors using cancer-specific and whole genome gene panels on the DASL® platform
WO2015066068A1 (en) Methods of incorporation of transcript chromosomal locus information for identification of biomarkers of disease recurrence risk
CN111778337A (zh) 结直肠癌预后风险分数的计算方法、其试剂及其装置
US20210079479A1 (en) Compostions and methods for diagnosing lung cancers using gene expression profiles
Skibbe et al. Scanning microarrays at multiple intensities enhances discovery of differentially expressed genes
EP3553185B1 (en) Method for acquiring information on prognosis of breast cancer, and device for determining prognosis of breast cancer
WO2014130617A1 (en) Method of predicting breast cancer prognosis
Srivastava et al. A cut-off based approach for gene expression analysis of formalin-fixed and paraffin-embedded tissue samples
WO2014130444A1 (en) Method of predicting breast cancer prognosis
Bala et al. TAGmapper: a web-based tool for mapping SAGE tags
Ahmadov et al. Circular RNA expression profiles in pediatric ependymomas

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090303