JP2009519710A - 遺伝子発現調節エレメントのハイスループットでの特徴付けのための機能性アレイ - Google Patents

遺伝子発現調節エレメントのハイスループットでの特徴付けのための機能性アレイ Download PDF

Info

Publication number
JP2009519710A
JP2009519710A JP2008545677A JP2008545677A JP2009519710A JP 2009519710 A JP2009519710 A JP 2009519710A JP 2008545677 A JP2008545677 A JP 2008545677A JP 2008545677 A JP2008545677 A JP 2008545677A JP 2009519710 A JP2009519710 A JP 2009519710A
Authority
JP
Japan
Prior art keywords
library
nucleic acid
sequence
expression
promoter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008545677A
Other languages
English (en)
Inventor
ネイサン ディー. トリンクライン,
シェリー エフ. アルドレッド,
サラ ジェイ. クーパー,
リチャード エム. マイヤーズ,
Original Assignee
ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/636,385 external-priority patent/US20070161031A1/en
Application filed by ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー filed Critical ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー
Publication of JP2009519710A publication Critical patent/JP2009519710A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1086Preparation or screening of expression libraries, e.g. reporter assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6897Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids involving reporter genes operably linked to promoters

Abstract

本発明は、生物のゲノム、特にヒトゲノム中の遺伝子発現調節エレメントの大規模な構造および機能の特徴づけのための組成物、キット、アセンブリ、ライブラリー、アレイ、および高処理方法を提供する。本発明の1つの態様では、各発現構築物が、レポーター配列の発現が核酸セグメントの転写調節下にあるように発現ベクター中のレポーター配列に作動可能に連結された核酸セグメント、ライブラリー中で変動し、多様度が少なくとも50である核酸セグメントを含む、発現構築物のアレイを提供する。核酸セグメントは、転写プロモーターなどの遺伝子発現調節エレメントの巨大なライブラリーであり得る。本発明は、個別化医療、薬理ゲノミクス、および多形性と表現型形質との相関関係などに広範で多様に適用することができる。

Description

(引用)
本願は、2005年12月16日出願の米国仮出願第60/750,929号および2006年1月24日出願の米国仮出願第60/762,056号の利益を主張し、これらの全体を本明細書中で参考として援用する。
(連邦政府により支援された研究の宣言)
本発明は、National Human Genome Research Instituteからの国立衛生研究所(NIH)補助金1 U01 HG03162−01の下で米国政府に支援されて行われた。
(発明の背景)
ヒト遺伝子発現の調節は、極めて重要で高度に調整された複雑な過程である。遺伝子調節は、細胞分裂の調和から細胞外刺激に対する応答および発生中の転写の指示までの実質的に全ての生物学的過程で極めて重要な役割を果たす(非特許文献1;非特許文献2;非特許文献3)。各遺伝子レベルでの調節の知識が増大している一方で、遺伝子調節の大域的特徴づけは、現在、生物医学研究の主な課題の1つであり、且つ必須の目的である。この目的を達成するための最初のステップは、ヒトゲノム中の転写調節エレメントの包括的同定である。この目的のために、1%のヒトゲノム中の機能的エレメントを同定するための多数の研究所による共同的取り組みとしてENCODE(Encyclopedia of DNA Elements)プロジェクトが2004年に開始された(The ENCODE Project Consortium 2004)。
プロモーターは、その位置が転写開始位置(TSS)のすぐ上流で予想可能なために、複雑なゲノム中の最も特徴づけられた転写調節配列である。プロモーターは、しばしば、以下の2つの個別のセグメントを有すると説明される:コアプロモーター領域および広域(extended)プロモーター領域。コアプロモーターは、一般に、TSSの50bp以内であり、ここで前開始複合体を形成し、基本転写機構が組み立てられる。広域プロモーターは、下流遺伝子の空間的および一過性の発現を制御する特異的調節配列を含み得る(非特許文献4に概説)。転写プロモーターを説明している論文の実質的な本文にもかかわらず、cDNAの単離および合成の3’偏り(bias)(非特許文献5)ならびに別のRNAイソ型を調節する選択的プロモーターの存在(非特許文献6)により、全ヒト転写産物の真の開始部位の同定は完了とは程遠い。いくつかのグループが、最近、完全長(full−length enriched)cDNA配列の大規模リソース(11,234個のヒト遺伝子を含むDatabase of Transcriptional Start Sites(DBTSS)(非特許文献7;非特許文献8)および12,228個の遺伝子を含むMammalian Gene Collection(MGC)(非特許文献9が含まれる)を開発した。これらのデータベースは、遺伝子の5’全な配列および人為的配列を含み、ヒトゲノム中の全遺伝子の真の転写開始部位および対末端が富化された配列を提供するが、依然としてかなりの数の不完応するプロモーターを同定するさらなる実験による検証の必要性が強調される。Eukaryotic Promoter Databaseは、このようなリソースの1つであるが、これは、現在、1,871個のヒトプロモーターしか含まず(非特許文献10;非特許文献11)、推定される総数よりはるかに少ない。
現在、ヒトゲノムの機能領域を研究するためのいくつかのテクノロジーが存在する。研究者は、発現マイクロアレイにより、異なる条件下でゲノム中の全遺伝子の定常状態レベルを測定することができる。クロマチン免疫沈降とゲノムマイクロアレイとを組み合わせた別の技術(ChIP−チップ)により、ゲノム全域で転写因子の結合部位を決定することができる。多数の異なる個体およびさらに異なる種のゲノムの配列決定により、ゲノム中のどの配列が選択的制約下にあるかを示すこともできる。さらに、DNAメチル化状態などの後成的修飾のアッセイにより、調節エレメント研究にさらなる情報が付加される。これらの全実験アプローチにより、有益な所見が得られるが、これらはDNA調節エレメントの機能を直接測定しない。本発明は、調節エレメントの機能特徴づけおよび疾患または容態の研究、診断、防止、および治療のための機能研究によって得られた情報の使用における問題に対して革新的な解決法を提供する。
Ahituv,N.,E.M.Rubin,and M.A.Nobrega.2004.Exploiting human−−fish genome comparisons for deciphering gene regulation.Hum Mol Genet 13 Spec No 2:R261−266. Blais,A.and B.D.Dynlacht.2004.Hitting their targets:an emerging picture of E2F and cell cycle control.Curr Opin Genet Dev 14:527−532. Pirkkala,L.,P.Nykaren,and L.Sistonen.2001.Roles of the heat shock transcription factors in regulation of the heat shock response and beyond. Faseb J15:1118−1131. Butler,J.E.and J.T.Kadonaga.2002. The RNA polymerase II core promoter:a key component in the regulation of gene expression. Genes Dev 16:2583−2592. Kimmel,A.R.and S.L.Berger.1987. Preparation of cDNA and the generation of cDNA libraries:overview.Methods Enzymol 152:307−316. Landry,J.R.,D.L.Mager,and B.T.Wilhelm.2003.Complex controls:the role of alternative promoters in mammalian genomes. Trends Genet 19:640−648. Suzuki,Y.,R.Yamashita,K.Nakai,and S.Sugano.2002.DBTSS:DataBase of human Transcriptional Start Sites and full−length cDNAs. Nucleic Acids Res 30:328−331. Suzuki,Y.,R.Yamashita,S.Sugano,and K.Nakai.2004.DBTSS,DataBase of Transcriptional Start Sites:progress report 2004.Nucleic Acids Res 32 Database issue:D78−81. Gerhard,D.S.L. et al..2004.The status,quality,and expansion of the NIH full−length cDNA project:the Mammalian Gene Collection (MGC).Genome Res 14:2121−2127. Cavin Perier,R.,T.Junier,and P.Bucher.1998.The Eukaryotic Promoter Database EPD.Nucleic Acids Res 26:353−357. Praz,V.,R.Perier,C.Bonnard,and P.Bucher.2002.The Eukaryotic Promoter Database, EPD:new entry types and links to gene expression data.Nucleic Acids Res 30:322−324.
(発明の概要)
本発明は、生物のゲノム、好ましくは哺乳動物ゲノム、より好ましくはヒトゲノム中の遺伝子発現調節エレメントの構造および機能を特徴づけるためのハイスループット方法に関する。遺伝子発現調節エレメントには、転写プロモーター、エンハンサー、インスレーター、サプレッサー、およびインデューサーが含まれるが、これらに限定されない。好ましい実施形態では、調節エレメントは、転写プロモーターである。各調節エレメントを、そのゲノム上の位置、配列、差異、変異、多形性、異なる細胞または組織型における転写調節活性、および転写因子などの他の調節因子に対する結合親和性に関して特徴づけることができる。遺伝子発現調節エレメントの構造および機能に関する情報を、多種多様に適用することができる(耐病性、罹病性または薬物反応などの表現型に関する個別化様式での疾患の診断および治療(「個別化医療」としても公知)が含まれるが、これらに限定されない)。細胞特異性または組織特異性に関する調節エレメントの同定および特徴づけは、治療有効性を増大させ、副作用を減少させた遺伝子療法のデザインにも役立ち得る。「疾患」には、変化させることが好ましい生物の任意の容態、形質または特徴が含まれるが、これらに限定されない。例えば、容態は、物理的、生理学的または心理学的な容態であってよく、症候性または無症候性であってよい。
本発明の1つの態様では、複数の異なる核酸セグメントの転写調節活性を決定する方法を提供する。本方法は、レポーター配列の発現が異なる核酸セグメントのそれぞれの転写調節下にあるように複数の異なる核酸セグメントのそれぞれを発現ベクター中のレポーター配列に作動可能に連結する工程、レポーター配列を発現する工程、および異なる核酸セグメントのそれぞれによって制御されたレポーターの発現レベルを決定する工程を含む。
複数の異なる核酸セグメントは、好ましくは、異なる遺伝子の転写開始位置の5’側の領域に由来するDNAセグメントであり、この領域が、転写開始部位(TSS)と比較して、約+100〜約−3000bp、任意選択的に約+50〜約−2000、約+20〜約−1800、約+20〜約−1500、約+10〜約−1500、約+10〜約−1200、約+20〜約−1000、約+20〜約−900、約+20〜約−800、約+20〜約−700、約+20〜約−600、約+20〜約−500、約+20〜約−400または約+20〜約−300の領域である。複数の異なる核酸セグメントの多様度(diversity)は、少なくとも50、任意選択的に少なくとも約80、120、160、200、400、500、600、800、1000、1500、2000、3000、5000、8000または10,000であり得る。複数の異なる核酸セグメントの例には、配列番号1〜45096からなる群から選択される少なくとも約2、任意選択的に少なくとも5、10、20、50、100、200、500、1000、5000、10000または25000個のヌクレオチドまたはそのフラグメントが含まれるが、これらに限定されない。
複数の異なる核酸セグメントは、プロモーターなどの推定転写調節エレメントのコンピュータ支援予測方法による異なる遺伝子の5’非転写領域に由来し得る。コンピュータ支援方法は、異なる遺伝子のcDNAライブラリーを生物のゲノムとアラインメントする工程、各異なる遺伝子の転写開始部位を定義する工程、および転写開始部位から5’側の配列を含むゲノム中のセグメント(複数の異なるDNAセグメントのメンバーを構成する選択されたセグメント)を選択する工程を含む。
本発明の推定遺伝子発現調節エレメントの選択方法を、複数のコンピューティングシステム(スーパーコンピュータ、パーソナルコンピュータ、携帯情報端末(PDA)、ネットワークコンピュータ、インターネット上の分散コンピュータまたは他のマイクロプロセッサシステムが含まれるが、これらに限定されない)において種々の形態で実施することができる。上記の方法およびシステムは、ランダムアクセスメモリ(RAM)などの記憶装置以外の種々の実行可能な媒体型での実行に適用可能である。他の実行可能な媒体型(任意の記憶装置、コンパクトディスク、ジップディスクまたはフロッピー(登録商標)ディスクであり得るコンピュータ可読記憶媒体が含まれるが、これらに限定されない)を使用することができる。
本発明はまた、好ましくは、本発明の方法を実施するための組成物、人工物(articles)のアセンブリ、およびキットを提供する。例えば、異なる遺伝子発現調節エレメントのアレイ、好ましくは異なる転写プロモーターのアレイを提供する。アレイの多様度は、好ましくは、少なくとも50、任意選択的に少なくとも約80、120、160、200、400、500、600、800、1000、1500、2000、3000、5000、8000、10,000または25,000である。好ましくは、レポーター配列の発現が各遺伝子発現調節エレメントの転写調節下にあるようにレポーター配列に作動可能に連結された、それぞれ異なる遺伝子発現調節エレメントを含む発現ベクターのライブラリーも提供する。異なる遺伝子発現調節エレメントの例には、配列番号1〜45096からなる群から選択される少なくとも約2、任意選択的に少なくとも5、10、20、50、100、200、500、1000、5000、10000または25000個のヌクレオチド、そのフラグメントまたは少なくとも70%相同な配列を有する核酸が含まれるが、これらに限定されない。レポーター配列の例には、ルシフェラーゼ、蛍光タンパク質(緑色蛍光タンパク質など)、およびβ−ガラクトシダーゼをコードする遺伝子が含まれるが、これらに限定されない。さらに、本発明の方法または任意の組成物、ライブラリー、アレイ、もしくは本発明の人工物のアセンブリを使用した試験もしくはアッセイを実施するための試薬および説明書を含むキットを提供する。キットは、さらに、キットの使用に必要な緩衝液、制限酵素、アダプター、プライマー、リガーゼ、ポリメラーゼ、dNTPS、および説明書を含み得る。
本発明はまた、個体のゲノム中の転写調節エレメントの多形に存在する塩基を決定する方法を提供する。本方法は、個体由来の核酸サンプルを提供する工程、ゲノム中の転写調節エレメントの所定の領域を増幅して核酸フラグメントを産生する工程、核酸フラグメントを固体支持体に固定した異なる転写調節エレメントのアレイとハイブリッド形成する工程、ハイブリッド形成由来のハイブリッド形成パターンを得る工程、およびハイブリッド形成パターンの分析に基づいて個体の多形に存在する塩基を決定する工程を含む。転写調節エレメントは、好ましくは、コアプロモーターまたは広域プロモーターである。異なる転写調節エレメントのアレイは、好ましくは、本発明で提供したアレイであり、1つまたは複数の多形部位を調べることができる。多形塩基の同一性を、ハイブリッド形成情報から決定することができる。本方法を使用して、個体集団のゲノム中の転写調節エレメントの多型に存在する塩基を決定することもできる。
さらに、本発明は、個体のゲノム中の複数の転写調節エレメントの転写活性を決定する方法を提供する。本方法は、個体由来の核酸サンプルを提供する工程、ゲノム中の複数の転写調節エレメントの所定の領域を増幅して複数の核酸フラグメントを産生する工程、各核酸フラグメントをレポーター構築物に挿入して、レポーター構築物のライブラリーを生成する工程、レポーター構築物のライブラリーを細胞中で発現する工程、および細胞中に発現したレポーターのレベルと相関させることによって細胞中の転写調節エレメントの転写活性を決定する工程を含む。本方法は、さらに、転写調節エレメントの転写活性と基準サンプルから得た同一の転写調節エレメントのプロフィールとを比較する工程を含み得る。複数の転写調節エレメントの例には、配列番号1〜45096からなる群から選択される少なくとも約2、任意選択的に少なくとも5、10、20、50、100、200、500、1000、5000、10000、または25000個のヌクレオチドまたはそのフラグメントが含まれるが、これらに限定されない。
本方法を、調節エレメントの異常な転写活性に関連する疾患または病態(β−サラセミア、心血管疾患、アルツハイマー病、統合失調症、双極性障害、緑内障、癲癇、多発性硬化症、および狼瘡など)の診断に使用することができる。治療を受ける個体中の特定の調節エレメント(プロモーターまたはプロモーターのパネルなど)の転写活性を、同一の個体または別の個体由来の基準サンプル中のプロモーターのパネルの転写活性と比較することができる。転写活性の相違は、治療を受ける個体が異常な転写活性に関連する疾患を有することを示し得る。
本方法を、調節エレメントの異常な転写活性に関連する疾患または病態(β−サラセミア、心血管疾患、アルツハイマー病、統合失調症、双極性障害、緑内障、癲癇、多発性硬化症、および狼瘡)の治療に使用することもできる。治療を受ける患者中の特定の調節エレメント(プロモーターまたはプロモーターのパネルなど)の転写活性を、同一の個体または別の個体由来の基準サンプル中のプロモーターのパネルの転写活性と比較し、患者を調節エレメントの転写活性を調節する治療薬で治療することができる。
別の態様では、本発明は、単離核酸分子のライブラリーであって、ライブラリーの各メンバーは、ゲノム由来の異なる所定の核酸セグメントを含み、セグメントが転写調節配列を含み、ここで、(a)ライブラリーの多様度が少なくとも50の異なる核酸セグメントであり、(b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、(c)ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、単離核酸分子のライブラリーを提供する。1つの実施形態では、ライブラリー中の複数の単離核酸分子は、配列番号1〜45096からなる群から選択される。
別の態様では、本発明は、発現構築物のライブラリーであって、ライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、ここで、(a)ライブラリーの多様度(diversity)が少なくとも50の異なる核酸セグメントであり、(b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、(c)ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、発現構築物のライブラリーを提供する。
別の態様では、本発明は、組換え核酸分子のライブラリーであって、ライブラリーの各メンバーは、異種核酸分子に連結したゲノム由来の異なる所定の核酸セグメントを含み、セグメントが転写調節配列を含み、ここで、(a)ライブラリーの多様度が少なくとも50の異なる核酸セグメントであり、(b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、(c)ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、組換え核酸分子のライブラリーを提供する。
別の態様では、本発明は、細胞のライブラリーであって、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、ここで、(a)ライブラリーの多様度が少なくとも50の異なる核酸セグメントであり、(b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、(c)ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、細胞のライブラリーを提供する。
別の態様では、本発明は、細胞内に発現構築物のライブラリーを含む細胞のコレクションであって、発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異なる異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写調節下にある、細胞のコレクションを提供する。
別の態様では、本発明は、複数のウェルを含む少なくとも1つのプレートを含むデバイスであって、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、デバイスを提供する。
別の態様では、本発明は、標的遺伝子発現調節エレメントの生物機能を特徴づけるためのキットであって、(a)複数のウェルを含む少なくとも1つのプレートを含むデバイスであって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、各メンバーがウェル中の既知の位置を有する、デバイス、および(b)レポーターアッセイ基質を含む、キットを提供する。1つの実施形態では、キットは、標的遺伝子発現調節エレメントの生物機能を特徴づけるための説明書をさらに含む。
別の態様では、本発明は、表面および表面にそれぞれ異なる既知の位置に固定された核酸分子を含む固体基板を含むデバイスであって、各分子が転写調節配列を含むゲノムセグメント由来の少なくとも10ヌクレオチドのヌクレオチド配列を含み、デバイスが少なくとも50の異なるゲノムセグメント由来の転写調節配列を含む、デバイスを提供する。
別の態様では、本発明は、(a)本発明のデバイスおよび(b)デバイスの各ウェル中で配列決定された発現レポーター由来のシグナルを検出するように適合された読み取り装置を含むシステムを提供する。
1つの実施形態では、デバイスは、(c)(i)コントロール構築物由来のシグナルに基づいてプレートの全ウェル由来のシグナルを規準化するアルゴリズムを実行するコードを含むソフトウェアをさらに含む。別の態様では、本発明は、上記アルゴリズムを実行するコードを含むソフトウェアを提供する。
別の態様では、本発明は、(a)複数のウェルを含む少なくとも1つのプレートを含むデバイスを提供する工程であって、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、提供する工程、(b)細胞を培養する工程、および(c)各ウェル中のレポーター配列の発現レベルを測定する工程を含む方法を提供する。
1つの実施形態では、デバイスを提供する工程は、(i)複数のウェルを含む少なくとも1つのプレートを含むデバイスを提供する工程であって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、発現構築物のライブラリーの各メンバーがウェル中の既知の位置を有する、提供する工程、(ii)各ウェルに細胞を送達させる工程、(iii)発現構築物で細胞をトランスフェクションする工程を含む。別の実施形態では、方法は、(d)各ウェル中で細胞を撹乱する工程、(e)各ウェル中のレポーター配列の発現レベルを測定する工程、および(f)任意のウェル中の発現レベルが細胞の試験化合物との接触後に変化したかどうかを決定する工程をさらに含む。本方法の別の実施形態では、撹乱する工程が、各ウェル中の細胞を試験化合物と接触させる工程、細胞を異なる環境条件に曝露する工程、変異の誘導などによって持続的または一過性に細胞を遺伝子改変する工程、例えばcDNAでのトランスフェクションによって転写産物を過剰発現させる工程またはsiRNAによって転写産物の発現を減少させる工程を含む。
別の態様では、本発明は、(a)第1のデバイスおよび第2のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも1つのプレートを含み、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有し、第1のデバイスおよび第2のデバイスが同じタイプの細胞を含み、発現構築物のライブラリーが第1のデバイスおよび第2のデバイスで同一である、提供する工程、(b)第1のデバイスおよび第2のデバイスの細胞を異なる培養条件下で培養する工程、(c)各ウェル中のレポーター配列の発現レベルを測定する工程、および(d)レポーター配列の発現レベルを第1の細胞型と第2の細胞型との間の各転写調節配列と比較する工程を含む方法を提供する。
別の態様では、本発明は、(a)第1のデバイスおよび第2のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも1つのプレートを含み、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有し、第1のデバイスが第1の型の細胞を含み、第2のデバイスが第2の型の細胞を含み、発現構築物のライブラリーが第1のデバイスおよび第2のデバイスで同一である、提供する工程、(b)第1のデバイスおよび第2のデバイスの細胞を培養する工程、(c)各ウェル中のレポーター配列の発現レベルを測定する工程、および(d)レポーター配列の発現レベルを第1の細胞型と第2の細胞型との間の各転写調節配列と比較する工程を含む方法を提供する。
別の態様では、本発明は、請求項46に記載の方法によって測定された構築物由来の発現レベルを評価する方法であって、(a)コントロールレポーター構築物セットを含む細胞セットを提供する工程であって、各コントロールレポーター構築物が異種レポーター配列に作動可能に連結されたランダムゲノムフラグメントを含む、提供する工程、(b)各細胞中のレポーター配列の発現レベルを測定する工程、(c)コントロール構築物間の発現レベルの平均値(mean)または平均(average)を決定する工程、(d)各試験構築物の発現レベルについて、平均値または平均からの統計的距離を決定する工程、および(e)偏差が統計的に有意であるかどうかを決定する工程を含む方法を提供する。1つの実施形態では、偏差は標準偏差である。別の実施形態では、ランダムゲノムフラグメントが、実験フラグメントと同一サイズの分布のゲノムから選択されるランダムフラグメントである。別の実施形態では、ランダムゲノムフラグメントは、タンパク質コード遺伝子の中間エキソン(middle exon)由来のランダムフラグメントであり、中間エキソンがタンパク質をコードし、その長さが少なくとも実験フラグメントのサイズであり、且つゲノム中の公知の転写開始部位から少なくとも5,000塩基または10,000塩基である。別の実施形態では、活性および有意性を、以下の式:Zスコアプロモーター活性=(未加工のプロモーター活性−ランダムコントロールの平均値)/ランダムコントロールの標準偏差によってZスコアとして計算する。別の態様では、本発明は、方法の平均値および偏差を決定するアルゴリズムを実行するコードを含むソフトウェアを提供する。
別の態様では、本発明は、Zスコア変換プロモーター活性データを、DNAメチル化実験由来のZスコア変換機能データ、転写因子結合データ、ヒストン修飾データ、DNアーゼ高感受性データ、ヌクレオソーム置換データまたは遺伝子発現データと統合する分析ソフトウェアを提供する。
別の態様では、本発明は、核酸配列中のメチル化パターンを決定する方法であって、(a)以下によって第1の標識核酸セグメントセットを作製する工程:(i)供給源由来の配列を含む核酸分子を得ること、および(ii)単離核酸分子を第1の標識で標識し、標識により、第1の標識核酸セグメントセットが作製されること、(b)以下によって第2の標識核酸セグメントを作製する工程:(i)供給源由来のヌクレオチド配列を有する核酸分子を得ること、(ii)核酸分子を、異なる認識配列を有する少なくとも3つのメチル感受性制限酵素と接触させ、酵素が非メチル化認識配列の核酸分子を切断するが、メチル化認識部位では切断されず、それにより、核酸フラグメントが得られること、(iii)混合物から少なくとも100ヌクレオチドの核酸フラグメントを単離すること、および(iv)フラグメントを第2の異なる標識で標識し、標識により、第2の核酸フラグメントセットが作製されること、(c)第1の標識セグメントおよび第2の標識セグメントを、ヌクレオチド配列を含む1つまたは複数の核酸プローブとハイブリッド形成する工程、および(d)第1の標識セグメントおよび第2の標識セグメントによって識別的に標識されたヌクレオチド配列の領域を決定する工程であって、識別的に標識された領域がヌクレオチド配列の非メチル化領域である、決定する工程を含む方法を提供する。1つの実施形態では、核酸分子は転写調節配列を含む。別の実施形態では、方法は、核酸分子を少なくとも6つの異なるメチル感受性酵素と接触させる工程を含む。別の実施形態では、第1の標識が第1の色を呈し、前記第2の標識が第2の異なる色を呈する。別の実施形態では、方法は、セグメントを、メチル感受性制限酵素認識配列に基づいて消化されると予想される核酸分子のヌクレオチド配列をタイル状に配置する(tile)複数のプローブとハイブリッド形成する工程を含む。別の実施形態では、方法は、第2の供給源由来の核酸を使用して方法を2回行う工程をさらに含み、第1の供給源および第2の供給源が健康な組織および罹患組織または2つの異なる罹患組織型である。
別の態様では、本発明は、本明細書中に記載の任意の組成物、デバイスまたは方法を商業化する工程を含むビジネス方法を提供する。
(参照による援用)
本明細書中に言及した全ての刊行物および特許出願を、各刊行物または特許出願が具体的且つ個別に参考として援用されることを示すのと同一の範囲で本明細書中で参考として援用される。
(発明の詳細な説明)
1.定義
本明細書中で使用される場合、用語「核酸」は、デオキシリボ核酸(DNA)およびリボ核酸(RNA)などの一本鎖および/または二本鎖ポリヌクレオチドならびにRNAまたはDNAのアナログまたは誘導体をいう。ペプチド核酸(PNA)、ホスホロチオアートDNAなどの核酸のアナログ、ならびに他のかかるアナログおよび誘導体またはこれらの組み合わせも、用語「核酸」に含まれる。したがって、この用語はまた、ヌクレオチドアナログから作製されたRNAまたはDNAのいずれかの等価物、誘導体、変異形、およびアナログ、一本鎖(センスまたはアンチセンス)および二本鎖ポリヌクレオチド(二本鎖RNAが含まれる)を含むと理解すべきである。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンが含まれる。RNAについて、ウラシル塩基はウリジンである。
本明細書中で使用される場合、用語「ポリヌクレオチド」は、少なくとも2つの連結したヌクレオチドまたはヌクレオチド誘導体(デオキシリボ核酸(DNA)、リボ核酸(RNA)、およびDNAまたはRNAの誘導体が含まれる)(例えば、核酸アナログまたはホスホジエステル結合以外の「骨格」結合(例えば、ホスホトリエステル結合、ホスホルアミダート結合、ホスホロチオアート結合、チオエステル結合またはペプチド結合(ペプチド核酸))を含む)を含むオリゴマーまたはポリマーをいう。また、用語「オリゴヌクレオチド」を、本明細書中で、「ポリヌクレオチド」と本質的に同義で使用するが、当業者は、オリゴヌクレオチド(例えば、PCRプライマー)が一般に約50ヌクレオチド長〜100ヌクレオチド長未満であることを認識している。
ポリヌクレオチド中に含まれるヌクレオチドアナログは、例えば、ポリヌクレオチドの質量を区別することができる質量改変ヌクレオチド、ポリヌクレオチドを検出することが可能な蛍光標識、放射性標識、発光標識、化学発光標識などの検出可能な標識を含むヌクレオチドまたは固体支持体へのポリヌクレオチドの固定を容易にするビオチン基もしくはチオール基などの反応基を含むヌクレオチドであり得る。ポリヌクレオチドはまた、例えば、選択的に(例えば、化学的、酵素的または光分解的に)切断することができる1つまたは複数の骨格結合を含み得る。例えば、ポリヌクレオチドは、1つまたは複数のデオキシリボヌクレオチドを含むことができ、その後に1つまたは複数のリボヌクレオチドが続き、1つまたは複数のデオキシリボヌクレオチドが続き得る。かかる配列は、塩基の加水分解によってリボヌクレオチド配列で切断することができる。ポリヌクレオチドはまた、相対的に切断耐性を示す1つまたは複数の結合を含むことができる(例えば、ペプチド核酸結合によって連結したヌクレオチドおよび3’末端にはホスホジエステル結合または他の適切な結合によって連結し、ポリメラーゼによって伸長することができる少なくとも1つのヌクレオチドを含み得るキメラオリゴヌクレオチドプライマー)。ペプチド買う酸配列を、周知の方法を使用して調製することができる(例えば、Weilerら Nucleic acids Res.25:2792−2799(1997)を参照のこと)。
本明細書中で使用される場合、「指定のストリンジェンシー条件下でハイブリッド形成する」を、2つの一本鎖DNAフラグメント間で形成されたハイブリッドの安定性を説明するために使用する。この条件は、洗浄工程のストリンジェンシーよりも低いか同等のストリンジェンシー条件下でのアニーリング後にかかるハイブリッドを洗浄する際のイオン強度および温度の条件をいう。典型的には、高、中、低ストリンジェンシーは、以下の条件または以下の条件に等価な条件を含む。
1)高ストリンジェンシー:0.1×SSPEまたはSSC、0.1%SDS、65℃;
2)中ストリンジェンシー:0.2×SSPEまたはSSC、0.1%SDS、50℃;
3)低ストリンジェンシー:1.0×SSPEまたはSSC、0.1%SDS、50℃。
等価な条件は、得られたハイブリッド中のミスマッチの比率が実質的に同一であるように選択した条件をいう。成分(ホルムアミド、Ficoll、およびDenhardt液など)の添加は、ハイブリッド形成を行うべき温度および反応速度などのパラメータに影響を及ぼす。したがって、5×SSC、20%ホルムアミド、42℃でのハイブリッド形成は、上記で引用した低ストリンジェンシー条件下でのハイブリッド形成と実質的に同一の条件である。SSPE、SSC、およびDenhardt液についてのレシピならびに脱イオンホルムアミドの調製は、例えば、Sambrookら (1989)Molecular Cloning,A Laboratory Manual,Cold Spring Harbor Laboratory Press,Chapter 8に記載されている。Sambrookら,vol.3,p.B.13を参照のこと。一般的に使用されている実験方法を説明している多数のカタログも参照のこと。等価なストリンジェンシーを別の緩衝液、塩、および温度を使用して行うことができると理解される。
用語「実質的に」同一または相同または類似は、関連分野の当業者によって理解される文脈によって変化し、一般に、少なくとも70%を意味し、好ましくは少なくとも80%、より好ましくは少なくとも90%、最も好ましくは少なくとも95%同一を意味する。
用語「フラグメント」、「セグメント」、または「DNAセグメント」は、より大きなDNAポリヌクレオチドまたはDNAの一部をいう。例えば、ポリヌクレオチドを、複数のセグメントに分割または断片化することができる。核酸の種々の断片化方法が当該分野で周知である。これらの方法は、例えば、事実上化学的または物理的のいずれかであり得る。化学的断片化には、DNアーゼでの部分的分解、酸での部分的脱プリン、制限酵素の使用、イントロンコードエンドヌクレアーゼ、切断剤を核酸分子中の特定の位置に局在化するための核酸セグメントの特異的ハイブリッド形成に依存するDNAベースの切断方法(三重鎖およびハイブリッドの形成方法など)、または既知または未知の位置でDNAを切断する他の酵素もしくは化合物が含まれ得る。物理的断片化方法は、DNAを高剪断速度に供する工程を含み得る。例えば、穴またはスパイクでのチャンバーまたはチャネルを介してDNAを移動させるか、制限されたサイズの流路(例えば、ミクロンまたはサブミクロンの断面寸法を有する開口部)にDNAサンプルを押し進めることによって高剪断速度を得ることができる。他の物理的方法には、超音波処理および噴霧が含まれる。物理的断片化方法と化学的断片化方法との組み合わせ(熱およびイオン媒介加水分解による断片化など)を、同様に使用することができる。例えば、Sambrookら,”Molecular Cloning:A Laboratory Manual,” 3rd Ed.Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2001)(”Sambrookら”)(全ての目的のためにその全体が本明細書中で参考として援用される)を参照のこと。これらの方法を、核酸が選択されたサイズ範囲のフラグメントに消化されるように至適化することができる。有用なサイズ範囲は、100、200、400、700、または1000塩基対から500、800、1500、2000、4000または10,000塩基対までであり得る。しかし、4000、10,000または20,000塩基対から10,000、20,000、または500,000塩基対までのより大きなサイズ範囲も有用であり得る。
ライゲーション方法は、当業者に公知であり、例えば、Sambrookらおよびthe New England BioLabs catalog(その両方が全ての目的のためにその全体が本明細書中で参考として援用される)に記載されている。本方法は、T4 DNAリガーゼ(平滑末端または粘着末端を有する二重鎖DNAまたはRNA中の並列した5’リン酸末端と3’ヒドロキシル末端との間のホスホジエステル結合の形成を触媒する)、Taq DNAリガーゼ(相補標的DNAにハイブリッド形成する2つの隣接オリゴヌクレオチドの並列した5’リン酸末端と3’ヒドロキシル末端との間のホスホジエステル結合の形成を触媒する)、大腸菌DNAリガーゼ(付着末端を含む二重鎖DNA中の並列した5’リン酸末端と3’ヒドロキシル末端との間のホスホジエステルの形成を触媒する)、およびT4 RNAリガーゼ(3’→5’ホスホジエステル結合の形成によって3’ヒドロキシル末端化核酸アクセプターへの5’ホスホリル末端化核酸ドナーのライゲーションを触媒する)、基質(一本鎖RNAおよびDNAならびにジヌクレオシドピロホスフェートが含まれる)、または当該分野に記載の任意の他の方法の使用を含み得る。
「ゲノム」は、生物のDNAにコードされた生物の完全な単一コピーの一連の遺伝子説明書を指定するか示す。ゲノムは、多染色体性であり得、その結果、DNAが複数の核染色体間に分布する。例えば、ヒトでは、22対の染色体および性関連XX対またはXY対が存在する。
「多型」は、集団中の2つまたはそれを超える遺伝的に決定された別の配列または対立遺伝子の発生をいう。多型マーカーまたは多型部位は、相違が生じる遺伝子座である。好ましいマーカーは、少なくとも2つの対立遺伝子を有し、それぞれ、選択された集団の、好ましくは1%超、より好ましくは10%または20%の頻度で起こる。多型は、1つまたは複数の塩基の変化、挿入、反復、または欠失を含み得る。多型遺伝子座は、1塩基対ほどの小ささであり得る。多型マーカーには、制限フラグメント長多型、タンデム反復数(VNTR)、超可変領域、ミニサテライト、ジヌクレオチド反復、トリヌクレオチド反復、テトラヌクレオチド反復、単純配列反復、およびAluなどの挿入エレメントが含まれる。最初に同定された対立遺伝子形態を基準形態として任意に指定し、他の対立遺伝子形態を別の対立遺伝子または変異対立遺伝子として指定する。選択された集団中で最も頻繁に生じる対立遺伝子形態を、時折、野生型形態という。二倍体生物は、対立遺伝子形態についてホモ接合性またはヘテロ接合性であり得る。二対立遺伝子多型は、2つの形態を有する。三対立遺伝子多型は、3つの形態を有する。2核酸間の多型は、天然に生じ得るか、化学物質、酵素、もしくは他の作用因子への曝露もしくは接触または核酸を損傷する作用因子(例えば、紫外線照射、変異誘発物質、または発現物質)への曝露によって生じ得る。
一塩基多型(SNP)は、ヒト集団で2つの別の塩基が生じる位置であり、最も一般的なヒト遺伝子変異形である。この部位は、通常、高度に保存された対立遺伝子配列に前後して存在する(例えば、集団の1/100または1/1000未満のメンバーで異なる配列)。ヒトゲノム中で3×10個ものSNPが存在すると見積もられている。少なくとも10%の比率で生じる変動を、共通SNP(common SNP)という。
一塩基多型は、通常、多型部位でのあるヌクレオチドの別のヌクレオチドへの置換によって生じる。トランジションは、あるプリンの別のプリンの置換またはあるピリミジンの別のピリミジンへの置換である。トランジションは、プリンのピリミジンへの置換またはその逆である。一塩基多型は、基準対立遺伝子のヌクレオチドの欠失またはヌクレオチドの挿入からも生じ得る。
用語「遺伝子型同定」は、個体がゲノム中の1つまたは複数の位置に保有する遺伝情報の決定をいう。例えば、遺伝子型同定は、個体が単一の多型を保有する遺伝子座の決定または個体が複数の多型を有する遺伝子座の決定を含み得る。
本明細書中で使用される場合、「プロファイリング」は、サンプル中の複数の成分(一般に、3つ以上(4、5、6、7、8、10、50、100、500、1000、10、10、10、10、またはそれを超えるなど))の検出および/または同定をいう。プロフィールは、サンプルの成分が検出可能に結合するか配置された遺伝子座の同定を含み得る。プロフィールを、例えば、マルチウェルプレート中で検出することができるか、固体表面上のパターンとして検出することができ、この場合、プロフィールを視像として示すことができる。プロフィールは、リストもしくはデータベースまたは他のかかる要約の形態であり得る。
本明細書中で使用される場合、「イメージ」は、プロフィールを代表するデータポイントのコレクションをいう。イメージは、かかるデータの視覚的描写、図、表、行列または他の描写であり得る。イメージを、データベースに保存することができる。
本明細書中で使用される場合、「データベース」は、データ項目のコレクションをいう。
本明細書中で使用される場合、転写調節エレメント(予め決定した配列を含む)のライブラリー、転写調節エレメントをコードする発現ベクター、および転写調節エレメントをコードする発現ベクターを含む細胞などの目的の成分のアドレス可能なコレクション中で、コレクションの各メンバーを標識し、そして/または成分の各メンバーを同定可能なように配置する。アドレス可能なコレクションは、典型的には、各遺伝子座が単一で独特の成分を含み、検出可能であるアレイまたは他のコードされたコレクション(独特の核酸タグで生体バーコード化された(bio−barcoded)コレクションなど)である。他の個別の識別子(化学的タグ、電子タグ、着色したタグ、蛍光タグまたは他のタグなど)が含まれる場合、コレクションは液相であり得る。
本明細書中で使用される場合、「アドレス」は、アドレスされた実体を識別することができる独特の識別子をいう。アドレスされた部分は、そのアドレスによって同定することができる部分である。表面上の位置または他の識別子(バーコードまたは他のシンボルでコード化したタグ、化学タグ、電子タグ(RFタグなど)、有色コード化タグまたは他のかかる識別子など)によってアドレスすることができる。
本明細書中で使用される場合、「核酸バーコード」は、転写調節エレメントのコレクション、転写調節エレメントをコードする発現ベクター、および転写調節エレメントをコードする発現ベクターを含む細胞中の各メンバーを独特に同定するために使用することができる特定のアドレス型、より詳細には、予め指定された所定の独特ヌクレオチド配列タグをいう。かかる核酸バーコードは、3〜200、5〜200、8〜100または10〜50ヌクレオチド長であり得、個別且つ目的に合わせることができるハイブリッド形成および融解特性を示し得る。バーコードは、バーコードがタグ化する分子に対して異種である。
「アレイ」は、要素を配置することができる複数の異なる既知の位置を含む支持体(好ましくは、固体)を含む。アレイには、例えば、アドレス可能なウェルを有するマルチタイタープレートおよびアドレス可能な位置に結合した分子を含むチップが含まれる。アレイのメンバーを、同定可能か検出可能な標識(色素、蛍光、電気信号(すなわち、RF、マイクロ波、または目的の分子の相互作用を実質的に変化させない他の周波数)、バーコード(独特の核酸タグを有する生体バーコードなど)、または他のシンボル、化学タグ、もしくは他のかかる標識など)によって同定することができる。例えば、アレイのメンバーを、マルチウェルプレート(96、384、または1536個の位置を有するマイクロタイタープレートなど)のウェルまたはバイアルなどの容器中に配置するか、固相表面上の個別の同定可能な位置に固定するか、検出可能な標識に直接または間接的に結合または会合し(ミクロスフェアまたは他の粒子状支持体(本明細書中で、ビーズという)に固定するなど)、溶液中に懸濁するか表面上に展開することができる。当業者によって使用されるマイクロアレイは、一般に、位置をアドレス可能なアレイ(アレイの位置が密集している固体支持体上のアレイなど)である。「マイクロアレイ」または口語的に「チップ」とも記載されるハイブリッド形成アレイの例は、当該分野で一般的に記載されている(例えば、米国特許第5,143,854号、同第5,445,934号、同第5,744,305号、同第5,677,195号、同第5,800,992号、同第6,040,193号、同第5,424,186号、およびFodorら,Science,251:767−777(1991))。
アレイを、一般に、種々の技術(機械的合成方法またはフォトリソグラフィ法と固相合成法との組み合わせを組み込んだ光による合成方法(light directed synthesis)など)を使用して生成することができる。機械的合成方法を使用したこれらのアレイの合成技術は、例えば、米国特許第5,384,261および同第6,040,193号(全ての目的のためにその全体が本明細書中で参考として援用される)に記載されている。平面アレイ表面が好ましいが、アレイを実質的に任意の形状の表面上または複数の表面上に加工することができる。アレイは、ビーズ、ゲル、高分子表面、繊維(光ファイバーなど)、ガラス、または任意の他の適切な基板上の核酸であり得る(米国特許第5,770,358号、同第5,789,162号、同第5,708,153号、同第6,040,193号、および同第5,800,992号を参照のこと)。
本明細書中で使用される場合、「支持体」(マトリックス支持体、マトリックス、不溶性支持体、または固体支持体ともいう)は、要素(例えば、目的分子、典型的には生体分子、有機分子、または二重特異性リガンド)を結合または接触することができる任意の固体または半固体または不溶性の支持体をいう。かかる物質には、化学的および生物学的な分子の合成および分析のための親和性マトリックスまたは支持体として使用される任意の物質(ポリスチレン、ポリカーボネート、ポリプロピレン、ナイロン、ガラス、デキストラン、キチン、砂、軽石、アガロース、ポリサッカリド、デンドリマー、バッキーボール、ポリアクリルアミド、ケイ素、ゴム、および固相合成、親和性分離および精製、ハイブリッド形成反応、免疫アッセイ、および他のかかる適用のための支持体として使用される他の材料が含まれるが、これらに制限されない)が含まれる。
本明細書中で使用される場合、「マトリックスまたは支持体粒子」は、個別の粒子の形態のマトリックス物質をいう。粒子は、任意の形状および寸法であるが、典型的には、少なくとも1つの寸法が100μm以下、50μm以下であり、典型的には、100mm以下、50mm以下、10mm以下、および1mm以下、100μm以下のサイズであり、立法ミクロンのオーダーであり得る。かかる粒子を、集合的に、「ビーズ」と呼ぶ。粒子は、しばしば、球状であるが、必ずしもそうではない。しかし、かかる基準は、マトリックスの幾何学的性質を制限せず、任意の形状(ランダムな形状、針状、繊維状、および細長い形状が含まれる)であり得る。およそ球状の「ビーズ」、特に、液相で使用することができるミクロスフェアも意図する。「ビーズ」は、さらなる成分が本方法および分析を妨害しない限り、磁石を使用した分離のための磁性粒子または常磁性粒子(例えば、Dynaビーズ(Dynal,Oslo,Norway)を参照のこと)などのさらなる成分を含み得る。
本明細書中で使用される場合、「ライブラリー」は、要素のコレクションである。一定の実施形態では、ライブラリーは、「アドレス可能」である(すなわち、ライブラリーのメンバーが識別タグを含むか、異なる個別の既知の位置に物理的に存在する(マルチウェルプレートの異なるウェルまたは異なる容器内に含まれるなど))。
本明細書中で使用される場合、「アレイライブラリー」は、混合ライブラリーの多数の個別のコレクションへの物理的分離によって得られるアドレス可能なエレメントまたは成分のコレクションをいう。
本明細書中で使用される場合、「生体サンプル」は、生きている供給源またはウイルス供給源から得た任意のサンプルをいい、核酸、タンパク質、または他の高分子を得ることができる被験体の任意の細胞型または組織が含まれる。生体サンプルには、細胞溶解物、細胞、体液(血液、血漿、血清、脳脊髄液、滑液、尿、および汗など)、動物および植物(ヒト、非ヒト哺乳動物(サル、イヌ、ブタ、ウマ、ネコ、ウサギ、ラット、およびマウスなど)、および他の脊椎動物(鳥類および魚類など)など)由来の組織および器官サンプルが含まれるが、これらに限定されない。固体および水のサンプル、ならびに他の環境サンプル、ウイルス、細菌、真菌、藻類、原生動物、およびこれらの成分も含まれる。本明細書中に記載の方法を、生体サンプルを使用して実施することができ、いくつかの実施形態では、プロファイリングなどのための任意のサンプルの試験のために使用することもできる。
本明細書中で使用される場合、「レポーター遺伝子構築物」は、転写制御配列に作動可能に連結されたレポーターをコードする核酸を含む核酸分子である。レポーター遺伝子の転写は、これらの配列によって制御される。少なくとも1つまたは複数のこれらの制御配列の活性は、転写因子および他のタンパク質または生体分子によって直接または間接的に調節される。転写制御配列には、プロモーターおよびプロモーターの活性を調整する他の調節領域(エンハンサー配列など)またはプロモーターを認識するRNAポリメラーゼの活性または効率を調整する制御配列が含まれるか、制御配列はエフェクター分子によって認識される。かかる配列を、本明細書中で、集合的に、転写調節エレメントまたは配列という。
本明細書中で使用される場合、「レポーター」または「レポーター部分」は、目的の分子(細胞によって発現されるタンパク質または生体粒子など)の検出が可能な任意の部分をいう。典型的なレポーター部分には、例えば、ルシフェラーゼなどの発光タンパク質、蛍光タンパク質(赤色、青色、および緑色蛍光タンパク質など)(例えば、ウミシイタケ属および他の種由来のGFPを提供した米国特許第6,232,107号を参照のこと)、大腸菌由来のlacZ遺伝子、アルカリホスファターゼ、分泌性胚アルカリホスファターゼ(SEAP)、クロラムフェニコールアセチルトランスフェラーゼ(CAT)、ホルモンおよびサイトカイン、ならびに他のかかる周知の遺伝子が含まれる。細胞中での発現のために、レポーター部分をコードする核酸を、目的のタンパク質との融合タンパク質としてか、目的のプロモーターの制御下で発現することができる。これらのレポーター遺伝子の発現を、これらの遺伝子から転写されたmRNAレベルの測定によってモニタリングすることもできる。
本明細書中で使用される場合、句「作動可能に連結された」は、一般に、配列またはセグメントが一本鎖形態または二本鎖形態のDNAの一片と共有結合し、それにより、あるセグメント上の制御配列または調節配列が発現または複製を制御または許容するか、別のセグメントが他のかかる制御を行うことを意味する。2つのセグメントは、必ずしも連続していない。これは、構成要素がその意図する様式で機能することができる関係にあるように2つまたはそれを超える構成要素の間の並列を意味する。したがって、レポーターまたは他のポリヌクレオチドに作動可能に連結された調節領域または調節領域に作動可能に連結されたレポーターもしくは任意のポリヌクレオチドの場合、ポリヌクレオチド/レポーターの発現は、調節領域の影響を受けるか制御される(例えば、調整されるか変化する(増加または減少など))。遺伝子発現について、適切な分子シグナル(転写アクチベータータンパク質など)が調節配列に結合した場合に遺伝子発現を制御するか許容するような様式で、ヌクレオチド配列および調節配列を連結する。ヌクレオチドの調節配列およびエフェクター配列(プロモーター、エンハンサー、転写および翻訳終結部位、ならびに他のシグナル配列など)への異種核酸(DNAなど)の作動可能な連結は、かかるDNAとかかるヌクレオチド配列との間の関係をいう。例えば、プロモーターへの異種DNAの作動可能な連結は、かかるDNAの転写が読み枠中のDNAを特異的に認識し、これに結合し、転写するRNAポリメラーゼによってプロモーターから開始されるようなDNAとプロモーターとの間の物理的関係をいう。
本明細書中で使用される場合、「調節分子」は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)のポリマー、オリゴヌクレオチド模倣物、ポリペプチドまたは遺伝子発現を増強または阻害することができる他の分子をいう。
本明細書中で使用される場合、用語「調節領域」は、作動可能に連結された遺伝子の発現に正または負の影響を及ぼすヌクレオチド配列を意味する。調節領域には、遺伝子の誘導性(すなわち、転写を増加させるための物質または刺激が必要である)発現を付与するヌクレオチド配列が含まれる。インデューサーが存在するかその濃度が増加する場合、遺伝子発現が増加する。調節領域には、遺伝子発現の抑制を付与する配列(すなわち、物質または刺激が転写を減少させる)も含まれる。リプレッサーが存在するかその濃度が増加する場合、遺伝子発現が減少する。調節領域は、多数のin vivo生物活性(細胞増殖、細胞の増殖および死滅、細胞分化、および免疫調整が含まれる)に影響を及ぼすか、調整するか、制御することが公知である。調節領域は、典型的には、1つまたは複数のトランス作用性タンパク質に結合し、それにより、遺伝子の転写を増加または減少させる。一定の実施形態では、調節領域はシス作用性である。
遺伝子調節領域の特定の例は、プロモーターおよびエンハンサーである。プロモーターは、転写活性部位の周囲に存在する、典型的には、転写開始部位の5’側に存在する配列である。エンハンサーは、遺伝子の5’側または3’側に存在するか、エキソンまたはイントロン中またはその一部に存在する場合、遺伝子発現に影響を及ぼすことが公知である。エンハンサーはまた、遺伝子から有意な距離(例えば、約3Kb、5Kb、7Kb、10Kb、15Kbまたはそれを超える距離)で機能することができる。
本明細書中で使用される場合、「プロモーター領域」は、この領域が作動可能に連結されたDNAの転写を制御する遺伝子のDNAの一部をいう。プロモーター領域は、RNAポリメラーゼの認識、結合、および転写開始に十分なDNAの特定の配列を含む。プロモーター領域のこの部分を、コアプロモーターという。さらに、プロモーター領域は、RNAポリメラーゼのこの認識、結合、および転写開始活性を調整する配列を含む。これらの配列はシス作用性であり得るか、トランス作用因子に反応性を示し得る。調節特性に依存して、プロモーターは、構成性であり得るか、調節され得る。
調節領域は、プロモーター領域に加えて、翻訳、イントロンのスプライシングシグナル、mRNAのインフレームでの翻訳を可能にするための正確な読み枠の維持を容易にするための配列、終止コドン、リーダー配列、および融合パートナー配列、多重遺伝子または多シストロン性メッセージの作製のための内部リボゾーム結合部位(IRES)エレメント、目的の遺伝子の転写産物を適切にポリアデニル化するためのポリアデニル化シグナル、および終止コドンも含み、これらを任意選択的に発現ベクター中に含めることができる。
本明細書中で使用される場合、「組成物」は、任意の混合物をいう。組成物は、溶液、懸濁液、液体、粉末、ペースト、水溶液、非水溶液またはこれらの任意の組み合わせであり得る。
本明細書中で使用される場合、「組み合わせ」は、2つまたはそれを超える要素の間の任意の関連性をいう。組み合わせは、2つまたはそれを超える個別の要素(2つの組成物または2つのコレクションなど)、その混合物(2つまたはそれを超える要素の1つの混合物など)、またはこれらの任意の異形であり得る。
本明細書中で使用される場合、「キット」は、包装された組み合わせをいい、任意選択的に、その使用のための説明書および/または試薬を含む。
本明細書中で使用される場合、2つの核酸セグメントは、その配列が同一ゲノム中で見出されないか、通常は同一ゲノム中で10000ヌクレオチド以内で連結しない場合、互いに「異種」である。
本明細書中で使用される場合、核酸分子がゲノムおよび/または細胞中の天然の環境から取り出されている場合、核酸分子は、「単離」されている。
核酸分子が混合物中の主な生体分子種である場合、核酸分子は、「純粋」である。
2.序文
本発明は、生物のゲノム、好ましくは哺乳動物ゲノム、より好ましくはヒトゲノム中の遺伝子発現調節エレメントの構造および機能のハイスループットでの特徴づけのための方法に関する。本発明の方法を、大量、好ましくはゲノムワイドスケールで調節エレメントをハイスループットで特徴づけるための使用が容易なシステムとして使用することができる。有効且つ経済的な方法での複数の実験条件でのゲノム中の調節エレメントの活性の測定を可能にするための組成物、アセンブリ、ライブラリー、アレイ、およびキットも提供する。好ましい実施形態では、同一DNAフラグメントにおける転写因子結合およびプロモーター活性を決定するためのプロモーターマイクロアレイを提供する。調節エレメントのかかる機能的ライブラリーまたはアレイは、疾患または容態の研究、診断、防止、および治療において広範に適用することができる。
1つの態様では、本発明の使用により、多様な細胞型または分化の経時変化による多数の異なる調節エレメントの活性を評価または決定して、組織特異的プロモーターおよび遍在性プロモーターを見出すことができる。調節エレメントの活性を、異なる条件下(siRNA、cDNA、または他の化合物もしくは薬物の添加前後など)で検出または決定して、特定の処置に応答して上方制御または下方制御するプロモーターを同定することができる。調節エレメントへの転写因子の結合の影響を、効率良く評価することもできる。これらの調節エレメントのコレクションを、DNAメチル化または他の構成的修飾の状態について機能的に関連する配列モチーフについてさらに分析することができる。
別の態様では、本発明によって提供された機能アレイは、プロモーターフラグメントの機能活性を直接測定することができる。これは、以前のアプローチでは行われなかった。さらに、スポットしたプロモーターアレイまたはオリゴベースのプロモーターアレイにより、正確に同一のプロモーターフラグメントに対して統合計算プラットフォームを使用してクロマチン免疫沈降研究およびメチル化研究を行うこともできる。プロモーター機能に関する複数の独立したデータ型の統合により、ゲノムワイドの転写調節の研究が新たに可能である。この過程および方法により、ヒトゲノムの至るところの多数のプロモーターフラグメントにおけるプロモーター活性、転写因子結合、およびDNAメチル化を始めて同時に研究することができる。
理論に拘束されることを望まないが、発現マイクロアレイおよびクロマチン免疫沈降のような実験ツールによって有益な所見が得られるが、これらはDNA調節エレメント自体の機構または機能を説明していないので、機能アッセイは重要であると考えられる。プロモーター由来の機能データは、プロモーター活性の増加による転写開始率の増加により、転写を安定化する転写後機構よりもむしろマイクロアレイ実験で検出される転写レベルが高くなることを示すことができる。さらに、プロモーター機能アッセイは、目的の活性が特定のDNAフラグメントにあることを突き止め、この領域中に含まれる正確な機能モチーフを発見することができる。
任意の1つの実験プラットフォームのみでは生物系を完全に説明するには不十分であるとも考えられる。核酸ハイブリッド形成に基づいたマイクロアレイによって測定した場合、遺伝子を高度に発現することができるが、理由を決定することができない。転写因子は、ゲノム中の特定の遺伝し付近に結合することができるが、結合の機能的因果関係を決定できない。一連の配列を高度に保存することができるが、天然の選択がこの配列を保存するように作用する理由は未知である。プロモーターをある細胞型でメチル化することができるが別の細胞型ではメチル化しない。しかし、この相違の機能的因果関係は、直ちに明確にされない。さらに、プロモーターは、化合物の添加の際に細胞ベースの機能アッセイで活性の増加を示すことができるが、他の一連の実験上の証拠を用いずに何故その活性が変化したかについてしか推測することができない。各実験アプローチは、その特定のアプローチに関連するその特有の偏りおよび固有の問題も有する。したがって、本発明者らは、任意のある実験に特異的な制限と無関係に、研究者が多様な技術から収集した情報を統合して生体系の全体像を得ることができる場合に限ると考える。
本発明者らは、調節エレメントネットワーク分析に対する統合されたアプローチを容易にするための革新的な方法および生成物ならびに疾患の素因、発症、および/または進行の分子遺伝学的機構の研究、疾患の診断、防止、および治療のための有効な手段の開発のための上記方法および生成物から得た情報の使用を提供する。
3.転写調節エレメントのライブラリー
本発明は、転写調節エレメントを含むゲノム核酸セグメントのライブラリーを提供する。本発明のライブラリーは、特に、ライブラリーに存在するセグメントの長さおよび転写調節エレメントが生物機能を有するmRNA(すなわち、生物中の生物学的役割を果たすmRNA)の転写を天然に制御する比率の高いセグメントによって特徴づけられる。1つの実施形態では、本発明のヒトゲノムセグメントを、図9Bに記載され、実施例により完全に記載されているアルゴリズムを使用して選択することができる。
ライブラリーのために選択された各ゲノム核酸セグメントが、公知のcDNA分子と整列させるゲノム中の配列と天然では作動可能に連結している。ライブラリーは、cDNAアラインメントアーティファクトに連結したセグメントを低比率で含む(例えば、30%、25%、20%、15%、10%、5%、2%または1%未満)。これらのアーティファクトは、アラインメントアルゴリズムの不正確さまたは配列決定された元のcDNAライブラリーのゲノムDNA汚染に起因する。これらのアーティファクトは、既存のcDNAライブラリー由来の少数の独立したcDNAによって偽遺伝子および単一エキソン遺伝子として示された無イントロン(非ギャップ化)アラインメントとして同定される。より具体的には、GenBankのような遺伝子配列のライブラリーは、cDNAとして報告された多数の分子を含む。これらの配列をゲノム配列に対して整列させる場合、アラインメントがランダムと見なされないように、ゲノムの一定の位置を、多数の報告されたcDNAによってマッピングする。これらの位置が生物学的に関連するcDNAを示し、上流配列が活性な転写調節配列であると高い確信をもつことができる。ゲノム中の他の位置は、報告されたcDNAによってほとんどマッピングされないか、全くマッピングされない。cDNA配列がスプライシングされず(すなわち、イントロンを含まない)、ゲノム中のある位置にマッピングされるcDNA数がランダムモデル下で予想されるほどしかない場合、これらのアラインメントをアーティファクトと見なす。
本発明のライブラリーのセグメントはまた、転写調節に関与するより多数の配列を含むので、転写の調節で十分に機能する。本発明のライブラリーは、平均長が少なくとも600ヌクレオチドのセグメントを含む。一定の実施形態では、ライブラリー中のセグメントの平均長は、700ヌクレオチドと1200ヌクレオチドとの間である。より詳細には、平均長は、800ヌクレオチドと1100ヌクレオチドとの間または950ヌクレオチドと1050ヌクレオチドとの間であり得る。さらに、ライブラリー中のセグメントは、異なる長さの範囲を有し得る。例えば、1つの実施形態では、少なくとも90%のセグメントが、200〜1300ヌクレオチドまたは700ヌクレオチドと1300ヌクレオチドとの間の範囲の長さを有する。別の実施形態では、たった5%の核酸セグメントが、cDNAアラインメントアーティファクトに天然に連結している。各セグメントは、転写開始部位を含む。セグメントのほとんどのゲノム配列は、転写開始部位の上流に存在する(典型的には、少なくとも500塩基対)。セグメントは、典型的には、転写開始部位を超えた少なくとも1つのヌクレオチドを有し、大部分は、転写開始部位の約100ヌクレオチド下流である。
本発明はまた、遺伝子発現調節エレメントのライブラリー、好ましくは、多様度が少なくとも50、任意選択的に少なくとも80、120、160、200、400、500、600、800、1000、1500、2000、3000、5000、8000または10,000の転写プロモーターのライブラリーを提供する。転写プロモーターの例には、配列番号1〜45096からなる群から選択される少なくとも2、任意選択的に少なくとも5、10、20、50、100、200、500、1000、5000、10000または25000個のヌクレオチド、そのフラグメント(約100〜1800、約300〜1500、約500〜1400、約600〜1300、約700〜1200または約800〜1000ヌクレオチド長の配列番号1〜45096のフラグメントまたはこれらに対して少なくとも70%、75%、80%、85%、90%、95%または98%の相同性を有する配列を有する核酸が含まれるが、これらに限定されない。
遺伝子発現調節エレメントには、転写プロモーター、エンハンサー、インスレーター、サイレンサー、サプレッサー、およびインデューサーが含まれるが、これらに限定されない。好ましい実施形態では、調節エレメントは転写プロモーターである。各調節エレメントを、そのゲノム上の位置、配列、差異、変異、多形性、異なる細胞または組織型における転写調節活性、および転写因子などの他の調節因子に対する結合親和性に関して特徴づけることができる。遺伝子発現調節エレメントの構造および機能に関する情報を、多種多様に適用することができる(耐病性、罹病性、または薬物反応などの表現型に関する個別化様式での疾患の診断および治療(「個別化医療」としても公知)が含まれるが、これらに限定されない)。細胞特異性または組織特異性に関する調節エレメントの同定および特徴づけは、治療有効性を増大させ、副作用を減少させた遺伝子療法のためのトランスジェニック発現構築物のデザインにも役立ち得る。「疾患」には、変化させることが好ましい生物の任意の容態、形質または特徴が含まれるが、これらに限定されない。例えば、容態は、物理的、生理学的、または心理学的な容態であってよく、症候性または無症候性であってよい。
プロモーターライブラリー(または調節エレメントライブラリー)は、in silico形態または物理的形態で存在し得る。in silico形態は、転写プロモーター(上記の好ましいサイズ範囲を有する)および遺伝子モデルおよび関連する転写産物などの関連するゲノム情報を示すヒトゲノム由来の配列のデータベースである。プロモーターライブラリーの物理的形態は、プロモーターの複数の各核酸フラグメントのセットまたはそれぞれがレポーター遺伝子カセットの上流にクローニングしたヒトゲノム由来の独特のプロモーターフラグメントを含むプラスミドであり得る。ライブラリーは、好ましくは、ヒトゲノム中の全プロモーターの少なくとも50%、70%、80%、90%、95%または99%に相当する。
プロモーターライブラリーの物理的形態を、いくつかの方法で示すことができる。1つの形態は、小さな大腸菌培養物中に凍結したプラスミドの保存ライブラリーとして存在し得る。これらの凍結培養物を、無期限に保存し、液体培養で拡大して、より多くのプラスミドを産生することができる。別のライブラリー形態は、トランスフェクションのために即座に提供することができる精製プラスミドDNAであり得る。遺伝子発現調節エレメントのライブラリー、好ましくは転写プロモーターのライブラリーに基づいて、広範な種々のツールまたはキット(下記のプラスミド機能マイクロアレイおよびスポットされたプロモーターマイクロアレイなど)を構築することができる。
プロモーターライブラリーは、それぞれがヒトゲノム由来の単一プロモーターを示す独特のインサートを有する共通ベクター/プラスミド骨格から作製されたプラスミドパネルを含む。プロモーターフラグメントを、レポーター遺伝子カセットの直ぐ5’側にクローニングすることができる。このライブラリーは、2つのアレイ型(プラスミド機能マイクロアレイおよびスポッとされたプロモーターアレイ)が構築される出発点であり得る。
複数の異なる核酸セグメントは、好ましくは、異なる遺伝子の転写開始位置の5’側の領域に由来するDNAセグメントであり、この領域が、転写開始部位(TSS)と比較して、約+100〜約−3000bp、任意選択的に約+50〜約−2000、約+20〜約−1800、約+20〜約−1500、約+10〜約−1500、約+10〜約−1200、約+20〜約−1000、約+20〜約−900、約+20〜約−800、約+20〜約−700、約+20〜約−600、約+20〜約−500、約+20〜約−400または約+20〜約−300の領域である。複数の異なる核酸セグメントは、少なくとも50、任意選択的に少なくとも約80、120、160、200、400、500、600、800、1000、1500、2000、3000、5000、8000または10,000という多様度(diversity)を有し得る。複数の異なる核酸セグメントの例には、配列番号1〜45096からなる群から選択される少なくとも約2、任意選択的に少なくとも5、10、20、50、100、200、500、1000、5000、10000、または25000個のヌクレオチドまたはそのフラグメント(約100〜1800、約300〜1500、約500〜1400、約600〜1300、約700〜1200、または約800〜1000ヌクレオチド長の配列番号1〜45096のフラグメントが含まれるが、これらに限定されない。
複数の異なる核酸セグメントは、プロモーターなどの推定転写調節エレメントのコンピュータ支援予測方法による異なる遺伝子の5’非転写領域に由来し得る。コンピュータ支援方法は、異なる遺伝子のcDNAライブラリーを生物のゲノムとアラインメントする工程、各異なる遺伝子の転写開始部位を定義する工程、および転写開始部位から5’側の配列を含むゲノム中のセグメント(複数の異なるDNAセグメントのメンバーを構成する選択されたセグメント)を選択する工程を含む。
本発明の推定遺伝子発現調節エレメントの選択方法を、任意のコンピューティングシステム(スーパーコンピュータ、パーソナルコンピュータ、携帯情報端末(PDA)、ネットワークコンピュータ、インターネット上の分散コンピュータ、または他のマイクロプロセッサシステムが含まれるが、これらに限定されない)において種々の形態で実施することができる。上記の方法およびシステムは、ランダムアクセスメモリ(RAM)などの記憶装置以外の種々の実行可能な媒体型での実行に適用可能である。他の実行可能な媒体型(任意の記憶装置、コンパクトディスク、ジップディスク、またはフロッピー(登録商標)ディスクであり得るコンピュータ可読記憶媒体が含まれるが、これらに限定されない)を使用することができる。
図8Aは、本明細書中に開示の手順の1つの実施形態を概略的に示す。図8A中の流れ図は、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能的分析のためのプロセスを示す。下記のように本発明で提供されたコンピュータ支援された方法の使用によってヒトゲノム全体の転写プロモーターを予測することが好ましい。予測された推定プロモーター配列を増幅し、レポーターを含む発現ベクターにクローニングして、組織培養細胞にトランスフェクトするかそうでなければ導入されたプロモーターのライブラリーを含む発現ベクターのライブラリーを構築する。プロモーターの転写活性化により、レポーターが発現する。次いで、レポーターの活性をアッセイし、プロモーターの活性と相関させる。
図8Bは、本明細書中に開示の手順の別の実施形態を概略的に示す。図8B中の流れ図は、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能的分析のためのプロセスを示す。下記のように本発明で提供されたコンピュータ支援された方法の使用によってヒトゲノム全体の転写プロモーター(拡大したプロモーターが含まれる)を予測することが好ましい。予測された推定プロモーター配列を増幅し、レポーターを含む発現ベクターにクローニングして、組織培養細胞にトランスフェクトするかそうでなければ導入されたプロモーターのライブラリーを含む発現ベクターのライブラリーを構築する。プロモーターの転写活性化により、レポーターが発現する。次いで、レポーターの活性をアッセイし、プロモーターの活性と相関させる。さらに、プロモーター配列を増幅し、これを使用して大量の(好ましくは、ゲノムワイドの)プロモーターアレイを構築することができる。プロモーターアレイを、広範な種々の適用(アレイ上の全プロモーターでの転写因子の結合の研究(例えば、クロマチン免疫沈降(CHIP)と組み合わせて使用(CHIP−チップが得られる))、プロモーターのDNAメチル化状態の評価など)のために使用することができる。図8Bに例示したこの手順を、プロモーターレポーター活性、転写因子結合、およびエピジェネティック状態と統合して、細胞ベースのシステムにおけるプロモーター機能の最も完全な手段が得られるはずである。あるいは、ライブラリー中の配列を使用して、上記と同一の用途のためのオリゴベースのプロモーターマイクロアレイをデザインすることができる。
図9Aは、転写プロモーターの予測方法の1つの実施形態を概略的に示す。図9Aに例示し、実施例1のプロモーター予測アルゴリズム(PPA v1.1)にさらに記載するように、好ましくは、Genbankで利用可能な全cDNA(Mammalian Gene Collection(MGC)由来のcDNAが含まれる)を、プロモーターの予測に使用する。このプロセスは、低品質のcDNA配列および低品質のアラインメントをフィルタリングによって除去し、エキソン重複に基づいて全cDNAアラインメントを遺伝子モデルセットにアセンブリし、この遺伝子モデルセットと比較して全プロモーターを予測する。対照的に、以前のアプローチは、各cDNAのプロモーターを予測し、重複したフラグメントをフィルタリングによって除去するが、遺伝子と関連しなかった。したがって、以前のアプローチでは、プロモーターを一次プロモーターまたは同一遺伝子の選択的プロモーターと指定する体系的方法は存在しなかった。
図9Bは、転写プロモーターの予測方法の別の実施形態を概略的に示す。図9Bに例示し、実施例2にさらに記載するように、このプロセスは、cDNAのより低いストリンジェントの品質管理を使用する。このプロセスにより、cDNAの5’末端の200bpの配列が整列されない。実施例2に証明するように、このプロセスは、ゲノム中の複数の場所に整列するcDNAを使用し、プロセシングされた可能性のある偽遺伝子をフィルタリングによって除去する。このプロセスは、独特の第1のエキソンを有するcDNAに基づいて遺伝子モデル中の選択的プロモーターも予測し、無イントロンcDNAによって定義された別のTSSを除去する。なおさらに、このプロセスは、別のTSSによって遺伝子モデル中の最も長いcDNAと比較して異なる読み取り枠が得られるかどうかを記録する。同様に有意には、このプロセスは、2,000塩基の推定プロモーター配列を集めて、これから700塩基対と2,000塩基対との間のプロモーターフラグメントを増幅するようにプライマーをデザインする。本発明者らは、遠位プロモーター領域でかなりの転写調節が制御され、これらのフラグメントを使用して実施されるその後の機能アッセイは、700塩基対未満のプロモーターフラグメントを使用して行った実験よりも情報量が多いと考える。
図10Aは、プロモーターを単離し、これらをレポーターベクターにクローニングする方法の1つの実施形態を概略的に示す。図10Aに例示し、実施例1にさらに記載するように、約500〜700bpの推定プロモーター配列をPCR増幅し、組換えベースのクローニング系によってレポーター(例えば、ルシフェラーゼ)ベクターにクローニングする。各プロモーター−レポーター構築物を含む各組換え反応物を細菌に形質転換し、クローンをPCRによってスクリーニングし、正確な構築物の含有について分析する。
図10Bは、プロモーターを単離し、これらをレポーターベクターにクローニングする方法の別の実施形態を概略的に示す。図10Bに例示し、実施例2にさらに記載するように、プロモーターフラグメントを階層化し、制限部位成分に基づいて増幅して、クローニングすべきプロモーター数を最大にする。単一制限酵素対をクローニングに使用する場合、内部制限部位を含んでいたフラグメントはフィルタリングによって除去される必要があり、それにより、かなりの数のプロモーターが喪失するであろう。この実施形態によれば、レポーターベクターに適合する少なくとも3つの制限酵素対を使用する。これらの酵素対に基づいた標的プロモーターフラグメントの階層化により、ゲノム中の98%を超えるプロモーターをクローニングすることができる。増幅されたプロモーター産物をプールし、レポーターベクターにライゲーションする。プールおよび配列決定ストラテジーの使用により、非常に高いスケールメリットを達成することができる。PCR産物のプールにより、本発明の実施に少数の消化、ライゲーション、および形質転換しか必要とせず、これらの処理に関連する時間および費用が非常に節約される。プール中のほぼ全てのフラグメントを捕捉するために、クローンのプライマーを使用した少なくとも3サイクルの配列決定−配置を行う。
4.発現構築物のライブラリー
別の実施形態では、本発明は、本発明のゲノムセグメントを含む発現構築物のライブラリーを提供する。ライブラリーは、メンバーのコレクションを含み、各メンバーは、ゲノム由来の異なる核酸セグメントを含む。発現構築物は、異種レポーター配列に作動可能に連結された本発明の核酸セグメントを含む組換え核酸分子である。ヌクレオチド配列が発現制御配列の転写調節制御下にある場合、核酸配列は、発現制御配列に作動可能に連結されている。レポーター配列は、核酸セグメントが由来するゲノム中のゲノムセグメント配列の転写調節制御下に天然にはないという点でゲノムセグメントと異種である。この組換え核酸分子をベクター内にさらに含め、これを使用して、細胞に感染させるか一過性または安定にトランスフェクションし、細胞内で複製することができる。
転写プロモーター以外で、上記のプロモーターに類似の原理にしたがって、ライブラリーおよびアレイを他の調節エレメント型のために構築することができることに留意すべきである。それぞれで使用されるベクターはわずかに異なり得るが、それぞれがレポーターカセットまたは構築物を依然として含むことが好ましい。異なる調節エレメント型を、レポーターカセットと異なる位置にクローニングすることができる。
4.1.レポーター配列
本発明は、ゲノムセグメントの転写調節エレメントの制御下にあることができる多数の異なるレポーター配列を意図する。
1つの実施形態では、レポーター配列は、レポータータンパク質(発光タンパク質(例えば、ルシフェラーゼ)、蛍光タンパク質(例えば、赤色、青色、および緑色蛍光タンパク質)、アルカリホスファターゼ、分泌性胚アルカリホスファターゼ(SEAP)、クロラムフェニコールアセチルトランスフェラーゼ(CAT)、ホルモン、およびサイトカインなど)をコードする。検出可能なシグナルを発するタンパク質を使用したライブラリーでは、全てのレポータータンパク質に同一のシグナルを発生させることが有用であり得るが、不可欠ではない。これにより、ハイスループット法での検出が簡潔になる。
あるいは、ライブラリー中の発現構築物は、異なる検出可能なシグナルを発生する、異なるレポーター配列を含むことができる。例えば、各構築物中のレポーター配列は、独特の所定のヌクレオチドバーコードであり得る。これにより、細胞の同一のバッチまたはウェル中の多数の核酸セグメントをアッセイすることが可能である。1つの実施形態では、各構築物中で、独特のプロモーター配列を独特のバーコードレポーター配列の上流にクローニングし、独特のプロモーター/バーコードレポーター組み合わせを得る。活性プロモーターは、独特のバーコード配列を含む転写産物の産生を駆動することができる。したがって、発現構築物のライブラリーでは、各プロモーターの活性により、そのレベルを測定することができる独特の転写産物が産生される。各レポーターが独特であるので、発現構築物のライブラリーを、1つの巨大な細胞プール(個別のウェルと対照的)にトランスフェクションし、全RNAをプールとして回収することができる。各バーコード化転写産物のレベルを、相補バーコード配列を有するマイクロアレイを使用して検出することができる。それにより、各アレイスポット上の蛍光量は、ヌクレオチドバーコードの転写を駆動したプロモーターの強度に対応する。
任意選択的に、ライブラリー中の発現構築物は、第1のレポーター配列および第2のレポーター配列を含むことができる。第1のレポーター配列および第2のレポーター配列は、異なることが好ましい。例えば、第1のレポーター配列は同一のレポータータンパク質(例えば、ルシフェラーゼまたはGFP)をコードすることができ、第2のレポーター配列は、独特のヌクレオチドバーコードであり得る。このようにして、転写によってレポータータンパク質コード領域と独特のバーコード配列とのハイブリッド転写産物を得ることができる。かかる構築物を、レポータータンパク質によって発生されるシグナル(例えば、発光)を読み取るためのウェル毎のアプローチおよび/またはバーコードの読み取りによるプールしたアプローチのいずれかで使用することができる。
ライブラリーの各メンバーについての独特の分子バーコードの使用により、巨大ライブラリー(例えば、少なくとも100、150、200、500、1000、2000、または25,000という多様度のライブラリー)を、何千もの個別のウェルよりもむしろ1つの容器(バイアルまたはプレート中のウェルなど)でアッセイすることができる。全レベル(試薬、プラスチック製品、および労働力)で費用を軽減することができるので、このアプローチは、より有効且つ経済的である。
4.2.ベクター
発現構築物は、宿主細胞中の構築物中のレポーター配列の発現を容易にする任意のベクターであり得る。任意の適切なベクターを使用することができる。当該分野で公知の多数のベクターが存在する。使用することができるベクターの例には、例えば、プラスミドまたは改変ウイルスが含まれる。ベクターは、典型的には、ベクターを導入してベクターの複製およびコードされたレポーターの発現が容易になる所与の宿主細胞に適合する。本発明の実施で有用であり得る特定のベクターの例には、大腸菌バクテリオファージ(例えば、λ誘導体)またはプラスミド(例えば、pBR322誘導体またはpUCプラスミド誘導体);ファージDNA(例えば、ファージ1の多数の誘導体(例えば、NM989))、および他のファージDNA(例えば、M13および直鎖状一本鎖ファージDNA);酵母ベクター(2μプラスミドまたはその誘導体など);真核細胞で有用なベクター(例えば、昆虫細胞に有用なベクター(バキュロウイルスベクターなど))、哺乳動物細胞で有用なベクター(レトロウイルスベクター、アデノウイルスベクター、アデノウイルスウイルスベクター、アデノ随伴ウイルスベクター、SV40ウイルスベクター、単純ヘルペスウイルスベクター、およびワクシニアウイルスベクターなど);プラスミドとファージDNAとの組み合わせ由来のベクター、ファージDNAまたは他の発現調節配列を使用するために改変されたプラスミドなどが含まれるが、これらに限定されない。
5.組換え細胞
別の態様では、本発明は、本発明の発現ライブラリーを含む組換え細胞を提供する。2つの異なる実施形態を特に意図する。
第1の実施形態では、各細胞または細胞群は、発現ライブラリーの異なるメンバーを含む。かかる細胞のライブラリーは、特に、本発明のアレイで有用である。典型的には、ライブラリーに指標を付ける。例えば、異なる発現ベクターを有する各異なる細胞を、容器内のゲノムセグメントの同一性を示す個別の容器中に維持することができる。指標は、天然にゲノム中の配列の転写調節の制御下にある特定の遺伝子も示すことができる。
第2の実施形態では、ライブラリーの全てのメンバーが少なくとも1つの細胞中に存在し、各細胞が発現ライブラリーの少なくとも1つのメンバーを有するように、細胞の培養物を発現構築物のライブラリーでトランスフェクトする。第2の実施形態は、レポーター配列が独立して検出することができる独特の配列であるライブラリーで特に有用である。
有用な細胞型には、外因性DNAをリポフェクション、エレクトロポレーション、または感染によって導入することができる初代哺乳動物細胞株および形質転換された哺乳動物細胞株が含まれる。かかる細胞中のライブラリーを、適切な増殖培地中での増殖培養物中で維持するか、ジメチルスルホキシドを補足した凍結培地として液体窒素中で保存することができる。
6.機能アレイ:マルチウェルプレート
別の態様では、本発明は、各ウェルが本発明の発現ライブラリーの異なるメンバーを含む、マクロアレイとも呼ばれるマルチウェルプレートを含むデバイスを提供する。本発明が種々の形式およびアレイレイアウトのマルチウェルプレートを意図する一方で、当該分野で周知の多数の標準的な形質が存在する。特に、発現ベクターのライブラリーを、1つまたは複数の96ウェル、384ウェル、または1536ウェルマイクロタイタープレートのウェル内に含めることができることが意図される。
好ましい実施形態では、多様な異なる遺伝子発現調節エレメントのアレイ、好ましくは、異なる転写プロモーターのアレイを提供する。アレイの多様度は、好ましくは、少なくとも50、任意選択的に少なくとも約80、120、160、200、400、500、600、800、1000、1500、2000、3000、5000、8000、、10,000、または25,000である。レポーター配列の発現が各遺伝子発現調節エレメントの転写制御下にあるように、各発現ベクターが、好ましくは、レポーター配列に作動可能に連結された異なる遺伝子発現調節エレメントを含む発現ベクターのライブラリーも提供する。
プラスミド機能マイクロアレイのために、プロモーターライブラリーの各メンバーを、大腸菌に個別にトランスフェクションすることができる。各大腸菌ストックを増殖させて100μgを超える各プラスミドを作製し、次いで、プラスミドDNAを細菌細胞の一部の残りから精製する。各プラスミドの小アリコート(適切なトランスフェクション試薬を含む)を、96ウェル、384ウェル、または1536ウェル形式で配置することができる。プラスミドのこのマクロアレイを、多数の異なる適用のための使用することができる。その主な用途は、好ましくは、生細胞のトランスフェクションでの使用である。一旦プラスミドが生細胞に送達されると、レポーター遺伝子産物から検出された活性量は、プロモーターフラグメントによって得られた転写活性を反映する。したがって、プラスミドマクロアレイは、生細胞中のプロモーター機能のハイスループット研究が可能である。プロモーター機能アッセイを、種々の細胞型で行うか、細胞環境の変化、遺伝子配列または機能の変化に対応して行うか、または目的の小分子もしくはタンパク質配列の存在下で行うことができる。
より好ましい実施形態では、発現ベクター中に少なくとも200種の異なる遺伝子発現調節エレメントを含む非常に多様な発現ベクターのアレイを提供する。実施例の部に詳述するように、驚いたことに、本発明者らは、384ウェル形式でのプロモーター機能アッセイが96ウェル形式に匹敵する多様なプロモーターライブラリーの転写活性を効率的且つ正確に測定することができることを発見した。いずれかの形式に置ける複製実験ウェル間の変動はほとんど同一であり、96ウェル形式と384ウェル形式との間の測定の相関関係は非常に高い(R=0.98)。さらに、弱いプロモーターのレポーター活性でさえも、依然として市販の照度計の直線的検出範囲内である。したがって、かかる高度に多様な機能アレイを有効且つ効果的に使用して、種々の条件下での単一のパネルまたは実験(例えば、384ウェルまたはより高い密度の形式)における多数の調節エレメントの転写活性を測定することができる。
6.1.「裸の」核酸を使用したマイクロタイターアレイ
1つの実施形態では、本発明は、ウェルが細胞環境外の発現ベクターを含むマイクロタイターアレイを意図する。特に、各ウェルが乾燥形態の本発明の発現ベクターを含むマイクロタイターアレイを意図する。かかるデバイスを容易に保存および運搬することができ、且つ使用できる状態である。他の実施形態では、ウェルは、核酸を含む溶液を含む。別の実施形態では、溶液は、プレートに添加させる細胞のトランスフェクションに必要な全ての成分を含むことができる。
6.2.組換え細胞を使用したマイクロタイターアレイ
各ウェルが本発明の発現ベクターを含む組換え細胞を含むマイクロタイターアレイは、ハイスループットスクリーニングアッセイに有用である。かかるアレイを生成するために、DNAを、無血清培地およびトランスフェクション試薬(リポフェクション試薬など)と混合し、インキュベートし、細胞群に添加することができる。インキュベーション後、外因性DNAは、細胞中に存在するであろう。別の送達方法には、エレクトロポレーションおよび感染が含まれる。
7.機能アレイ:核酸プローブアレイ
別の態様では、本発明は、固体基板に付着させたプローブが本発明の核酸セグメントライブラリー由来の配列を含むDNAアレイを提供する。核酸アレイの作製方法は、当該分野で周知である。例えば、米国特許第5,807,522号および同第6,110,426号(Brown and Shalon);同第6,054,270号および同第6,054,270号(Southern);ならびに同第6,040,193号;同第5,744,305号;同第5,871,928号;同第6,610,482号;同第6,261,776号;同第6,291,183号(Affymetrix)を参照のこと。
アレイ合成に適用可能な方法および技術は、米国特許第5,143,854号、同第5,242,974号、同第5,252,743号、同第5,324,633号、同第5,384,261号、同第5,424,186号、同第5,451,683号、同第5,482,867号、同第5,491,074号、同第5,527,681号、同第5,550,215号、同第5,571,639号、同第5,578,832号、同第5,593,839号、同第5,599,695号、同第5,624,711号、同第5,631,734号、同第5,795,716号、同第5,831,070号、同第5,837,832号、同第5,856,101号、同第5,858,659号、同第5,936,324号、同第5,968,740号、同第5,974,164号、同第5,981,185号、同第5,981,956号、同第6,025,601号、同第6,033,860号、同第6,040,193号、および同第6,090,555号にも記載されている。上記特許は全て、全ての目的のためのその全体が本明細書中で参考として援用される。
プローブの配列は、本発明のゲノムセグメントの全配列を含むことができる。あるいは、本発明の転写調節配列を、転写調節配列由来の少なくとも21ヌクレオチドの配列を含む1つまたは複数のプローブによって示すことができる。この配列は、21ヌクレオチド長と35ヌクレオチド長との間、36ヌクレオチド長と45ヌクレオチド長との間、46ヌクレオチド長と55ヌクレオチド長との間、56ヌクレオチド長〜65ヌクレオチド長、またはそれを超え得る。一定の実施形態では、転写調節配列を、転写調節配列由来の重複および/または非重複ヌクレオチド配列を含む2、3、4、5、6、7、8、9または10個のプローブによって示す。本発明のプローブは、一本鎖または二本鎖であり得る。
スポットされたプロモーターマイクロアレイを構築するために、プロモーターライブラリーの各メンバーに相当するプラスミドDNAの小アリコートを使用することができる。ライブラリー中の各プラスミドを独特のプロモーターインサートを有する同一のベクター骨格から作製するので、プロモーターインサートに隣接するベクター配列に対するプライマーを、全ライブラリーと同一のプライマーセットを使用した各ベクターにおける独特のインサートのPCR増幅が可能なようにデザインすることができる。次いで、ライブラリーの各メンバーについて各PCR反応を行い、独特のプロモーターフラグメントに相当する大量のPCR産物を生成する。プラスミドテンプレートから増幅する場合、PCR反応は非常に強く、且つ全プロモーターで一貫していなければならず、プロモーターがゲノムDNAから増幅されたかどうかは事実と異なっていて良い。次いで、これらの精製されたPCR産物を使用して、密着印画またはインクジェットによる固着(deposition)のいずれかによって、それぞれのフィーチャーが独特のプロモーターフラグメントに相当するスライドガラス上にスポットされたマイクロアレイを作製する。
本発明のマイクロアレイを、多数の異なる実験目的のために使用することができる。1つの適用は、クロマチン免疫沈降(ChIP)との併用である。クロマチン免疫沈降は、生細胞中でのDNAへのタンパク質の架橋、クロマチン/DNA複合体の剪断、および抗体を使用した目的のタンパク質の免疫沈降を含む。これは、目的のタンパク質に結合したDNA配列を同定することが困難である。富化ChIPである標的を同定するために、ChIP DNAのマイクロアレイとのハイブリッド形成が1つの選択肢として挙げられる。多くの研究者らは、既に、ゲノム全域の結合部位を同定するためにタイル状に配置されたオリゴマイクロアレイにかかる実験結果物をハイブリッド形成している。しかし、かかる実験は、多くの研究所には非常に高価である。本発明で提供したスポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイは、プロモーターの特異性を研究するためにChIP実験を実施するという研究者の需要を満たし、タイル状に配置されたオリゴアレイに対する安価な代替法を追求している。
このスポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイの別の適用は、好ましくは、上記のハイスループット様式での調節エレメントのメチル化状態を決定する方法を使用したプロモーターDNAメチル化状態のゲノムワイドのアッセイの実施のためのものであり、低メチル化および高メチル化されたDNA配列の差分標識のために多数の異なる技術を使用する。プロモーター配列でのこの差分標識の結果を、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイ状で視覚化して、どのプロモーターが過小メチル化または過剰メチル化するのかを判断する。
一般に、ある配列型が別の配列型よりも差分標識される任意の技術を、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイに適用することができる(DNA高感受性およびヒストン修飾などが含まれる)。当該分野の他の者によって開発された他のオリゴベースのプロモーターと比較して、かかるアッセイのためにこのスポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイを使用する利点は、アレイ上のフラグメントがプラスミド機能マクロアレイシステムを使用して機能活性を試験することができる正確に同一のフラグメントであるという点である。
8.キット
1つの実施形態では、プロモーターの機能マクロアレイのためのキットを提供する。キットは、96ウェルまたは384ウェル中に配置したプロモータープラスミドの即時トランスフェクションセットを含む。キットは、レポーターアッセイ基質、特定の生物経路の誘導または抑制のための試薬(サイトカインまたは他の精製タンパク質、小分子、cDNA、siRNAなど)、および/またはデータ分析ソフトウェアをさらに含み得る。
さらに、本発明の方法の実施または本発明の組成物、ライブラリー、アレイ、もしくは物品のアセンブリを使用した試験もしくはアッセイの実施のための試薬および説明書を含むキットを提供する。キットは、緩衝液、制限酵素、アダプター、プライマー、リガーゼ、ポリメラーゼ、dNTP、およびキットの使用に必要な説明書(任意選択的に、トラブルシューティング情報を含む)をさらに含み得る。
別の実施形態では、CHIPアッセイのためのキットを提供する。キットは、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイ、および1つまたは複数のChIP用抗体を含む。キットは、DNA増幅および標識用の試薬、ならびに/またはデータ分析ソフトウェアをさらに含み得る。
さらに別の実施形態では、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイおよびメチル化アッセイ用の酵素セットを含むDNAメチル化アッセイ用のキットを提供する。キットは、DNA増幅および標識用の試薬、ならびに/またはデータ分析ソフトウェアをさらに含み得る。
さらに別の実施形態では、プラスミド機能マイクロアレイキット、ChIPのためのプロモーターマイクロアレイキット、およびDNAメチル化アッセイキットを含む、包括的プロモーター分析のための物品のアセンブリを提供する。アセンブリは、データ統合のための分析ソフトウェアをさらに含み得る。
9.使用方法
9.1.緒論
本発明の機能アッセイは、本発明の転写調節配列の活性をスクリーニングするためのハイスループット実験の実施に有用である。機能的プロモーターアッセイのこの処理能力の増加は、以下のいくつかの理由で重要である。第1に、単一パネルでアッセイすることができる調節エレメント数の限度が除かれることにより、研究者は、単一の実験において全生物学的ネットワークに対応するエレメントを調査することが可能である。例えば、癌の発症および進行に関与する1000種を超える遺伝子が存在する。100種を超える遺伝子(例えば、1000種を超える)のプロモーターを含むようにプロモーター機能アッセイの拡大により、研究者は、全ての癌関連遺伝子の全てのプロモーターを一度に研究することができる。
さらに、多数の遺伝子は選択的プロモーターを有し、従って、これらのアッセイの処理能力により、選択的プロモーターを研究に含めることができる。特定の選択的プロモーターは、同一遺伝子の異なるイソ型の個別の調節を付与することが示されており、これは、包括的研究に含める必要があるプロモーター生物学の重要な態様である。
処理能力の増加により、はるかに大きな規模でプロモーター配列変異型を研究することもできる。ゲノム中の各プロモーターが平均していくつかのSNPを有する可能性が高いので、処理能力の増加により、最も一般的なハプロタイプを選択するよりもむしろ所与のプロモーターセットの既存の全ハプロタイプを包括的に分析することが可能である。
さらに、単一の実験における多数の調節エレメントのアッセイにより、研究者は、はるかに大きな検出力で統計分析を行うことが可能である。以前のプロモーター活性実験は、プロモーター活性データが、しばしば、ちょうどマイクロアレイ発現実験における遺伝子クラスターのように、類似の活性のクラスターに分解されることを示した。少数のプロモーターを使用した実験では、各サブクラスターは、しばしば、小さすぎて、そのクラスターに独特の重要な特徴に関するいかなる統計的に有意な主張(一定のモチーフの過剰表示または高次の配列の特徴など)も得られない。データセットが大きいほどこれらの統計分析を行うための検出力がより大きくなり、単一パネルにおいて、200または1,000を超える多様度のプロモーターが非常に望ましいであろう。
広範な種々の生体サンプル(単離細胞、細胞培養物、体液(血液、骨髄、唾液、脊髄液、および精液)、生検、および組織サンプルが含まれる)を、本発明にしたがって試験することができる。組織サンプルは、患者(ヒト、他の家畜、または飼われている動物(veterinary animal))由来の任意の組織サンプルであり得る。ヒト、マウス、ウマ、ウシ、イヌ、およびネコなどの脊椎動物が好ましい。サンプルは、固定または非固定、均質化、溶解、低温保存などが可能である。コントロールとして対応する組織サンプルを使用することが最も望ましい。したがって、例えば、懸濁した結腸直腸癌組織を、正常な結腸直腸上皮組織と比較する。
本発明の1つの態様では、多数の異なる核酸セグメントの転写調節活性を決定する方法を提供する。本方法は、レポーター配列の発現が異なる核酸セグメントのそれぞれの転写調節下にあるように複数の異なる核酸セグメントのそれぞれを発現ベクター中のレポーター配列に作動可能に連結する工程、レポーター配列を発現する工程、および異なる核酸セグメントのそれぞれによって制御されたレポーターの発現レベルを決定する工程を含む。
本発明はまた、好ましくは、本発明の方法を実施するための組成物、アセンブリ、およびキットを提供する。例えば、異なる遺伝子発現調節エレメントのアレイ、好ましくは異なる転写プロモーターのアレイを提供する。アレイの多様度は、好ましくは、少なくとも50、任意選択的に少なくとも約80、120、160、200、400、500、600、800、1000、1500、2000、3000、5000、8000、10,000、または25,000である。好ましくは、レポーター配列の発現が各遺伝子発現調節エレメントの転写調節下にあるようにレポーター配列に作動可能に連結された、それぞれ異なる遺伝子発現調節エレメントを含む発現ベクターのライブラリーも提供する。
9.2.プロモーター活性のハイスループットスクリーニング方法
9.2.1.基本的方法
本発明の発現構築物を保有する細胞のマルチウェルプレートは、プロモーター活性のハイスループットスクリーニングに有用である。基本的方法では、各ウェル中に本発明の発現ライブラリーのメンバーを有するマルチウェルプレートを、細胞がベクターでトランスフェクションされるような条件下で目的の細胞型で満たす。次いで、細胞を、作業者によって選択された条件下でインキュベートする。プロモーターが「オンになる」細胞は、その転写制御下でレポーター配列を発現するであろう。次いで、本発明者らは、デバイスの各ウェルをチェックして、レポーターの転写量を測定する。一般に、これは、レポーター配列によってコードされたレポータータンパク質によって産生されたシグナルの測定を含む。例えば、レポータータンパク質が蛍光タンパク質の場合、各ウェルが発光し、蛍光量を測定する。シグナルの測定量は、レポーター配列の発現の関数であり、それにより、転写調節配列の活性の関数である。
図11Aは、ハイスループット様式での複数のプロモーターの転写活性の検出方法の1つの実施形態を概略的に示す。図11Aに例示し、実施例1にさらに記載するように、レポーター構築物のライブラリー中に含まれる多数のプロモーターを、96ウェルプレート中に配置し、組織培養細胞にトランスフェクションする。レポーターの発現を検出し、プロモーターの転写活性と相関させる。
図11Bは、大量ハイスループット様式での複数のプロモーターの転写活性の検出方法の別の実施形態を概略的に示す。図11Bに例示し、実施例2にさらに記載するように、レポーター構築物のライブラリー中に含まれる100個を超えるプロモーターを、マルチウェル形式(例えば、96ウェルまたは384プレート形式)で配置し、組織培養細胞にトランスフェクションする。レポーター構築物のライブラリーおよびトランスフェクション試薬混合物を、96または384ウェル形式の組織培養細胞にトランスフェクションするか添加することができる。あるいは、またはより効率的には、レポーター構築物のライブラリーおよびトランスフェクション試薬混合物を、96または394ウェル形式に配置し、その後に組織培養細胞をウェルに添加する(いわゆる、「逆トランスフェクション」)。レポーターの発現を検出し、プロモーターの転写活性と相関させる。
96ウェルプレートから384ウェルへの拡大およびプラスミドDNAを予め等分することにより、単一実験における処理能力を、数百のプロモーターアッセイから1,000を超えるプロモーターのアッセイに拡大することができる。この実験を1,000個を超えるプロモーターフラグメントに拡大することにより、研究計画の範囲が非常に改善され、これらのデータの下流統計分析に対してより高い検出力が与えられる。データセットが大きいほど、主成分の分析および階層的クラスター分析などのアプローチにより影響を受ける。複数の実験における一度に1,000個を超えるプロモーターの研究により、プロモーター活性データのサブクラスターは、過剰表示モチーフまたは高次配列の特徴を検索するのに十分に大きい。
実施例2にさらに記載するように、全工程のプロモーター予測の精度および効率を増大させ、それにより、単一実験において数百または数千のプロモーターを機能的にアッセイし、単一実験において全生物経路を徹底的に調査することを可能にするためにプロセスの工程を精緻化する。実験規模の制約によってアッセイのためにその最良の候補のみを選択する必要がある代わりに、本発明の使用により、研究者らは、何百もの目的の遺伝子を含めることができ、したがって、はるかにより完全で生物学的に関連するデータセットを入手することができる。
図12Aは、複数のプロモーターの機能アッセイで得たデータの分析方法の1つの実施形態を概略的に示す。図12Aに例示し、実施例1にさらに記載するように、はるかに大きなネガティブコントロールフラグメントセット(例えば、約100)を使用して、ランダムゲノムフラグメントからバックグラウンドシグナルに対してより信頼できる測定を行う。
図12Bは、多数のプロモーターの機能アッセイで得たデータの分析方法の別の実施形態を概略的に示す。図12Bに例示し、実施例2にさらに記載するように、プレート規準化構築物セットを上記のプロモーター機能アッセイで使用して、細胞増殖、トランスフェクション、およびアッセイ条件におけるプレート毎の変動を制御することが可能である。このコントロールセットに基づいて、プレート中の各ウェル値を全実験で規準化する。Zスコアベースの分析は、ネガティブコントロール値の分布の変動が考慮されるので、実験間のデータをより良好に比較することが可能である。
9.2.2.撹乱(perturbation)効果の検出
本発明の方法の別の実施形態では、転写調節配列のライブラリーの活性に及ぼすシステムの撹乱効果を試験することができる。上記の基本的方法を、第1の条件下で行い、プロモーターの活性量を決定する。次いで、細胞を、研究者によって選択された様式で撹乱する(すなわち、異なる条件に供する)。撹乱には、例えば、試験化合物への細胞の曝露、温度、pH、または栄養などの環境条件の変化、または新規もしくは改変された遺伝物質を導入するか遺伝物質の量を変化させるための細胞の遺伝子改変が含まれ得る。撹乱後、ライブラリー中の各プロモーターの活性量を試験し、第1の状態でのその活性と比較する。活性が変化したプロモーターを単離し、さらに研究することができる。この方法では、例えば、どの転写調節配列が目的の化合物によって活性を調整されたかを決定することができる。
本方法のバリエーションでは、試験を並行して行う。すなわち、本発明の2つの同一のデバイスを、プロモーター活性について試験する。しかし、一方のデバイスを第1の条件セットに供し、他方のデバイスを第2の条件セットに供する。この方法では、2つの条件下での転写調節配列の相対活性を試験し、異なる活性を有する配列を同定および単離することができる。
9.2.3.細胞型間の比較
2つの細胞型の転写調節配列活性の相違を同定することも有用であり得る。例えば、遺伝子発現は、細胞を正常から癌に形質転換した場合に異なる。癌細胞で過剰作用するプロモーターは、薬理学的介入の標的であり得る。本発明のアレイは、かかる転写調節配列の同定に有用である。したがって、本発明者らは、ウェル中に発現構築物を含む2つのアレイセットを提供する。第1の細胞型を第1のデバイスでの形質転換に使用し、第2の細胞型を第2のデバイスでの形質転換のために使用する。2つのデバイス間のレポーター配列の発現を比較して、2つの細胞型で異なって発現したレポーター配列を同定する。
9.2.4.混合培養物における試験
転写調節配列が独特のレポーター配列に作動可能に連結された発現構築物の使用により、マルチウェルプレートを使用せずに試験を行う可能性が広がる。かかる状況では、細胞の単一培養物は、細胞間に分散した全発現ライブラリーを含む。培養物を、選択された条件下でインキュベートすることができる。次いで、発現産物を単離する。「レポーター配列」という表題の項目に記載のように、それぞれがそのパートナーである核酸セグメントに関連した独特のヌクレオチドタグまたはバーコードを有するので、各レポーター配列の量を、各独特の配列を含む転写産物の量の測定によって測定することができる。例えば、独特の配列に相補的なプローブを含むDNAアレイ上の分子を検出することができる。各プローブへのハイブリッド形成量は、発現されたレポーター配列の量を示し、したがって、転写調節配列の活性を反映する。
10.プロモーター変異形
10.1.異なる活性を有するプロモーター変異形の同定
ヒト表現型または疾患状態の変化を生じるプロモーター領域の配列の変化について多数の報告がある。古典的な例の1つは、Βサラセミアである。わずかこの数年間に、プロモーター配列の変化は、特に、心血管疾患、アルツハイマー病、統合失調症、双極性障害、緑内障、癲癇、多発性硬化症、および狼瘡にも関与している。ごく最近の研究では、SRY遺伝子のプロモーター中の3塩基対欠失が完全な性逆転に関連することも示されている。C反応性タンパク質遺伝子のプロモーターの機能変異形も同定されている。C反応性タンパク質の血清レベルが心臓疾患のリスクの重要な予測の判断材料であるので、これは特に重要である。
Hap−Map計画などの関連研究および取り組みにより、しばしば、ヒト集団中の個体間のプロモーター配列の生物学的に興味深い変動が潜在的に検出される。次いで、この大きな疑問は、配列の変化が実際にプロモーターの機能に影響を及ぼすかどうかということまたはこれらが本質的にサイレントな非機能性の変化である場合を中心に展開する。本明細書中に提供したアッセイを使用して、プロモーター変異形の活性を比較することができる。
本発明は、集団中の表現型の相違に関連する転写調節配列の変異形の同定方法を提供する。本方法は、以下の工程を含む。第1に、配列のデータベースまたは他の情報源から集団中の配列多型(SNPなど)を示す転写調節配列を同定し、選択する。次いで、本発明のアッセイにおいて転写調節活性についてこれらの変異形を試験する。これらのアッセイにおいて活性の相違を示す多型形態を、さらなる研究のために選択する。かかる研究では、異なる表現型形質を有する2つの集団を選択する。例えば、罹患した第1の集団および罹患していない第2の集団を選択する。一般に、本発明者らは、問題の表現型にいくらか関与することが疑われる遺伝子の発現を調節するプロモーターを選択する。集団は、統計的に有意な結果を得るのに十分に巨大である。次いで、2つの集団の各個体を試験して、変異形のどの形態を個体が有するのかを決定する。統計分析は、多型形態が表現型に関連するのかどうかを示す。次いで、特定の表現型が関連することが見出された多型形態を診断で使用して、個体がこの表現型を有する可能性がどの程度あるかを決定することができる。
より一般的には、本発明で提供された産物を使用いて、遺伝子発現調節エレメント中の多型を表現型形質とより効率的に相関させることもできる。各多型または多型群の表現型の特徴との相関関係は、集団における表現型形質の変動に寄与するDNAの変動を同定するための有益なツールである。表現型形質には、物理的特性、疾患リスク、および環境に体する応答が含まれる。疾患と相関する多型は、薬物療法のための疾患および標的を正確に診断するための機構を示すので、特に興味深い。何百ものヒト疾患が既に各多型と関連づけられているが、未だ同定されていない遺伝子成分を有することが公知の多数の疾患および成分が遺伝子に関連するか関連し得る多数の疾患が存在する。
多数の疾患は、複数の遺伝子の変化と相関し得、これが所与の疾患と関連する多型の同定をより困難にしている。この困難を克服するための1つのアプローチは、制限された共通の遺伝子変異形セットを疾患との関連について体系的に調査することである。調節エレメントのマクロアレイによって可能な機能研究により、調節エレメントの機能に影響を及ぼす配列変異型の影響を及ぼさないものからの選別を容易にするであろう。したがって、機能配列変異型の表現型形質との相関関係を探すことができ、これは、単なる表現型と相関する変異形の発見から特定の表現型を生じ得る変異体の同定へ焦点が変化している。
遺伝子発現調節領域中の1つまたは複数の対立遺伝子と1つまたは複数の表現型形質との間の相関関係を同定するために、個体を、多型マーカーまたはマーカーセットの有無および目的の表現型形質について試験する。多型セットの有無を、特定の形質を示す固体および特定の形質を欠く個体について比較して、特定の対立遺伝子の有無が目的の形質に関連するかどうかを決定する。例えば、遺伝子のプロモーター領域中の多型Aでの対立遺伝子A1の存在が心疾患と相関することを見出すことができる。表現型形質と1つを超える多型との間の相関関係の例として、多型Aでの対立遺伝子A1および多型Bでの対立遺伝子B1は目的の表現型形質と相関することを見出すことができる。
疾患の症状または発症と相関する遺伝子発現調節領域中のマーカーまたはマーカー群を使用して、表現型の発現と無関係に、疾患または疾患の素因を診断することができる。疾患または疾患の素因を診断するために、個体を、1つまたは複数の疾患と相関する多型マーカーまたはマーカーセットの有無について試験する。例えば、多型Aでの対立遺伝子A1の存在が冠動脈疾患と相関する場合、多型Aに対立遺伝子A1を有する個体は、この容態のリスクが増大し得る。
個体を、疾患の症状が認められる前に試験することができる。例えば、乳児を、出生時にβサラセミアなどの遺伝病について試験することができる。任意の年齢の個体を試験して、さらなる疾患のリスクプロフィールを決定することができる。しばしば、早期診断により、食事、挙動、または薬学的介入によって疾患をより有効に治療および防止することができる。個体を試験して、遺伝障害の保有状態を決定することもできる。保有可能性のある親は、この情報を使用して、家族計画を決定することができる。
1つを超える診断と一致する疾患の症状を発症している個体を試験して、より正確に診断することができる。例えば、症状Sが疾患X、Y、またはZと一致するが、多型Aでの対立遺伝子A1が疾患Xに相関し、しかし疾患YやZと相関しない場合、症状Sを有する個体を、多型Aでの対立遺伝子A1の有無について試験する。多型Aでの対立遺伝子A1の存在は、疾患Xの診断と一致する。
10.2.薬理ゲノミクス
さらに、本発明で提供された産物を、薬理ゲノミクスのために使用することもできる。薬理ゲノミクスは、遺伝子が薬物に対してどのように応答するかの研究をいう。宿主の毒性および治療有効性の両方に関して個体が投薬に応答する方法は非常に異なる。このばらつきには、以下の多数の原因が存在する:治療をうける疾患の重症度、薬物の相互作用、ならびに個体の年齢および栄養状態。これらの臨床的変動の重要性にもかかわらず、遺伝子多型の形態の遺伝性の相違は、投薬の有効性および毒性にはるかにより大きな影響を及ぼし得る。薬物代謝酵素、輸送体、受容体、および他の薬物標的の遺伝子多型は、多数の投薬の有効性および毒性における個体間の相違に関与している(Evans and Relling,Science 286:487−491(2001)(全ての目的のために本明細書中で参考として援用される)を参照のこと)。調節エレメントのマクロアレイによって可能な機能研究により、調節エレメントの機能に影響を及ぼす配列変異型の影響を及ぼさないものからの選別を容易にするであろう。したがって、機能配列変異型の表現型形質との相関関係を探すことができ、これは、単なる表現型と相関する変異形の発見から特定の表現型を生じ得る変異体の同定へ焦点が変化している。
上記と類似の様式では、薬物代謝に関与することが疑われる遺伝子をコードする転写調節配列をスクリーニングして、集団中の多型形態中に存在する配列を同定する。これらの配列を、本発明のアッセイで機能の相違について試験する。次いで、機能の相違を示す配列を、薬物に対する応答が異なる集団中で試験して、多形形態が薬物反応の相違に関連するかどうかを決定する。
各患者は、特定の薬物を代謝し、排除し、応答する受け継がれた能力を有する。遺伝子発現調節領域中の多型の薬理ゲノミクス形質との相関関係により、薬物の毒性および治療有効性に影響を及ぼす多型が同定される。この情報を医師が使用してどの投与経路が特定の患者に最良であるかを決定することができ、製薬会社が使用して、特定の疾患または集団内の特定の個体をターゲティングする新薬を開発することができる一方で、副作用の可能性を減少させることができる。薬物を、特定の対立遺伝子または対立遺伝子群を保有する個体群にターゲティングすることができる。例えば、多型Aに対立遺伝子A1を保有する個体は、投薬Xに最良に応答することができる一方で、対立遺伝子A2を保有する個体は、投薬Yに最良に応答する。形質は、単一の多型の結果であり得るが、しばしば、いくつかの遺伝子の相互作用によって決定されるであろう。
さらに、集団の大部分に高度に有効ないくつかの薬物は、集団のほんの一握りに非常に危険であることが判明している。これらの薬物は、典型的には、何人にも利用できない。薬理ゲノミクスを使用して、特定の遺伝子型を有害な薬物応答と相関させることができる。製薬会社および医師が特定の薬物に対して有害な応答を示す患者を正確に同定することができる場合、この薬物から恩恵を受けるであろう患者に限ってこの薬物を利用できる。
同様に、いくつかの投薬が集団の本の一握りのみに高度に有効であり得る一方で、患者の大部分にはわずかしか効果がないか全く効果がない。薬理ゲノミクスにより、製薬会社は、どの患者が特定の薬物について理想的な候補であるかを予想することが可能であり、それにより、事故率が劇的に減少し、製薬会社がこれらの薬物の研究を実施し続けるためのより大きな動機が得られる。
10.3.マーカー支援育種(Marker−Assisted Breeding)
本発明で提供した産物を、マーカー支援育種に使用することもできる。遺伝子マーカーは、ブリーダーの動物および植物の遺伝子の複雑さの理解、選択、および管理を支援することができる。例えば、農業では、消費者の需要が増加し、期待が変化するので、望ましい形質(多収量、耐病性、味、香り、色、テクスチャーなど)を有する作物の生産を試みる相当な動機がある。しかし、分子機構が公知である場合でさえも、多くの形質は、生産中の監視が非常に困難であるか、費用がかかる。所望の遺伝子に物理的に極めて近接している遺伝子発現調節領域中の容易に検出可能な多型を、代理として使用して、所望の形質が特定の生物に存在するかどうかを決定することができる。これにより、選択的育種プロセスを加速することができる有効なスクリーニングツールが得られる。
上記と類似の様式では、目的の表現型形質に関与することが疑われる遺伝子をコードする転写調節配列をスクリーニングして、集団中の多型形態中に存在する配列を同定する。これらの配列を、本発明のアッセイで機能の相違について試験する。次いで、機能の相違を示す配列を、形質を有する集団中で試験して、多形形態がこの形質に関連するかどうかを決定する。
本発明で提供した方法、ライブラリー、アレイ、キット、およびアセンブリは、任意の特定の核酸サンプル型(植物、細菌、動物(ヒトが含まれる))に制限されず、総ゲノムDNA、RNA、およびcDNAなどを、本発明の開示のいくつかまたは全ての方法を使用して分析することができることに留意すべきである。用語「DNA」を、以下で核酸の例として使用することができる。以下の使用で特定の核酸型が必要でない限り、この用語には全ての核酸(DNAおよびRNAなど)が含まれると理解される。
11.ソフトウェア
本発明は、プロモーター強度の測定値を規準化し、バックグラウンドモデルを使用して各測定値の統計的有意性を計算するデータ分析ソフトウェアを提供する。データ分析アルゴリズムは、最初に、多数の(例えば、4、8、または16のセット)スタンダードコントロールを使用して、各プレート中のデータを規準化する。次いで、各実験構築物についてのこれらの規準化した未加工の値を、少なくとも48、96、または384個のランダムゲノムフラグメントのパネルのプロモーター活性と比較して、バックグラウンドを超えるその有意性を評価する。これらのランダムフラグメントを、ゲノム全体または少なくとも1000塩基対長および公知の転写開始部位から少なくとも5000塩基のタンパク質コード遺伝子の中間エキソン(middle exon)から真に無作為に選択することができる。各実験のために、ランダムフラグメント値の平均および標準偏差を計算する。次いで、以下の式から各実験プロモーター活性を計算する:Zスコアプロモーター活性=(未加工のプロモーター活性−ランダムコントロールの平均値)/ランダムコントロールの標準偏差。各Zスコアの信頼性レベルは、多仮説検定のための補正後のネガティブコントロールフラグメントのガウス分布を推測する曲線下面積に等しい(すなわち、Zスコアが3以上のフラグメントを、p<0.01の信頼レベルで活性と見なす)。次いで、Zスコア変換プロモーター活性データを、他の型のZスコア変換データ(DNAメチル化、ゲノムマイクロアレイと組み合わせたクロマチンIP、発現アレイデータなど)と比較することができる。
12.メチル化
本発明はまた、核酸分子(特に、調節エレメント)内のCpGジヌクレオチドのメチル化状態の決定方法を提供する。一定の実施形態では、本方法を、ハイスループット様式で行う。多数の調節エレメントがCpGリッチであり、多数のCpGリッチ領域は、調節エレメントに相当する。したがって、CpGリッチ配列のメチル化状態により、多数の転写調節エレメントの機能が洞察される。図13は、ゲノムワイドのCpGリッチ配列領域のメチル化状態の大量ハイスループットによる決定方法の1つの実施形態を概略的に示す。図13に例示し、実施例3にさらに記載するように、高分子量のゲノムDNAを、細胞株または組織から調製し、少なくとも3つ(好ましくは6つ)の異なるメチル感受性制限酵素で消化する。供給源由来のDNA中のCpGリッチ配列がメチル化されない場合、メチル感受性酵素はこれらの酵素を小フラグメントに切断する。100bp長を超える消化されたDNAを精製し、蛍光標識などの検出可能なマーカーで標識する。未消化のゲノムDNAを、異なる検出可能なマーカーで標識する。切断および末端標識またはランダムに標識したプライマーのハイブリッド形成およびその後のプライマーの伸長のいずれかによって標識を進行することができる。両サンプルを、競合ハイブリッド形成アッセイにおけるゲノムマイクロアレイ(スポットされたプロモーターまたは目的のゲノム領域全体にタイル状に配置するCpGアイランドアレイもしくはオリゴアレイなど)に適用する。CpGリッチ領域がメチル化されないDNAでは、この領域は100ヌクレオチド未満の小フラグメントに切断されているので、これらのCpGリッチ領域は有意に枯渇する。しかし、これらの領域は、コントロールとして使用した未消化DNAでは枯渇しないであろう。
以前は各メチル感受性制限酵素(非メチル化認識配列を有する核酸分子を切断するが、メチル化認識配列を切断しない制限酵素)を使用してDNAメチル化を測定していたが、この酵素は、通常、非メチル化DNAをマークして検索するために使用されている。このアプローチの新規の態様は、残りのゲノムと比較したこれらの領域の枯渇を測定することである。それぞれ異なる認識部位を有する酵素のカクテルを使用して、任意の1つの酵素のみでの処置下で同一程度に生じない非メチル化領域を枯渇させることができる。メチル化感受性制限酵素の例には、以下が含まれる:AatII、AciI、AclI、AfeI、AgeI、AscI、AsiSI、AvaI、BceAI、BmgBI、BsaAI、BsaHI、BsiEI、BsiWI、BsmBI、BspDI、BspEI、BsrBI、BsrFI、BssHII、BstBI、BstUI、ClaI、EagI、FauI、FseI、FspI、HaeII、HgaI、HhaI、HinPII、HpaII、Hpy99I、HpyCH4IV、KasI、MluI、Nael、NarI、NgoMIV、NotI、NruI、PaeR7I、PmlI、PvuI、RsrII、SacII、SalI、SfoI、SgrAI、SmaI、SnaBI、TilI、XhoI。
本方法の使用により、全ゲノムのCGリッチ領域でのDNAメチル化状態を、効率的に測定することができる。本方法の主な利点は、特異性が非常に高いヒトゲノム中の「CpGアイランド」の97%を非常に効率的で安価に測定することである。DNAメチル化は、発癌および転写調節に関与する。したがって、ゲノムのメチル化状態のプロファイリングは、異なる癌の分類および遺伝子調節の説明に役立ち得る。
CpGアイランドおよびプロモーターアレイを、本アッセイに特異的にデザインすることができる。オリゴヌクレオチドの1つの実施形態は、使用されるメチル感受性制限酵素セットに応じて、アレイを特異的にデザインするアルゴリズムを実行することであろう。このアルゴリズムは、最初に、目的の哺乳動物ゲノム配列全体の定義されたメチル感受性制限酵素認識部位セットをマッピングするであろう。好ましくは2MSREを超え、本実施形態では約6MSREを使用するであろう。MSRE部位のゲノムワイドのマップは、その場所でメチル化されない場合にゲノムDNAが切断される場所を説明する。MSRE部位セットのマッピング後、アルゴリズムは、各隣接MSRE部位の間の距離を計算する。次いで、アルゴリズムは、相互由来の100bp未満のMSRE部位をクラスタリングし、領域内の隣接MSRE間の距離が100bp未満である少なくとも2つのMSRE部位によって結合されたゲノム領域の座標を定義する。これらは、メチル化されずにMSREによって消化された場合に枯渇するゲノム領域である。逆に、アルゴリズムは、MSREセットでの消化の際に枯渇しない領域も記録する。これらは、互いに100bpよりも近いMSRE認識配列を持たない100bp長を超える領域である。これらの領域は、MSRE処理で枯渇せず、存在する場合、いくつかのCpGジヌクレオチドを含む。このアルゴリズムは、以下のゲノム領域の2つのリストを作製する:1つまたは複数のMSREでの処理によって枯渇し得るものおよび1つまたは複数のMSREでの処理によって枯渇しないもの。枯渇領域の例を、配列番号45,097〜45,296に示す。回収した領域の例を、45,297〜45,496に示す。次いで、アルゴリズムは、推定「枯渇領域」の10%、20%、30%、40%、50%、60%、70%、80%、90%、または99%を対象とする約25、30、35、40、45、50、55、または60塩基長のオリゴヌクレオチドプローブセットおよび推定「回収領域」の10%、20%、30%、40%、または50%を対象とする約25、30、35、40、45、50、55、または60塩基長の別のオリゴヌクレオチドプローブセットをデザインするであろう。複数のMSREで処理したゲノムDNAサンプルおよび未処理のゲノムDNAサンプルのハイブリッド形成および標識ならびに標識サンプルにより、カスタムデザインのアレイにハイブリッド形成したゲノムサンプル中のどの領域が枯渇され、それによりメチル化しないかを同定するであろう。「回収領域」セットは、これらを使用してエラーモデルを構築し、メチル化していないと推定される領域での枯渇シグナルの有意性を測定するコントロールとして役立つ。
さらに、McrBCなどのメチル化DNAを特異的に切断する酵素複合体を使用して、相互実験を行う(枯渇メチル化領域を同定する)ことができる。このアプローチを、全組織および他の哺乳動物モデルに適用することもできる。
本発明は、当業者に公知の詳細について多くの特許、出願、および他の引例に依存する。したがって、特許、出願、または他の引例を引用するか以下を反復する場合、引用した全ての目的および主張のためのその全体が参考として援用されると理解すべきである。明細書および特許請求の範囲で使用される場合、文脈上明確に別なふうに指示していない限り、単数形「a」、「an」、および「the」には複数形が含まれる。例えば、用語「薬剤」には、複数の薬剤(その混合物が含まれる)が含まれる。個体はヒトに制限されず、他の生物でもあってよく、哺乳動物、植物、細菌、または上記のいずれか由来の細胞が含まれるが、これらに限定されない。
本開示を通して、本発明の種々の態様が種々の範囲の形態で存在する。範囲の形態での説明が便利さおよび簡潔さのみを目的とし、本発明の範囲を頑なに制限すると解釈すべきではないと理解すべきである。したがって、範囲の説明は、この範囲内のすべての可能性のある部分的範囲および一般的な個別の数値を具体的に開示していると見なすべきである。例えば、1〜6などの範囲の説明は、1〜3、1〜4、1〜5、2〜4、2〜6、3〜6などの部分的範囲ならびにその範囲内の個別の数字(例えば、1、2、3、4、5、および6)を具体的に開示していると見なすべきである。これは、例えば、10、10、10、10、10、10−1、10−2、10−3、10−4、または10−5の増加範囲についても同じことが言える。これを、範囲の幅と無関係に適用する。
本発明の実施には、他で示さない限り、当業者の範囲内の有機化学、高分子技術、分子生物学(組換え技術が含まれる)、細胞生物学、生化学、および免疫学の従来の技術を使用することができる。かかる従来の技術には、ポリマーアレイ合成、ハイブリッド形成、ライゲーション、および標識を使用したハイブリッド形成の検出が含まれる。適切な技術を、下記の実施例の参照によって具体的に例証することができる。しかし、勿論、他の等価な従来の手順も使用することができる。かかる従来の技術を、Genome Analysis:A Laboratory Manual Series(Vols.I−IV)、Using Antibodies:A Laboratory Manual、Cells:A Laboratory Manual、PCR Primer:A Laboratory Manual、およびMolecular Cloning:A Laboratory Manual(全てCold Spring Harbor Laboratory Press)(これらは全て、全ての目的のためにその全体が本明細書中で参考として援用される)などの標準的な実験マニュアルに見出すことができる。
(実施例1)
ヒトゲノムの1%の推定ヒトコアプロモーターの予測および転写アッセイ
本実施例では、プロモーター機能に関すいくつかの重要な生物学的疑問に取り組んだ。遺伝子サンプルについての内因性転写産物レベルとプロモーター活性との相関を計算した。エンハンサー、サイレンサー、およびインスレーターなどの他の転写調節エレメントは全てプロモーターの機能を調整し、in vivoでの定常状態のRNAレベルに影響を及ぼし、プロモーターの寄与を定量し、多くの場合にプロモーターがRNAレベルの制御における重要な役割を果たすことが証明された。
転写開始の調節に寄与するコアプロモーターエレメントおよび広域プロモーター内の他のエレメントを同定可能な45プロモーターセットについての欠失構築物のプロモーター活性を研究した。最後に、機能的プロモーター領域の間の有意な重複を同定し、TBP関連因子(TAFL、TAF11250とも呼ばれる)とRNAポリメラーゼ2(RNAP II)とを結合させ、哺乳動物ゲノムの間で保存されたエレメント(それぞれ他のENCODEコンソーシアムのメンバーによって行われた独立した実験で同定された)を作製した。これらの結果を合わせて、1%のヒトゲノム中のプロモーター活性の前例のない所見が明らかとなり、これが、ゲノム全体としてのゲノム中のプロモーター機能の洞察に役立つ。
結果
プロモーター予測アルゴリズム(PPA v1.1)を使用して予測された921個のENCODEプロモーター
153,645個のヒトcDNAのゲノムへの整列および同一鎖上の重複エキソンを使用した転写産物の差し込みにより、ヒトゲノム中の38,412個の遺伝子モデルを予測した(方法を参照のこと)。前の所見と一致して、これらのうちの約13,450個(35%)が、推定単一エキソン転写産物のみを含んでいた(Imanishiら 2004)。これらの遺伝子モデルから、56,940個がゲノム中の潜在的転写開始部位と予測され、これは、複数のプロモーターを有すると予測された遺伝子のおよそ半分であった。30MbのENCODE領域内に613個の遺伝子モデルが存在し、その27%は単一エキソン転写産物から構成されており、その多くの機能が未知であった。全部で921個の転写開始部位が、これらの遺伝子モデルに関連すると予想された。これらの予測は、875個の既知の遺伝子のほぼ80%(2003年7月にUCSCゲノムブラウザーのフリーズ)およびアンサンブル遺伝子の74%(20037月にUCSCゲノムブラウザーのフリーズ)(Karolchikら 2003)と重複する。ゲノムワイドの推定値と一致して、ENCODE遺伝子の45%が1つを超えるプロモーターを有すると予測され、これは、以前の推定値よりも実質的に高い(Landryら 2003)。多数の十分に特徴づけられた単一エキソン遺伝子が存在し(Gentles and Karlin 1999;Hentschel and Bimstiel 1981)、全長cDNAライブラリー中の多数の推定単一エキソン転写産物を同定し、これは、ゲノムポリAストレッチまたは他のライブラリーアーティファクトに起因し得る。結果として、予測された単一エキソンプロモーターのサンプルのみを試験した。まとめると、642個の推定プロモーターをクローニングし、16細胞株におけるそのプロモーター活性を測定した。これらは、複数エキソン転写産物に基づいた528個の推定プロモーターおよび114個の単一エキソンベースの予測物を含み、表1に示す遺伝子モデルの443に相当する。
ENCODE領域中の387個の機能的プロモーターの同定
トランスフェクション効率を規準化し、実験間で比較するルシフェラーゼ(実験)シグナルとウミシイタケ(トランスフェクションコントロール)シグナルとの転換比としての一過性トランスフェクションアッセイにおけるクローニングしたプロモーターの活性レベルを定義した。方法に記載のように、102個のネガティブコントロールDNAフラグメントの平均比を3標準偏差超える陽性プロモーター活性の閾値を考慮した。この閾値を超える活性を有する場合、機能的プロモーターとしてのフラグメントを同様に考慮した。102個のネガティブコントロール内の細胞型あたり1〜3つの外れ値を同定し、アッセイの偽陽性率を1〜3%と予測した。各細胞型について定義した閾値を個別に使用して、ENCODE領域中の303個の独特の遺伝子モデルに相当する387個のフラグメントが、16個の細胞型の少なくとも1つでプロモーター活性を示した。単一エキソン転写産物によって予測されたプロモーター間の検証率(32%、表1)よりも複数エキソン遺伝子モデルによって予測されたプロモーター間の検証率(66%)がはるかに高いことが認められた。予測した選択的プロモーターは、各遺伝子モデルにおいて最も長いcDNAに基づいた予測と比較して有意な活性を示す可能性が低かった。最後に、信頼性の高い予測は、活性なプロモーターである可能性が最も高い。
これらのクラスに加えて、ENCODE領域(ヒトゲノムの99%が残存)は、推定双方向性プロモーターによって調節される多岐に転写される遺伝子の顕著なクラスを含むということであった。以前に公表された研究(Trinkleinら 2004)と一致して、44個の同定されたプロモーターおよび32個の試験されたプロモーターが双方向性遺伝子対に関与し、試験した細胞型の少なくとも1つで31個が機能することが見出された。両方向で試験した全てのプロモーターが、双方向性に機能した。
概して、試験した推定プロモーターフラグメントの60%が、少なくとも1つの細胞型で機能的であった(図1)。これらの多くは、細胞型間でプロモーター活性の変動が大きく(図1B)、ゲノムの文脈を無視して解釈した場合でさえ、拡大したプロモーター内の調節エレメントが細胞型特異的発現を誘導することが示唆された。プロモーターアッセイが内因性遺伝子の調節を完全に再現することは期待されなかったが、プロモーターがin vivoのように細胞型特異的発現をin vitroで同様に指示したいくつかの例が存在した。例えば、肝細胞成長因子(MET)遺伝子のプロモーターは、16細胞株のうちの7細胞株のみで活性であり、肝細胞株の1つ(HepG2)で最も活性が高かった。これは、種々の組織中、しかし主に肝臓および間葉起源の他の組織中のMETの発現と一致する(Rubinら 1993)。破骨細胞関連受容体(OSCAR)プロモーターは、4つの細胞株のみで活性であった。そのうちの1つは、MG−63(骨肉腫細胞株)である。この遺伝子は、破骨細胞中に排他的に発現すると考えられている(Kimら 2002)。データが破骨細胞でのこの遺伝子の発現を支持しているが、さらなる組織中でプロモーター活性が認められ、アッセイがこの遺伝子の特異的発現を制御する全ての調節を捕らえていないことが示唆される。組織特異的活性に加えて、16細胞株全てで強く遍在する活性を有する、同定された118個のプロモーターの顕著なクラスター(全部で30%)が存在した(図1A)。このクラスター内で、UCSCゲノムブラウザーデータベースによって予測したところ、101個のプロモーターフラグメント(86%)がCpGアイランドと重複した(Karolchikら 2003)。これらのデータは、CpGジヌクレオチドの存在と強く遍在するプロモーター活性との間の密接な関連を示す。しかし、CpGアイランドと重複する試験したフラグメントの12%(25/202)が、16細胞型のいずれにおいてもプロモーター活性を持たなかった。CpGアイランドの予測TSSとの重複は、これらの25の例ではあまり一般的ではないが、CpGアイランドが重複する機能的プロモーターと非機能的プロモーターとの間でCpGの含有量または長さの有意差は認められなかった。これらのデータにより、CpGアイランド重複が重要な指標である一方で、プロモーター活性の予測には十分ではないことが示唆される。
プロモーター配列の特徴
広域配列含量およびこの巨大なデータセット内の公知のDNAモチーフの存在により、プロモーター機能がさらに洞察される。多くのプロモーターがCpGアイランドと重複するので、機能的プロモーター中のGC含量の分布が強く変動する。全ての活性プロモーターフラグメントは、活性が認められない推定プロモーターフラグメント(48%)と比較してGC含量が有意に高い(57%)。CpGアイランドとの重複および活性プロモーター内のGC含量の増加は、アッセイにおける予測されるが非機能的なプロモーターと機能的プロモーターを区別する最も顕著な配列の特徴である。
機能的プロモーター内のコンセンサス配列の簡潔なパターンマッチングによって、機能的に特徴づけられたプロモーター中の以前に特徴づけられたプロモーター特異的モチーフの存在を決定した。TATAボックス(TATA(T/A)(T/A))を含む61個の機能的プロモーター(総数の16%)が同定され、CAAT(CCAAT)ボックスを含む72個の機能的プロモーター(総数の19%)が同定された。しかし、以前の研究と一致して、これらのモチーフの存在とプロモーター活性との間に有意な相関関係は見出されなかった(Trinkleinら 2003)。これにより、これらのモチーフは機能的に重要であり得るが、プロモーター内にプロモーター活性に必要な普遍的に必要なエレメントは存在しないことが示唆される。
各標的について6〜9種の哺乳動物由来のオルソロガスな配列とのヒトゲノム配列の比較に基づいて全ENCODE標的について同定された強制エレメントセットを使用して(Cooperら 2005)、同定された500bpの機能的プロモーター中の強制範囲を特徴づけた。機能的プロモーター内に見出された塩基の12.5%が強制されているのに対して、非機能的プロモーター内の塩基の10%が強制されていた。これらは共に、これらの方法によって定義したところ、30MbのENCODE領域中の全部で4.3%の強制塩基を優に上回っている。興味深いことに、ランダムを超える大部分の強制は、転写開始部位から±50塩基対以内に認められる(補足図1)。転写開始部位と比較して+1の位置で認められる急なピークは、TSS予測の精度を示すので、非常に有望である。これらのデータにより、基本エレメントが進化的に強制される可能性がより高いことも示唆される。しかし、広域プロモーターは、偶然予想された強制よりも多くの強制を含み、この領域中の減少しているが依然として有意な機能的エレメントおよび強制エレメントの密度の証拠を示す。
20%を超える遺伝子が機能的な選択的プロモーターを有する
ENCODE領域中の複数エキソン遺伝子の45%についてそれぞれ独特のRNAイソ型を調節する複数のプロモーターを予測した。これは、一過性アッセイで試験した遺伝子モデルの約22%の複数の活性プロモーターを支持する機能データを有する。これらのほとんど(54/66)が2つの機能的プロモーターを有するがUDPグリコシルトランスフェラーゼ1遺伝子(UGT1)を有し、7つの機能的プロモーターの証拠を示す。選択的プロモーターの予測には全長クローンが必要であるにもかかわらず、これらの予測の半分しか認証されなかった。これを、高度に組織特異的な選択的プロモーターまたは真に全長ではない注釈付きの全長cDNAによって説明することができる。興味深いことに、いくつかの場合、これらの選択的プロモーターの使用により、タンパク質産物の変化が予測される。1つを超える機能的プロモーターを有する66個の遺伝子モデルのうち、42個の別のイソ型が互いに類似しており、6個のみが同一のアミノ酸配列を有する。残りの18個により、互いに有意に類似しないタンパク質産物が得られる。遺伝子モデルを定義する方法は、キメラ転写産物または誤整列cDNAによって影響を及ぼされ得る。これらの場合では、2つの潜在的に無関係の転写産物を同一の遺伝子モデルに含めることができ、これらの転写産物は、異なるORFを有する同一の遺伝子モデルの選択的プロモーターを定義する。上記の18個のうちの6個は、より長い複数エキソン遺伝子中の1つまたは複数のエキソンと重複する短い単一エキソン転写産物を含み、これらの転写産物が異なる予測ORFを有することは驚くべきことではない。手作業の調査の際、残りの12個のうちの10個で、選択的プロモーター由来の転写産物が5’エキソン以外は類似のエキソン構造を有することが認められた。これらの転写産物は別の開始コドンを使用し、それにより、ORFが完全に異なる。これらのタンパク質はそれ自体の重要な生物機能を有することができるか、選択的プロモーターおよび下流転写産物の存在は、機能的タンパク質のための調節機構として作用することができる。他のグループの研究により、一次転写産物とコードエキソンを共有する無関係の二次タンパク質が一次転写産物の調節で役割を果たすという例が得られている(Yangら 1998)。いくつかの場合、これらの転写産物は、タンパク質を全く作製しない調節RNAとして作用することができるか、エキソン配列を共有する完全に無関係の遺伝子であり得る。
タンパク質のアミノ酸配列の変化に加えて、選択的プロモーターは、同一遺伝子の別のイソ型を個別に調製する。結果は、試験した選択的プロモーター対の60%が16個の細胞株の間で有意に異なる発現パターンを有することを示す。例えば、テスティン(TES)遺伝子は、2つのプロモーターの証拠を有する。TES遺伝子は遍在的に発現し、3つのイソ型および2つの推定プロモーターを有する(Tatarelliら 2000)。2つの脳細胞株中で1つのプロモーターが活性であり(図2A)、12個の残りの細胞株で第2のプロモーターが活性である(図2B)ことが見出された。この場合、タンパク質産物は、選択的プロモーターに影響を受けないが、これらのプロモーターを使用して、種々の組織中のこの遺伝子の差分調節することができる。Tatarelliらのデータを念入りに観察して、脳内の発現が他の組織よりはるかに低いことが認められ、これを、選択的プロモーターの使用によって説明することができる。これは、別のRNAイソ型の転写を差分調節するように機能する選択的プロモーターのほんの一例である。
広域プロモーターフラグメント内の機能的領域
広域プロモーター領域内の機能的エレメントをさらに理解するために、一過性アッセイにおいて活性な45個のプロモーターの一連のネスト化欠失を使用してレポーター構築物を生成した。図3Aに概略図を示すように、40bp〜1,000bpのサイズ範囲の欠失フラグメント(方法に記載)を、ルシフェラーゼ遺伝子の上流にクローニングした。これらのフラグメントを、従来通りのプロモーター活性および多数の興味深い点を例示した各欠失構築物の平均活性についてアッセイした(図3B)。第1に、プロモーター活性は、TSSの350bp上流と40bp上流との間の配列の欠失に伴って減少し、これは、多数のこれらのプロモーター中のTSSと比較して−350bpと−40bpとの間の陽性エレメントの存在を示す。25のうちの17において、予測した転写開始部位の40bp上流の存在がバックグラウンドを有意に超える基本活性に十分であるが、これらのコアプロモーターフラグメントのうちの5個しか500bpの広域プロモーターフラグメントの少なくとも90%の活性を持たないことが見出された。
平均して、500bpおよび1,000bpのプロモーターフラグメントが対応する350bpフラグメントと比較して活性の減少を示すことも認められた。概して、より大きなフラグメントの活性が減少したが、各プロモーターの一連の挙動が認められた(図3CおよびD)。精子関連抗原4(SPAG4)プロモーター(図3D)のように、1,000bpおよび500bpフラグメントの多く(12/22)が、7つ全部の試験細胞型中の同一プロモーターの350bpフラグメントよりも有意に低い活性を示した。これらの結果により、多数のこれらの遺伝子の−350〜−1,000bp上流の領域中の負の調節エレメントの存在が示唆される。これらのフラグメントの配列を試験し、偶然の予測を超える終止コドンまたは反復ストレッチなどの簡潔な配列エレメントは認められず、これらの結果を説明するために同定されるいかなる有意な二次構造も認められなかった(データ示さず)。実験を行い、2連の500bpプロモーターのクローニングまたは500bpプロモーターの上流の500bpのランダム配列のクローニングによって認められた活性の変化がプラスミドサイズの増加の結果ではないことが証明された(図4、構築物1〜2および3と比較せよ)。
これらのフラグメントが負の調節エレメントを含むという仮説をさらに試験するために、これらの細胞型で別なふうに高度に活性な2つの40bpの異種プロモーターの上流の5つのプロモーターの−1,000bp〜−500bpのフラグメントをクローニングした(図4の構築物5および6を参照のこと)。これらの結果は、SPAG4プロモーターのこの領域中の負のエレメントの存在を強く支持する。試験した5つのフラグメントのうち、3つが負の調節エレメントを含む証拠が認められた(補足データを参照のこと)。他は、位置特異的または遺伝子特異的な負のエレメントとして作用することができる。
内因性転写産物レベルはプロモーター活性と相関する
遺伝子のプロモーター領域の外側に存在することが公知の転写調節エレメントおよび転写後調節機構をかんがみて、プロモーターフラグメントの活性が同一の細胞型における定常状態の内因性転写産物レベルと相関する範囲を定量した。定量的RT−PCRを使用して、そのプロモーター活性を14細胞型におけるレポーターアッセイで測定した35個の遺伝子の絶対内因性転写産物レベルをアッセイした。さらに、1つの細胞型中の96個のさらなる遺伝子についてより包括的なデータを収集した。その転写開始部位によって予測された内因性RNAレベルとプロモーター活性とがr=0.53で相関することが認められた(図5)。この相関関係の有意性を評価するために、無作為化したデータの相関係数を1,000回計算した。これらの無作為化データセットの平均相関係数は、0.04の標準偏差で0.026であり、これは、認められた相関関係がランダムと比較して有意性が高いことを示した(p<10〜12)。この相関関係は、広域プロモーターフラグメントがin vivoでのこれらの遺伝子の転写の調節に重要な多数のエレメントを含むことを示す。
RNAデータにより、プロモーター活性がin vivoRNA転写産物レベルをいかに良く予測するかを示す偽陽性率および偽陰性率を評価することが可能である。14個の細胞型および35個の遺伝子にわたり、58/273(21%)の活性プロモーターフラグメントが検出可能なRNA転写産物を持たないことが見出され、72/217(33%)の不活性プロモーターが検出可能なRNA転写産物を有することが見出された。これらの見かけの矛盾についての種々の生物学的説明が存在する。アッセイで機能するがin vivoでは機能しないようであるプロモーターを、エピジェネティックシグナルから取り出された文脈を無視して解釈されるプロモーターもしくは関連調節配列または存在量は低いが高代謝回転のRNAによって説明することができる。これらのデータにより、遺伝子の発現画分について、プロモーターが不正確に予測されたという予想も確認される。それにもかかわらず、認められた相関度は、遺伝子発現に関連する調節配列の多くが補足されたことを示す。
これらの遺伝子に加えて、選択的プロモーターを含む11個の遺伝子の転写産物レベルとプロモーター活性との間の相関を測定した。多くの場合、2つのプロモーターおよび独特のRNAイソ型を有する遺伝子は、互いに一致する活性を示した(補足図2を参照のこと)。試験した選択的プロモーターを含む11個の遺伝子のうち、7個が対応する転写レベルで認められた傾向と適合するプロモーター活性パターンを有していた。これらのデータにより、プロモーターおよび選択的プロモーターが細胞内のRNAレベルの制御に有意に寄与し、一過性トランスフェクションアッセイを使用してこの調節を再現することができると言う証拠がさらに得られる。
機能的プロモーターは、TAF1、RNAP II結合と同時に起こる
ENCODEコンソーシアムの他の研究者は、同定されたプロモーターの活性の理解に有用なデータを作成した。具体的には、2つのプロモーター結合タンパク質の占有を試験するクロマチンIP−マイクロアレイ実験、TBP関連因子(TAF1)、およびRNAポリメラーゼ2(RNAP II)を、共同研究者のRenらによって作製し(Kimら 2005)、彼らの研究所にてレポーターアッセイで確認する。これらの実験は、ゲノムタイリング(tiling)マイクロアレイハイブリッド形成によってChIP富化標的を測定する。結合の同定のためのストリンジェントなカットオフ(TAF実験については10−4未満のp値およびRNAPII実験については10−6未満のp値)を使用して、機能的プロモーターフラグメントを、これらの2つの転写因子によって結合する領域と比較し、以下の所見を得た(表2)。実験に共通の2つの細胞型(HCT116およびHeLa)で同定された258個の機能的プロモーターのうちの約半分がクロマチンIPによって同定されたTAF1またはRNAPII部位のいずれかと重複した。逆に、レポーターアッセイで試験した177個のTAF1結合部位および203個のRNAPII結合部位のうち、80%超が有意な活性を示した。最後に、RNAPIIおよびTAF1の両方に結合したプロモーターのうち、85%が有意なプロモーター活性を有していた。
考察
依然の機能的プロモーター研究との比較
本明細書中に示した実験は、ヒトゲノムの選択された1%が転写プロモーターである可能性が高いDNAフラグメントの包括的機能試験を示す。概して、推定プロモーターの60%が、一過性トランスフェクションレポーターアッセイにおいて少なくとも1つの細胞型で有意な活性を示した。活性プロモーター画分は、2003年に記載の依然のより小規模の研究で確立された陽性の実質的に90%未満である(Trinkleinら 2003)。この矛盾についての1つの可能性の高い説明は、以前の研究で予測されたプロモーターは哺乳動物遺伝子コレクションの初期バージョン由来の全長cDNA配列に排他的に依存していたことである。この初期コレクションは、高度に発現された遺伝子に偏っており、最初に予測されたプロモーターは遍在的に高度に発現した遺伝子の上流であった。さらに、ENCODE標的は、高度に組織特異的であることが公知の多数の遺伝子(HoxAクラスターならびにβおよびαグロブリン遺伝子クラスターの遺伝子が含まれる)を含む。これらの遺伝子のプロモーターは、細胞株の制限されたパネル中で活性である可能性が低く、転写開始に必要な因子が存在しないかもしれない。
この領域中の全ての機能的プロモーターを同定するための個別の目的により、ENCODE領域中のプロモーターを予測するために使用される方法はまた、排他的にMGC全長cDNAコレクションに基づいた予測を検証することを目的とした以前の研究と非常に異なっていた。GenBank中の全てのcDNAのアラインメントの使用により、弱い証拠(予測を立証するための全長クローンが存在しなかったか、単一cDNAのみが転写開始部位の存在を支持した)に基づいたプロモーター予測が含まれた。このストラテジーによって誤った予測が含まれたが、ENCODE領域内のプロモーターがより完全に同定された。これを支持して、双方向性プロモーターについてのデータは、以前の研究に直接匹敵し、類似の高度な検証を示す。
初期の実験(Trinlreinら 2003)と同様に、一過性レポーターアッセイの人為的自然状態によって偽陰性の結果が得られる。プラスミド中のプロモーターフラグメントのクローニングにより、クローニングしたフラグメントは独立して機能する必要があり、試験した500bp外側のエレメントが必要なプロモーターの活性を検出できない。負の結果の分析において注意を払わなければならないにもかかわらず、活性なしについてのベースラインとしての多数のランダムフラグメントの使用により、正の結果がより最も確実であるようにする。偽陽性率2%では、アッセイによって同定されたほとんどの正のプロモーター活性が生物学的に関連するプロモーターを示すと思われる。ここに示したデータは、最も大きな機能的プロモーターデータセットの1つを示し、これらの領域を研究する多数の研究者に有益な情報源を提供する。
未知の機能の転写産物の有意な画分が機能的プロモーターを有する
いくつかの最近の研究により、以前の見解よりも有意により大きなゲノム画分が転写されることが示されている(Bertoneら 2004;Kapranovら 2002)。これらの「未知の機能の転写産物」(TUF)が重要な生物活性を有するかどうか、そうであるならば、どのようにしてその発現が調節されるのかはまだわからない。本研究のために予測された単一エキソン遺伝子モデルの約半分および他エキソン遺伝子モデルのはるかに小さな画分を、既知の機能または100アミノ酸より長いORFを欠く未知の機能の転写産物のカテゴリーに適合させる。負の結果を慎重に解釈しなければならないが、単一エキソンベースの予測および複数エキソンベースの予測の間の相当な検証の相違により、2つのクラスの間の生物学的相違が示唆される。この相違により、より大きなTUF画分がcDNAライブラリーまたはアラインメントアーティファクトであるか、そのプロモーターがデザインされた実験で機能する可能性が低いことが示唆される。それにもかかわらず、データは、これらの単一エキソン転写産物の上流排列の1/3が機能的プロモーターであり、少なくとも100アミノ酸のORFの存在によってこの転写産物クラスにおけるプロモーター機能が予測されないことを示す。いくつかのTUFの存在量が低いことにしたがって、活性TUFプロモーターの2/3が試験した16個の細胞型の少なくとも1個で機能するが、10個長では機能しない一方で、複数エキソン推定プロモーターの半分未満がこれらの基準を満たし、このことは、TUFが特定の期間または場所で発現する可能性がより高くなり得る。これらのデータはいくつかのTUFが調節され、且つ生物学的に重要であるという仮説を支持する一方で、これらの転写産物が漏出転写活性を有するゲノム領域に存在し、その存在理由が偽上流プロモーター排列の存在である可能性がある。新規の転写領域の調節エレメントを特徴づけるためのENCODEコンソーシアム内で継続している実験は、どのTUFが機能的に関連し、特異的に調節されるのかについての決定で役立つことが判明するであろう。
コアプロモーターおよび上流調節エレメント
40bpのコアプロモーターの68%が基本プロモーター活性を保持し、これらのフラグメントがプロモーター中で認められる多くの強制を含むという本発明者らの所見は、コアプロモーターの重要性を強調している。しかし、欠失分析はまた、広域プロモーター全体にさらなる調節配列が存在することを証明している。プロモーターの−350bp〜−40bpの領域中の配列の連続的除去により、一過性トランスフェクションアッセイにおいてプロモーター活性を有意に減少し、これらの領域が正の調節エレメントを含むことを示している。逆に、−350bpの上流領域は、転写開始に負の影響を及ぼすエレメントを含む傾向がある。この傾向は、いくつかの−1,000〜−500の領域内で特に顕著であった。
これらの実験により、遺伝子調節についての興味深い仮説を得ることができる。例えば、実験により、古典的に定義されたサイレンサーの基準を満たすSPAG4プロモーター内の負のエレメントが証明される(Ogboume and Antalis 1998)。SPAG4遺伝子は、テール伸長中に精子細胞で排他的に発現し(Tamaskyら 1998)、TSSから−372と−898との間に存在するエレメントは、他の細胞型における発現の阻害によってこの遺伝子の組織特異的発現を制御するように作用する。組織特異的な正のエレメントによって開始される組織特異的発現が一般に認められている一方で、負のエレメントによる組織特異的調節の優先もニューロンにおいて以前に確立されており、これは、遺伝子発現がニューロン制限サイレンサーおよびこれに結合する因子によって制御される(Schoenherr and Anderson 1995;Schoenherrら 1996)。同定された負のエレメントを含むフラグメントにより、これらの遺伝子の調節に注目している研究に詳細な情報源が提供される。
内因性転写産物レベルへのプロモーターの調節に関する寄与
遺伝子発現分野における根本的な問題の1つは、広域プロモーター領域の転写調節への相対的寄与である。エンハンサー、サイレンサー、およびインスレーターなどの長期調節エレメントが同定され、特に発生中の遺伝子発現の空間的および一過性の調節で重要な役割を果たすことが示されている(Howard and Davidson 2004)。しかし、この型の調節範囲は今後の課題である。さらに、DNAメチル化および共有結合性のヒストン修飾などのエピジェネティック変化も、クロマチン高次構造の変化によって遺伝子発現に寄与している(Lunyakら 2004)。mRNAのプロセシングおよび安定性に影響を及ぼす転写後機構はまた、定常状態のRNAレベルの調節で役割を果たす(Meyerら 2004;Wilusz and Wilusz 2004)。全てのこれらの寄与要因を使用して、プロモーターのヒト遺伝子発現への寄与の大規模な定量的評価が可能な実験上の証拠はほとんどない。ENCODE領域におけるプロモーター活性の研究により、プロモーター機能とmRNA転写産物レベルとの間の相関を測定する独特の機会が与えられた。
測定された定常状態のmRNAレベルは、種々の転写因子および転写後因子に影響を受け、これらの全因子は、プロモーター機能とmRNAレベルとの間の相関を減少させると予想されるであろう。それにもかかわらず、各細胞型においてプロモーター活性と内因性mRNAレベルとの間に顕著に高い相関関係が存在することが認められ、これは、広域プロモーターが転写レベルの調節で有意な役割を果たすことを示す。計算された相関係数0.53(R)に基づいて、転写レベルで認められたばらつきの28%(R2)は、プロモーター活性の相違に寄与し得る。これは、プロモーター活性の測定およびmRNAの定量における独特の実験ノイズによる全プロモーター寄与の過小評価である可能性が高い。ほとんどの遺伝子は、調節入力(input)の組み合わせが必要である可能性が高い。遺伝子の間のプロモーター機能とmRNAレベルとの間の相関の連続的分配は、この仮説を支持する。実験ノイズは、確実にこの連続的分配に寄与するが、広い分布により、いくつかの遺伝子がそのプロモーターによって完全に調節される一方で、他の遺伝子は発現を制御するための他のエレメントに依存するという概念が支持される。プロモーターとRNAレベルとの間に強い相関関係を示す遺伝子を、変異分析によってさらに研究して、認められた調節を付与するプロモーターの特定の領域を突き止めることができる。
プロモーター機能を明らかにするためのデータの統合
ENCODEコンソーシアムによって作成された複数のデータセットの統合は、異なる実験アプローチを立証するために役立つ。ENCODE領域にわたる活性プロモーターならびにTAF1およびRNAPII結合部位の位置を、有意に重ね合わせた。TAF1およびRNAPIIの両方によって結合し、且つレポーターアッセイで試験した部位のうち、85%が活性プロモーターであった。2つの実験の正の結果の間の強い重複は、多数の同一の機能的プロモーターを独立して同定するので、両アプローチを立証するのに役立つ。両因子によって結合したがレポーターアッセイにおいて機能的に活性ではなかった少数のフラグメントは、開始前複合体をアセンブリしたが停止しており、転写的に活性ではない部位を示し得る(Krummら 1995;Krummら 1992)。これらの遺伝子の内因性転写産物レベルを測定するさらなる研究により、どの部位が偽陽性のクロマチンIPの結果または偽陰性のレポーターデータよりもむしろ停止した複合体を示すのかを確認することができる。
最も驚いたことに、TAF1またはRNAP II結合のいずれにも結合しないアッセイで測定された活性プロモーターの多くの例が見出された。これは、その一部がTAF1およびRNAPII結合についてのストリンジェントな閾値に起因する一方で、1つの生物学的説明として、in vivoでこれらのプロモーターに対して作用する長期の負のエレメントがTAF1およびRNAP IIの結合を防止し、そのゲノムの文脈を無視して解釈し、負のエレメントから分離した場合、これらのフラグメントは一過性レポーター系でプロモーターとして作用する。これは、一定の細胞型または一定の条件下で関連する真の生物活性を反映し得る。
さらに、TAF1やRNAP IIのいずれにも結合しないが、試験した細胞株中に検出可能な転写産物を有する活性プロモーターを有する7個の遺伝子を同定した。DNA−タンパク質相互作用が種々の理由のためにクロマチン免疫沈降によって捕らえるのがより困難であるので、これらのプロモーターに結合する因子は検出がより困難である可能性がある。あるいは、いくつかのこれらのプロモーターを、TAF1によって結合することができず、転写を開始するためにTAF1は必要ない。この仮説を支持して、以前の研究は、哺乳動物細胞中の温度感受性TAF1対立遺伝子は、RNAP II転写が広域に欠失しておらず、これは、全ての転写がTAF1を必要とするわけではないことを証明している(Suzuki−Yagawaら 1997;Wang and Tjian 1994)。より多数のプロモーターが同定および特徴づけられるにつれて、プロモーターの小画分のみがTATAボックスおよび一般的プロモーターの特徴であると以前に考えられていた他のエレメントを含むことが明らかとなりつつある。実際、より多数のプロモーターが機能的に特徴づけられるにつれて、「一般的転写機構」および「基本プロモーターエレメント」の概念が継続的に改良されるであろう。
示したデータは、全ヒトプロモーターの1%の機能研究を示す。ENCODE領域のために作成した他のデータと組み合わせたデータは、ヒト細胞の調節エレメントを同定し、転写調節コードをより深く理解するための新規の機会を提供する。生物学的洞察の提供に加えて、これらの実験データセットと完全な配列保存およびモチーフデータとの組み合わせにより、ゲノム全体にわたるより正確なプロモーター予測を最終的に促進することができる。
方法
全長cDNA配列に基づくヒトプロモーターの予測
いくらか修正を加えたが前に記載のように、ENCODE領域中の遺伝子のプロモーターの位置を予測した(Trinkleinら 2004;Trinkleinら 2003)。全てのヒトcDNAアラインメントを、全アラインメント数が153,642個のUCSC ゲノムブラウザー(Karolchikら 2003)から利用可能な少なくとも95%同一の2003年7月のフリーズ(freeze)からダウンロードした。これらのcDNAは、その時のGenBankの利用可能な全てのcDNAに相当した。これらのcDNAのゲノムとのアラインメントを使用して、遺伝子モデルを、同一鎖上の少なくとも1bpのエキソン重複での全アラインメントの融合によって定義した。各遺伝子モデルのために、1つのTSSを遺伝子モデルの最も5’側の塩基として定義したが、単一エキソン転写産物は、複数エキソン遺伝子の5’末端を伸長できなかった。別の転写開示部位は、その5’末端が以前に定義した転写開始部位から少なくとも500bp下流にある注釈付き全長クローンのみに基づいた。マニュスクリプト全体にわたって選択的プロモーターを、別のRNAイソ型を転写する個別の配列と定義した。
クローニングおよびプラスミド調製
Primer3ソフトウェアを使用して、予測したTSSの600bpの上流配列および100bp下流の入力によってプライマーをデザインした(Rozen and Skaletsky 2000)。各プライマー対は、転写開始部位と隣接させる必要があった。各プライマーの5’末端に、16塩基対のテールを添加して、Infusion Cloning System(BD Biosciences,Clontech cat no.639605)によるクローニングを容易にした(左のプライマーテール:5’−CCGAGCTCTTACGCGT−3’、右のプライマーテール:5’−CTTAGATCGCAGATCT−3’)。以前に記載のタッチダウンPCRプロトコール(Trinkleinら 2004)およびチタンTaq酵素(BD Biosciences,Clontech,cat no 639210)を使用して、フラグメントを増幅した。Infusion Cloning Systemを使用してPCR増幅フラグメントをクローニングするために、2μlの精製PCR産物および100ngの直鎖状にしたpGL3−Basicベクター(Promega)を合わせた。この混合物を融合試薬に添加し、42℃で30分間インキュベートした。インキュベーション後、混合物を希釈し、コンピテント細胞(Clontech カタログ番号636758)に形質添加した。PCRによる挿入のためのクローンをスクリーニングし、以前に記載のように陽性クローンを調製した。DNAを96ウェル分光光度計(Molecular Devices,Spectramax 190)で定量し、トランスフェクションのために濃度を50ng/μlに規準化した。
ネガティブコントロールフラグメントの選択
ネガティブコントロールとしてアッセイするために実験フラグメントに類似の長さの全部で102個のフラグメントを選択した。予測した転写開始部位から少なくとも5kbにあるコードエキソンから24個のフラグメントを選別した。残りの78個のサイズが適合したフラグメントを、ENCODE領域から無作為に選択した。フラグメントが無作為に選択したフラグメントであるので、CG含量はENCODEワイドの平均(約43%)に類似していた。プライマーをデザインし、推定プロモーターフラグメントのために行ったプロトコールと同一の全ての下流プロコールにしたがった。
細胞培養、一過性トランスフェクション、およびレポーター遺伝子活性アッセイ
16の各細胞株(AGS、Be(2)−C、G−402、HCT116、HepG2、HeLa、HMCB、HT1080、JEG−3、MG−63、MRC−5、Panc−1、SK−N−SH、SNU−182、T98G、およびU−87MG)をATCCから入手し、ATCCによって提案されている培地中で増殖させた(Supplemental Methods for more informationを参照のこと)。
培養したヒト細胞株のトランスフェクションを、以前に記載のように行い(Trinkleinら 2004)、5,000細胞/ウェルを96ウェルプレートに播種した(Supplemental Methodsを参照のこと)。播種から24時間後、ウェルあたり0.3μlのFuGene(Roche)トランスフェクション試薬を使用して、50ngの実験ルシフェラーゼプラスミドを、10ngのウミシイタケコントロールプラスミド(pRL−TK、Promega カタログ番号E2241)と同時トランスフェクションを2連で行った。細胞型に応じてトランスフェクションから24〜48時間後に細胞を溶解した。ルシフェラーゼおよびウミシイタケ活性を、PE Wallac照度計およびDual Luciferase Kit(Promega,カタログ番号E1960)を使用して測定した。60μlの各ルシフェラーゼおよびウミシイタケ基質試薬を注入し、5秒間読み取ることを除いて、製造者によって提案されたプロトコールに従った。
データの分析および検証
全データを、ルシフェラーゼとウミシイタケとの変換比として報告した。102個のネガティブコントロールの平均比を決定し、ディクソン検定(Dixon 1950)によって外れ値を排除した。この検定により、各細胞株あたり0〜3個の外れ値が同定された。複数の細胞型では、2つの外れ値しか認められなかった。推定プロモーターの活性を、ネガティブコントロールの平均比を3標準偏差超える閾値の定義によって評価した。細胞型間の比較のために、各比を細胞株のネガティブコントロールの平均比で割り、1を足し、各比のlog2を取ることによって規準化した(活性=log2((ルシフェラーゼ/ウミシイタケ)/AvgNeg+1)。48個のプロモーターを独立して調製してデータを検証し、再現性を評価した。各サンプルを、新規の形質転換、細菌培養、DNA抽出、定量、およびトランスフェクションから開始した。4つの細胞株のプロモーター活性をアッセイし、2つの独立したサンプルの変換ルシフェラーゼ/ウミシイタケ比の相関が0.93であることが見出された。
配列分析および比較研究
モチーフの発見のために、図1に表示したクラスタリングに基づいてプロモーターをクラスターに分割し、MEME(Bailey and Elkan 1994)を使用して、各クラスター内に示されたモチーフを検索した。高GC含量が検索を混乱させ、有意なモチーフが同定されなかった。Bioprospector(Liuら 2001)を使用して、機能的プロモーターと非機能的プロモーターに差異が認められたモチーフを同定したが、いかなる有意なモチーフも発見されなかった。
ENCODEコンソーシアムの他のメンバーによって行われた分析(Cooper and Sidow、非公開)に基づいて、全ENCODE標的領域について強制エレメントを同定した。MLAGANアラインメントソフトウェア(Brudnoら 2003)を使用して構築した多配列アラインメントのGenomic Evolutionary Rate Profiling(GERP、(Cooperら 2005)に詳述)分析を使用した2004年10月のENCODE配列フリーズ(The ENCODE Project Consortium 2004)について、強制エレメントの注釈づけを行った。これらの強制エレメントは、集合的に、全ヒトENCODE塩基の4.3%を対象とし、全エレメントは、95%の信頼区間で統計的に有意である(Cooperら 2005)。(Supplemental Materialsを参照のこと)。アップデートした強制エレメント注釈づけおよびスコアと共に、より多くの情報は、UC−Santa Cruz ゲノムブラウザー(http://genome.ucsc.edu/ENCODE)のENCODEポータルから利用可能である。
プロモーター欠失系
45個の各プロモーターのために、さらなるアンプリコンをデザインし、既にクローニングされている500bpフラグメントに加えて平均1,000、330、210、90、および40個の上流塩基のプロモーターインサートを有するプラスミドを構築した(補助物質として利用可能なプライマー配列)。より小さな各フラグメントを、元のプロモーターからサブクローニングし、ゲノムDNAから1,000bpフラグメントを増幅した。これらのフラグメントを、以前に記載のように(Trinkleinら 2004;Trinkleinら 2003)、制限酵素およびライゲーションを使用してクローニングした。クローニング後、構築物を、7つの細胞株:HT1080、HCT116、AGS、T98G、U87MG、HeLa、およびJEG−3において上記のようにトランスフェクションし、アッセイした。
RNA調製およびcDNA合成
QIAGEN RNA/DNA Mini Kit(カタログ番号14123)を使用して、14の細胞型(AGS、G−402、HCT116、HeLa、HepG2、HMCB、HT1080、JEG−3、MG−63、MRC−5、Panc−1、SNU−182、T98G、およびU−87 MG)の2連のサンプルからRNAを単離した。各細胞株を、単層で増殖させ、0.5ml溶解緩衝液中で4×106細胞を溶解した。RNAペレットを、100μlの無RNアーゼ水に再懸濁した。次いで、RNAサンプルを、ランダム六量体、ポリTファーストスタンダード合成プライマー、およびSuperscript逆転写酵素(Invitrogen)の混合物の使用によって逆転写した。
定量的RT−PCR
各遺伝子のcDNA配列に対するアンプリコンをデザインし、リアルタイムPCRを行って各遺伝子の絶対cDNA量を定量した(アンプリコンのサイズ範囲は60〜100塩基対)。各反応物は、3.5mM MgCl2、0.125mM dNTP、0.5μM順方向プライマー、0.5μM逆方向プライマー、0.5×Sybr Green(Molecular Probes)、1U Stoffelフラグメント(Applied Biosystems)、およびテンプレートDNAを最終体積20μl中に含んでいた。各アンプリコンについて、複製cDNAサンプルに加えて、50ng,5ng,500pg,および50pgの総ゲノムDNAの検量線が存在していた。Bio−Rad Icyclerにおける40サイクルについて産物の蓄積を測定し、検量線の各希釈物の閾値サイクル(threshold cycle)を計算し、次いで、線形回帰を行ってcDNAサンプルからこの検量線までの閾値サイクルに適合させて、14の各細胞株由来のcDNAのプール中の遺伝子のゲノム等価物の絶対数を測定した。β−アクチンレベルを測定し、各cDNA調製物中のGAPDHを、各調製物中のcDNAの絶対量の任意のばらつきについて規準化した。3つのゲノムコントロールも測定して、夾雑ゲノムDNAのバックグラウンドレベルまたは他のバックグラウンドシグナルを評価した。偽陽性および偽陰性の計算値について、ゲノムバックグラウンドコントロールの10倍のRNA転写産物を検出可能と見なした。
(実施例2)
ヒト拡大(expanded)プロモーターの大規模な構造および機能の特徴づけ
1)プロモーター予測アルゴリズム(PPA v1.2)
本実施例は、図9Bに図解した方法の好ましい実施形態を提供する。
A.cDNAアラインメントのポストプロセシング
2005年7月6日現在、UCSCのBLATアルゴリズムによってヒトゲノム(hg17)に整列されたヒトcDNA配列が200,000を超えて存在していた。これらのアラインメントは全て、genome.ucsc.edu.のウェブサイトで公的に利用可能である。
PPAは、これらのアラインメントをダウンロードし、配列同一性が95%未満のアラインメント、ゲノムに整列していないcDNA配列の5’末端に200塩基超を有するアラインメント、および基準染色体配列にアセンブルされないランダム配列に整列されたアラインメントをフィルタリングによって除去した。これらのフィルターを使用して、5’末端に低品質の配列を有するcDNAを除去し、それにより、曖昧な転写開始部位を予測する。2005年7月6日現在、これらの基準を満たすcDNAは223,100個存在していた。
上記基準を満たすゲノム中の複数の場所に整列するcDNAをさらに分析して、推定プロセシング偽遺伝子を高度に類似した遺伝子または複製遺伝子と区別する。内因性mRNAをDNAに逆転写し、ゲノムに挿入した場合にプロセシング偽遺伝子が形成される。したがって、プロセシング偽遺伝子を区別する1つの特徴は、これらがしばしば単一エキソン遺伝子として出現することである。プロセシング偽遺伝子がウイルス複製のアーティファクトであるので、これらは、転写プロモーターの良好な指標ではない。したがって、PPAは、これらの配列をフィルタリングによる除去を試みる。エキソン遺伝子を、イントロンの長さによって同定することができるので、PPAは、各cDNAの長さとそのcDNAのゲノムアラインメントの長さとの比の計算によってイントロンの長さを測定する。比1は単一エキソン遺伝子を示す一方で、比0.1は90%のゲノムアラインメントがイントロン配列である遺伝子を示す。全アラインメント比の分布は、0.95がアラインメントを「イントロンレス」と呼ぶための適切な閾値であることを示す。閾値は、ランダム配列決定のエラーおよび小さな一塩基の欠失および挿入を行うアラインメントアーティファクトを考慮するために、1よりわずかに低い。真の単一エキソン遺伝子が存在するので、PPAは全ての単一エキソン遺伝子を簡単にフィルタリングによって除去することができない。代わりに、cDNAがゲノム中の複数の位置に整列する場合にPPAは記録し、最も小さなアラインメント比は、cDNAの全アラインメントのためのものである。最も小さな比が0.95未満である場合、0.95を超えるさらなるアラインメント比を、偽遺伝子と分類し、比が0.2を超えて異なる場合、最も小さなアラインメント比も偽遺伝子と呼び、比が0.2未満の相違である場合、最も小さな比を遺伝子ファミリーメンバーと呼ぶ可能性が高い。図15は、ほぼ2,500個の偽遺伝子を同定し、PPA v1.2によるフィルタリングによって除去することを示す表である。
PPA v1.1と比較して、PPA v1.2は以下の明確な特徴を有する。
−PPA 1.2は、cDNAについて低ストリンジェントの品質管理を使用する。これにより、cDNAの5’末端で200bpの配列が整列されない。PPA 1.1で使用した100bpカットオフは過度にストリンジェントであり得ることを示している。
−0PPA 1.2は、ゲノム中の複数の位置に整列するcDNAに対処し、PPA 1.1で実行しなかった方法でプロセシング偽遺伝子をフィルタリングによって除去する可能性が高い。
−PPA 1.2は、ランダムな非アセンブリ配列へのアラインメントをフィルタリングによって除去する。
B.遺伝子モデルのアセンブリ
PPAがcDNAアラインメントのポストプロセシングを終了した後、整列したcDNAを遺伝子モデルにアセンブリし始める。「遺伝子」の概念は、ゲノムの展望から見た場合、例外的に複雑になる。重複遺伝子、アンチセンス転写産物、トランススプライシング、および選択的プロモーターは全て遺伝子を定義が困難な物質にしている。Unigeneと呼ばれるNCBのプロジェクトは、cDNA配列を相互に整列させ、これらを一定量の類似の配列を有するcDNA配列を「unigene」クラスターに融合するというアプローチを取る。特に、類似のタンパク質ドメインを有する遺伝子を相互に整列し得るので、このアプローチは問題があり、類似のタンパク質ドメインは、この根本的な類似性のためであるが、これらが同一遺伝子の一部であったためではない。対照的に、PPAは、全てのcDNAゲノムアラインメントを相互に比較し、そのエキソンをゲノムの同一領域および同一鎖に整列するcDNAに基づいて遺伝子モデルをアセンブリする。ゲノム遺伝子座に割り当てるために全cDNA配列を使用し、次いで、一般的な基準ゲノム配列へのアラインメントに基づいて重複するエキソンをどのcDNAが有するのかを測定するので、この明確なアプローチは優れている。PPAは、同一鎖上の同一ゲノム領域中で少なくとも1つの他のcDNAとの少なくとも1塩基のエキソン重複を有する全cDNAコレクションとして遺伝子モデルを定義する。図1は、遺伝子モデルを含むcDNA群の例を示す。
単一cDNAによって定義された遺伝子モデルは、多数のcDNA配列によって定義された遺伝子モデルよりも信頼性が低く、これは、遺伝子モデルが単一の所見に基づき、cDNAのみが単一エキソンcDNAである場合にさらにより曖昧になるからである。多数の機能的な生物学的に関連するRNA分子を、スプライシングなどのいくつかの方法でプロセシングし、ゲノムへのRNA配列のアラインメント中にギャップが作製される。上記のように真の単一エキソン遺伝子が存在する一方で、単一エキソンcDNAアラインメントの巨大なフラグメントは偽遺伝子を示す。さらに、cDNAライブラリー中に存在する夾雑ゲノムDNAの無作為な小片は単一エキソン遺伝子であると思われる。これは、このゲノムDNAの小片がいかなる種類の方法においてもスプライシングやプロセシングを受けないからである。以前の研究は、単一cDNAによって示された大部分の「単一エキソン遺伝子」が機能的転写プロモーターを持たないことも示している。これらの全ての理由のために、PPAQは、1つの単一エキソンcDNAアラインメントによって定義される遺伝子モデルをフィルタリングによって除去する。これは、これらの遺伝子モデルが生物学的関連する遺伝子を実際に示す可能性が低いからである。
C.TSSおよび転写プロモーターの予測および分類
PPAが全てのcDNAをゲノムモデルにアセンブリした後、PPAは、遺伝子モデル内の転写開始部位(TSS)を予測する。TSSを、遺伝子モデル中のその位置に基づき、このTSSを確立するcDNAの型から分類する(図14を参照のこと)。各遺伝子モデルについて、最も5’側のTSSを定義する5’境界およびcDNAが存在する。いくつかの遺伝子は、最も5’側のTSSの下流に別のTSSを予測するcDNAを有する。これらのより短いcDNAは不完全な産物であり得、したがって、真の生物学的TSSは予測されないであろう。しかし、いくつかのcDNAは、哺乳動物遺伝子コレクションまたはDBTSSなどの全長cDNAについて富化されたライブラリーに由来する。他のcDNAは、質を評価するために手作業で処理されており、これは、NCBIで構築したRefseqデータベースの一部である。PPAは、これらの全長cDNAに基づいて、次のサブセットcDNAの少なくとも500塩基下流のMGC、DBTSS、またはRefSeqから別のTSSを予測する。さらに、cDNAが同一遺伝子モデル中のより長いcDNA由来のいかなるエキソンとも重複しない第1のエキソンを有する場合、別のTSSを予測する。遺伝子の人為的に短縮された形態である可能性が低いので、独特の第1のエキソンにより、この特定のTSSにおける信頼性が増す。したがって、PPAはまた、独特の第1のエキソンを含むcDNAから別のTSSを予測する。単一エキソンcDNAに関する上記で提起した問題のために、PPAは、遺伝子モデル中の単一エキソンcDNAによって予測される任意の別のTSSをフィルタリングによって除去する。図1は、各TSS型を有する仮説上の遺伝子モデルおよびこれらを定義するcDNAの例を示す。さらに、PPAはまた、遺伝子モデル中の異なるcDNAによってコードされた読み取り枠を比較し、どのようにして別のTSSの使用法が転写産物によって産生されたタンパク質産物に影響を及ぼし得るのかを記録している。
一旦PPAがゲノム中の各遺伝子モデルについてのTSSの最終リストを確立すると、PPAは各TSSに関連するプロモーター配列を集める。転写プロモーターは、以下の2つの一般的部分を含む:転写開始部位の約75bp上流および20bp下流に存在するコアプロモーターTSSの2,000bpまでの上流に存在する広域プロモーター領域。コアプロモーターは、RNAポリメラーゼおよび他の基本因子をアセンブリして転写を開始する領域であり、広域プロモーター領域は、しばしば、遺伝子の空間的および一過性の調節を制御する遺伝子特異的調節エレメントを含む。以前の研究によってより大きな部分中で定義したこれらのプロモーター境界に基づいて、PPAは、各TSSの2,100bp上流および200bp下流に存在するプロモーター配列を集める。
PCR増幅し、これらのプロモーターフラグメントをクローニングするために、次いで、PPAは、各プロモーターの局所配列の内容ん応じて700〜2,000bpの産物の範囲のこれらの各プロモーターフラグメントを増幅するPCRプライマーをデザインするために開発されたprimer3プライマーデザインプログラムを呼び出す。各プライマーフラグメントのために、PPAは、PCRプライマーが各増幅フラグメント中にTSSおを含み、プライマーが反復DNAを回避することが必要である。
ライゲーションによって各プロモーターフラグメントをクローニングするために、各プロモーター配列を、ディレクショナルライゲーション反応に有用な制限酵素対をスクリーニングしなければならない。このような目的で、PPAは各プロモーター配列をスクリーニングし、プロモーター配列中に部位が存在しないかどうかに応じて、3つの制限部位対の1つを使用する。ゲノムワイドのプロモーター分析に基づいて、3つの制限酵素対の使用により、ゲノムの全プロモーターの97%を対象とるのに対して、単一の対の使用により、使用した酵素対に応じて55〜78%を対象とする(詳細については、図16中の表を参照のこと)。一旦プロモーター配列が制限部位の内容に基づいて層状化すると、PPAは、順方向プロモーターおよび逆宝庫プライマー5’末端に適切な制限酵素認識配列して、プラスミドに有効なディレクショナルクローニングを行うことが可能である。
PPAアルゴリズムはまた、プロモーターフラグメントの同サイズの分布に適合したゲノム由来の384個のネガティブコントロールフラグメントセットを選択する。これらのフラグメントの約25%は、遺伝子の両末端から少なくとも10kbに存在するランダム中間エキソン配列である。残りのネガティブコントロールフラグメントを、PPAによってプロモーターであると予測された領域以外のゲノムから無作為に選択する。
PPA v1.1と比較して、PPA v1.2は以下の明確な特徴を有する。
−PPA v1.2は、PPA v1.1で確立された基準の使用に加えて、独特の第1のエキソンを有するcDNAに基づいて、遺伝子モデル中の選択的プロモーターを予測する。
−PPA v1.2は、単一エキソンcDNAによって定義された別のTSSを除去するのに対して、PPA v1.1は除去しない。
−PPA v1.2はまた、別のTSSによって遺伝子モデル中の最も長いcDNAと比較して異なる読み取り枠が得られるかどうかを記録する。
−PPA v1.2は、700bpと2,000bpとの間のプロモーターフラグメントを増幅するようにプライマーをデザインした2,000塩基の推定プロモーター配列を集める。本発明者らは、遠位プロモーター領域中で制御された相当な量の転写調節が存在し、これらのフラグメントを使用して行ったその後の機能アッセイは、700塩基対未満のプロモーターフラグメントを使用して行った実験よりも情報量が多いと考えている。
図15は、両アルゴリズムによって予測されたプロモーターのカテゴリーをまとめた表を示す。PPA v1.1は、ヒトゲノム中の64,526個のプロモーターを予測し、PPA v1.2はヒトゲノム中の45,096個のプロモーターを予測する(添付のDVDで列挙した配列番号1〜45096と指定した配列)。全プロモーター数のこの30%減少は、PPA v1.1中に存在するノイズが非常に減少する。表1は、PPA v1.1およびPPA v1.2の両方を使用して各カテゴリー中のプロモーター数をまとめている。
さらに、図15は、真核生物プロモーターデータベース(EPD)におけるプロモーターとの比較の結果を示す。EPDは、現在実験的に有益なTSSを有する1,806個の非とプロモーターを含むデータベースである。これは、アルゴリズムの感度を試験するための合理的なヒトプロモーターセットである。PPA v1.1は、EPD中のTSSの200bpおよび500bp以内のTSSの91.3%および97.4%を予測する。同様に、PPA v1.2は、EPD中のTSSの200bpおよび500bp以内のTSSの90.8%および96.5%をそれぞれ予測する。したがって、両アルゴリズムは、EPD中に存在するほぼ全てのプロモーターを捕捉する。PPA v1.2によって選別し損ねたPPA v1.1によって選別された少数のEPDプロモーターを検討し、興味深いことに、これらの全てが偽遺伝子の上流領域に対するEPD中の誤注釈づけであるようである。したがって、PPA v1.2は、PPA v1.1よりも有意に改良されており、感度を犠牲にすることなく有意により特異的である(30%)。
2)大規模なプロモータークローニング
本実施例は、図10Bに図解した方法の好ましい実施形態を提供する。
ヒトプロモーターフラグメントのハイスループットクローニングのためのいくつかの異なるアプローチは、ライゲーションベースの方法および組換えベースの方法を含む。新規の組換えベースのクローニング産物(InvitrogenのGateway systemおよびClontechのInFusion systemなど)が有効であり、近年、非常に多く出回っている。実施例1では、Infusion systemを使用して、1,000個を超えるプロモーターフラグメントをクローニングした。有効であるが、GatewayおよびInFusion用の試薬は非常に高い。別の欠点は、20個もの余分な塩基を、各PCRプライマーの5’末端に付加するために必要であり、これがオリゴの費用を有意に引き上げていることである。ライゲーションベースのクローニング法および組換えベースのクローニング法の両方を使用した実験は、PCRおよびクローニング工程の両方でそれぞれ90%を超える成功率を確実に示した。
5,000個を超えるフラグメントをクローニングするために、何千もの各反応の取り扱いおよび追跡に関与する活動を最小にするためのプーリングアプローチを使用するための時間がより効率的になると推測した。何百ものサンプルの1つの反応物へのプールにより、全ての匿名でクローニングされたフラグメントを同定するのに必要な配列決定の試みに負担が移る。主な学術的および商業的配列決定センターは、途方もなくハイスループットになっており、何十万ものクローンを迅速且つ効率的に配列決定することができる。この専門知識の活用により、大規模なクローニングの試みに非常に役立つと考えられる。
384個のPCR産物をプールし、このプールからランダムフラグメントをクローニングするパイロット研究を行った。24個の新規の推定プロモーターおよび12個のネガティブコントロールフラグメントに相当するプラスミド(ルシフェラーゼレポーターカセットに対して5’側をクローニングしたプロモーター活性について試験すべきフラグメント)を構築した。この36プラスミドのパネルを、96および384ウェル形式で組織培養細胞(HT1080線維肉腫細胞)に2連でトランスフェクションした。次いで、50ngのプラスミドを各96ウェル形式のウェルにトランスフェクションし、20ngのプラスミドを384ウェル形式のウェルにトランスフェクションした。トランスフェクション後、細胞を、37℃に24時間戻した。24時間後、ルシフェラーゼ試薬を各ウェル(Steady−Glo、Promega)に添加した(100μLを96ウェル形式に添加し、30μLを384ウェル形式に添加した)。5分間待機し、次いで、可視光出力を、プレート照度計を使用して各ウェルから10秒間読み取った。
より少ないDNAを384ウェル形式のより少ない細胞にトランスフェクションしたので、各ウェルからの可視光の絶対量は96ウェルプレートで認められた量よりも少ないと予想される。実際、これは、光を用いて認められたものが384ウェル形式で約50%減少したということである。しかし、この減少したレベルは、依然として照度計の十分に直線検出範囲内である。(より小さなウェルへの)スケールダウンプロセスによって同一のプラスミド構築物でトランスフェクションした複製ウェル間のばらつきが増加する(すなわち、実験ノイズが増加する)かどうかを見出すことを試みた。
この問題に取り組むために、各ウェル形式の各構築物の複製物の間の標準偏差を最初に計算した。しかし、レポーター活性の絶対レベルの相違により、標準偏差の数値を、2つのウェル形式間で比較することができなかった。異なる活性レベルを補正するために、各ウェル形式の各構築物の変動係数(CV、標準偏差を平均で割ったもの)を計算した。CVが小さいほど、複製ウェルがより一致する。96ウェル形式について、平均CVは0.15であった。384ウェル形式について、平均CVは0.12であった。それにより、複製物間のばらつきは、2つの形式についてほとんど同一であり、どちらかといえば、384ウェル形式がわずかに良好に実施された。さらに、試験した各フラグメントのプロモーター活性を、2つの形式間で比較し、全体の相関係数は0.99であった。これは、384ウェル形式から集めたデータが96ウェル形式から得たデータと同様に良好な品質であることを示す。
384個のクローン(1×平均)の配列決定により、188個の独特のフラグメント(49%)が首尾よく回収された。ランダムポアソンサンプリングによって予測されるのは63%ではないが、これは、予想される値に近く、各フラグメントがPCRおよびクローニングの偏りによって等しく示されないことが知られている。図17中の表は、本発明者らのパイロット実験に基づいた異なる範囲レベルで回収した独特のクローンの予想される比率を示す。以下の修正されたプロトコールを、任意のマルチウェルプレート、好ましくは、384ウェルプレートに適用する。
工程1:第1ラウンドのプール
各25,000個のプロモーターを、384ウェル形式で個別にPCR増幅した。予め混合した順方向および逆方向PCRプライマーを使用して、プラスチック製品、操作、および空間を節約する。忠実度の高いPCRポリメラーゼを使用して、プロモーターを増幅し、10kbあたり1エラー未満で約90〜92%の成功率が予想される。成功率を、ゲル上で384のPCR反応の実施によって測定する。次いで、これらのPCR産物を、384フラグメントの65プールに合わせる。384のプールを使用して研究するために、稀な過剰表示フラグメントの偏りを制限することを決定する。この方法では、過剰表示フラグメントを1つのプール内に含め、より均一に表示される他のプール中のフラグメントを妨害しない用にする。
各65プール中のフラグメントを精製し、適切な制限酵素対で消化して粘着末端を得る。消化されたフラグメントを再度精製し、定量し、本発明者らのレポーターベクターにライゲーションする。また、本発明者らのレポーターベクターを、柔軟な多クローニング部位を含み、組換えベースのシャトル系に適合するように操作する。この目的のために、プロモーターに隣接する配列を、異なるベクター構築物に効率的にシャトルする用に操作する。ベクターはプラスミドベースのベクターであり、主に一過性遺伝子送達系で使用されるようにデザインされている。
各ライゲーション反応を、ミニライブラリーとして処理する。各ライゲーション物を、高効率の化学的にコンピテントな大腸菌に形質転換し、形質転換した細菌を適切な選択マーカーを含む150mmの寒天プレートにプレートする。配列決定のための交渉によるサービスの一部には、コロニーピッキング、プラスミド調整、グリセロールストックの作製、および配列決定が含まれる。プレートを配列決定サービスに送る前に、192個のコロニーを選別し、各コロニーから精製プラスミドを調製し、少なくとも99%のクローンに1kbのインサートが確実に存在するように試験消化物を調製する。次いで、各ライブラリーから、768個のコロニー(2×平均)を各プレートから選別し、2mlの培養液で一晩増殖させる。各培養物から、50μLアリコートをグリセロールストックとして保管し、残りの培地を使用して、各プラスミド中のプロモーターインサートを配列決定する。
図17にまとめた研究に基づいて、約15,200個の独特の配列は、全てのプール中の元の約25,000個のプロモーターから回収されることが予想される(首尾のよいPCR反応物の約66%)。自動化配列分析ツールを使用して、各配列を整列させて、基準ヒトゲノム配列から本発明者らのプロモーター配列のデータベースを読む。首尾よくクローニングされたプロモーターを同定し、クローニングされないプロモーターから注釈を作製する。次いで、液体取り扱いロボットを使用して、第1ラウンドでクローニングされなかったプロモーターフラグメントのPCRプライマーを再配置する。
工程2:第2ラウンドのプール
以下の工程は、工程1と同一であり、最初に、前の工程で使用したプロモーター数の約33%を有することのみが異なる。再配置プライマーからの最初の全てのPCR増幅を繰り返す。残存物を元のPCR反応物から再配置することができるので、PCR産物を再生することは無駄が多いかもしれない。この経験に基づいて、凍結PCR産物中にフラグメントを1週間を超えて放置したフラグメントのクローニング効率は有意に減少する。
以前の通り、PCR産物をプールし、消化し、ライゲーションし、元のPCR反応物ほどの多さのコロニー(2×平均)を2回選別する。次いで、配列決定して新規にクローニングされたフラグメントを同定し、首尾よくクローニングされなかったプロモーターに注釈を付けた。第2ラウンドでPCRの失敗物(failure)が富化され、フラグメントのクローニングが困難になるので、より小さな比率の独特のフラグメントが第2ラウンドで回収されると予想される。これらの2ラウンド後に、25,000個の総プロモーターの約75%がクローニングされると予想される。
2ラウンドのプール、解析、および再配置の実施に対する別のストラテジーは、1ラウンドを実施し、より広い範囲が得られるようにより多くのクローンを配列決定することであろう。ランダムサンプリングに基づいて、それぞれが倍数範囲で(fold−coverage)増加するより少ない独特のクローンが回収される。したがって、独特のクローンあたりの費用は、ライブラリーをより深く配列決定するにつれて増加する。
工程3:個別クローニング
PCRプライマーを再配置し、本発明者らの3つの主な制限酵素部位と不適合なために別の制限酵素対または平滑末端クローンを使用するプロモーターに加えて、前の2ラウンドでクローニングできなかった残りのプロモーターを個別にクローニングする。プールストラテジーでクローニングされない多数のプロモーターはPCRを失敗する。したがって、ハイスループットスラブゲルにて各PCR反応を行って、追跡する価値のないPCRの失敗物を同定する。次いで、首尾のよいPCR反応物を再配置し、クローニング効率の低下を回避するために、1週間未満で96ウェル形式にて個別に精製する。最後に、同一の消化、ライゲーション、および形質転換工程を、96ウェル形式で個別に各フラグメントのみに対して行う。
3)大規模な機能的プロモーターアッセイ
本実施例は、図11Bに図解した方法の好ましい実施形態を提供する。
ヒトゲノム中の全プロモーターをクローニングした後、重複していないプロモーター含有プラスミドセット(ネガティブコントロールも含む)を、大腸菌中で大量産生し、精製し、同一濃度(50ng/μl)に希釈し、96ウェルブロック(2ml/ウェル)中に保存する。液体取り扱いロボットを使用して、50ngの各プラスミドを、複数(60個)の384ウェルプレートセットに再配列する。選択的工程は、各ウェルに10ngの同一のトランスフェクションコントロールプラスミドも添加することである。トランスフェクションコントロールプラスミドは、実験プロモータープラスミドに対して使用したプロモーターよりも異なるレポーターを駆動する遍在性プロモーターを有する。各プレートは、プレート規準化構築物(PNC)のカラム(16ウェル)を含む。PNCセットは、プロモーターの強度範囲にわたる8つのポジティブコントロールフラグメントおよび8つのネガティブコントロールフラグメントを含む。各ウェル中でプラスミドDNAを乾燥させ、次の適用のために保存する。
以下のアプローチの1つを使用して、生細胞への大規模なプラスミドの送達を行うことができる。
アプローチ1−ハイスループットでの従来の一過性トランスフェクション:Fugene(Roche)などのリポフェクション試薬および無血清培地を含むトランスフェクション試薬混合物中にプラスミドを再懸濁する。トランスフェクション試薬は、プラスミドDNAとリポソーム複合体を形成し、384ウェルプレート中で増殖した組織培養細胞に添加する準備をする。
アプローチ2−ハイスループットでの逆トランスフェクション:あるいは、上記に類似しているがグリセリンまたは寒天のいずれかの液化マトリックスも含むトランスフェクション試薬混合物にプラスミドを再懸濁する。次に、このトランスフェクション混合物が空の384ウェル組織培養プレートの底に沈殿し、これをマトリックス中に固化させる。次いで、生細胞をこのトランスフェクションマトリックスの上部にプレートすることができ、マトリックス中に含まれるプロモータープラスミドを取り上げる。cDNAの逆トランスフェクションの詳細は、米国特許第6,544,790号;同第6,670,129号;同第6,951,757号;米国特許出願番号09/817,003号;および同第10/379,130号(その全てを、全ての目的のためにその全体が本明細書中で参考として援用される)に記載されている。
上記の方法の1つにおいて一旦ライブラリー由来のプラスミドが細胞に送達されると、24〜28時間のレポーター遺伝子の発現時間を与えなければならない。実験は、化合物の添加または環境の変化などの実験条件の変化も含み得る。レポーター遺伝子の発現に十分な時間を与えた後、レポーター産物のレベルを、適切な基質(蛍光レポーター用)の添加または適切な波長の光(蛍光レポーター用)の励起のいずれかによって測定する。発光レポーターのための基質(実験プラスミドおよびトランスフェクションコントロールプラスミド(使用する場合)の両方用)を、生細胞に送達させるか、各ウェル中における溶解緩衝液での細胞の溶解、および基質と細胞抽出物との混合のいずれかによって送達させる。最後の工程は、各ウェルで得られたシグナル(各レポーターによる)を適切なデバイス(照度計または蛍光測定器)によって読み取ることである。
4)大規模な機能的プロモーターアッセイのデータ分析
本実施例は、図12Bに図解した方法の好ましい実施形態を提供する。
一旦生データが回収されると、第1の工程は、実験シグナルの比をトランスフェクションコントロールシグナルで割る計算によってトランスフェクションコントロールプラスミドを使用する場合、トランスフェクションコントロールに基づいて規準化することである。次いで、実施された任意の複製トランスフェクションの平均を求める。
次の工程は、プレート規準化構築物(PNC)を使用してプレート毎のばらつきを規準化することである。平均シグナルおよび標準偏差を、PNC中の全プレートにわたる16個の個別の構築物のそれぞれについて計算し、次いで、各プレートについての平均値から各構築物のシグナルの相違を計算する。角構築物の相違を、その構築物の標準偏差で割ることによって規準化する。この規準化は、より大きな絶対値に起因するPNC中のポジティブコントロールフラグメントのより大きな分散を補正する必要がある。次いで、各プレート中の16個の規準化した相違を共に平均して、プレート規準化因子を誘導し、その因子を使用して各プレートのデータを規準化する。これにより、最終的に、各プロモーターについての規準化された未加工のプロモーター活性値が得られる。
規準化した未加工のプロモーター値は、ネガティブコントロールフラグメントの文脈で最も関連する。したがって、次の工程は、ネガティブコントロールフラグメントの値の分布を測定し、ネガティブコントロールの分布の平均値および標準偏差に関する各プロモーター値を示すことである。これにより、[未加工のプロモーター活性−ネガティブコントロールの平均値)/ネガティブコントロールの標準偏差]として計算する各プロモーターのZスコアが得られる。Zスコアベースの分析は、ネガティブコントロール値の分布の変動が考慮されるので、実験間のデータをより良好に比較することが可能である。プロモーター活性のZスコア測定は、細胞株の変動を活用し、これを補正する。
(実施例3)
ゲノムワイドでのDNAメチル化状態の決定
本実施例は、図13に図解したDNAメチル化の決定方法の好ましい実施形態を提供する。プロセスを以下に示す。
組織培養細胞または組織サンプルのいずれかから、DNAアフィニティカラム(Qiagen DNeasyキット中に提供されているもの)またはフェノール−クロロホルム抽出の反復のいずれかを使用して、高分子量のDNAを調製する。260/280比が>1.8であり、サンプル中にフェノールの残存微量物が存在しないことを確認する。
次に、10μgのゲノムDNAを2μlの以下の3つの各メチル感受性制限酵素で消化する:HpaII、HgaI、HpyCH4 IV。総体積100μlで2〜4時間消化する。これらの酵素を至適化して、酵素供給者(NEB)によって提供された同一の緩衝液条件(NEB緩衝液番号1)で作業する。
QiagenのDNeasyカラムを使用して、消化物由来のDNAを精製する。最終体積が85μlの水で溶離する。2μlの以下の各3つのメチル感受性制限酵素を使用した第2の消化反応においてこの溶離を使用する:AciI、HhaI、BstU I。総体積100μlで2〜4時間消化する。これらの酵素を至適化して、酵素供給者(NEB)によって提供された同一の緩衝液条件(NEB緩衝液番号4+ウシ血清アルブミン)で作業する。
QiagenのDNeasyカラムを使用して、消化物由来のDNAを精製する。最終体積が100μlの水で溶離する。メチル感受性酵素での一連の消化により、ゲノムの全ての非メチル化領域が枯渇するはずである。DNeasyカラムのみが、100bpを超えるDNAに結合し、それにより、消化によって産生されたより小さな小片を精製によって除去する。
次に、消化されたDNAを蛍光ヌクレオチドまたはプライマー(cy3またはcy5 dUTPまたはdCTP)で標識する。同一のゲノムDNAの未消化のコントロールサンプルも、消化サンプルで使用した標識と異なる蛍光標識で標識する。標準的な手順にしたがって、ゲノムマイクロアレイとの競合的ハイブリッド形成に両サンプルを適用する。マイクロアレイは、スポットされたプロモーターまたは目的のゲノム領域全体にタイル状に配置するCpGアイランドアレイもしくはオリゴアレイのいずれかであり得る。
マイクロアレイの線状およびスキャニング後、各マイクロアレイの特徴について、消化DNAシグナルと未消化DNAシグナルとのlog(2進法)比を計算する。酵素処理によって枯渇すべきではないネガティブコントロール領域を使用して、約0のlog比のばらつきを測定する。ログ比0は、処理サンプルおよび未処理サンプルの両方における特定の標的の等しい量を示す両方の色由来の等しいシグナルに対応する。
本発明の好ましい実施形態を本明細書中に表示し、説明してきたが、かかる実施形態を例示のみを目的として提供することが当業者に明らかであろう。当業者は、本発明を逸脱することなく、多数の変形形態、変更形態、および置換形態をここに得るであろう。本明細書中に記載の本発明の実施形態の種々の代替物を、本発明の実施において使用することができると理解すべきである。以下の特許請求の範囲は本発明の範囲を定義し、これらの特許請求の範囲およびその等価物の範囲内の方法および構造が本発明によって対象とされることが意図される。
(配列表)
配列番号1〜45,496を、出願書類に同封してファイル名33102−701.601.SeqList.ST25.txtとしてコンパクトディスクで提供する。
(参考文献)
Figure 2009519710
Figure 2009519710
Figure 2009519710
本発明の新規の特徴を、特に添付の特許請求の範囲を使用して記載している。本発明の原理を利用した例示的実施形態を記載した以下の詳細な説明および以下の添付の図面によって本発明の特徴および利点がさらに理解されるであろう。
図1は、642個の推定プロモーターフラグメントのクラスタグラムである。クラスタグラムは、16種の多様な細胞株の間のプロモーター活性の階層的クラスタリングを示す。各横列は、各細胞株中のフラグメントのプロモーター活性を示し、赤色は活性の程度を示し、黒色は活性なしを示す。プロモーター活性を規準化し、ログ変換して、細胞株間の比較できる値を反映した。領域Aは、全細胞株中の強い遍在する活性を有するプロモーターフラグメントのクラスターを示し、領域Bは、16の細胞型で変動する機能を示すプロモーターフラグメントのクラスターを示す。 図2は、2つのプロモーターがテスティン(testin)遺伝子を識別的に調節することを示す。A)テスティン(TES)遺伝子の遺伝子構造。BおよびC)形質転換されたルシフェラーゼ/ウミシイタケ比として示した16の試験細胞株中のTES遺伝子のプロモーターのプロモーター活性。B)プロモーターAは、16組織のうちの12組織で活性を示すが、2つの能細胞株U87およびT98Gでは活性はほとんど認められなかった。C)プロモーターBは、U87およびT98G(共に脳細胞株)でのみ有意な活性を有する。 図3は、プロモーター欠失構築物のレポーター活性を示す。A)プロモーター欠失構築物の図。B)上流配列を減少させた6つの各構築物(1,000bp、500bp、350bp、200bp、90bp、40bp)について認められた平均プロモーター活性。平均は、45のプロモーターおよび7つの細胞株(HT1080、HeLa、HCT116、G−402、AGS、T98G、およびJEG3)中の構築物の規準化した活性を示す。三連でアッセイし、規準化したルシフェラーゼ/ウミシイタケ比として示したプロモーター活性により、細胞株内および細胞株間の活性を比較するためのトランスフェクション規準化値が得られる。C)7つの細胞型のUDP−グリコシルトランスフェラーゼ遺伝子(UGT1A10)の間のプロモーターフラグメントの平均活性。D)7つの細胞型間の精子関連抗原4(SPAG4)プロモーターフラグメントの平均活性。SPAG4プロモーターの898bpフラグメントは、372bpフラグメントより非常に低い活性を示す。 図4は、SPAG4プロモーター中の負の調節エレメントのレポーター活性を示す。6つの構築物(1、SPAG4−372bpフラグメント。2、サイズを制御するために縦列重複物中でクローニングしたSPAG4−372bpプロモーター。3、SPAG4 372bpプロモーターの上流にクローニングした500bpのランダム配列。4、SPAG4 898bpフラグメント。5、異種プロモーターの上流にクローニングしたSPAG4−898〜−372フラグメント。6、異種プロモーターBのSPAG4−898→4372フラグメント)の2つの細胞型(HT1080およびHCT116)の間の平均プロモーター活性。エラーバーは、各構築物の4つの複製物の平均から1標準偏差を示す。 図5は、内因性RNA転写産物レベル対プロモーター活性の散布図である。絶対ゲノム当量として示したRNAレベルをX軸にプロットし、規準化プロモーター活性をY軸に示す。相関関数を計算した(r=0.53)(R2=0.28)。象限の境界を、RNA転写レベルの中央値(0.17ゲノム当量)およびプロモーター活性の中央値(2.69ルシフェラーゼ/ウミシイタケ比)に設定する。 図6は、表1を示す。クラスによるプロモーター活性。複数エキソンおよび単一エキソンの予想を再分割し、それにより有意に異なる有効率を示す。最も長いcDNAプロモーターおよび別の(内部)プロモーターについてさらに分類することにより、両カテゴリー内の最も長いcDNAの予測がよりうまくいく。高信頼性予測(High Confidence predictions)(HiConf)は、予測のために使用した遺伝子モデル内のRefSeq遺伝子または1つを超えるcDNAのいずれかによる転写開始部位を支持する。 図7は、表2を示す。プロモーター結合因子(TAF1およびRNAP II重複機能的プロモーター)の位置。カラム1:各因子の結合部位数。カラム2:結合部位と重複する推定全プロモーター数。カラム3:一過性トランスフェクションレポーターアッセイによって試験された結合部位数。カラム4:プロモーター活性を有する重複フラグメントの数および比率。 図8Aは、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能分析のための方法を概略的に示す。 図8Bは、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能分析のための別の実施形態を概略的に示す。 図9Aは、転写プロモーターの予測方法の1つの実施形態を概略的に示す。 図9Bは、転写プロモーターの予測方法の別の実施形態を概略的に示す。 図10Aは、プロモーターを単離し、このプロモーターをレポーターベクターにクローニングする方法の1つの実施形態を概略的に示す。 図10Bは、プロモーターを単離し、このプロモーターをレポーターベクターにクローニングする方法の別の実施形態を概略的に示す。 図11Aは、ハイスループット様式での複数のプロモーターの転写活性の検出方法の1つの実施形態を概略的に示す。 図11Bは、大量ハイスループット様式での複数のプロモーターの転写活性の検出方法の別の実施形態を概略的に示す。 図12Aは、複数のプロモーターの機能アッセイで得たデータの分析法表の1つの実施形態を概略的に示す。 図12Bは、多数のプロモーターの機能アッセイで得たデータの分析法表の別の実施形態を概略的に示す。 図13は、ゲノムワイドのプロモーターのメチル化状態の大量ハイスループットによる決定方法の1つの実施形態を概略的に示す。 図14は、各転写開始部位(TSS)型およびこれらを定義するcDNAを含むゲノムモデルを概略的に示す。本発明のプロモーター予測アルゴリズム(PPA)は、同一鎖上の同一のゲノム領域中の少なくとも1つの他のcDNAと少なくとも1つのエキソン塩基が重複するcDNAの全コレクションとして遺伝子モデルを定義する。PPAが全cDNAを遺伝子モデルにアセンブリした後、PPAは遺伝子モデル内でTSSを予測する。TSSを、その遺伝子モデル中の位置に基づき、TSSを確立するcDNA型から分類する。各遺伝子モデルについて、ほとんどの5’TSSを定義する5’境界およびcDNAが存在する。いくつかの遺伝子モデルは、ほとんどの5’TSSの別のTSS下流を予想するcDNAを有する。PPAは、次に最も近いcDNAの少なくとも500塩基下流に存在するMGC、DBTSSまたはRefSeq由来のこれらの全長cDNAに基づいて別のTSSを予測する。さらに、cDNAが同一の遺伝子モデル中のより長いcDNA由来のいかなるエキソンとも重複しない第1のエキソンを有する場合、別のTSSを予測する。独特の第1のエキソンは、遺伝子の人為的に短縮された形態である可能性が高くないので、その特定のTSSにおいて信頼性が増す。検討する単一エキソンcDNAによってもたらされる問題のために、PPAは、その遺伝子モデル中の単一エキソンcDNAによって予測される任意の別のTSSをフィルタリングによって除去する。遺伝子モデル構築アプローチおよびTSSカテゴリー分類は、添付のテキストに詳述されている。 図15は、PPA v1.1およびPPA v1.2の出力をまとめた表を示す。PPA v1.1は、ヒトゲノム中の64,526個のプロモーターを予測し、PPA v1.2はヒトゲノム中の45,096個のプロモーターを予測する(その配列を、添付のCD中に列挙した配列番号1〜45096と指定する)。最も5’側のカテゴリーに相当する推定プロモーターの比率の増加により、偽遺伝子、推定単一エキソン遺伝子、およびランダム配列アラインメントに関連する推定プロモーターの比率が減少した別の第1のエキソンおよび複数エキソン遺伝子モデルは、全プロモーター数のこの30%の減少がPPA v1.1に存在したノイズの減少に相当することを示す。したがって、PPA v1.2は、PPA v1.1よりも有意に改良されており、感度を犠牲にすることなく有意により特異的である。さらに、2つのバージョンの能力を比較して、真核生物プロモーターデータベース(EPD)(以前に既刊文献中で同定された約1,800個のプロモーター配列を含む公的に利用可能なデータベース)に存在するプロモーターを同定した。EPD配列との重複は、2つのバージョンで非常に類似しており、PPA v1.2が真のプロモーターを検出するための感度を失うことなく予測物からノイズを除去することをさらに示す。 図16は、異なる制限酵素対を使用してクローニング可能な推定プロモーター配列の比率を列挙した表を示す。レポーターベクターへのプロモーターフラグメントのライゲーションベースのクローニングを容易にするために、制限酵素部位配列を各プロモーターの順方向プライマーおよび逆方向プライマーに付加する。ディレクショナルクローニングのために、1つの配列を順方向プライマーに付加し、異なる配列を逆方向プライマーに付加する。かかるアプローチが有効である場合、クローニングすべき増幅プロモーター配列は、プライマーに付加すべき制限部位配列を含まないことが好ましい。好ましくは、本発明のPPAは、各プロモーター配列をスクリーニングし、どの部位がプロモーター配列中に存在しないかに応じて、3つの制限部位のうちの1つを使用する。ゲノムワイドのプロモーター分析に基づいて、3つの制限酵素対の使用により、ゲノムの全プロモーターの97%を対象とするのに対して、単一対の使用は、使用される酵素対に応じて55〜78%を対象とする。 図17は、プールしたクローニングストラテジーを使用した異なるレベルの配列決定範囲で回収された独特のクローンの予測比率および実際の比率を列挙した表を示す。

Claims (70)

  1. 発現構築物のライブラリーであって、該ライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、
    (a)該ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (c)該ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、発現構築物のライブラリー。
  2. 前記ライブラリー中の核酸セグメントの平均長が、700ヌクレオチドと1200ヌクレオチドとの間である、請求項1に記載のライブラリー。
  3. 前記ライブラリー中の核酸セグメントの平均長が、800ヌクレオチドと1100ヌクレオチドとの間である、請求項1に記載のライブラリー。
  4. 前記ライブラリー中の核酸セグメントの少なくとも90%が、700ヌクレオチドと1300ヌクレオチドとの間の長さを有する、請求項1に記載のライブラリー。
  5. 各核酸セグメントが、転写開始部位の上流に少なくとも500ヌクレオチド含む、請求項1に記載のライブラリー。
  6. 前記核酸セグメントのうちの5%以下が、cDNAアラインメント人工産物に天然に結合されている、請求項1に記載のライブラリー。
  7. 前記ライブラリーが、ゲノム中の各転写調節配列の転写調節下で遺伝子を天然に示すための指標がついている、請求項1に記載のライブラリー。
  8. 前記レポーター配列が、同一のレポーター分子をコードする、請求項1に記載のライブラリー。
  9. 前記レポーター配列が、発光レポーター分子、蛍光レポーター分子、または比色分子をコードする、請求項1に記載のライブラリー。
  10. 各レポーター配列が、可視シグナルをレポートする所定の独特のヌクレオチドバーコードおよび/またはレポーターを含む、請求項1に記載のライブラリー。
  11. 前記ゲノムが哺乳動物ゲノムである、請求項1に記載のライブラリー。
  12. 前記ゲノムがヒトゲノムである、請求項1に記載のライブラリー。
  13. 前記ゲノムがマウスゲノムである、請求項1に記載のライブラリー。
  14. 前記核酸セグメントの多様度が少なくとも100である、請求項1に記載のライブラリー。
  15. 前記核酸セグメントの多様度が少なくとも500である、請求項1に記載のライブラリー。
  16. 前記発現構築物がプラスミドまたはウイルス構築物である、請求項1に記載のライブラリー。
  17. 前記核酸セグメントが、配列番号1〜45096、もしくはそのフラグメント、またはそれらに対して少なくとも70%、75%、80%、85%、90%、95%、もしくは98%の相同性を有する配列を有する核酸からなる群から選択されるDNAセグメントのうちの少なくとも2つを含む、請求項1に記載のライブラリー。
  18. 単離された核酸分子のライブラリーであって、該ライブラリーの各メンバーは、ゲノム由来の異なる所定の核酸セグメントを含み、該セグメントが転写調節配列を含み、
    (a)該ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (c)該ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、ライブラリー。
  19. 組換え核酸分子のライブラリーであって、該ライブラリーの各メンバーは、異種核酸分子に連結したゲノム由来の異なる所定の核酸セグメントを含み、該セグメントが転写調節配列を含み、
    (a)該ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (c)該ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、組換え核酸分子のライブラリー。
  20. 前記核酸分子が、前記セグメントの5’側に隣接する制限部位と3’側に隣接する制限部位との対を含む、請求項19に記載のライブラリー。
  21. 前記核酸分子が、増幅に使用することができるPCRプライマーに相補的なセグメントの5’末端に隣接する制限部位と3’末端に隣接する制限部位との対を含む、請求項19に記載のライブラリー。
  22. 細胞のライブラリーであって、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、該発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写制御下にあり、
    (a)該ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (c)該ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、細胞のライブラリー。
  23. 前記細胞がヒト細胞である、請求項22に記載のライブラリー。
  24. 前記細胞が非ヒト細胞である、請求項22に記載のライブラリー。
  25. 細胞内に発現構築物のライブラリーを含む細胞のコレクションであって、該発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異なる異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写調節下にある、細胞のコレクション。
  26. 前記異なる発現構築物を含む細胞が同定可能なバイアルまたはウェル中に存在する、請求項25に記載の細胞のコレクション。
  27. (a)前記ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (c)該ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、請求項25に記載の細胞のコレクション。
  28. 複数のウェルを含む少なくとも1つのプレートを含むデバイスであって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、各メンバーがウェル中の既知の位置を有する、デバイス。
  29. (a)前記ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (c)前記ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、請求項28に記載のデバイス。
  30. 前記構築物が、乾燥核酸の形態であるかまたは溶けている、請求項28に記載のデバイス。
  31. 前記構築物が、トランスフェクションマトリックスの組み合わせの状態にある、請求項30に記載のデバイス。
  32. 96ウェルプレート、384ウェルプレート、または1536ウェルプレートを含む、請求項28に記載のデバイス。
  33. 前記遺伝子発現調節エレメントが、配列番号1〜45096、もしくはそのフラグメント、またはそれらに対して少なくとも70%、75%、80%、85%、90%、95%、もしくは98%の相同性を有する配列を有する核酸からなる群から選択されるDNAセグメントのうちの少なくとも2つを含む、請求項28に記載のデバイス。
  34. 複数のウェルを含む少なくとも1つのプレートを含むデバイスであって、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写制御下にあり、前記細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、デバイス。
  35. (a)前記発現構築物のライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (b)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (c)該ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、請求項34に記載のデバイス。
  36. 標的遺伝子発現調節エレメントの生物機能を特徴づけるためのキットであって、
    (a)複数のウェルを含む少なくとも1つのプレートを含むデバイスであって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写制御下にあり、各メンバーがウェル中の既知の位置を有する、デバイス、および
    (b)レポーターアッセイ基質
    を含む、キット。
  37. 標的遺伝子発現調節エレメントの生物機能を特徴づけるための説明書をさらに含む、請求項36に記載のキット。
  38. 表面および前記表面にそれぞれ異なる既知の位置に固定された核酸分子を含む固体基板を含むデバイスであって、各分子が転写調節配列を含むゲノムセグメント由来の少なくとも10ヌクレオチドのヌクレオチド配列を含み、該デバイスが少なくとも50の異なるゲノムセグメント由来の転写調節配列を含む、デバイス。
  39. 各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結している、請求項38に記載のデバイス。
  40. 前記遺伝子発現調節エレメントが、配列番号1〜45096またはそのフラグメントからなる群から選択されるDNAセグメントのうちの少なくとも2つを含む、請求項38に記載のデバイス。
  41. 前記分子が60ヌクレオチド以下の長さである、請求項38に記載のデバイス。
  42. 前記各ゲノムセグメントが複数の分子を含むセットにより表され、該セット中の各分子がゲノムセグメント由来の異なるヌクレオチド配列を含む、請求項38に記載のデバイス。
  43. (a)請求項34に記載のデバイス、
    (b)該デバイスの各ウェル中で発現されたレポーター配列由来のシグナルを検出するように適合された読み取り装置、
    を含むシステム。
  44. 前記デバイスが、所定のシグナルレベルを提供する複数のコントロール構築物を含み、前記システムが、(c)(i)該コントロール構築物由来のシグナルに基づいてプレートの全ウェル由来のシグナルを規準化するアルゴリズムを実行するコードを含むソフトウェアをさらに含む、請求項43に記載のシステム。
  45. 請求項44に記載のアルゴリズムを実行するコードを含むソフトウェア。
  46. (a)複数のウェルを含む少なくとも1つのプレートを含むデバイスを提供する工程であって、各ウェルが細胞のライブラリーの異なるメンバーを含み、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、前記セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、該細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、提供する工程、
    (b)該細胞を培養する工程、および
    (c)各ウェル中のレポーター配列の発現レベルを測定する工程
    を含む、方法。
  47. (i)前記ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (ii)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (iii)前記ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、請求項44に記載の方法。
  48. 前記デバイスを提供する工程が、
    (i)複数のウェルを含む少なくとも1つのプレートを含むデバイスを提供する工程であって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、該発現構築物のライブラリーの各メンバーがウェル中の既知の位置を有する、工程、
    (ii)該ウェルの各々に細胞を送達する工程、
    (iii)該発現構築物で該細胞をトランスフェクションする工程を含む、請求項44に記載の方法。
  49. (d)各ウェル中で前記細胞を撹乱する工程、
    (e)各ウェル中の前記レポーター配列の発現レベルを測定する工程、および
    (f)任意のウェル中の発現レベルが該細胞と試験化合物との接触後に変化したかどうかを決定する工程
    をさらに含む、請求項44に記載の方法。
  50. 前記撹乱する工程が、各ウェル中の前記細胞を試験化合物と接触させる工程、該細胞を異なる環境条件に曝露する工程、変異の誘導などによって持続的または一過性に該細胞を遺伝子改変する工程、例えばcDNAでのトランスフェクションによって転写産物を過剰発現させる工程、またはsiRNAによって転写産物の発現を減少させる工程を含む、請求項49に記載の方法。
  51. 前記レポーター配列がレポーター分子をコードし、前記レポーター配列の発現の測定が該レポーター分子の発現の測定を含む、請求項44に記載の方法。
  52. (a)第1のデバイスおよび第2のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも1つのプレートを含み、前記各ウェルが細胞のライブラリーの異なるメンバーを含み、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、該細胞のライブラリーの各メンバーがウェル中の既知の位置に存在し、前記第1のデバイスおよび第2のデバイスが同じタイプの細胞を含み、前記発現構築物のライブラリーが該第1のデバイスおよび該第2のデバイスで同一である、工程、
    (b)該第1のデバイスおよび該第2のデバイスの細胞を異なる培養条件下で培養する工程、
    (c)各ウェル中の該レポーター配列の発現レベルを測定する工程、および
    (d)該レポーター配列の発現レベルを前記第1の細胞型と第2の細胞型との間で各転写調節配列と比較する工程
    を含む、方法。
  53. 前記異なる培養条件が、前記第1のデバイスの細胞の培養物中に存在しない化合物の存在下で前記第2のデバイスの細胞を培養する工程を含む、請求項52に記載の方法。
  54. (a)第1のデバイスおよび第2のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも1つのプレートを含み、各ウェルが細胞のライブラリーの異なるメンバーを含み、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、該細胞のライブラリーの各メンバーがウェル中の既知の位置を有し、該第1のデバイスが第1の型の細胞を含み、第2のデバイスが第2の型の細胞を含み、該発現構築物のライブラリーが該第1のデバイスおよび該第2のデバイスで同一である、提供する工程、
    (b)該第1のデバイスおよび該第2のデバイスの細胞を培養する工程、
    (c)各ウェル中の該レポーター配列の発現レベルを測定する工程、および
    (d)該レポーター配列の発現レベルを該第1の細胞型と該第2の細胞型との間で各転写調節配列と比較する工程
    を含む、方法。
  55. (i)前記ライブラリーは、少なくとも50の異なる核酸セグメントという多様度を有し、
    (ii)各核酸セグメントは、該ゲノム中でcDNAとして発現される配列に天然では連結しており、
    (iii)該ライブラリー中の核酸セグメントの平均長が少なくとも600ヌクレオチドである、請求項54に記載の方法。
  56. 前記デバイスを提供する工程が、
    (i)デバイスを提供する工程であって、各デバイスが、複数のウェルを含む少なくとも1つのプレートを含み、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、該発現構築物のライブラリーの各メンバーがウェル中の既知の位置を有する、工程、
    (ii)該ウェルの各々に細胞を送達す工程、
    (iii)該発現構築物で該細胞をトランスフェクションするかまたは感染させる工程を含む、請求項54に記載の方法。
  57. 請求項46に記載の方法によって測定された構築物由来の発現レベルを評価するための方法であって、
    (a)コントロールレポーター構築物セットを含む細胞セットを提供する工程であって、各コントロールレポーター構築物が前記異種レポーター配列に作動可能に連結されたランダムゲノムフラグメントを含む、提供する工程、
    (b)各細胞中の該レポーター配列の発現レベルを測定する工程、
    (c)該コントロール構築物間の発現レベルの平均値または平均を決定する工程、
    (d)各試験構築物の発現レベルについて、平均値または平均からの統計的距離を決定する工程、および
    (e)偏差が統計的に有意であるかどうかを決定する工程
    を含む、方法。
  58. 前記偏差が標準偏差である、請求項57に記載の方法。
  59. 前記ランダムゲノムフラグメントが、実験フラグメントと同一サイズの分布のゲノムから選択されるランダムフラグメントである、請求項57に記載の方法。
  60. 前記ランダムゲノムフラグメントが、タンパク質コード遺伝子の中間エキソン由来のランダムフラグメントであり、該中間エキソンがタンパク質をコードし、その長さが少なくとも実験フラグメントのサイズであり、且つ前記ゲノム中の既知の転写開始部位から少なくとも5,000塩基または10,000塩基である、請求項57に記載の方法。
  61. 活性および有意性を、以下の式:Zスコアプロモーター活性=(未加工のプロモーター活性−ランダムコントロールの平均値)/ランダムコントロールの標準偏差によってZスコアとして計算する、請求項57に記載の方法。
  62. 請求項57に記載の平均値および偏差を決定するアルゴリズムを実行するコードを含むソフトウェア。
  63. Zスコア変換プロモーター活性データを、DNAメチル化実験由来のZスコア変換機能データ、転写因子結合データ、ヒストン修飾データ、DNアーゼ高感受性データ、ヌクレオソーム置換データ、または遺伝子発現データと統合する分析ソフトウェア。
  64. 核酸配列中のメチル化パターンを決定するための方法であって、
    (a)第1の標識核酸セグメントセットを、
    (i)供給源由来の配列を含む核酸分子を得ること、および
    (ii)単離核酸分子を第1の標識で標識することにより、標識により、前記第1の標識核酸セグメントセットが作製されること、
    によって作製する工程;
    (b)第2の標識核酸セグメントセットを、
    (i)該供給源由来のヌクレオチド配列を有する核酸分子を得ること、
    (ii)該核酸分子を、異なる認識配列を有する少なくとも3つのメチル感受性制限酵素と接触させ、該酵素が非メチル化認識配列において核酸分子を切断するが、メチル化認識部位では切断されず、それにより、核酸フラグメントが得られること、
    (iii)混合物から少なくとも100ヌクレオチドの核酸フラグメントを単離すること、および
    (iv)該フラグメントを第2の異なる標識で標識することにより、標識により、前記第2の核酸セグメントセットが作製されること、
    によって作製する工程;
    (c)該第1の標識セグメントおよび該第2の標識セグメントを、前記ヌクレオチド配列を含む1つまたは複数の核酸プローブとハイブリッド形成する工程、および
    (d)該第1の標識セグメントおよび該第2の標識セグメントによって識別的に標識されたヌクレオチド配列の領域を決定する工程であって、該識別的に標識された領域が該ヌクレオチド配列の非メチル化領域である、決定する工程
    を含む、方法。
  65. 前記核酸分子が転写調節配列を含む、請求項64に記載の方法。
  66. 前記核酸分子を少なくとも6つの異なるメチル感受性酵素と接触させる工程を含む、請求項64に記載の方法。
  67. 前記第1の標識が第1の色を生じ、前記第2の標識が第2の異なる色を生じる、請求項64に記載の方法。
  68. 前記セグメントを、前記核酸分子のヌクレオチド配列をタイル状に配置する複数のプローブとハイブリッド形成する工程を含む、請求項64に記載の方法。
  69. 前記方法を2回目に第2の供給源由来の核酸を使用して行う工程をさらに含み、前記第1の供給源および前記第2の供給源が、健康な組織および罹患組織であるか、または2つの異なるタイプの罹患組織である、請求項64に記載の方法。
  70. ビジネス方法であって、
    (a)請求項1、請求項18、請求項19、請求項22、請求項25、請求項28、請求項34、請求項37、請求項42、請求項44、請求項45、請求項51、請求項53、請求項56、請求項61、請求項63、および請求項63のいずれか1項に記載の組成物、デバイス、または方法を商業化する工程
    を含む、方法。
JP2008545677A 2005-12-16 2006-12-08 遺伝子発現調節エレメントのハイスループットでの特徴付けのための機能性アレイ Withdrawn JP2009519710A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US75092905P 2005-12-16 2005-12-16
US76205606P 2006-01-24 2006-01-24
US11/636,385 US20070161031A1 (en) 2005-12-16 2006-12-07 Functional arrays for high throughput characterization of gene expression regulatory elements
PCT/US2006/046920 WO2007078599A2 (en) 2005-12-16 2006-12-08 Functional arrays for high throughput characterization of gene expression regulatory elements

Publications (1)

Publication Number Publication Date
JP2009519710A true JP2009519710A (ja) 2009-05-21

Family

ID=38228711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008545677A Withdrawn JP2009519710A (ja) 2005-12-16 2006-12-08 遺伝子発現調節エレメントのハイスループットでの特徴付けのための機能性アレイ

Country Status (3)

Country Link
EP (1) EP2021499A4 (ja)
JP (1) JP2009519710A (ja)
WO (1) WO2007078599A2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014504871A (ja) * 2011-01-07 2014-02-27 アプライド ジェネティック テクノロジーズ コーポレイション 1色覚および他の疾患の治療のためのプロモーター、発現カセット、ベクター、キット、ならびに方法
JP2020515572A (ja) * 2017-03-27 2020-05-28 ブレイエ・ユニバージテイト・ブリュッセルVrije Universiteit Brussel 横隔膜特異的核酸調節エレメントならびにその方法および使用
JP2020515292A (ja) * 2017-04-03 2020-05-28 エンコーデッド セラピューティクス, インコーポレイテッド 組織選択的導入遺伝子発現
JP2021503289A (ja) * 2017-11-20 2021-02-12 トゥルン イリオピスト 新規なcip2aバリアント及びその使用
JP7477675B2 (ja) 2017-04-03 2024-05-01 エンコーデッド セラピューティクス, インコーポレイテッド 組織選択的導入遺伝子発現

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2762369C (en) 2009-05-18 2021-12-28 Joseph Collard Treatment of reprogramming factor related diseases by inhibition of natural antisense transcript to a reprogramming factor
US8741865B2 (en) 2009-07-15 2014-06-03 Zhenglun Zhu Treatment of immune disorders with Hom-1 inhibitors
US9816108B2 (en) 2010-04-23 2017-11-14 University Of Florida Research Foundation, Inc. rAAV-guanylate cyclase compositions and methods for treating lebers congenital amaurosis-1 (LCA1)
WO2011146411A1 (en) * 2010-05-17 2011-11-24 University Of Southern California Grp78 gene polymorphism rs391957 is associated with tumor recurrence and survival in gastrointestinal cancer patients
JP6482869B2 (ja) * 2012-04-03 2019-03-13 国立研究開発法人国立成育医療研究センター miR−140の発現を制御するDNA及び該DNAを利用した薬剤のスクリーニング方法
US9163259B2 (en) * 2012-05-04 2015-10-20 Novartis Ag Viral vectors for the treatment of retinal dystrophy
WO2014031079A1 (en) * 2012-08-21 2014-02-27 Singapore Health Services Pte Ltd Method and/or probe for determining glaucoma susceptibility
CA3145660A1 (en) 2013-03-14 2014-10-02 Monsanto Technology Llc Plant regulatory elements and uses thereof
WO2014197586A1 (en) 2013-06-04 2014-12-11 Virginia Commonwealth University Mda-9/syntenin promoter to image and treat metastatic cancer cells
EP3097197B1 (en) 2014-01-21 2020-12-16 Vrije Universiteit Brussel Muscle-specific nucleic acid regulatory elements and methods and use thereof
US20150276767A1 (en) * 2014-03-12 2015-10-01 The University Of Sydney Systems and methods for identifying cancers having activated progesterone receptors
EP3546594B1 (en) * 2014-03-21 2020-12-23 Life Technologies Corporation Multi-copy reference assay
CN103981185B (zh) * 2014-04-14 2016-04-27 浙江理工大学 肝癌特异性gp73核心启动子及其筛选构建方法
KR101791296B1 (ko) * 2014-04-17 2017-10-27 제주대학교 산학협력단 알츠하이머병 관련 돌연변이 유전자를 포함하는 발현 카세트, 벡터, 및 이를 이용하여 형질전환된 세포주
CA2966753A1 (en) 2014-11-17 2016-05-26 Arno Therapeutics, Inc. Onapristone extended-release compositions and methods
CN104673797B (zh) * 2015-02-09 2018-02-02 苏州大学 参与人体细胞电离辐射应激反应的长链非编码rna及其应用
WO2016149455A2 (en) * 2015-03-17 2016-09-22 The General Hospital Corporation The rna interactome of polycomb repressive complex 1 (prc1)
WO2016200263A1 (en) * 2015-06-12 2016-12-15 Erasmus University Medical Center Rotterdam New crispr assays
CA2998924A1 (en) 2015-09-25 2017-03-30 Context Biopharma Inc. Methods of making onapristone intermediates
US10548905B2 (en) 2015-12-15 2020-02-04 Context Biopharma Inc. Amorphous onapristone compositions and methods of making the same
JP7347933B2 (ja) 2016-04-15 2023-09-20 ザ・トラステイーズ・オブ・ザ・ユニバーシテイ・オブ・ペンシルベニア 血友病a治療に対する遺伝子療法
US20180148471A1 (en) 2016-11-30 2018-05-31 Arno Therapeutics, Inc. Methods for onapristone synthesis dehydration and deprotection
WO2018111104A1 (en) * 2016-12-14 2018-06-21 Erasmus University Medical Center Rotterdam Use of human crispr sequences in diagnostics
CN114875051A (zh) 2017-05-31 2022-08-09 北卡罗来纳大学教堂山分校 优化的人凝血因子ix基因表达盒及其应用
RU2671156C1 (ru) * 2017-08-21 2018-10-29 Общество с ограниченной ответственностью "Центр Генетики и Репродуктивной Медицины "ГЕНЕТИКО" Способ преимплантационной генетической диагностики спинальной мышечной атрофии типа 1
CA3116174A1 (en) * 2018-10-31 2020-05-07 Rutgers, The State University Of New Jersey Gramc: genome-scale reporter assay method for cis-regulatory modules
FR3088194B1 (fr) * 2018-11-09 2021-02-19 Univ Paris Sud Utilisation du microrna mir-27a-5p pour traiter l'inflammation intestinale induite par clostridium difficile
KR102192455B1 (ko) * 2019-04-05 2020-12-17 한국과학기술원 개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도
US20220170110A1 (en) * 2019-04-05 2022-06-02 Korea Advanced Institute Of Science And Technology Cancer diagnostic marker using transposase-accessible chromatin sequencing information about individual, and use thereof
CN110117659B (zh) * 2019-06-18 2022-10-11 上海奕谱生物科技有限公司 一种新型的肿瘤标记物stamp-ep10及其应用
JP2023525969A (ja) * 2020-05-19 2023-06-20 イグザカ フランス インビトロおよびインビボでのcd3+細胞における遺伝子治療産物の発現のためのプロモータ配列
EP4157314A1 (en) 2020-05-27 2023-04-05 Universität Zürich Novel transduction enhancers and uses thereof
US11781156B2 (en) 2020-10-09 2023-10-10 Tenaya Therapeutics, Inc. Plakophillin-2 gene therapy methods and compositions
AU2021358069A1 (en) * 2020-10-09 2023-06-08 Tenaya Therapeutics, Inc. Plakophillin-2 gene therapy methods and compositions
WO2022212766A2 (en) * 2021-03-31 2022-10-06 Hunterian Medicine Llc Compact promoters for gene expression
CN113265428B (zh) * 2021-06-11 2023-03-14 东北林业大学 一种利用金属硫蛋白构建活细胞内铜变化的检测系统及应用
WO2023150553A1 (en) * 2022-02-01 2023-08-10 University Of Rochester Gpr17 promoter-based targeting and transduction of glial progenitor cells
WO2024001172A1 (en) * 2022-06-27 2024-01-04 Ractigen Therapeutics Oligonucleotide modulators activating complement factor h expression

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6242211B1 (en) * 1996-04-24 2001-06-05 Terragen Discovery, Inc. Methods for generating and screening novel metabolic pathways
WO1998037235A1 (en) * 1997-02-24 1998-08-27 Cornell Research Foundation, Inc. Method of screening agents as candidates for drugs or sources of drugs
US6504084B1 (en) * 1999-04-23 2003-01-07 Pioneer Hi-Bred International, Inc. Maize NPR1 polynucleotides and methods of use
US20030211481A1 (en) * 2002-05-08 2003-11-13 Erives Albert J. Method for identifying cellular targets

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014504871A (ja) * 2011-01-07 2014-02-27 アプライド ジェネティック テクノロジーズ コーポレイション 1色覚および他の疾患の治療のためのプロモーター、発現カセット、ベクター、キット、ならびに方法
JP2017060487A (ja) * 2011-01-07 2017-03-30 アプライド ジェネティック テクノロジーズ コーポレイション 1色覚および他の疾患の治療のためのプロモーター、発現カセット、ベクター、キット、ならびに方法
JP2020515572A (ja) * 2017-03-27 2020-05-28 ブレイエ・ユニバージテイト・ブリュッセルVrije Universiteit Brussel 横隔膜特異的核酸調節エレメントならびにその方法および使用
US11920149B2 (en) 2017-03-27 2024-03-05 Vrije Universiteit Brussel Diaphragm-specific nucleic acid regulatory elements and methods and use thereof
JP2020515292A (ja) * 2017-04-03 2020-05-28 エンコーデッド セラピューティクス, インコーポレイテッド 組織選択的導入遺伝子発現
JP7246359B2 (ja) 2017-04-03 2023-03-27 エンコーデッド セラピューティクス, インコーポレイテッド 組織選択的導入遺伝子発現
JP7477675B2 (ja) 2017-04-03 2024-05-01 エンコーデッド セラピューティクス, インコーポレイテッド 組織選択的導入遺伝子発現
JP2021503289A (ja) * 2017-11-20 2021-02-12 トゥルン イリオピスト 新規なcip2aバリアント及びその使用
JP7150018B2 (ja) 2017-11-20 2022-10-07 トゥルン イリオピスト 新規なcip2aバリアント及びその使用
US11680092B2 (en) 2017-11-20 2023-06-20 Turun Yliopisto CIP2A variant and uses thereof

Also Published As

Publication number Publication date
WO2007078599A9 (en) 2007-10-04
WO2007078599A8 (en) 2008-10-30
WO2007078599A3 (en) 2008-08-28
WO2007078599A2 (en) 2007-07-12
EP2021499A4 (en) 2010-02-17
EP2021499A2 (en) 2009-02-11

Similar Documents

Publication Publication Date Title
JP2009519710A (ja) 遺伝子発現調節エレメントのハイスループットでの特徴付けのための機能性アレイ
US20070161031A1 (en) Functional arrays for high throughput characterization of gene expression regulatory elements
US10066227B2 (en) Mapping of genomic interactions
US20090018031A1 (en) Transcriptional regulatory elements of biological pathways tools, and methods
Rapley et al. Molecular biology and biotechnology
JP5683964B2 (ja) Snpアレイを用いた染色体、遺伝子または特定ヌクレオチド配列のコピー数測定方法
Schumacher et al. Microarray-based DNA methylation profiling: technology and applications
KR20190034164A (ko) 단일 세포 전체 게놈 라이브러리 및 이의 제조를 위한 조합 인덱싱 방법
US20230250419A1 (en) Method and kit for the generation of dna libraries for massively parallel sequencing
US20080220983A1 (en) Functional arrays for high throughput characterization of regulatory elements in untranslated regions of genes
JP2018524993A (ja) 染色体異常を検出するための核酸及び方法
Gilpatrick et al. Targeted nanopore sequencing with Cas9 for studies of methylation, structural variants, and mutations
CN108463559A (zh) 肿瘤的深度测序概况分析
EP3298166B1 (en) Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing
US20160362729A1 (en) Methods and compositions for chromosome mapping
Fabyanic et al. Joint single-cell profiling resolves 5mC and 5hmC and reveals their distinct gene regulatory effects
KR102549013B1 (ko) 췌장암 진단을 위한 메틸화 마커 유전자 및 이의 용도
WO2004053106A2 (en) Profiled regulatory sites useful for gene control
Liu et al. Rapid identification of homologous recombinants and determination of gene copy number with reference/query pyrosequencing (RQPS)
Adamson et al. Functional characterization of splicing regulatory elements
Choi et al. Massively parallel reporter assays combined with cell-type specific eQTL informed multiple melanoma loci and identified a pleiotropic function of HIV-1 restriction gene, MX2, in melanoma promotion
Gao et al. DNA methylation protocol for analyzing cell-free DNA in the spent culture medium of human preimplantation embryos
Key Molecular genetics, recombinant DNA, & genomic technology
Larke et al. Enhancers predominantly regulate gene expression in vivo via transcription initiation
Tanić et al. Performance comparison and in-silico harmonisation of commercial platforms for DNA methylome analysis by targeted bisulfite sequencing

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100302