JP2009519710A

JP2009519710A - 遺伝子発現調節エレメントのハイスループットでの特徴付けのための機能性アレイ

Info

Publication number: JP2009519710A
Application number: JP2008545677A
Authority: JP
Inventors: ネイサンディー．トリンクライン，; シェリーエフ．アルドレッド，; サラジェイ．クーパー，; リチャードエム．マイヤーズ，
Original assignee: ザボードオブトラスティーズオブザレランドスタンフォードジュニアユニバーシティー
Priority date: 2005-12-16
Filing date: 2006-12-08
Publication date: 2009-05-21
Also published as: WO2007078599A9; WO2007078599A8; WO2007078599A3; WO2007078599A2; EP2021499A4; EP2021499A2

Abstract

本発明は、生物のゲノム、特にヒトゲノム中の遺伝子発現調節エレメントの大規模な構造および機能の特徴づけのための組成物、キット、アセンブリ、ライブラリー、アレイ、および高処理方法を提供する。本発明の１つの態様では、各発現構築物が、レポーター配列の発現が核酸セグメントの転写調節下にあるように発現ベクター中のレポーター配列に作動可能に連結された核酸セグメント、ライブラリー中で変動し、多様度が少なくとも５０である核酸セグメントを含む、発現構築物のアレイを提供する。核酸セグメントは、転写プロモーターなどの遺伝子発現調節エレメントの巨大なライブラリーであり得る。本発明は、個別化医療、薬理ゲノミクス、および多形性と表現型形質との相関関係などに広範で多様に適用することができる。

Description

（引用）
本願は、２００５年１２月１６日出願の米国仮出願第６０／７５０，９２９号および２００６年１月２４日出願の米国仮出願第６０／７６２，０５６号の利益を主張し、これらの全体を本明細書中で参考として援用する。

（連邦政府により支援された研究の宣言）
本発明は、ＮａｔｉｏｎａｌＨｕｍａｎＧｅｎｏｍｅＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅからの国立衛生研究所（ＮＩＨ）補助金１Ｕ０１ＨＧ０３１６２−０１の下で米国政府に支援されて行われた。

（発明の背景）
ヒト遺伝子発現の調節は、極めて重要で高度に調整された複雑な過程である。遺伝子調節は、細胞分裂の調和から細胞外刺激に対する応答および発生中の転写の指示までの実質的に全ての生物学的過程で極めて重要な役割を果たす（非特許文献１；非特許文献２；非特許文献３）。各遺伝子レベルでの調節の知識が増大している一方で、遺伝子調節の大域的特徴づけは、現在、生物医学研究の主な課題の１つであり、且つ必須の目的である。この目的を達成するための最初のステップは、ヒトゲノム中の転写調節エレメントの包括的同定である。この目的のために、１％のヒトゲノム中の機能的エレメントを同定するための多数の研究所による共同的取り組みとしてＥＮＣＯＤＥ（ＥｎｃｙｃｌｏｐｅｄｉａｏｆＤＮＡＥｌｅｍｅｎｔｓ）プロジェクトが２００４年に開始された（ＴｈｅＥＮＣＯＤＥＰｒｏｊｅｃｔＣｏｎｓｏｒｔｉｕｍ２００４）。

プロモーターは、その位置が転写開始位置（ＴＳＳ）のすぐ上流で予想可能なために、複雑なゲノム中の最も特徴づけられた転写調節配列である。プロモーターは、しばしば、以下の２つの個別のセグメントを有すると説明される：コアプロモーター領域および広域（ｅｘｔｅｎｄｅｄ）プロモーター領域。コアプロモーターは、一般に、ＴＳＳの５０ｂｐ以内であり、ここで前開始複合体を形成し、基本転写機構が組み立てられる。広域プロモーターは、下流遺伝子の空間的および一過性の発現を制御する特異的調節配列を含み得る（非特許文献４に概説）。転写プロモーターを説明している論文の実質的な本文にもかかわらず、ｃＤＮＡの単離および合成の３’偏り（ｂｉａｓ）（非特許文献５）ならびに別のＲＮＡイソ型を調節する選択的プロモーターの存在（非特許文献６）により、全ヒト転写産物の真の開始部位の同定は完了とは程遠い。いくつかのグループが、最近、完全長（ｆｕｌｌ−ｌｅｎｇｔｈｅｎｒｉｃｈｅｄ）ｃＤＮＡ配列の大規模リソース（１１，２３４個のヒト遺伝子を含むＤａｔａｂａｓｅｏｆＴｒａｎｓｃｒｉｐｔｉｏｎａｌＳｔａｒｔＳｉｔｅｓ（ＤＢＴＳＳ）（非特許文献７；非特許文献８）および１２，２２８個の遺伝子を含むＭａｍｍａｌｉａｎＧｅｎｅＣｏｌｌｅｃｔｉｏｎ（ＭＧＣ）（非特許文献９が含まれる）を開発した。これらのデータベースは、遺伝子の５’全な配列および人為的配列を含み、ヒトゲノム中の全遺伝子の真の転写開始部位および対末端が富化された配列を提供するが、依然としてかなりの数の不完応するプロモーターを同定するさらなる実験による検証の必要性が強調される。ＥｕｋａｒｙｏｔｉｃＰｒｏｍｏｔｅｒＤａｔａｂａｓｅは、このようなリソースの１つであるが、これは、現在、１，８７１個のヒトプロモーターしか含まず（非特許文献１０；非特許文献１１）、推定される総数よりはるかに少ない。

現在、ヒトゲノムの機能領域を研究するためのいくつかのテクノロジーが存在する。研究者は、発現マイクロアレイにより、異なる条件下でゲノム中の全遺伝子の定常状態レベルを測定することができる。クロマチン免疫沈降とゲノムマイクロアレイとを組み合わせた別の技術（ＣｈＩＰ−チップ）により、ゲノム全域で転写因子の結合部位を決定することができる。多数の異なる個体およびさらに異なる種のゲノムの配列決定により、ゲノム中のどの配列が選択的制約下にあるかを示すこともできる。さらに、ＤＮＡメチル化状態などの後成的修飾のアッセイにより、調節エレメント研究にさらなる情報が付加される。これらの全実験アプローチにより、有益な所見が得られるが、これらはＤＮＡ調節エレメントの機能を直接測定しない。本発明は、調節エレメントの機能特徴づけおよび疾患または容態の研究、診断、防止、および治療のための機能研究によって得られた情報の使用における問題に対して革新的な解決法を提供する。
Ａｈｉｔｕｖ，Ｎ．，Ｅ．Ｍ．Ｒｕｂｉｎ，ａｎｄＭ．Ａ．Ｎｏｂｒｅｇａ．２００４．Ｅｘｐｌｏｉｔｉｎｇｈｕｍａｎ−−ｆｉｓｈｇｅｎｏｍｅｃｏｍｐａｒｉｓｏｎｓｆｏｒｄｅｃｉｐｈｅｒｉｎｇｇｅｎｅｒｅｇｕｌａｔｉｏｎ．ＨｕｍＭｏｌＧｅｎｅｔ１３ＳｐｅｃＮｏ２：Ｒ２６１−２６６．Ｂｌａｉｓ，Ａ．ａｎｄＢ．Ｄ．Ｄｙｎｌａｃｈｔ．２００４．Ｈｉｔｔｉｎｇｔｈｅｉｒｔａｒｇｅｔｓ：ａｎｅｍｅｒｇｉｎｇｐｉｃｔｕｒｅｏｆＥ２Ｆａｎｄｃｅｌｌｃｙｃｌｅｃｏｎｔｒｏｌ．ＣｕｒｒＯｐｉｎＧｅｎｅｔＤｅｖ１４：５２７−５３２．Ｐｉｒｋｋａｌａ，Ｌ．，Ｐ．Ｎｙｋａｒｅｎ，ａｎｄＬ．Ｓｉｓｔｏｎｅｎ．２００１．Ｒｏｌｅｓｏｆｔｈｅｈｅａｔｓｈｏｃｋｔｒａｎｓｃｒｉｐｔｉｏｎｆａｃｔｏｒｓｉｎｒｅｇｕｌａｔｉｏｎｏｆｔｈｅｈｅａｔｓｈｏｃｋｒｅｓｐｏｎｓｅａｎｄｂｅｙｏｎｄ．ＦａｓｅｂＪ１５：１１１８−１１３１．Ｂｕｔｌｅｒ，Ｊ．Ｅ．ａｎｄＪ．Ｔ．Ｋａｄｏｎａｇａ．２００２．ＴｈｅＲＮＡｐｏｌｙｍｅｒａｓｅＩＩｃｏｒｅｐｒｏｍｏｔｅｒ：ａｋｅｙｃｏｍｐｏｎｅｎｔｉｎｔｈｅｒｅｇｕｌａｔｉｏｎｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎ．ＧｅｎｅｓＤｅｖ１６：２５８３−２５９２．Ｋｉｍｍｅｌ，Ａ．Ｒ．ａｎｄＳ．Ｌ．Ｂｅｒｇｅｒ．１９８７．ＰｒｅｐａｒａｔｉｏｎｏｆｃＤＮＡａｎｄｔｈｅｇｅｎｅｒａｔｉｏｎｏｆｃＤＮＡｌｉｂｒａｒｉｅｓ：ｏｖｅｒｖｉｅｗ．ＭｅｔｈｏｄｓＥｎｚｙｍｏｌ１５２：３０７−３１６．Ｌａｎｄｒｙ，Ｊ．Ｒ．，Ｄ．Ｌ．Ｍａｇｅｒ，ａｎｄＢ．Ｔ．Ｗｉｌｈｅｌｍ．２００３．Ｃｏｍｐｌｅｘｃｏｎｔｒｏｌｓ：ｔｈｅｒｏｌｅｏｆａｌｔｅｒｎａｔｉｖｅｐｒｏｍｏｔｅｒｓｉｎｍａｍｍａｌｉａｎｇｅｎｏｍｅｓ．ＴｒｅｎｄｓＧｅｎｅｔ１９：６４０−６４８．Ｓｕｚｕｋｉ，Ｙ．，Ｒ．Ｙａｍａｓｈｉｔａ，Ｋ．Ｎａｋａｉ，ａｎｄＳ．Ｓｕｇａｎｏ．２００２．ＤＢＴＳＳ：ＤａｔａＢａｓｅｏｆｈｕｍａｎＴｒａｎｓｃｒｉｐｔｉｏｎａｌＳｔａｒｔＳｉｔｅｓａｎｄｆｕｌｌ−ｌｅｎｇｔｈｃＤＮＡｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ３０：３２８−３３１．Ｓｕｚｕｋｉ，Ｙ．，Ｒ．Ｙａｍａｓｈｉｔａ，Ｓ．Ｓｕｇａｎｏ，ａｎｄＫ．Ｎａｋａｉ．２００４．ＤＢＴＳＳ，ＤａｔａＢａｓｅｏｆＴｒａｎｓｃｒｉｐｔｉｏｎａｌＳｔａｒｔＳｉｔｅｓ：ｐｒｏｇｒｅｓｓｒｅｐｏｒｔ２００４．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ３２Ｄａｔａｂａｓｅｉｓｓｕｅ：Ｄ７８−８１．Ｇｅｒｈａｒｄ，Ｄ．Ｓ．Ｌ．ｅｔａｌ．．２００４．Ｔｈｅｓｔａｔｕｓ，ｑｕａｌｉｔｙ，ａｎｄｅｘｐａｎｓｉｏｎｏｆｔｈｅＮＩＨｆｕｌｌ−ｌｅｎｇｔｈｃＤＮＡｐｒｏｊｅｃｔ：ｔｈｅＭａｍｍａｌｉａｎＧｅｎｅＣｏｌｌｅｃｔｉｏｎ（ＭＧＣ）．ＧｅｎｏｍｅＲｅｓ１４：２１２１−２１２７．ＣａｖｉｎＰｅｒｉｅｒ，Ｒ．，Ｔ．Ｊｕｎｉｅｒ，ａｎｄＰ．Ｂｕｃｈｅｒ．１９９８．ＴｈｅＥｕｋａｒｙｏｔｉｃＰｒｏｍｏｔｅｒＤａｔａｂａｓｅＥＰＤ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ２６：３５３−３５７．Ｐｒａｚ，Ｖ．，Ｒ．Ｐｅｒｉｅｒ，Ｃ．Ｂｏｎｎａｒｄ，ａｎｄＰ．Ｂｕｃｈｅｒ．２００２．ＴｈｅＥｕｋａｒｙｏｔｉｃＰｒｏｍｏｔｅｒＤａｔａｂａｓｅ，ＥＰＤ：ｎｅｗｅｎｔｒｙｔｙｐｅｓａｎｄｌｉｎｋｓｔｏｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ３０：３２２−３２４．

（発明の概要）
本発明は、生物のゲノム、好ましくは哺乳動物ゲノム、より好ましくはヒトゲノム中の遺伝子発現調節エレメントの構造および機能を特徴づけるためのハイスループット方法に関する。遺伝子発現調節エレメントには、転写プロモーター、エンハンサー、インスレーター、サプレッサー、およびインデューサーが含まれるが、これらに限定されない。好ましい実施形態では、調節エレメントは、転写プロモーターである。各調節エレメントを、そのゲノム上の位置、配列、差異、変異、多形性、異なる細胞または組織型における転写調節活性、および転写因子などの他の調節因子に対する結合親和性に関して特徴づけることができる。遺伝子発現調節エレメントの構造および機能に関する情報を、多種多様に適用することができる（耐病性、罹病性または薬物反応などの表現型に関する個別化様式での疾患の診断および治療（「個別化医療」としても公知）が含まれるが、これらに限定されない）。細胞特異性または組織特異性に関する調節エレメントの同定および特徴づけは、治療有効性を増大させ、副作用を減少させた遺伝子療法のデザインにも役立ち得る。「疾患」には、変化させることが好ましい生物の任意の容態、形質または特徴が含まれるが、これらに限定されない。例えば、容態は、物理的、生理学的または心理学的な容態であってよく、症候性または無症候性であってよい。

本発明の１つの態様では、複数の異なる核酸セグメントの転写調節活性を決定する方法を提供する。本方法は、レポーター配列の発現が異なる核酸セグメントのそれぞれの転写調節下にあるように複数の異なる核酸セグメントのそれぞれを発現ベクター中のレポーター配列に作動可能に連結する工程、レポーター配列を発現する工程、および異なる核酸セグメントのそれぞれによって制御されたレポーターの発現レベルを決定する工程を含む。

複数の異なる核酸セグメントは、好ましくは、異なる遺伝子の転写開始位置の５’側の領域に由来するＤＮＡセグメントであり、この領域が、転写開始部位（ＴＳＳ）と比較して、約＋１００〜約−３０００ｂｐ、任意選択的に約＋５０〜約−２０００、約＋２０〜約−１８００、約＋２０〜約−１５００、約＋１０〜約−１５００、約＋１０〜約−１２００、約＋２０〜約−１０００、約＋２０〜約−９００、約＋２０〜約−８００、約＋２０〜約−７００、約＋２０〜約−６００、約＋２０〜約−５００、約＋２０〜約−４００または約＋２０〜約−３００の領域である。複数の異なる核酸セグメントの多様度（ｄｉｖｅｒｓｉｔｙ）は、少なくとも５０、任意選択的に少なくとも約８０、１２０、１６０、２００、４００、５００、６００、８００、１０００、１５００、２０００、３０００、５０００、８０００または１０，０００であり得る。複数の異なる核酸セグメントの例には、配列番号１〜４５０９６からなる群から選択される少なくとも約２、任意選択的に少なくとも５、１０、２０、５０、１００、２００、５００、１０００、５０００、１００００または２５０００個のヌクレオチドまたはそのフラグメントが含まれるが、これらに限定されない。

複数の異なる核酸セグメントは、プロモーターなどの推定転写調節エレメントのコンピュータ支援予測方法による異なる遺伝子の５’非転写領域に由来し得る。コンピュータ支援方法は、異なる遺伝子のｃＤＮＡライブラリーを生物のゲノムとアラインメントする工程、各異なる遺伝子の転写開始部位を定義する工程、および転写開始部位から５’側の配列を含むゲノム中のセグメント（複数の異なるＤＮＡセグメントのメンバーを構成する選択されたセグメント）を選択する工程を含む。

本発明の推定遺伝子発現調節エレメントの選択方法を、複数のコンピューティングシステム（スーパーコンピュータ、パーソナルコンピュータ、携帯情報端末（ＰＤＡ）、ネットワークコンピュータ、インターネット上の分散コンピュータまたは他のマイクロプロセッサシステムが含まれるが、これらに限定されない）において種々の形態で実施することができる。上記の方法およびシステムは、ランダムアクセスメモリ（ＲＡＭ）などの記憶装置以外の種々の実行可能な媒体型での実行に適用可能である。他の実行可能な媒体型（任意の記憶装置、コンパクトディスク、ジップディスクまたはフロッピー（登録商標）ディスクであり得るコンピュータ可読記憶媒体が含まれるが、これらに限定されない）を使用することができる。

本発明はまた、好ましくは、本発明の方法を実施するための組成物、人工物（ａｒｔｉｃｌｅｓ）のアセンブリ、およびキットを提供する。例えば、異なる遺伝子発現調節エレメントのアレイ、好ましくは異なる転写プロモーターのアレイを提供する。アレイの多様度は、好ましくは、少なくとも５０、任意選択的に少なくとも約８０、１２０、１６０、２００、４００、５００、６００、８００、１０００、１５００、２０００、３０００、５０００、８０００、１０，０００または２５，０００である。好ましくは、レポーター配列の発現が各遺伝子発現調節エレメントの転写調節下にあるようにレポーター配列に作動可能に連結された、それぞれ異なる遺伝子発現調節エレメントを含む発現ベクターのライブラリーも提供する。異なる遺伝子発現調節エレメントの例には、配列番号１〜４５０９６からなる群から選択される少なくとも約２、任意選択的に少なくとも５、１０、２０、５０、１００、２００、５００、１０００、５０００、１００００または２５０００個のヌクレオチド、そのフラグメントまたは少なくとも７０％相同な配列を有する核酸が含まれるが、これらに限定されない。レポーター配列の例には、ルシフェラーゼ、蛍光タンパク質（緑色蛍光タンパク質など）、およびβ−ガラクトシダーゼをコードする遺伝子が含まれるが、これらに限定されない。さらに、本発明の方法または任意の組成物、ライブラリー、アレイ、もしくは本発明の人工物のアセンブリを使用した試験もしくはアッセイを実施するための試薬および説明書を含むキットを提供する。キットは、さらに、キットの使用に必要な緩衝液、制限酵素、アダプター、プライマー、リガーゼ、ポリメラーゼ、ｄＮＴＰＳ、および説明書を含み得る。

本発明はまた、個体のゲノム中の転写調節エレメントの多形に存在する塩基を決定する方法を提供する。本方法は、個体由来の核酸サンプルを提供する工程、ゲノム中の転写調節エレメントの所定の領域を増幅して核酸フラグメントを産生する工程、核酸フラグメントを固体支持体に固定した異なる転写調節エレメントのアレイとハイブリッド形成する工程、ハイブリッド形成由来のハイブリッド形成パターンを得る工程、およびハイブリッド形成パターンの分析に基づいて個体の多形に存在する塩基を決定する工程を含む。転写調節エレメントは、好ましくは、コアプロモーターまたは広域プロモーターである。異なる転写調節エレメントのアレイは、好ましくは、本発明で提供したアレイであり、１つまたは複数の多形部位を調べることができる。多形塩基の同一性を、ハイブリッド形成情報から決定することができる。本方法を使用して、個体集団のゲノム中の転写調節エレメントの多型に存在する塩基を決定することもできる。

さらに、本発明は、個体のゲノム中の複数の転写調節エレメントの転写活性を決定する方法を提供する。本方法は、個体由来の核酸サンプルを提供する工程、ゲノム中の複数の転写調節エレメントの所定の領域を増幅して複数の核酸フラグメントを産生する工程、各核酸フラグメントをレポーター構築物に挿入して、レポーター構築物のライブラリーを生成する工程、レポーター構築物のライブラリーを細胞中で発現する工程、および細胞中に発現したレポーターのレベルと相関させることによって細胞中の転写調節エレメントの転写活性を決定する工程を含む。本方法は、さらに、転写調節エレメントの転写活性と基準サンプルから得た同一の転写調節エレメントのプロフィールとを比較する工程を含み得る。複数の転写調節エレメントの例には、配列番号１〜４５０９６からなる群から選択される少なくとも約２、任意選択的に少なくとも５、１０、２０、５０、１００、２００、５００、１０００、５０００、１００００、または２５０００個のヌクレオチドまたはそのフラグメントが含まれるが、これらに限定されない。

本方法を、調節エレメントの異常な転写活性に関連する疾患または病態（β−サラセミア、心血管疾患、アルツハイマー病、統合失調症、双極性障害、緑内障、癲癇、多発性硬化症、および狼瘡など）の診断に使用することができる。治療を受ける個体中の特定の調節エレメント（プロモーターまたはプロモーターのパネルなど）の転写活性を、同一の個体または別の個体由来の基準サンプル中のプロモーターのパネルの転写活性と比較することができる。転写活性の相違は、治療を受ける個体が異常な転写活性に関連する疾患を有することを示し得る。

本方法を、調節エレメントの異常な転写活性に関連する疾患または病態（β−サラセミア、心血管疾患、アルツハイマー病、統合失調症、双極性障害、緑内障、癲癇、多発性硬化症、および狼瘡）の治療に使用することもできる。治療を受ける患者中の特定の調節エレメント（プロモーターまたはプロモーターのパネルなど）の転写活性を、同一の個体または別の個体由来の基準サンプル中のプロモーターのパネルの転写活性と比較し、患者を調節エレメントの転写活性を調節する治療薬で治療することができる。

別の態様では、本発明は、単離核酸分子のライブラリーであって、ライブラリーの各メンバーは、ゲノム由来の異なる所定の核酸セグメントを含み、セグメントが転写調節配列を含み、ここで、（ａ）ライブラリーの多様度が少なくとも５０の異なる核酸セグメントであり、（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、（ｃ）ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、単離核酸分子のライブラリーを提供する。１つの実施形態では、ライブラリー中の複数の単離核酸分子は、配列番号１〜４５０９６からなる群から選択される。

別の態様では、本発明は、発現構築物のライブラリーであって、ライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、ここで、（ａ）ライブラリーの多様度（ｄｉｖｅｒｓｉｔｙ）が少なくとも５０の異なる核酸セグメントであり、（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、（ｃ）ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、発現構築物のライブラリーを提供する。

別の態様では、本発明は、組換え核酸分子のライブラリーであって、ライブラリーの各メンバーは、異種核酸分子に連結したゲノム由来の異なる所定の核酸セグメントを含み、セグメントが転写調節配列を含み、ここで、（ａ）ライブラリーの多様度が少なくとも５０の異なる核酸セグメントであり、（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、（ｃ）ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、組換え核酸分子のライブラリーを提供する。

別の態様では、本発明は、細胞のライブラリーであって、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、ここで、（ａ）ライブラリーの多様度が少なくとも５０の異なる核酸セグメントであり、（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、（ｃ）ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、細胞のライブラリーを提供する。

別の態様では、本発明は、細胞内に発現構築物のライブラリーを含む細胞のコレクションであって、発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異なる異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写調節下にある、細胞のコレクションを提供する。

別の態様では、本発明は、複数のウェルを含む少なくとも１つのプレートを含むデバイスであって、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、デバイスを提供する。

別の態様では、本発明は、標的遺伝子発現調節エレメントの生物機能を特徴づけるためのキットであって、（ａ）複数のウェルを含む少なくとも１つのプレートを含むデバイスであって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、各メンバーがウェル中の既知の位置を有する、デバイス、および（ｂ）レポーターアッセイ基質を含む、キットを提供する。１つの実施形態では、キットは、標的遺伝子発現調節エレメントの生物機能を特徴づけるための説明書をさらに含む。

別の態様では、本発明は、表面および表面にそれぞれ異なる既知の位置に固定された核酸分子を含む固体基板を含むデバイスであって、各分子が転写調節配列を含むゲノムセグメント由来の少なくとも１０ヌクレオチドのヌクレオチド配列を含み、デバイスが少なくとも５０の異なるゲノムセグメント由来の転写調節配列を含む、デバイスを提供する。

別の態様では、本発明は、（ａ）本発明のデバイスおよび（ｂ）デバイスの各ウェル中で配列決定された発現レポーター由来のシグナルを検出するように適合された読み取り装置を含むシステムを提供する。

１つの実施形態では、デバイスは、（ｃ）（ｉ）コントロール構築物由来のシグナルに基づいてプレートの全ウェル由来のシグナルを規準化するアルゴリズムを実行するコードを含むソフトウェアをさらに含む。別の態様では、本発明は、上記アルゴリズムを実行するコードを含むソフトウェアを提供する。

別の態様では、本発明は、（ａ）複数のウェルを含む少なくとも１つのプレートを含むデバイスを提供する工程であって、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、提供する工程、（ｂ）細胞を培養する工程、および（ｃ）各ウェル中のレポーター配列の発現レベルを測定する工程を含む方法を提供する。

１つの実施形態では、デバイスを提供する工程は、（ｉ）複数のウェルを含む少なくとも１つのプレートを含むデバイスを提供する工程であって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、発現構築物のライブラリーの各メンバーがウェル中の既知の位置を有する、提供する工程、（ｉｉ）各ウェルに細胞を送達させる工程、（ｉｉｉ）発現構築物で細胞をトランスフェクションする工程を含む。別の実施形態では、方法は、（ｄ）各ウェル中で細胞を撹乱する工程、（ｅ）各ウェル中のレポーター配列の発現レベルを測定する工程、および（ｆ）任意のウェル中の発現レベルが細胞の試験化合物との接触後に変化したかどうかを決定する工程をさらに含む。本方法の別の実施形態では、撹乱する工程が、各ウェル中の細胞を試験化合物と接触させる工程、細胞を異なる環境条件に曝露する工程、変異の誘導などによって持続的または一過性に細胞を遺伝子改変する工程、例えばｃＤＮＡでのトランスフェクションによって転写産物を過剰発現させる工程またはｓｉＲＮＡによって転写産物の発現を減少させる工程を含む。

別の態様では、本発明は、（ａ）第１のデバイスおよび第２のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも１つのプレートを含み、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有し、第１のデバイスおよび第２のデバイスが同じタイプの細胞を含み、発現構築物のライブラリーが第１のデバイスおよび第２のデバイスで同一である、提供する工程、（ｂ）第１のデバイスおよび第２のデバイスの細胞を異なる培養条件下で培養する工程、（ｃ）各ウェル中のレポーター配列の発現レベルを測定する工程、および（ｄ）レポーター配列の発現レベルを第１の細胞型と第２の細胞型との間の各転写調節配列と比較する工程を含む方法を提供する。

別の態様では、本発明は、（ａ）第１のデバイスおよび第２のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも１つのプレートを含み、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果レポーター配列の発現が転写調節配列の転写制御下にあり、細胞のライブラリーの各メンバーがウェル中の既知の位置を有し、第１のデバイスが第１の型の細胞を含み、第２のデバイスが第２の型の細胞を含み、発現構築物のライブラリーが第１のデバイスおよび第２のデバイスで同一である、提供する工程、（ｂ）第１のデバイスおよび第２のデバイスの細胞を培養する工程、（ｃ）各ウェル中のレポーター配列の発現レベルを測定する工程、および（ｄ）レポーター配列の発現レベルを第１の細胞型と第２の細胞型との間の各転写調節配列と比較する工程を含む方法を提供する。

別の態様では、本発明は、請求項４６に記載の方法によって測定された構築物由来の発現レベルを評価する方法であって、（ａ）コントロールレポーター構築物セットを含む細胞セットを提供する工程であって、各コントロールレポーター構築物が異種レポーター配列に作動可能に連結されたランダムゲノムフラグメントを含む、提供する工程、（ｂ）各細胞中のレポーター配列の発現レベルを測定する工程、（ｃ）コントロール構築物間の発現レベルの平均値（ｍｅａｎ）または平均（ａｖｅｒａｇｅ）を決定する工程、（ｄ）各試験構築物の発現レベルについて、平均値または平均からの統計的距離を決定する工程、および（ｅ）偏差が統計的に有意であるかどうかを決定する工程を含む方法を提供する。１つの実施形態では、偏差は標準偏差である。別の実施形態では、ランダムゲノムフラグメントが、実験フラグメントと同一サイズの分布のゲノムから選択されるランダムフラグメントである。別の実施形態では、ランダムゲノムフラグメントは、タンパク質コード遺伝子の中間エキソン（ｍｉｄｄｌｅｅｘｏｎ）由来のランダムフラグメントであり、中間エキソンがタンパク質をコードし、その長さが少なくとも実験フラグメントのサイズであり、且つゲノム中の公知の転写開始部位から少なくとも５，０００塩基または１０，０００塩基である。別の実施形態では、活性および有意性を、以下の式：Ｚスコアプロモーター活性＝（未加工のプロモーター活性−ランダムコントロールの平均値）／ランダムコントロールの標準偏差によってＺスコアとして計算する。別の態様では、本発明は、方法の平均値および偏差を決定するアルゴリズムを実行するコードを含むソフトウェアを提供する。

別の態様では、本発明は、Ｚスコア変換プロモーター活性データを、ＤＮＡメチル化実験由来のＺスコア変換機能データ、転写因子結合データ、ヒストン修飾データ、ＤＮアーゼ高感受性データ、ヌクレオソーム置換データまたは遺伝子発現データと統合する分析ソフトウェアを提供する。

別の態様では、本発明は、核酸配列中のメチル化パターンを決定する方法であって、（ａ）以下によって第１の標識核酸セグメントセットを作製する工程：（ｉ）供給源由来の配列を含む核酸分子を得ること、および（ｉｉ）単離核酸分子を第１の標識で標識し、標識により、第１の標識核酸セグメントセットが作製されること、（ｂ）以下によって第２の標識核酸セグメントを作製する工程：（ｉ）供給源由来のヌクレオチド配列を有する核酸分子を得ること、（ｉｉ）核酸分子を、異なる認識配列を有する少なくとも３つのメチル感受性制限酵素と接触させ、酵素が非メチル化認識配列の核酸分子を切断するが、メチル化認識部位では切断されず、それにより、核酸フラグメントが得られること、（ｉｉｉ）混合物から少なくとも１００ヌクレオチドの核酸フラグメントを単離すること、および（ｉｖ）フラグメントを第２の異なる標識で標識し、標識により、第２の核酸フラグメントセットが作製されること、（ｃ）第１の標識セグメントおよび第２の標識セグメントを、ヌクレオチド配列を含む１つまたは複数の核酸プローブとハイブリッド形成する工程、および（ｄ）第１の標識セグメントおよび第２の標識セグメントによって識別的に標識されたヌクレオチド配列の領域を決定する工程であって、識別的に標識された領域がヌクレオチド配列の非メチル化領域である、決定する工程を含む方法を提供する。１つの実施形態では、核酸分子は転写調節配列を含む。別の実施形態では、方法は、核酸分子を少なくとも６つの異なるメチル感受性酵素と接触させる工程を含む。別の実施形態では、第１の標識が第１の色を呈し、前記第２の標識が第２の異なる色を呈する。別の実施形態では、方法は、セグメントを、メチル感受性制限酵素認識配列に基づいて消化されると予想される核酸分子のヌクレオチド配列をタイル状に配置する（ｔｉｌｅ）複数のプローブとハイブリッド形成する工程を含む。別の実施形態では、方法は、第２の供給源由来の核酸を使用して方法を２回行う工程をさらに含み、第１の供給源および第２の供給源が健康な組織および罹患組織または２つの異なる罹患組織型である。

別の態様では、本発明は、本明細書中に記載の任意の組成物、デバイスまたは方法を商業化する工程を含むビジネス方法を提供する。

（参照による援用）
本明細書中に言及した全ての刊行物および特許出願を、各刊行物または特許出願が具体的且つ個別に参考として援用されることを示すのと同一の範囲で本明細書中で参考として援用される。

（発明の詳細な説明）
１．定義
本明細書中で使用される場合、用語「核酸」は、デオキシリボ核酸（ＤＮＡ）およびリボ核酸（ＲＮＡ）などの一本鎖および／または二本鎖ポリヌクレオチドならびにＲＮＡまたはＤＮＡのアナログまたは誘導体をいう。ペプチド核酸（ＰＮＡ）、ホスホロチオアートＤＮＡなどの核酸のアナログ、ならびに他のかかるアナログおよび誘導体またはこれらの組み合わせも、用語「核酸」に含まれる。したがって、この用語はまた、ヌクレオチドアナログから作製されたＲＮＡまたはＤＮＡのいずれかの等価物、誘導体、変異形、およびアナログ、一本鎖（センスまたはアンチセンス）および二本鎖ポリヌクレオチド（二本鎖ＲＮＡが含まれる）を含むと理解すべきである。デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンが含まれる。ＲＮＡについて、ウラシル塩基はウリジンである。

本明細書中で使用される場合、用語「ポリヌクレオチド」は、少なくとも２つの連結したヌクレオチドまたはヌクレオチド誘導体（デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、およびＤＮＡまたはＲＮＡの誘導体が含まれる）（例えば、核酸アナログまたはホスホジエステル結合以外の「骨格」結合（例えば、ホスホトリエステル結合、ホスホルアミダート結合、ホスホロチオアート結合、チオエステル結合またはペプチド結合（ペプチド核酸））を含む）を含むオリゴマーまたはポリマーをいう。また、用語「オリゴヌクレオチド」を、本明細書中で、「ポリヌクレオチド」と本質的に同義で使用するが、当業者は、オリゴヌクレオチド（例えば、ＰＣＲプライマー）が一般に約５０ヌクレオチド長〜１００ヌクレオチド長未満であることを認識している。

ポリヌクレオチド中に含まれるヌクレオチドアナログは、例えば、ポリヌクレオチドの質量を区別することができる質量改変ヌクレオチド、ポリヌクレオチドを検出することが可能な蛍光標識、放射性標識、発光標識、化学発光標識などの検出可能な標識を含むヌクレオチドまたは固体支持体へのポリヌクレオチドの固定を容易にするビオチン基もしくはチオール基などの反応基を含むヌクレオチドであり得る。ポリヌクレオチドはまた、例えば、選択的に（例えば、化学的、酵素的または光分解的に）切断することができる１つまたは複数の骨格結合を含み得る。例えば、ポリヌクレオチドは、１つまたは複数のデオキシリボヌクレオチドを含むことができ、その後に１つまたは複数のリボヌクレオチドが続き、１つまたは複数のデオキシリボヌクレオチドが続き得る。かかる配列は、塩基の加水分解によってリボヌクレオチド配列で切断することができる。ポリヌクレオチドはまた、相対的に切断耐性を示す１つまたは複数の結合を含むことができる（例えば、ペプチド核酸結合によって連結したヌクレオチドおよび３’末端にはホスホジエステル結合または他の適切な結合によって連結し、ポリメラーゼによって伸長することができる少なくとも１つのヌクレオチドを含み得るキメラオリゴヌクレオチドプライマー）。ペプチド買う酸配列を、周知の方法を使用して調製することができる（例えば、ＷｅｉｌｅｒらＮｕｃｌｅｉｃａｃｉｄｓＲｅｓ．２５：２７９２−２７９９（１９９７）を参照のこと）。

本明細書中で使用される場合、「指定のストリンジェンシー条件下でハイブリッド形成する」を、２つの一本鎖ＤＮＡフラグメント間で形成されたハイブリッドの安定性を説明するために使用する。この条件は、洗浄工程のストリンジェンシーよりも低いか同等のストリンジェンシー条件下でのアニーリング後にかかるハイブリッドを洗浄する際のイオン強度および温度の条件をいう。典型的には、高、中、低ストリンジェンシーは、以下の条件または以下の条件に等価な条件を含む。

１）高ストリンジェンシー：０．１×ＳＳＰＥまたはＳＳＣ、０．１％ＳＤＳ、６５℃；
２）中ストリンジェンシー：０．２×ＳＳＰＥまたはＳＳＣ、０．１％ＳＤＳ、５０℃；
３）低ストリンジェンシー：１．０×ＳＳＰＥまたはＳＳＣ、０．１％ＳＤＳ、５０℃。

等価な条件は、得られたハイブリッド中のミスマッチの比率が実質的に同一であるように選択した条件をいう。成分（ホルムアミド、Ｆｉｃｏｌｌ、およびＤｅｎｈａｒｄｔ液など）の添加は、ハイブリッド形成を行うべき温度および反応速度などのパラメータに影響を及ぼす。したがって、５×ＳＳＣ、２０％ホルムアミド、４２℃でのハイブリッド形成は、上記で引用した低ストリンジェンシー条件下でのハイブリッド形成と実質的に同一の条件である。ＳＳＰＥ、ＳＳＣ、およびＤｅｎｈａｒｄｔ液についてのレシピならびに脱イオンホルムアミドの調製は、例えば、Ｓａｍｂｒｏｏｋら（１９８９）ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，Ｃｈａｐｔｅｒ８に記載されている。Ｓａｍｂｒｏｏｋら，ｖｏｌ．３，ｐ．Ｂ．１３を参照のこと。一般的に使用されている実験方法を説明している多数のカタログも参照のこと。等価なストリンジェンシーを別の緩衝液、塩、および温度を使用して行うことができると理解される。

用語「実質的に」同一または相同または類似は、関連分野の当業者によって理解される文脈によって変化し、一般に、少なくとも７０％を意味し、好ましくは少なくとも８０％、より好ましくは少なくとも９０％、最も好ましくは少なくとも９５％同一を意味する。

用語「フラグメント」、「セグメント」、または「ＤＮＡセグメント」は、より大きなＤＮＡポリヌクレオチドまたはＤＮＡの一部をいう。例えば、ポリヌクレオチドを、複数のセグメントに分割または断片化することができる。核酸の種々の断片化方法が当該分野で周知である。これらの方法は、例えば、事実上化学的または物理的のいずれかであり得る。化学的断片化には、ＤＮアーゼでの部分的分解、酸での部分的脱プリン、制限酵素の使用、イントロンコードエンドヌクレアーゼ、切断剤を核酸分子中の特定の位置に局在化するための核酸セグメントの特異的ハイブリッド形成に依存するＤＮＡベースの切断方法（三重鎖およびハイブリッドの形成方法など）、または既知または未知の位置でＤＮＡを切断する他の酵素もしくは化合物が含まれ得る。物理的断片化方法は、ＤＮＡを高剪断速度に供する工程を含み得る。例えば、穴またはスパイクでのチャンバーまたはチャネルを介してＤＮＡを移動させるか、制限されたサイズの流路（例えば、ミクロンまたはサブミクロンの断面寸法を有する開口部）にＤＮＡサンプルを押し進めることによって高剪断速度を得ることができる。他の物理的方法には、超音波処理および噴霧が含まれる。物理的断片化方法と化学的断片化方法との組み合わせ（熱およびイオン媒介加水分解による断片化など）を、同様に使用することができる。例えば、Ｓａｍｂｒｏｏｋら，”ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，” ３ｒｄＥｄ．ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．（２００１）（”Ｓａｍｂｒｏｏｋら”）（全ての目的のためにその全体が本明細書中で参考として援用される）を参照のこと。これらの方法を、核酸が選択されたサイズ範囲のフラグメントに消化されるように至適化することができる。有用なサイズ範囲は、１００、２００、４００、７００、または１０００塩基対から５００、８００、１５００、２０００、４０００または１０，０００塩基対までであり得る。しかし、４０００、１０，０００または２０，０００塩基対から１０，０００、２０，０００、または５００，０００塩基対までのより大きなサイズ範囲も有用であり得る。

ライゲーション方法は、当業者に公知であり、例えば、ＳａｍｂｒｏｏｋらおよびｔｈｅＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓｃａｔａｌｏｇ（その両方が全ての目的のためにその全体が本明細書中で参考として援用される）に記載されている。本方法は、Ｔ４ＤＮＡリガーゼ（平滑末端または粘着末端を有する二重鎖ＤＮＡまたはＲＮＡ中の並列した５’リン酸末端と３’ヒドロキシル末端との間のホスホジエステル結合の形成を触媒する）、ＴａｑＤＮＡリガーゼ（相補標的ＤＮＡにハイブリッド形成する２つの隣接オリゴヌクレオチドの並列した５’リン酸末端と３’ヒドロキシル末端との間のホスホジエステル結合の形成を触媒する）、大腸菌ＤＮＡリガーゼ（付着末端を含む二重鎖ＤＮＡ中の並列した５’リン酸末端と３’ヒドロキシル末端との間のホスホジエステルの形成を触媒する）、およびＴ４ＲＮＡリガーゼ（３’→５’ホスホジエステル結合の形成によって３’ヒドロキシル末端化核酸アクセプターへの５’ホスホリル末端化核酸ドナーのライゲーションを触媒する）、基質（一本鎖ＲＮＡおよびＤＮＡならびにジヌクレオシドピロホスフェートが含まれる）、または当該分野に記載の任意の他の方法の使用を含み得る。

「ゲノム」は、生物のＤＮＡにコードされた生物の完全な単一コピーの一連の遺伝子説明書を指定するか示す。ゲノムは、多染色体性であり得、その結果、ＤＮＡが複数の核染色体間に分布する。例えば、ヒトでは、２２対の染色体および性関連ＸＸ対またはＸＹ対が存在する。

「多型」は、集団中の２つまたはそれを超える遺伝的に決定された別の配列または対立遺伝子の発生をいう。多型マーカーまたは多型部位は、相違が生じる遺伝子座である。好ましいマーカーは、少なくとも２つの対立遺伝子を有し、それぞれ、選択された集団の、好ましくは１％超、より好ましくは１０％または２０％の頻度で起こる。多型は、１つまたは複数の塩基の変化、挿入、反復、または欠失を含み得る。多型遺伝子座は、１塩基対ほどの小ささであり得る。多型マーカーには、制限フラグメント長多型、タンデム反復数（ＶＮＴＲ）、超可変領域、ミニサテライト、ジヌクレオチド反復、トリヌクレオチド反復、テトラヌクレオチド反復、単純配列反復、およびＡｌｕなどの挿入エレメントが含まれる。最初に同定された対立遺伝子形態を基準形態として任意に指定し、他の対立遺伝子形態を別の対立遺伝子または変異対立遺伝子として指定する。選択された集団中で最も頻繁に生じる対立遺伝子形態を、時折、野生型形態という。二倍体生物は、対立遺伝子形態についてホモ接合性またはヘテロ接合性であり得る。二対立遺伝子多型は、２つの形態を有する。三対立遺伝子多型は、３つの形態を有する。２核酸間の多型は、天然に生じ得るか、化学物質、酵素、もしくは他の作用因子への曝露もしくは接触または核酸を損傷する作用因子（例えば、紫外線照射、変異誘発物質、または発現物質）への曝露によって生じ得る。

一塩基多型（ＳＮＰ）は、ヒト集団で２つの別の塩基が生じる位置であり、最も一般的なヒト遺伝子変異形である。この部位は、通常、高度に保存された対立遺伝子配列に前後して存在する（例えば、集団の１／１００または１／１０００未満のメンバーで異なる配列）。ヒトゲノム中で３×１０^６個ものＳＮＰが存在すると見積もられている。少なくとも１０％の比率で生じる変動を、共通ＳＮＰ（ｃｏｍｍｏｎＳＮＰ）という。

一塩基多型は、通常、多型部位でのあるヌクレオチドの別のヌクレオチドへの置換によって生じる。トランジションは、あるプリンの別のプリンの置換またはあるピリミジンの別のピリミジンへの置換である。トランジションは、プリンのピリミジンへの置換またはその逆である。一塩基多型は、基準対立遺伝子のヌクレオチドの欠失またはヌクレオチドの挿入からも生じ得る。

用語「遺伝子型同定」は、個体がゲノム中の１つまたは複数の位置に保有する遺伝情報の決定をいう。例えば、遺伝子型同定は、個体が単一の多型を保有する遺伝子座の決定または個体が複数の多型を有する遺伝子座の決定を含み得る。

本明細書中で使用される場合、「プロファイリング」は、サンプル中の複数の成分（一般に、３つ以上（４、５、６、７、８、１０、５０、１００、５００、１０００、１０^４、１０^５、１０^６、１０^７、またはそれを超えるなど））の検出および／または同定をいう。プロフィールは、サンプルの成分が検出可能に結合するか配置された遺伝子座の同定を含み得る。プロフィールを、例えば、マルチウェルプレート中で検出することができるか、固体表面上のパターンとして検出することができ、この場合、プロフィールを視像として示すことができる。プロフィールは、リストもしくはデータベースまたは他のかかる要約の形態であり得る。

本明細書中で使用される場合、「イメージ」は、プロフィールを代表するデータポイントのコレクションをいう。イメージは、かかるデータの視覚的描写、図、表、行列または他の描写であり得る。イメージを、データベースに保存することができる。

本明細書中で使用される場合、「データベース」は、データ項目のコレクションをいう。

本明細書中で使用される場合、転写調節エレメント（予め決定した配列を含む）のライブラリー、転写調節エレメントをコードする発現ベクター、および転写調節エレメントをコードする発現ベクターを含む細胞などの目的の成分のアドレス可能なコレクション中で、コレクションの各メンバーを標識し、そして／または成分の各メンバーを同定可能なように配置する。アドレス可能なコレクションは、典型的には、各遺伝子座が単一で独特の成分を含み、検出可能であるアレイまたは他のコードされたコレクション（独特の核酸タグで生体バーコード化された（ｂｉｏ−ｂａｒｃｏｄｅｄ）コレクションなど）である。他の個別の識別子（化学的タグ、電子タグ、着色したタグ、蛍光タグまたは他のタグなど）が含まれる場合、コレクションは液相であり得る。

本明細書中で使用される場合、「アドレス」は、アドレスされた実体を識別することができる独特の識別子をいう。アドレスされた部分は、そのアドレスによって同定することができる部分である。表面上の位置または他の識別子（バーコードまたは他のシンボルでコード化したタグ、化学タグ、電子タグ（ＲＦタグなど）、有色コード化タグまたは他のかかる識別子など）によってアドレスすることができる。

本明細書中で使用される場合、「核酸バーコード」は、転写調節エレメントのコレクション、転写調節エレメントをコードする発現ベクター、および転写調節エレメントをコードする発現ベクターを含む細胞中の各メンバーを独特に同定するために使用することができる特定のアドレス型、より詳細には、予め指定された所定の独特ヌクレオチド配列タグをいう。かかる核酸バーコードは、３〜２００、５〜２００、８〜１００または１０〜５０ヌクレオチド長であり得、個別且つ目的に合わせることができるハイブリッド形成および融解特性を示し得る。バーコードは、バーコードがタグ化する分子に対して異種である。

「アレイ」は、要素を配置することができる複数の異なる既知の位置を含む支持体（好ましくは、固体）を含む。アレイには、例えば、アドレス可能なウェルを有するマルチタイタープレートおよびアドレス可能な位置に結合した分子を含むチップが含まれる。アレイのメンバーを、同定可能か検出可能な標識（色素、蛍光、電気信号（すなわち、ＲＦ、マイクロ波、または目的の分子の相互作用を実質的に変化させない他の周波数）、バーコード（独特の核酸タグを有する生体バーコードなど）、または他のシンボル、化学タグ、もしくは他のかかる標識など）によって同定することができる。例えば、アレイのメンバーを、マルチウェルプレート（９６、３８４、または１５３６個の位置を有するマイクロタイタープレートなど）のウェルまたはバイアルなどの容器中に配置するか、固相表面上の個別の同定可能な位置に固定するか、検出可能な標識に直接または間接的に結合または会合し（ミクロスフェアまたは他の粒子状支持体（本明細書中で、ビーズという）に固定するなど）、溶液中に懸濁するか表面上に展開することができる。当業者によって使用されるマイクロアレイは、一般に、位置をアドレス可能なアレイ（アレイの位置が密集している固体支持体上のアレイなど）である。「マイクロアレイ」または口語的に「チップ」とも記載されるハイブリッド形成アレイの例は、当該分野で一般的に記載されている（例えば、米国特許第５，１４３，８５４号、同第５，４４５，９３４号、同第５，７４４，３０５号、同第５，６７７，１９５号、同第５，８００，９９２号、同第６，０４０，１９３号、同第５，４２４，１８６号、およびＦｏｄｏｒら，Ｓｃｉｅｎｃｅ，２５１：７６７−７７７（１９９１））。

アレイを、一般に、種々の技術（機械的合成方法またはフォトリソグラフィ法と固相合成法との組み合わせを組み込んだ光による合成方法（ｌｉｇｈｔｄｉｒｅｃｔｅｄｓｙｎｔｈｅｓｉｓ）など）を使用して生成することができる。機械的合成方法を使用したこれらのアレイの合成技術は、例えば、米国特許第５，３８４，２６１および同第６，０４０，１９３号（全ての目的のためにその全体が本明細書中で参考として援用される）に記載されている。平面アレイ表面が好ましいが、アレイを実質的に任意の形状の表面上または複数の表面上に加工することができる。アレイは、ビーズ、ゲル、高分子表面、繊維（光ファイバーなど）、ガラス、または任意の他の適切な基板上の核酸であり得る（米国特許第５，７７０，３５８号、同第５，７８９，１６２号、同第５，７０８，１５３号、同第６，０４０，１９３号、および同第５，８００，９９２号を参照のこと）。

本明細書中で使用される場合、「支持体」（マトリックス支持体、マトリックス、不溶性支持体、または固体支持体ともいう）は、要素（例えば、目的分子、典型的には生体分子、有機分子、または二重特異性リガンド）を結合または接触することができる任意の固体または半固体または不溶性の支持体をいう。かかる物質には、化学的および生物学的な分子の合成および分析のための親和性マトリックスまたは支持体として使用される任意の物質（ポリスチレン、ポリカーボネート、ポリプロピレン、ナイロン、ガラス、デキストラン、キチン、砂、軽石、アガロース、ポリサッカリド、デンドリマー、バッキーボール、ポリアクリルアミド、ケイ素、ゴム、および固相合成、親和性分離および精製、ハイブリッド形成反応、免疫アッセイ、および他のかかる適用のための支持体として使用される他の材料が含まれるが、これらに制限されない）が含まれる。

本明細書中で使用される場合、「マトリックスまたは支持体粒子」は、個別の粒子の形態のマトリックス物質をいう。粒子は、任意の形状および寸法であるが、典型的には、少なくとも１つの寸法が１００μｍ以下、５０μｍ以下であり、典型的には、１００ｍｍ^３以下、５０ｍｍ^３以下、１０ｍｍ^３以下、および１ｍｍ^３以下、１００μｍ^３以下のサイズであり、立法ミクロンのオーダーであり得る。かかる粒子を、集合的に、「ビーズ」と呼ぶ。粒子は、しばしば、球状であるが、必ずしもそうではない。しかし、かかる基準は、マトリックスの幾何学的性質を制限せず、任意の形状（ランダムな形状、針状、繊維状、および細長い形状が含まれる）であり得る。およそ球状の「ビーズ」、特に、液相で使用することができるミクロスフェアも意図する。「ビーズ」は、さらなる成分が本方法および分析を妨害しない限り、磁石を使用した分離のための磁性粒子または常磁性粒子（例えば、Ｄｙｎａビーズ（Ｄｙｎａｌ，Ｏｓｌｏ，Ｎｏｒｗａｙ）を参照のこと）などのさらなる成分を含み得る。

本明細書中で使用される場合、「ライブラリー」は、要素のコレクションである。一定の実施形態では、ライブラリーは、「アドレス可能」である（すなわち、ライブラリーのメンバーが識別タグを含むか、異なる個別の既知の位置に物理的に存在する（マルチウェルプレートの異なるウェルまたは異なる容器内に含まれるなど））。

本明細書中で使用される場合、「アレイライブラリー」は、混合ライブラリーの多数の個別のコレクションへの物理的分離によって得られるアドレス可能なエレメントまたは成分のコレクションをいう。

本明細書中で使用される場合、「生体サンプル」は、生きている供給源またはウイルス供給源から得た任意のサンプルをいい、核酸、タンパク質、または他の高分子を得ることができる被験体の任意の細胞型または組織が含まれる。生体サンプルには、細胞溶解物、細胞、体液（血液、血漿、血清、脳脊髄液、滑液、尿、および汗など）、動物および植物（ヒト、非ヒト哺乳動物（サル、イヌ、ブタ、ウマ、ネコ、ウサギ、ラット、およびマウスなど）、および他の脊椎動物（鳥類および魚類など）など）由来の組織および器官サンプルが含まれるが、これらに限定されない。固体および水のサンプル、ならびに他の環境サンプル、ウイルス、細菌、真菌、藻類、原生動物、およびこれらの成分も含まれる。本明細書中に記載の方法を、生体サンプルを使用して実施することができ、いくつかの実施形態では、プロファイリングなどのための任意のサンプルの試験のために使用することもできる。

本明細書中で使用される場合、「レポーター遺伝子構築物」は、転写制御配列に作動可能に連結されたレポーターをコードする核酸を含む核酸分子である。レポーター遺伝子の転写は、これらの配列によって制御される。少なくとも１つまたは複数のこれらの制御配列の活性は、転写因子および他のタンパク質または生体分子によって直接または間接的に調節される。転写制御配列には、プロモーターおよびプロモーターの活性を調整する他の調節領域（エンハンサー配列など）またはプロモーターを認識するＲＮＡポリメラーゼの活性または効率を調整する制御配列が含まれるか、制御配列はエフェクター分子によって認識される。かかる配列を、本明細書中で、集合的に、転写調節エレメントまたは配列という。

本明細書中で使用される場合、「レポーター」または「レポーター部分」は、目的の分子（細胞によって発現されるタンパク質または生体粒子など）の検出が可能な任意の部分をいう。典型的なレポーター部分には、例えば、ルシフェラーゼなどの発光タンパク質、蛍光タンパク質（赤色、青色、および緑色蛍光タンパク質など）（例えば、ウミシイタケ属および他の種由来のＧＦＰを提供した米国特許第６，２３２，１０７号を参照のこと）、大腸菌由来のｌａｃＺ遺伝子、アルカリホスファターゼ、分泌性胚アルカリホスファターゼ（ＳＥＡＰ）、クロラムフェニコールアセチルトランスフェラーゼ（ＣＡＴ）、ホルモンおよびサイトカイン、ならびに他のかかる周知の遺伝子が含まれる。細胞中での発現のために、レポーター部分をコードする核酸を、目的のタンパク質との融合タンパク質としてか、目的のプロモーターの制御下で発現することができる。これらのレポーター遺伝子の発現を、これらの遺伝子から転写されたｍＲＮＡレベルの測定によってモニタリングすることもできる。

本明細書中で使用される場合、句「作動可能に連結された」は、一般に、配列またはセグメントが一本鎖形態または二本鎖形態のＤＮＡの一片と共有結合し、それにより、あるセグメント上の制御配列または調節配列が発現または複製を制御または許容するか、別のセグメントが他のかかる制御を行うことを意味する。２つのセグメントは、必ずしも連続していない。これは、構成要素がその意図する様式で機能することができる関係にあるように２つまたはそれを超える構成要素の間の並列を意味する。したがって、レポーターまたは他のポリヌクレオチドに作動可能に連結された調節領域または調節領域に作動可能に連結されたレポーターもしくは任意のポリヌクレオチドの場合、ポリヌクレオチド／レポーターの発現は、調節領域の影響を受けるか制御される（例えば、調整されるか変化する（増加または減少など））。遺伝子発現について、適切な分子シグナル（転写アクチベータータンパク質など）が調節配列に結合した場合に遺伝子発現を制御するか許容するような様式で、ヌクレオチド配列および調節配列を連結する。ヌクレオチドの調節配列およびエフェクター配列（プロモーター、エンハンサー、転写および翻訳終結部位、ならびに他のシグナル配列など）への異種核酸（ＤＮＡなど）の作動可能な連結は、かかるＤＮＡとかかるヌクレオチド配列との間の関係をいう。例えば、プロモーターへの異種ＤＮＡの作動可能な連結は、かかるＤＮＡの転写が読み枠中のＤＮＡを特異的に認識し、これに結合し、転写するＲＮＡポリメラーゼによってプロモーターから開始されるようなＤＮＡとプロモーターとの間の物理的関係をいう。

本明細書中で使用される場合、「調節分子」は、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）のポリマー、オリゴヌクレオチド模倣物、ポリペプチドまたは遺伝子発現を増強または阻害することができる他の分子をいう。

本明細書中で使用される場合、用語「調節領域」は、作動可能に連結された遺伝子の発現に正または負の影響を及ぼすヌクレオチド配列を意味する。調節領域には、遺伝子の誘導性（すなわち、転写を増加させるための物質または刺激が必要である）発現を付与するヌクレオチド配列が含まれる。インデューサーが存在するかその濃度が増加する場合、遺伝子発現が増加する。調節領域には、遺伝子発現の抑制を付与する配列（すなわち、物質または刺激が転写を減少させる）も含まれる。リプレッサーが存在するかその濃度が増加する場合、遺伝子発現が減少する。調節領域は、多数のｉｎｖｉｖｏ生物活性（細胞増殖、細胞の増殖および死滅、細胞分化、および免疫調整が含まれる）に影響を及ぼすか、調整するか、制御することが公知である。調節領域は、典型的には、１つまたは複数のトランス作用性タンパク質に結合し、それにより、遺伝子の転写を増加または減少させる。一定の実施形態では、調節領域はシス作用性である。

遺伝子調節領域の特定の例は、プロモーターおよびエンハンサーである。プロモーターは、転写活性部位の周囲に存在する、典型的には、転写開始部位の５’側に存在する配列である。エンハンサーは、遺伝子の５’側または３’側に存在するか、エキソンまたはイントロン中またはその一部に存在する場合、遺伝子発現に影響を及ぼすことが公知である。エンハンサーはまた、遺伝子から有意な距離（例えば、約３Ｋｂ、５Ｋｂ、７Ｋｂ、１０Ｋｂ、１５Ｋｂまたはそれを超える距離）で機能することができる。

本明細書中で使用される場合、「プロモーター領域」は、この領域が作動可能に連結されたＤＮＡの転写を制御する遺伝子のＤＮＡの一部をいう。プロモーター領域は、ＲＮＡポリメラーゼの認識、結合、および転写開始に十分なＤＮＡの特定の配列を含む。プロモーター領域のこの部分を、コアプロモーターという。さらに、プロモーター領域は、ＲＮＡポリメラーゼのこの認識、結合、および転写開始活性を調整する配列を含む。これらの配列はシス作用性であり得るか、トランス作用因子に反応性を示し得る。調節特性に依存して、プロモーターは、構成性であり得るか、調節され得る。

調節領域は、プロモーター領域に加えて、翻訳、イントロンのスプライシングシグナル、ｍＲＮＡのインフレームでの翻訳を可能にするための正確な読み枠の維持を容易にするための配列、終止コドン、リーダー配列、および融合パートナー配列、多重遺伝子または多シストロン性メッセージの作製のための内部リボゾーム結合部位（ＩＲＥＳ）エレメント、目的の遺伝子の転写産物を適切にポリアデニル化するためのポリアデニル化シグナル、および終止コドンも含み、これらを任意選択的に発現ベクター中に含めることができる。

本明細書中で使用される場合、「組成物」は、任意の混合物をいう。組成物は、溶液、懸濁液、液体、粉末、ペースト、水溶液、非水溶液またはこれらの任意の組み合わせであり得る。

本明細書中で使用される場合、「組み合わせ」は、２つまたはそれを超える要素の間の任意の関連性をいう。組み合わせは、２つまたはそれを超える個別の要素（２つの組成物または２つのコレクションなど）、その混合物（２つまたはそれを超える要素の１つの混合物など）、またはこれらの任意の異形であり得る。

本明細書中で使用される場合、「キット」は、包装された組み合わせをいい、任意選択的に、その使用のための説明書および／または試薬を含む。

本明細書中で使用される場合、２つの核酸セグメントは、その配列が同一ゲノム中で見出されないか、通常は同一ゲノム中で１００００ヌクレオチド以内で連結しない場合、互いに「異種」である。

本明細書中で使用される場合、核酸分子がゲノムおよび／または細胞中の天然の環境から取り出されている場合、核酸分子は、「単離」されている。

核酸分子が混合物中の主な生体分子種である場合、核酸分子は、「純粋」である。

２．序文
本発明は、生物のゲノム、好ましくは哺乳動物ゲノム、より好ましくはヒトゲノム中の遺伝子発現調節エレメントの構造および機能のハイスループットでの特徴づけのための方法に関する。本発明の方法を、大量、好ましくはゲノムワイドスケールで調節エレメントをハイスループットで特徴づけるための使用が容易なシステムとして使用することができる。有効且つ経済的な方法での複数の実験条件でのゲノム中の調節エレメントの活性の測定を可能にするための組成物、アセンブリ、ライブラリー、アレイ、およびキットも提供する。好ましい実施形態では、同一ＤＮＡフラグメントにおける転写因子結合およびプロモーター活性を決定するためのプロモーターマイクロアレイを提供する。調節エレメントのかかる機能的ライブラリーまたはアレイは、疾患または容態の研究、診断、防止、および治療において広範に適用することができる。

１つの態様では、本発明の使用により、多様な細胞型または分化の経時変化による多数の異なる調節エレメントの活性を評価または決定して、組織特異的プロモーターおよび遍在性プロモーターを見出すことができる。調節エレメントの活性を、異なる条件下（ｓｉＲＮＡ、ｃＤＮＡ、または他の化合物もしくは薬物の添加前後など）で検出または決定して、特定の処置に応答して上方制御または下方制御するプロモーターを同定することができる。調節エレメントへの転写因子の結合の影響を、効率良く評価することもできる。これらの調節エレメントのコレクションを、ＤＮＡメチル化または他の構成的修飾の状態について機能的に関連する配列モチーフについてさらに分析することができる。

別の態様では、本発明によって提供された機能アレイは、プロモーターフラグメントの機能活性を直接測定することができる。これは、以前のアプローチでは行われなかった。さらに、スポットしたプロモーターアレイまたはオリゴベースのプロモーターアレイにより、正確に同一のプロモーターフラグメントに対して統合計算プラットフォームを使用してクロマチン免疫沈降研究およびメチル化研究を行うこともできる。プロモーター機能に関する複数の独立したデータ型の統合により、ゲノムワイドの転写調節の研究が新たに可能である。この過程および方法により、ヒトゲノムの至るところの多数のプロモーターフラグメントにおけるプロモーター活性、転写因子結合、およびＤＮＡメチル化を始めて同時に研究することができる。

理論に拘束されることを望まないが、発現マイクロアレイおよびクロマチン免疫沈降のような実験ツールによって有益な所見が得られるが、これらはＤＮＡ調節エレメント自体の機構または機能を説明していないので、機能アッセイは重要であると考えられる。プロモーター由来の機能データは、プロモーター活性の増加による転写開始率の増加により、転写を安定化する転写後機構よりもむしろマイクロアレイ実験で検出される転写レベルが高くなることを示すことができる。さらに、プロモーター機能アッセイは、目的の活性が特定のＤＮＡフラグメントにあることを突き止め、この領域中に含まれる正確な機能モチーフを発見することができる。

任意の１つの実験プラットフォームのみでは生物系を完全に説明するには不十分であるとも考えられる。核酸ハイブリッド形成に基づいたマイクロアレイによって測定した場合、遺伝子を高度に発現することができるが、理由を決定することができない。転写因子は、ゲノム中の特定の遺伝し付近に結合することができるが、結合の機能的因果関係を決定できない。一連の配列を高度に保存することができるが、天然の選択がこの配列を保存するように作用する理由は未知である。プロモーターをある細胞型でメチル化することができるが別の細胞型ではメチル化しない。しかし、この相違の機能的因果関係は、直ちに明確にされない。さらに、プロモーターは、化合物の添加の際に細胞ベースの機能アッセイで活性の増加を示すことができるが、他の一連の実験上の証拠を用いずに何故その活性が変化したかについてしか推測することができない。各実験アプローチは、その特定のアプローチに関連するその特有の偏りおよび固有の問題も有する。したがって、本発明者らは、任意のある実験に特異的な制限と無関係に、研究者が多様な技術から収集した情報を統合して生体系の全体像を得ることができる場合に限ると考える。

本発明者らは、調節エレメントネットワーク分析に対する統合されたアプローチを容易にするための革新的な方法および生成物ならびに疾患の素因、発症、および／または進行の分子遺伝学的機構の研究、疾患の診断、防止、および治療のための有効な手段の開発のための上記方法および生成物から得た情報の使用を提供する。

３．転写調節エレメントのライブラリー
本発明は、転写調節エレメントを含むゲノム核酸セグメントのライブラリーを提供する。本発明のライブラリーは、特に、ライブラリーに存在するセグメントの長さおよび転写調節エレメントが生物機能を有するｍＲＮＡ（すなわち、生物中の生物学的役割を果たすｍＲＮＡ）の転写を天然に制御する比率の高いセグメントによって特徴づけられる。１つの実施形態では、本発明のヒトゲノムセグメントを、図９Ｂに記載され、実施例により完全に記載されているアルゴリズムを使用して選択することができる。

ライブラリーのために選択された各ゲノム核酸セグメントが、公知のｃＤＮＡ分子と整列させるゲノム中の配列と天然では作動可能に連結している。ライブラリーは、ｃＤＮＡアラインメントアーティファクトに連結したセグメントを低比率で含む（例えば、３０％、２５％、２０％、１５％、１０％、５％、２％または１％未満）。これらのアーティファクトは、アラインメントアルゴリズムの不正確さまたは配列決定された元のｃＤＮＡライブラリーのゲノムＤＮＡ汚染に起因する。これらのアーティファクトは、既存のｃＤＮＡライブラリー由来の少数の独立したｃＤＮＡによって偽遺伝子および単一エキソン遺伝子として示された無イントロン（非ギャップ化）アラインメントとして同定される。より具体的には、ＧｅｎＢａｎｋのような遺伝子配列のライブラリーは、ｃＤＮＡとして報告された多数の分子を含む。これらの配列をゲノム配列に対して整列させる場合、アラインメントがランダムと見なされないように、ゲノムの一定の位置を、多数の報告されたｃＤＮＡによってマッピングする。これらの位置が生物学的に関連するｃＤＮＡを示し、上流配列が活性な転写調節配列であると高い確信をもつことができる。ゲノム中の他の位置は、報告されたｃＤＮＡによってほとんどマッピングされないか、全くマッピングされない。ｃＤＮＡ配列がスプライシングされず（すなわち、イントロンを含まない）、ゲノム中のある位置にマッピングされるｃＤＮＡ数がランダムモデル下で予想されるほどしかない場合、これらのアラインメントをアーティファクトと見なす。

本発明のライブラリーのセグメントはまた、転写調節に関与するより多数の配列を含むので、転写の調節で十分に機能する。本発明のライブラリーは、平均長が少なくとも６００ヌクレオチドのセグメントを含む。一定の実施形態では、ライブラリー中のセグメントの平均長は、７００ヌクレオチドと１２００ヌクレオチドとの間である。より詳細には、平均長は、８００ヌクレオチドと１１００ヌクレオチドとの間または９５０ヌクレオチドと１０５０ヌクレオチドとの間であり得る。さらに、ライブラリー中のセグメントは、異なる長さの範囲を有し得る。例えば、１つの実施形態では、少なくとも９０％のセグメントが、２００〜１３００ヌクレオチドまたは７００ヌクレオチドと１３００ヌクレオチドとの間の範囲の長さを有する。別の実施形態では、たった５％の核酸セグメントが、ｃＤＮＡアラインメントアーティファクトに天然に連結している。各セグメントは、転写開始部位を含む。セグメントのほとんどのゲノム配列は、転写開始部位の上流に存在する（典型的には、少なくとも５００塩基対）。セグメントは、典型的には、転写開始部位を超えた少なくとも１つのヌクレオチドを有し、大部分は、転写開始部位の約１００ヌクレオチド下流である。

本発明はまた、遺伝子発現調節エレメントのライブラリー、好ましくは、多様度が少なくとも５０、任意選択的に少なくとも８０、１２０、１６０、２００、４００、５００、６００、８００、１０００、１５００、２０００、３０００、５０００、８０００または１０，０００の転写プロモーターのライブラリーを提供する。転写プロモーターの例には、配列番号１〜４５０９６からなる群から選択される少なくとも２、任意選択的に少なくとも５、１０、２０、５０、１００、２００、５００、１０００、５０００、１００００または２５０００個のヌクレオチド、そのフラグメント（約１００〜１８００、約３００〜１５００、約５００〜１４００、約６００〜１３００、約７００〜１２００または約８００〜１０００ヌクレオチド長の配列番号１〜４５０９６のフラグメントまたはこれらに対して少なくとも７０％、７５％、８０％、８５％、９０％、９５％または９８％の相同性を有する配列を有する核酸が含まれるが、これらに限定されない。

遺伝子発現調節エレメントには、転写プロモーター、エンハンサー、インスレーター、サイレンサー、サプレッサー、およびインデューサーが含まれるが、これらに限定されない。好ましい実施形態では、調節エレメントは転写プロモーターである。各調節エレメントを、そのゲノム上の位置、配列、差異、変異、多形性、異なる細胞または組織型における転写調節活性、および転写因子などの他の調節因子に対する結合親和性に関して特徴づけることができる。遺伝子発現調節エレメントの構造および機能に関する情報を、多種多様に適用することができる（耐病性、罹病性、または薬物反応などの表現型に関する個別化様式での疾患の診断および治療（「個別化医療」としても公知）が含まれるが、これらに限定されない）。細胞特異性または組織特異性に関する調節エレメントの同定および特徴づけは、治療有効性を増大させ、副作用を減少させた遺伝子療法のためのトランスジェニック発現構築物のデザインにも役立ち得る。「疾患」には、変化させることが好ましい生物の任意の容態、形質または特徴が含まれるが、これらに限定されない。例えば、容態は、物理的、生理学的、または心理学的な容態であってよく、症候性または無症候性であってよい。

プロモーターライブラリー（または調節エレメントライブラリー）は、ｉｎｓｉｌｉｃｏ形態または物理的形態で存在し得る。ｉｎｓｉｌｉｃｏ形態は、転写プロモーター（上記の好ましいサイズ範囲を有する）および遺伝子モデルおよび関連する転写産物などの関連するゲノム情報を示すヒトゲノム由来の配列のデータベースである。プロモーターライブラリーの物理的形態は、プロモーターの複数の各核酸フラグメントのセットまたはそれぞれがレポーター遺伝子カセットの上流にクローニングしたヒトゲノム由来の独特のプロモーターフラグメントを含むプラスミドであり得る。ライブラリーは、好ましくは、ヒトゲノム中の全プロモーターの少なくとも５０％、７０％、８０％、９０％、９５％または９９％に相当する。

プロモーターライブラリーの物理的形態を、いくつかの方法で示すことができる。１つの形態は、小さな大腸菌培養物中に凍結したプラスミドの保存ライブラリーとして存在し得る。これらの凍結培養物を、無期限に保存し、液体培養で拡大して、より多くのプラスミドを産生することができる。別のライブラリー形態は、トランスフェクションのために即座に提供することができる精製プラスミドＤＮＡであり得る。遺伝子発現調節エレメントのライブラリー、好ましくは転写プロモーターのライブラリーに基づいて、広範な種々のツールまたはキット（下記のプラスミド機能マイクロアレイおよびスポットされたプロモーターマイクロアレイなど）を構築することができる。

プロモーターライブラリーは、それぞれがヒトゲノム由来の単一プロモーターを示す独特のインサートを有する共通ベクター／プラスミド骨格から作製されたプラスミドパネルを含む。プロモーターフラグメントを、レポーター遺伝子カセットの直ぐ５’側にクローニングすることができる。このライブラリーは、２つのアレイ型（プラスミド機能マイクロアレイおよびスポッとされたプロモーターアレイ）が構築される出発点であり得る。

複数の異なる核酸セグメントは、好ましくは、異なる遺伝子の転写開始位置の５’側の領域に由来するＤＮＡセグメントであり、この領域が、転写開始部位（ＴＳＳ）と比較して、約＋１００〜約−３０００ｂｐ、任意選択的に約＋５０〜約−２０００、約＋２０〜約−１８００、約＋２０〜約−１５００、約＋１０〜約−１５００、約＋１０〜約−１２００、約＋２０〜約−１０００、約＋２０〜約−９００、約＋２０〜約−８００、約＋２０〜約−７００、約＋２０〜約−６００、約＋２０〜約−５００、約＋２０〜約−４００または約＋２０〜約−３００の領域である。複数の異なる核酸セグメントは、少なくとも５０、任意選択的に少なくとも約８０、１２０、１６０、２００、４００、５００、６００、８００、１０００、１５００、２０００、３０００、５０００、８０００または１０，０００という多様度（ｄｉｖｅｒｓｉｔｙ）を有し得る。複数の異なる核酸セグメントの例には、配列番号１〜４５０９６からなる群から選択される少なくとも約２、任意選択的に少なくとも５、１０、２０、５０、１００、２００、５００、１０００、５０００、１００００、または２５０００個のヌクレオチドまたはそのフラグメント（約１００〜１８００、約３００〜１５００、約５００〜１４００、約６００〜１３００、約７００〜１２００、または約８００〜１０００ヌクレオチド長の配列番号１〜４５０９６のフラグメントが含まれるが、これらに限定されない。

本発明の推定遺伝子発現調節エレメントの選択方法を、任意のコンピューティングシステム（スーパーコンピュータ、パーソナルコンピュータ、携帯情報端末（ＰＤＡ）、ネットワークコンピュータ、インターネット上の分散コンピュータ、または他のマイクロプロセッサシステムが含まれるが、これらに限定されない）において種々の形態で実施することができる。上記の方法およびシステムは、ランダムアクセスメモリ（ＲＡＭ）などの記憶装置以外の種々の実行可能な媒体型での実行に適用可能である。他の実行可能な媒体型（任意の記憶装置、コンパクトディスク、ジップディスク、またはフロッピー（登録商標）ディスクであり得るコンピュータ可読記憶媒体が含まれるが、これらに限定されない）を使用することができる。

図８Ａは、本明細書中に開示の手順の１つの実施形態を概略的に示す。図８Ａ中の流れ図は、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能的分析のためのプロセスを示す。下記のように本発明で提供されたコンピュータ支援された方法の使用によってヒトゲノム全体の転写プロモーターを予測することが好ましい。予測された推定プロモーター配列を増幅し、レポーターを含む発現ベクターにクローニングして、組織培養細胞にトランスフェクトするかそうでなければ導入されたプロモーターのライブラリーを含む発現ベクターのライブラリーを構築する。プロモーターの転写活性化により、レポーターが発現する。次いで、レポーターの活性をアッセイし、プロモーターの活性と相関させる。

図８Ｂは、本明細書中に開示の手順の別の実施形態を概略的に示す。図８Ｂ中の流れ図は、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能的分析のためのプロセスを示す。下記のように本発明で提供されたコンピュータ支援された方法の使用によってヒトゲノム全体の転写プロモーター（拡大したプロモーターが含まれる）を予測することが好ましい。予測された推定プロモーター配列を増幅し、レポーターを含む発現ベクターにクローニングして、組織培養細胞にトランスフェクトするかそうでなければ導入されたプロモーターのライブラリーを含む発現ベクターのライブラリーを構築する。プロモーターの転写活性化により、レポーターが発現する。次いで、レポーターの活性をアッセイし、プロモーターの活性と相関させる。さらに、プロモーター配列を増幅し、これを使用して大量の（好ましくは、ゲノムワイドの）プロモーターアレイを構築することができる。プロモーターアレイを、広範な種々の適用（アレイ上の全プロモーターでの転写因子の結合の研究（例えば、クロマチン免疫沈降（ＣＨＩＰ）と組み合わせて使用（ＣＨＩＰ−チップが得られる））、プロモーターのＤＮＡメチル化状態の評価など）のために使用することができる。図８Ｂに例示したこの手順を、プロモーターレポーター活性、転写因子結合、およびエピジェネティック状態と統合して、細胞ベースのシステムにおけるプロモーター機能の最も完全な手段が得られるはずである。あるいは、ライブラリー中の配列を使用して、上記と同一の用途のためのオリゴベースのプロモーターマイクロアレイをデザインすることができる。

図９Ａは、転写プロモーターの予測方法の１つの実施形態を概略的に示す。図９Ａに例示し、実施例１のプロモーター予測アルゴリズム（ＰＰＡｖ１．１）にさらに記載するように、好ましくは、Ｇｅｎｂａｎｋで利用可能な全ｃＤＮＡ（ＭａｍｍａｌｉａｎＧｅｎｅＣｏｌｌｅｃｔｉｏｎ（ＭＧＣ）由来のｃＤＮＡが含まれる）を、プロモーターの予測に使用する。このプロセスは、低品質のｃＤＮＡ配列および低品質のアラインメントをフィルタリングによって除去し、エキソン重複に基づいて全ｃＤＮＡアラインメントを遺伝子モデルセットにアセンブリし、この遺伝子モデルセットと比較して全プロモーターを予測する。対照的に、以前のアプローチは、各ｃＤＮＡのプロモーターを予測し、重複したフラグメントをフィルタリングによって除去するが、遺伝子と関連しなかった。したがって、以前のアプローチでは、プロモーターを一次プロモーターまたは同一遺伝子の選択的プロモーターと指定する体系的方法は存在しなかった。

図９Ｂは、転写プロモーターの予測方法の別の実施形態を概略的に示す。図９Ｂに例示し、実施例２にさらに記載するように、このプロセスは、ｃＤＮＡのより低いストリンジェントの品質管理を使用する。このプロセスにより、ｃＤＮＡの５’末端の２００ｂｐの配列が整列されない。実施例２に証明するように、このプロセスは、ゲノム中の複数の場所に整列するｃＤＮＡを使用し、プロセシングされた可能性のある偽遺伝子をフィルタリングによって除去する。このプロセスは、独特の第１のエキソンを有するｃＤＮＡに基づいて遺伝子モデル中の選択的プロモーターも予測し、無イントロンｃＤＮＡによって定義された別のＴＳＳを除去する。なおさらに、このプロセスは、別のＴＳＳによって遺伝子モデル中の最も長いｃＤＮＡと比較して異なる読み取り枠が得られるかどうかを記録する。同様に有意には、このプロセスは、２，０００塩基の推定プロモーター配列を集めて、これから７００塩基対と２，０００塩基対との間のプロモーターフラグメントを増幅するようにプライマーをデザインする。本発明者らは、遠位プロモーター領域でかなりの転写調節が制御され、これらのフラグメントを使用して実施されるその後の機能アッセイは、７００塩基対未満のプロモーターフラグメントを使用して行った実験よりも情報量が多いと考える。

図１０Ａは、プロモーターを単離し、これらをレポーターベクターにクローニングする方法の１つの実施形態を概略的に示す。図１０Ａに例示し、実施例１にさらに記載するように、約５００〜７００ｂｐの推定プロモーター配列をＰＣＲ増幅し、組換えベースのクローニング系によってレポーター（例えば、ルシフェラーゼ）ベクターにクローニングする。各プロモーター−レポーター構築物を含む各組換え反応物を細菌に形質転換し、クローンをＰＣＲによってスクリーニングし、正確な構築物の含有について分析する。

図１０Ｂは、プロモーターを単離し、これらをレポーターベクターにクローニングする方法の別の実施形態を概略的に示す。図１０Ｂに例示し、実施例２にさらに記載するように、プロモーターフラグメントを階層化し、制限部位成分に基づいて増幅して、クローニングすべきプロモーター数を最大にする。単一制限酵素対をクローニングに使用する場合、内部制限部位を含んでいたフラグメントはフィルタリングによって除去される必要があり、それにより、かなりの数のプロモーターが喪失するであろう。この実施形態によれば、レポーターベクターに適合する少なくとも３つの制限酵素対を使用する。これらの酵素対に基づいた標的プロモーターフラグメントの階層化により、ゲノム中の９８％を超えるプロモーターをクローニングすることができる。増幅されたプロモーター産物をプールし、レポーターベクターにライゲーションする。プールおよび配列決定ストラテジーの使用により、非常に高いスケールメリットを達成することができる。ＰＣＲ産物のプールにより、本発明の実施に少数の消化、ライゲーション、および形質転換しか必要とせず、これらの処理に関連する時間および費用が非常に節約される。プール中のほぼ全てのフラグメントを捕捉するために、クローンのプライマーを使用した少なくとも３サイクルの配列決定−配置を行う。

４．発現構築物のライブラリー
別の実施形態では、本発明は、本発明のゲノムセグメントを含む発現構築物のライブラリーを提供する。ライブラリーは、メンバーのコレクションを含み、各メンバーは、ゲノム由来の異なる核酸セグメントを含む。発現構築物は、異種レポーター配列に作動可能に連結された本発明の核酸セグメントを含む組換え核酸分子である。ヌクレオチド配列が発現制御配列の転写調節制御下にある場合、核酸配列は、発現制御配列に作動可能に連結されている。レポーター配列は、核酸セグメントが由来するゲノム中のゲノムセグメント配列の転写調節制御下に天然にはないという点でゲノムセグメントと異種である。この組換え核酸分子をベクター内にさらに含め、これを使用して、細胞に感染させるか一過性または安定にトランスフェクションし、細胞内で複製することができる。

転写プロモーター以外で、上記のプロモーターに類似の原理にしたがって、ライブラリーおよびアレイを他の調節エレメント型のために構築することができることに留意すべきである。それぞれで使用されるベクターはわずかに異なり得るが、それぞれがレポーターカセットまたは構築物を依然として含むことが好ましい。異なる調節エレメント型を、レポーターカセットと異なる位置にクローニングすることができる。

４．１．レポーター配列
本発明は、ゲノムセグメントの転写調節エレメントの制御下にあることができる多数の異なるレポーター配列を意図する。

１つの実施形態では、レポーター配列は、レポータータンパク質（発光タンパク質（例えば、ルシフェラーゼ）、蛍光タンパク質（例えば、赤色、青色、および緑色蛍光タンパク質）、アルカリホスファターゼ、分泌性胚アルカリホスファターゼ（ＳＥＡＰ）、クロラムフェニコールアセチルトランスフェラーゼ（ＣＡＴ）、ホルモン、およびサイトカインなど）をコードする。検出可能なシグナルを発するタンパク質を使用したライブラリーでは、全てのレポータータンパク質に同一のシグナルを発生させることが有用であり得るが、不可欠ではない。これにより、ハイスループット法での検出が簡潔になる。

あるいは、ライブラリー中の発現構築物は、異なる検出可能なシグナルを発生する、異なるレポーター配列を含むことができる。例えば、各構築物中のレポーター配列は、独特の所定のヌクレオチドバーコードであり得る。これにより、細胞の同一のバッチまたはウェル中の多数の核酸セグメントをアッセイすることが可能である。１つの実施形態では、各構築物中で、独特のプロモーター配列を独特のバーコードレポーター配列の上流にクローニングし、独特のプロモーター／バーコードレポーター組み合わせを得る。活性プロモーターは、独特のバーコード配列を含む転写産物の産生を駆動することができる。したがって、発現構築物のライブラリーでは、各プロモーターの活性により、そのレベルを測定することができる独特の転写産物が産生される。各レポーターが独特であるので、発現構築物のライブラリーを、１つの巨大な細胞プール（個別のウェルと対照的）にトランスフェクションし、全ＲＮＡをプールとして回収することができる。各バーコード化転写産物のレベルを、相補バーコード配列を有するマイクロアレイを使用して検出することができる。それにより、各アレイスポット上の蛍光量は、ヌクレオチドバーコードの転写を駆動したプロモーターの強度に対応する。

任意選択的に、ライブラリー中の発現構築物は、第１のレポーター配列および第２のレポーター配列を含むことができる。第１のレポーター配列および第２のレポーター配列は、異なることが好ましい。例えば、第１のレポーター配列は同一のレポータータンパク質（例えば、ルシフェラーゼまたはＧＦＰ）をコードすることができ、第２のレポーター配列は、独特のヌクレオチドバーコードであり得る。このようにして、転写によってレポータータンパク質コード領域と独特のバーコード配列とのハイブリッド転写産物を得ることができる。かかる構築物を、レポータータンパク質によって発生されるシグナル（例えば、発光）を読み取るためのウェル毎のアプローチおよび／またはバーコードの読み取りによるプールしたアプローチのいずれかで使用することができる。

ライブラリーの各メンバーについての独特の分子バーコードの使用により、巨大ライブラリー（例えば、少なくとも１００、１５０、２００、５００、１０００、２０００、または２５，０００という多様度のライブラリー）を、何千もの個別のウェルよりもむしろ１つの容器（バイアルまたはプレート中のウェルなど）でアッセイすることができる。全レベル（試薬、プラスチック製品、および労働力）で費用を軽減することができるので、このアプローチは、より有効且つ経済的である。

４．２．ベクター
発現構築物は、宿主細胞中の構築物中のレポーター配列の発現を容易にする任意のベクターであり得る。任意の適切なベクターを使用することができる。当該分野で公知の多数のベクターが存在する。使用することができるベクターの例には、例えば、プラスミドまたは改変ウイルスが含まれる。ベクターは、典型的には、ベクターを導入してベクターの複製およびコードされたレポーターの発現が容易になる所与の宿主細胞に適合する。本発明の実施で有用であり得る特定のベクターの例には、大腸菌バクテリオファージ（例えば、λ誘導体）またはプラスミド（例えば、ｐＢＲ３２２誘導体またはｐＵＣプラスミド誘導体）；ファージＤＮＡ（例えば、ファージ１の多数の誘導体（例えば、ＮＭ９８９））、および他のファージＤＮＡ（例えば、Ｍ１３および直鎖状一本鎖ファージＤＮＡ）；酵母ベクター（２μプラスミドまたはその誘導体など）；真核細胞で有用なベクター（例えば、昆虫細胞に有用なベクター（バキュロウイルスベクターなど））、哺乳動物細胞で有用なベクター（レトロウイルスベクター、アデノウイルスベクター、アデノウイルスウイルスベクター、アデノ随伴ウイルスベクター、ＳＶ４０ウイルスベクター、単純ヘルペスウイルスベクター、およびワクシニアウイルスベクターなど）；プラスミドとファージＤＮＡとの組み合わせ由来のベクター、ファージＤＮＡまたは他の発現調節配列を使用するために改変されたプラスミドなどが含まれるが、これらに限定されない。

５．組換え細胞
別の態様では、本発明は、本発明の発現ライブラリーを含む組換え細胞を提供する。２つの異なる実施形態を特に意図する。

第１の実施形態では、各細胞または細胞群は、発現ライブラリーの異なるメンバーを含む。かかる細胞のライブラリーは、特に、本発明のアレイで有用である。典型的には、ライブラリーに指標を付ける。例えば、異なる発現ベクターを有する各異なる細胞を、容器内のゲノムセグメントの同一性を示す個別の容器中に維持することができる。指標は、天然にゲノム中の配列の転写調節の制御下にある特定の遺伝子も示すことができる。

第２の実施形態では、ライブラリーの全てのメンバーが少なくとも１つの細胞中に存在し、各細胞が発現ライブラリーの少なくとも１つのメンバーを有するように、細胞の培養物を発現構築物のライブラリーでトランスフェクトする。第２の実施形態は、レポーター配列が独立して検出することができる独特の配列であるライブラリーで特に有用である。

有用な細胞型には、外因性ＤＮＡをリポフェクション、エレクトロポレーション、または感染によって導入することができる初代哺乳動物細胞株および形質転換された哺乳動物細胞株が含まれる。かかる細胞中のライブラリーを、適切な増殖培地中での増殖培養物中で維持するか、ジメチルスルホキシドを補足した凍結培地として液体窒素中で保存することができる。

６．機能アレイ：マルチウェルプレート
別の態様では、本発明は、各ウェルが本発明の発現ライブラリーの異なるメンバーを含む、マクロアレイとも呼ばれるマルチウェルプレートを含むデバイスを提供する。本発明が種々の形式およびアレイレイアウトのマルチウェルプレートを意図する一方で、当該分野で周知の多数の標準的な形質が存在する。特に、発現ベクターのライブラリーを、１つまたは複数の９６ウェル、３８４ウェル、または１５３６ウェルマイクロタイタープレートのウェル内に含めることができることが意図される。

好ましい実施形態では、多様な異なる遺伝子発現調節エレメントのアレイ、好ましくは、異なる転写プロモーターのアレイを提供する。アレイの多様度は、好ましくは、少なくとも５０、任意選択的に少なくとも約８０、１２０、１６０、２００、４００、５００、６００、８００、１０００、１５００、２０００、３０００、５０００、８０００、、１０，０００、または２５，０００である。レポーター配列の発現が各遺伝子発現調節エレメントの転写制御下にあるように、各発現ベクターが、好ましくは、レポーター配列に作動可能に連結された異なる遺伝子発現調節エレメントを含む発現ベクターのライブラリーも提供する。

プラスミド機能マイクロアレイのために、プロモーターライブラリーの各メンバーを、大腸菌に個別にトランスフェクションすることができる。各大腸菌ストックを増殖させて１００μｇを超える各プラスミドを作製し、次いで、プラスミドＤＮＡを細菌細胞の一部の残りから精製する。各プラスミドの小アリコート（適切なトランスフェクション試薬を含む）を、９６ウェル、３８４ウェル、または１５３６ウェル形式で配置することができる。プラスミドのこのマクロアレイを、多数の異なる適用のための使用することができる。その主な用途は、好ましくは、生細胞のトランスフェクションでの使用である。一旦プラスミドが生細胞に送達されると、レポーター遺伝子産物から検出された活性量は、プロモーターフラグメントによって得られた転写活性を反映する。したがって、プラスミドマクロアレイは、生細胞中のプロモーター機能のハイスループット研究が可能である。プロモーター機能アッセイを、種々の細胞型で行うか、細胞環境の変化、遺伝子配列または機能の変化に対応して行うか、または目的の小分子もしくはタンパク質配列の存在下で行うことができる。

より好ましい実施形態では、発現ベクター中に少なくとも２００種の異なる遺伝子発現調節エレメントを含む非常に多様な発現ベクターのアレイを提供する。実施例の部に詳述するように、驚いたことに、本発明者らは、３８４ウェル形式でのプロモーター機能アッセイが９６ウェル形式に匹敵する多様なプロモーターライブラリーの転写活性を効率的且つ正確に測定することができることを発見した。いずれかの形式に置ける複製実験ウェル間の変動はほとんど同一であり、９６ウェル形式と３８４ウェル形式との間の測定の相関関係は非常に高い（Ｒ＝０．９８）。さらに、弱いプロモーターのレポーター活性でさえも、依然として市販の照度計の直線的検出範囲内である。したがって、かかる高度に多様な機能アレイを有効且つ効果的に使用して、種々の条件下での単一のパネルまたは実験（例えば、３８４ウェルまたはより高い密度の形式）における多数の調節エレメントの転写活性を測定することができる。

６．１．「裸の」核酸を使用したマイクロタイターアレイ
１つの実施形態では、本発明は、ウェルが細胞環境外の発現ベクターを含むマイクロタイターアレイを意図する。特に、各ウェルが乾燥形態の本発明の発現ベクターを含むマイクロタイターアレイを意図する。かかるデバイスを容易に保存および運搬することができ、且つ使用できる状態である。他の実施形態では、ウェルは、核酸を含む溶液を含む。別の実施形態では、溶液は、プレートに添加させる細胞のトランスフェクションに必要な全ての成分を含むことができる。

６．２．組換え細胞を使用したマイクロタイターアレイ
各ウェルが本発明の発現ベクターを含む組換え細胞を含むマイクロタイターアレイは、ハイスループットスクリーニングアッセイに有用である。かかるアレイを生成するために、ＤＮＡを、無血清培地およびトランスフェクション試薬（リポフェクション試薬など）と混合し、インキュベートし、細胞群に添加することができる。インキュベーション後、外因性ＤＮＡは、細胞中に存在するであろう。別の送達方法には、エレクトロポレーションおよび感染が含まれる。

７．機能アレイ：核酸プローブアレイ
別の態様では、本発明は、固体基板に付着させたプローブが本発明の核酸セグメントライブラリー由来の配列を含むＤＮＡアレイを提供する。核酸アレイの作製方法は、当該分野で周知である。例えば、米国特許第５，８０７，５２２号および同第６，１１０，４２６号（ＢｒｏｗｎａｎｄＳｈａｌｏｎ）；同第６，０５４，２７０号および同第６，０５４，２７０号（Ｓｏｕｔｈｅｒｎ）；ならびに同第６，０４０，１９３号；同第５，７４４，３０５号；同第５，８７１，９２８号；同第６，６１０，４８２号；同第６，２６１，７７６号；同第６，２９１，１８３号（Ａｆｆｙｍｅｔｒｉｘ）を参照のこと。

アレイ合成に適用可能な方法および技術は、米国特許第５，１４３，８５４号、同第５，２４２，９７４号、同第５，２５２，７４３号、同第５，３２４，６３３号、同第５，３８４，２６１号、同第５，４２４，１８６号、同第５，４５１，６８３号、同第５，４８２，８６７号、同第５，４９１，０７４号、同第５，５２７，６８１号、同第５，５５０，２１５号、同第５，５７１，６３９号、同第５，５７８，８３２号、同第５，５９３，８３９号、同第５，５９９，６９５号、同第５，６２４，７１１号、同第５，６３１，７３４号、同第５，７９５，７１６号、同第５，８３１，０７０号、同第５，８３７，８３２号、同第５，８５６，１０１号、同第５，８５８，６５９号、同第５，９３６，３２４号、同第５，９６８，７４０号、同第５，９７４，１６４号、同第５，９８１，１８５号、同第５，９８１，９５６号、同第６，０２５，６０１号、同第６，０３３，８６０号、同第６，０４０，１９３号、および同第６，０９０，５５５号にも記載されている。上記特許は全て、全ての目的のためのその全体が本明細書中で参考として援用される。

プローブの配列は、本発明のゲノムセグメントの全配列を含むことができる。あるいは、本発明の転写調節配列を、転写調節配列由来の少なくとも２１ヌクレオチドの配列を含む１つまたは複数のプローブによって示すことができる。この配列は、２１ヌクレオチド長と３５ヌクレオチド長との間、３６ヌクレオチド長と４５ヌクレオチド長との間、４６ヌクレオチド長と５５ヌクレオチド長との間、５６ヌクレオチド長〜６５ヌクレオチド長、またはそれを超え得る。一定の実施形態では、転写調節配列を、転写調節配列由来の重複および／または非重複ヌクレオチド配列を含む２、３、４、５、６、７、８、９または１０個のプローブによって示す。本発明のプローブは、一本鎖または二本鎖であり得る。

スポットされたプロモーターマイクロアレイを構築するために、プロモーターライブラリーの各メンバーに相当するプラスミドＤＮＡの小アリコートを使用することができる。ライブラリー中の各プラスミドを独特のプロモーターインサートを有する同一のベクター骨格から作製するので、プロモーターインサートに隣接するベクター配列に対するプライマーを、全ライブラリーと同一のプライマーセットを使用した各ベクターにおける独特のインサートのＰＣＲ増幅が可能なようにデザインすることができる。次いで、ライブラリーの各メンバーについて各ＰＣＲ反応を行い、独特のプロモーターフラグメントに相当する大量のＰＣＲ産物を生成する。プラスミドテンプレートから増幅する場合、ＰＣＲ反応は非常に強く、且つ全プロモーターで一貫していなければならず、プロモーターがゲノムＤＮＡから増幅されたかどうかは事実と異なっていて良い。次いで、これらの精製されたＰＣＲ産物を使用して、密着印画またはインクジェットによる固着（ｄｅｐｏｓｉｔｉｏｎ）のいずれかによって、それぞれのフィーチャーが独特のプロモーターフラグメントに相当するスライドガラス上にスポットされたマイクロアレイを作製する。

本発明のマイクロアレイを、多数の異なる実験目的のために使用することができる。１つの適用は、クロマチン免疫沈降（ＣｈＩＰ）との併用である。クロマチン免疫沈降は、生細胞中でのＤＮＡへのタンパク質の架橋、クロマチン／ＤＮＡ複合体の剪断、および抗体を使用した目的のタンパク質の免疫沈降を含む。これは、目的のタンパク質に結合したＤＮＡ配列を同定することが困難である。富化ＣｈＩＰである標的を同定するために、ＣｈＩＰＤＮＡのマイクロアレイとのハイブリッド形成が１つの選択肢として挙げられる。多くの研究者らは、既に、ゲノム全域の結合部位を同定するためにタイル状に配置されたオリゴマイクロアレイにかかる実験結果物をハイブリッド形成している。しかし、かかる実験は、多くの研究所には非常に高価である。本発明で提供したスポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイは、プロモーターの特異性を研究するためにＣｈＩＰ実験を実施するという研究者の需要を満たし、タイル状に配置されたオリゴアレイに対する安価な代替法を追求している。

このスポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイの別の適用は、好ましくは、上記のハイスループット様式での調節エレメントのメチル化状態を決定する方法を使用したプロモーターＤＮＡメチル化状態のゲノムワイドのアッセイの実施のためのものであり、低メチル化および高メチル化されたＤＮＡ配列の差分標識のために多数の異なる技術を使用する。プロモーター配列でのこの差分標識の結果を、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイ状で視覚化して、どのプロモーターが過小メチル化または過剰メチル化するのかを判断する。

一般に、ある配列型が別の配列型よりも差分標識される任意の技術を、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイに適用することができる（ＤＮＡ高感受性およびヒストン修飾などが含まれる）。当該分野の他の者によって開発された他のオリゴベースのプロモーターと比較して、かかるアッセイのためにこのスポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイを使用する利点は、アレイ上のフラグメントがプラスミド機能マクロアレイシステムを使用して機能活性を試験することができる正確に同一のフラグメントであるという点である。

８．キット
１つの実施形態では、プロモーターの機能マクロアレイのためのキットを提供する。キットは、９６ウェルまたは３８４ウェル中に配置したプロモータープラスミドの即時トランスフェクションセットを含む。キットは、レポーターアッセイ基質、特定の生物経路の誘導または抑制のための試薬（サイトカインまたは他の精製タンパク質、小分子、ｃＤＮＡ、ｓｉＲＮＡなど）、および／またはデータ分析ソフトウェアをさらに含み得る。

さらに、本発明の方法の実施または本発明の組成物、ライブラリー、アレイ、もしくは物品のアセンブリを使用した試験もしくはアッセイの実施のための試薬および説明書を含むキットを提供する。キットは、緩衝液、制限酵素、アダプター、プライマー、リガーゼ、ポリメラーゼ、ｄＮＴＰ、およびキットの使用に必要な説明書（任意選択的に、トラブルシューティング情報を含む）をさらに含み得る。

別の実施形態では、ＣＨＩＰアッセイのためのキットを提供する。キットは、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイ、および１つまたは複数のＣｈＩＰ用抗体を含む。キットは、ＤＮＡ増幅および標識用の試薬、ならびに／またはデータ分析ソフトウェアをさらに含み得る。

さらに別の実施形態では、スポットされたプロモーターマイクロアレイまたはプロモーター特異的オリゴベースのマイクロアレイおよびメチル化アッセイ用の酵素セットを含むＤＮＡメチル化アッセイ用のキットを提供する。キットは、ＤＮＡ増幅および標識用の試薬、ならびに／またはデータ分析ソフトウェアをさらに含み得る。

さらに別の実施形態では、プラスミド機能マイクロアレイキット、ＣｈＩＰのためのプロモーターマイクロアレイキット、およびＤＮＡメチル化アッセイキットを含む、包括的プロモーター分析のための物品のアセンブリを提供する。アセンブリは、データ統合のための分析ソフトウェアをさらに含み得る。

９．使用方法
９．１．緒論
本発明の機能アッセイは、本発明の転写調節配列の活性をスクリーニングするためのハイスループット実験の実施に有用である。機能的プロモーターアッセイのこの処理能力の増加は、以下のいくつかの理由で重要である。第１に、単一パネルでアッセイすることができる調節エレメント数の限度が除かれることにより、研究者は、単一の実験において全生物学的ネットワークに対応するエレメントを調査することが可能である。例えば、癌の発症および進行に関与する１０００種を超える遺伝子が存在する。１００種を超える遺伝子（例えば、１０００種を超える）のプロモーターを含むようにプロモーター機能アッセイの拡大により、研究者は、全ての癌関連遺伝子の全てのプロモーターを一度に研究することができる。

さらに、多数の遺伝子は選択的プロモーターを有し、従って、これらのアッセイの処理能力により、選択的プロモーターを研究に含めることができる。特定の選択的プロモーターは、同一遺伝子の異なるイソ型の個別の調節を付与することが示されており、これは、包括的研究に含める必要があるプロモーター生物学の重要な態様である。

処理能力の増加により、はるかに大きな規模でプロモーター配列変異型を研究することもできる。ゲノム中の各プロモーターが平均していくつかのＳＮＰを有する可能性が高いので、処理能力の増加により、最も一般的なハプロタイプを選択するよりもむしろ所与のプロモーターセットの既存の全ハプロタイプを包括的に分析することが可能である。

さらに、単一の実験における多数の調節エレメントのアッセイにより、研究者は、はるかに大きな検出力で統計分析を行うことが可能である。以前のプロモーター活性実験は、プロモーター活性データが、しばしば、ちょうどマイクロアレイ発現実験における遺伝子クラスターのように、類似の活性のクラスターに分解されることを示した。少数のプロモーターを使用した実験では、各サブクラスターは、しばしば、小さすぎて、そのクラスターに独特の重要な特徴に関するいかなる統計的に有意な主張（一定のモチーフの過剰表示または高次の配列の特徴など）も得られない。データセットが大きいほどこれらの統計分析を行うための検出力がより大きくなり、単一パネルにおいて、２００または１，０００を超える多様度のプロモーターが非常に望ましいであろう。

広範な種々の生体サンプル（単離細胞、細胞培養物、体液（血液、骨髄、唾液、脊髄液、および精液）、生検、および組織サンプルが含まれる）を、本発明にしたがって試験することができる。組織サンプルは、患者（ヒト、他の家畜、または飼われている動物（ｖｅｔｅｒｉｎａｒｙａｎｉｍａｌ））由来の任意の組織サンプルであり得る。ヒト、マウス、ウマ、ウシ、イヌ、およびネコなどの脊椎動物が好ましい。サンプルは、固定または非固定、均質化、溶解、低温保存などが可能である。コントロールとして対応する組織サンプルを使用することが最も望ましい。したがって、例えば、懸濁した結腸直腸癌組織を、正常な結腸直腸上皮組織と比較する。

本発明の１つの態様では、多数の異なる核酸セグメントの転写調節活性を決定する方法を提供する。本方法は、レポーター配列の発現が異なる核酸セグメントのそれぞれの転写調節下にあるように複数の異なる核酸セグメントのそれぞれを発現ベクター中のレポーター配列に作動可能に連結する工程、レポーター配列を発現する工程、および異なる核酸セグメントのそれぞれによって制御されたレポーターの発現レベルを決定する工程を含む。

本発明はまた、好ましくは、本発明の方法を実施するための組成物、アセンブリ、およびキットを提供する。例えば、異なる遺伝子発現調節エレメントのアレイ、好ましくは異なる転写プロモーターのアレイを提供する。アレイの多様度は、好ましくは、少なくとも５０、任意選択的に少なくとも約８０、１２０、１６０、２００、４００、５００、６００、８００、１０００、１５００、２０００、３０００、５０００、８０００、１０，０００、または２５，０００である。好ましくは、レポーター配列の発現が各遺伝子発現調節エレメントの転写調節下にあるようにレポーター配列に作動可能に連結された、それぞれ異なる遺伝子発現調節エレメントを含む発現ベクターのライブラリーも提供する。

９．２．プロモーター活性のハイスループットスクリーニング方法
９．２．１．基本的方法
本発明の発現構築物を保有する細胞のマルチウェルプレートは、プロモーター活性のハイスループットスクリーニングに有用である。基本的方法では、各ウェル中に本発明の発現ライブラリーのメンバーを有するマルチウェルプレートを、細胞がベクターでトランスフェクションされるような条件下で目的の細胞型で満たす。次いで、細胞を、作業者によって選択された条件下でインキュベートする。プロモーターが「オンになる」細胞は、その転写制御下でレポーター配列を発現するであろう。次いで、本発明者らは、デバイスの各ウェルをチェックして、レポーターの転写量を測定する。一般に、これは、レポーター配列によってコードされたレポータータンパク質によって産生されたシグナルの測定を含む。例えば、レポータータンパク質が蛍光タンパク質の場合、各ウェルが発光し、蛍光量を測定する。シグナルの測定量は、レポーター配列の発現の関数であり、それにより、転写調節配列の活性の関数である。

図１１Ａは、ハイスループット様式での複数のプロモーターの転写活性の検出方法の１つの実施形態を概略的に示す。図１１Ａに例示し、実施例１にさらに記載するように、レポーター構築物のライブラリー中に含まれる多数のプロモーターを、９６ウェルプレート中に配置し、組織培養細胞にトランスフェクションする。レポーターの発現を検出し、プロモーターの転写活性と相関させる。

図１１Ｂは、大量ハイスループット様式での複数のプロモーターの転写活性の検出方法の別の実施形態を概略的に示す。図１１Ｂに例示し、実施例２にさらに記載するように、レポーター構築物のライブラリー中に含まれる１００個を超えるプロモーターを、マルチウェル形式（例えば、９６ウェルまたは３８４プレート形式）で配置し、組織培養細胞にトランスフェクションする。レポーター構築物のライブラリーおよびトランスフェクション試薬混合物を、９６または３８４ウェル形式の組織培養細胞にトランスフェクションするか添加することができる。あるいは、またはより効率的には、レポーター構築物のライブラリーおよびトランスフェクション試薬混合物を、９６または３９４ウェル形式に配置し、その後に組織培養細胞をウェルに添加する（いわゆる、「逆トランスフェクション」）。レポーターの発現を検出し、プロモーターの転写活性と相関させる。

９６ウェルプレートから３８４ウェルへの拡大およびプラスミドＤＮＡを予め等分することにより、単一実験における処理能力を、数百のプロモーターアッセイから１，０００を超えるプロモーターのアッセイに拡大することができる。この実験を１，０００個を超えるプロモーターフラグメントに拡大することにより、研究計画の範囲が非常に改善され、これらのデータの下流統計分析に対してより高い検出力が与えられる。データセットが大きいほど、主成分の分析および階層的クラスター分析などのアプローチにより影響を受ける。複数の実験における一度に１，０００個を超えるプロモーターの研究により、プロモーター活性データのサブクラスターは、過剰表示モチーフまたは高次配列の特徴を検索するのに十分に大きい。

実施例２にさらに記載するように、全工程のプロモーター予測の精度および効率を増大させ、それにより、単一実験において数百または数千のプロモーターを機能的にアッセイし、単一実験において全生物経路を徹底的に調査することを可能にするためにプロセスの工程を精緻化する。実験規模の制約によってアッセイのためにその最良の候補のみを選択する必要がある代わりに、本発明の使用により、研究者らは、何百もの目的の遺伝子を含めることができ、したがって、はるかにより完全で生物学的に関連するデータセットを入手することができる。

図１２Ａは、複数のプロモーターの機能アッセイで得たデータの分析方法の１つの実施形態を概略的に示す。図１２Ａに例示し、実施例１にさらに記載するように、はるかに大きなネガティブコントロールフラグメントセット（例えば、約１００）を使用して、ランダムゲノムフラグメントからバックグラウンドシグナルに対してより信頼できる測定を行う。

図１２Ｂは、多数のプロモーターの機能アッセイで得たデータの分析方法の別の実施形態を概略的に示す。図１２Ｂに例示し、実施例２にさらに記載するように、プレート規準化構築物セットを上記のプロモーター機能アッセイで使用して、細胞増殖、トランスフェクション、およびアッセイ条件におけるプレート毎の変動を制御することが可能である。このコントロールセットに基づいて、プレート中の各ウェル値を全実験で規準化する。Ｚスコアベースの分析は、ネガティブコントロール値の分布の変動が考慮されるので、実験間のデータをより良好に比較することが可能である。

９．２．２．撹乱（ｐｅｒｔｕｒｂａｔｉｏｎ）効果の検出
本発明の方法の別の実施形態では、転写調節配列のライブラリーの活性に及ぼすシステムの撹乱効果を試験することができる。上記の基本的方法を、第１の条件下で行い、プロモーターの活性量を決定する。次いで、細胞を、研究者によって選択された様式で撹乱する（すなわち、異なる条件に供する）。撹乱には、例えば、試験化合物への細胞の曝露、温度、ｐＨ、または栄養などの環境条件の変化、または新規もしくは改変された遺伝物質を導入するか遺伝物質の量を変化させるための細胞の遺伝子改変が含まれ得る。撹乱後、ライブラリー中の各プロモーターの活性量を試験し、第１の状態でのその活性と比較する。活性が変化したプロモーターを単離し、さらに研究することができる。この方法では、例えば、どの転写調節配列が目的の化合物によって活性を調整されたかを決定することができる。

本方法のバリエーションでは、試験を並行して行う。すなわち、本発明の２つの同一のデバイスを、プロモーター活性について試験する。しかし、一方のデバイスを第１の条件セットに供し、他方のデバイスを第２の条件セットに供する。この方法では、２つの条件下での転写調節配列の相対活性を試験し、異なる活性を有する配列を同定および単離することができる。

９．２．３．細胞型間の比較
２つの細胞型の転写調節配列活性の相違を同定することも有用であり得る。例えば、遺伝子発現は、細胞を正常から癌に形質転換した場合に異なる。癌細胞で過剰作用するプロモーターは、薬理学的介入の標的であり得る。本発明のアレイは、かかる転写調節配列の同定に有用である。したがって、本発明者らは、ウェル中に発現構築物を含む２つのアレイセットを提供する。第１の細胞型を第１のデバイスでの形質転換に使用し、第２の細胞型を第２のデバイスでの形質転換のために使用する。２つのデバイス間のレポーター配列の発現を比較して、２つの細胞型で異なって発現したレポーター配列を同定する。

９．２．４．混合培養物における試験
転写調節配列が独特のレポーター配列に作動可能に連結された発現構築物の使用により、マルチウェルプレートを使用せずに試験を行う可能性が広がる。かかる状況では、細胞の単一培養物は、細胞間に分散した全発現ライブラリーを含む。培養物を、選択された条件下でインキュベートすることができる。次いで、発現産物を単離する。「レポーター配列」という表題の項目に記載のように、それぞれがそのパートナーである核酸セグメントに関連した独特のヌクレオチドタグまたはバーコードを有するので、各レポーター配列の量を、各独特の配列を含む転写産物の量の測定によって測定することができる。例えば、独特の配列に相補的なプローブを含むＤＮＡアレイ上の分子を検出することができる。各プローブへのハイブリッド形成量は、発現されたレポーター配列の量を示し、したがって、転写調節配列の活性を反映する。

１０．プロモーター変異形
１０．１．異なる活性を有するプロモーター変異形の同定
ヒト表現型または疾患状態の変化を生じるプロモーター領域の配列の変化について多数の報告がある。古典的な例の１つは、Βサラセミアである。わずかこの数年間に、プロモーター配列の変化は、特に、心血管疾患、アルツハイマー病、統合失調症、双極性障害、緑内障、癲癇、多発性硬化症、および狼瘡にも関与している。ごく最近の研究では、ＳＲＹ遺伝子のプロモーター中の３塩基対欠失が完全な性逆転に関連することも示されている。Ｃ反応性タンパク質遺伝子のプロモーターの機能変異形も同定されている。Ｃ反応性タンパク質の血清レベルが心臓疾患のリスクの重要な予測の判断材料であるので、これは特に重要である。

Ｈａｐ−Ｍａｐ計画などの関連研究および取り組みにより、しばしば、ヒト集団中の個体間のプロモーター配列の生物学的に興味深い変動が潜在的に検出される。次いで、この大きな疑問は、配列の変化が実際にプロモーターの機能に影響を及ぼすかどうかということまたはこれらが本質的にサイレントな非機能性の変化である場合を中心に展開する。本明細書中に提供したアッセイを使用して、プロモーター変異形の活性を比較することができる。

本発明は、集団中の表現型の相違に関連する転写調節配列の変異形の同定方法を提供する。本方法は、以下の工程を含む。第１に、配列のデータベースまたは他の情報源から集団中の配列多型（ＳＮＰなど）を示す転写調節配列を同定し、選択する。次いで、本発明のアッセイにおいて転写調節活性についてこれらの変異形を試験する。これらのアッセイにおいて活性の相違を示す多型形態を、さらなる研究のために選択する。かかる研究では、異なる表現型形質を有する２つの集団を選択する。例えば、罹患した第１の集団および罹患していない第２の集団を選択する。一般に、本発明者らは、問題の表現型にいくらか関与することが疑われる遺伝子の発現を調節するプロモーターを選択する。集団は、統計的に有意な結果を得るのに十分に巨大である。次いで、２つの集団の各個体を試験して、変異形のどの形態を個体が有するのかを決定する。統計分析は、多型形態が表現型に関連するのかどうかを示す。次いで、特定の表現型が関連することが見出された多型形態を診断で使用して、個体がこの表現型を有する可能性がどの程度あるかを決定することができる。

より一般的には、本発明で提供された産物を使用いて、遺伝子発現調節エレメント中の多型を表現型形質とより効率的に相関させることもできる。各多型または多型群の表現型の特徴との相関関係は、集団における表現型形質の変動に寄与するＤＮＡの変動を同定するための有益なツールである。表現型形質には、物理的特性、疾患リスク、および環境に体する応答が含まれる。疾患と相関する多型は、薬物療法のための疾患および標的を正確に診断するための機構を示すので、特に興味深い。何百ものヒト疾患が既に各多型と関連づけられているが、未だ同定されていない遺伝子成分を有することが公知の多数の疾患および成分が遺伝子に関連するか関連し得る多数の疾患が存在する。

多数の疾患は、複数の遺伝子の変化と相関し得、これが所与の疾患と関連する多型の同定をより困難にしている。この困難を克服するための１つのアプローチは、制限された共通の遺伝子変異形セットを疾患との関連について体系的に調査することである。調節エレメントのマクロアレイによって可能な機能研究により、調節エレメントの機能に影響を及ぼす配列変異型の影響を及ぼさないものからの選別を容易にするであろう。したがって、機能配列変異型の表現型形質との相関関係を探すことができ、これは、単なる表現型と相関する変異形の発見から特定の表現型を生じ得る変異体の同定へ焦点が変化している。

遺伝子発現調節領域中の１つまたは複数の対立遺伝子と１つまたは複数の表現型形質との間の相関関係を同定するために、個体を、多型マーカーまたはマーカーセットの有無および目的の表現型形質について試験する。多型セットの有無を、特定の形質を示す固体および特定の形質を欠く個体について比較して、特定の対立遺伝子の有無が目的の形質に関連するかどうかを決定する。例えば、遺伝子のプロモーター領域中の多型Ａでの対立遺伝子Ａ１の存在が心疾患と相関することを見出すことができる。表現型形質と１つを超える多型との間の相関関係の例として、多型Ａでの対立遺伝子Ａ１および多型Ｂでの対立遺伝子Ｂ１は目的の表現型形質と相関することを見出すことができる。

疾患の症状または発症と相関する遺伝子発現調節領域中のマーカーまたはマーカー群を使用して、表現型の発現と無関係に、疾患または疾患の素因を診断することができる。疾患または疾患の素因を診断するために、個体を、１つまたは複数の疾患と相関する多型マーカーまたはマーカーセットの有無について試験する。例えば、多型Ａでの対立遺伝子Ａ１の存在が冠動脈疾患と相関する場合、多型Ａに対立遺伝子Ａ１を有する個体は、この容態のリスクが増大し得る。

個体を、疾患の症状が認められる前に試験することができる。例えば、乳児を、出生時にβサラセミアなどの遺伝病について試験することができる。任意の年齢の個体を試験して、さらなる疾患のリスクプロフィールを決定することができる。しばしば、早期診断により、食事、挙動、または薬学的介入によって疾患をより有効に治療および防止することができる。個体を試験して、遺伝障害の保有状態を決定することもできる。保有可能性のある親は、この情報を使用して、家族計画を決定することができる。

１つを超える診断と一致する疾患の症状を発症している個体を試験して、より正確に診断することができる。例えば、症状Ｓが疾患Ｘ、Ｙ、またはＺと一致するが、多型Ａでの対立遺伝子Ａ１が疾患Ｘに相関し、しかし疾患ＹやＺと相関しない場合、症状Ｓを有する個体を、多型Ａでの対立遺伝子Ａ１の有無について試験する。多型Ａでの対立遺伝子Ａ１の存在は、疾患Ｘの診断と一致する。

１０．２．薬理ゲノミクス
さらに、本発明で提供された産物を、薬理ゲノミクスのために使用することもできる。薬理ゲノミクスは、遺伝子が薬物に対してどのように応答するかの研究をいう。宿主の毒性および治療有効性の両方に関して個体が投薬に応答する方法は非常に異なる。このばらつきには、以下の多数の原因が存在する：治療をうける疾患の重症度、薬物の相互作用、ならびに個体の年齢および栄養状態。これらの臨床的変動の重要性にもかかわらず、遺伝子多型の形態の遺伝性の相違は、投薬の有効性および毒性にはるかにより大きな影響を及ぼし得る。薬物代謝酵素、輸送体、受容体、および他の薬物標的の遺伝子多型は、多数の投薬の有効性および毒性における個体間の相違に関与している（ＥｖａｎｓａｎｄＲｅｌｌｉｎｇ，Ｓｃｉｅｎｃｅ２８６：４８７−４９１（２００１）（全ての目的のために本明細書中で参考として援用される）を参照のこと）。調節エレメントのマクロアレイによって可能な機能研究により、調節エレメントの機能に影響を及ぼす配列変異型の影響を及ぼさないものからの選別を容易にするであろう。したがって、機能配列変異型の表現型形質との相関関係を探すことができ、これは、単なる表現型と相関する変異形の発見から特定の表現型を生じ得る変異体の同定へ焦点が変化している。

上記と類似の様式では、薬物代謝に関与することが疑われる遺伝子をコードする転写調節配列をスクリーニングして、集団中の多型形態中に存在する配列を同定する。これらの配列を、本発明のアッセイで機能の相違について試験する。次いで、機能の相違を示す配列を、薬物に対する応答が異なる集団中で試験して、多形形態が薬物反応の相違に関連するかどうかを決定する。

各患者は、特定の薬物を代謝し、排除し、応答する受け継がれた能力を有する。遺伝子発現調節領域中の多型の薬理ゲノミクス形質との相関関係により、薬物の毒性および治療有効性に影響を及ぼす多型が同定される。この情報を医師が使用してどの投与経路が特定の患者に最良であるかを決定することができ、製薬会社が使用して、特定の疾患または集団内の特定の個体をターゲティングする新薬を開発することができる一方で、副作用の可能性を減少させることができる。薬物を、特定の対立遺伝子または対立遺伝子群を保有する個体群にターゲティングすることができる。例えば、多型Ａに対立遺伝子Ａ１を保有する個体は、投薬Ｘに最良に応答することができる一方で、対立遺伝子Ａ２を保有する個体は、投薬Ｙに最良に応答する。形質は、単一の多型の結果であり得るが、しばしば、いくつかの遺伝子の相互作用によって決定されるであろう。

さらに、集団の大部分に高度に有効ないくつかの薬物は、集団のほんの一握りに非常に危険であることが判明している。これらの薬物は、典型的には、何人にも利用できない。薬理ゲノミクスを使用して、特定の遺伝子型を有害な薬物応答と相関させることができる。製薬会社および医師が特定の薬物に対して有害な応答を示す患者を正確に同定することができる場合、この薬物から恩恵を受けるであろう患者に限ってこの薬物を利用できる。

同様に、いくつかの投薬が集団の本の一握りのみに高度に有効であり得る一方で、患者の大部分にはわずかしか効果がないか全く効果がない。薬理ゲノミクスにより、製薬会社は、どの患者が特定の薬物について理想的な候補であるかを予想することが可能であり、それにより、事故率が劇的に減少し、製薬会社がこれらの薬物の研究を実施し続けるためのより大きな動機が得られる。

１０．３．マーカー支援育種（Ｍａｒｋｅｒ−ＡｓｓｉｓｔｅｄＢｒｅｅｄｉｎｇ）
本発明で提供した産物を、マーカー支援育種に使用することもできる。遺伝子マーカーは、ブリーダーの動物および植物の遺伝子の複雑さの理解、選択、および管理を支援することができる。例えば、農業では、消費者の需要が増加し、期待が変化するので、望ましい形質（多収量、耐病性、味、香り、色、テクスチャーなど）を有する作物の生産を試みる相当な動機がある。しかし、分子機構が公知である場合でさえも、多くの形質は、生産中の監視が非常に困難であるか、費用がかかる。所望の遺伝子に物理的に極めて近接している遺伝子発現調節領域中の容易に検出可能な多型を、代理として使用して、所望の形質が特定の生物に存在するかどうかを決定することができる。これにより、選択的育種プロセスを加速することができる有効なスクリーニングツールが得られる。

上記と類似の様式では、目的の表現型形質に関与することが疑われる遺伝子をコードする転写調節配列をスクリーニングして、集団中の多型形態中に存在する配列を同定する。これらの配列を、本発明のアッセイで機能の相違について試験する。次いで、機能の相違を示す配列を、形質を有する集団中で試験して、多形形態がこの形質に関連するかどうかを決定する。

本発明で提供した方法、ライブラリー、アレイ、キット、およびアセンブリは、任意の特定の核酸サンプル型（植物、細菌、動物（ヒトが含まれる））に制限されず、総ゲノムＤＮＡ、ＲＮＡ、およびｃＤＮＡなどを、本発明の開示のいくつかまたは全ての方法を使用して分析することができることに留意すべきである。用語「ＤＮＡ」を、以下で核酸の例として使用することができる。以下の使用で特定の核酸型が必要でない限り、この用語には全ての核酸（ＤＮＡおよびＲＮＡなど）が含まれると理解される。

１１．ソフトウェア
本発明は、プロモーター強度の測定値を規準化し、バックグラウンドモデルを使用して各測定値の統計的有意性を計算するデータ分析ソフトウェアを提供する。データ分析アルゴリズムは、最初に、多数の（例えば、４、８、または１６のセット）スタンダードコントロールを使用して、各プレート中のデータを規準化する。次いで、各実験構築物についてのこれらの規準化した未加工の値を、少なくとも４８、９６、または３８４個のランダムゲノムフラグメントのパネルのプロモーター活性と比較して、バックグラウンドを超えるその有意性を評価する。これらのランダムフラグメントを、ゲノム全体または少なくとも１０００塩基対長および公知の転写開始部位から少なくとも５０００塩基のタンパク質コード遺伝子の中間エキソン（ｍｉｄｄｌｅｅｘｏｎ）から真に無作為に選択することができる。各実験のために、ランダムフラグメント値の平均および標準偏差を計算する。次いで、以下の式から各実験プロモーター活性を計算する：Ｚスコアプロモーター活性＝（未加工のプロモーター活性−ランダムコントロールの平均値）／ランダムコントロールの標準偏差。各Ｚスコアの信頼性レベルは、多仮説検定のための補正後のネガティブコントロールフラグメントのガウス分布を推測する曲線下面積に等しい（すなわち、Ｚスコアが３以上のフラグメントを、ｐ＜０．０１の信頼レベルで活性と見なす）。次いで、Ｚスコア変換プロモーター活性データを、他の型のＺスコア変換データ（ＤＮＡメチル化、ゲノムマイクロアレイと組み合わせたクロマチンＩＰ、発現アレイデータなど）と比較することができる。

１２．メチル化
本発明はまた、核酸分子（特に、調節エレメント）内のＣｐＧジヌクレオチドのメチル化状態の決定方法を提供する。一定の実施形態では、本方法を、ハイスループット様式で行う。多数の調節エレメントがＣｐＧリッチであり、多数のＣｐＧリッチ領域は、調節エレメントに相当する。したがって、ＣｐＧリッチ配列のメチル化状態により、多数の転写調節エレメントの機能が洞察される。図１３は、ゲノムワイドのＣｐＧリッチ配列領域のメチル化状態の大量ハイスループットによる決定方法の１つの実施形態を概略的に示す。図１３に例示し、実施例３にさらに記載するように、高分子量のゲノムＤＮＡを、細胞株または組織から調製し、少なくとも３つ（好ましくは６つ）の異なるメチル感受性制限酵素で消化する。供給源由来のＤＮＡ中のＣｐＧリッチ配列がメチル化されない場合、メチル感受性酵素はこれらの酵素を小フラグメントに切断する。１００ｂｐ長を超える消化されたＤＮＡを精製し、蛍光標識などの検出可能なマーカーで標識する。未消化のゲノムＤＮＡを、異なる検出可能なマーカーで標識する。切断および末端標識またはランダムに標識したプライマーのハイブリッド形成およびその後のプライマーの伸長のいずれかによって標識を進行することができる。両サンプルを、競合ハイブリッド形成アッセイにおけるゲノムマイクロアレイ（スポットされたプロモーターまたは目的のゲノム領域全体にタイル状に配置するＣｐＧアイランドアレイもしくはオリゴアレイなど）に適用する。ＣｐＧリッチ領域がメチル化されないＤＮＡでは、この領域は１００ヌクレオチド未満の小フラグメントに切断されているので、これらのＣｐＧリッチ領域は有意に枯渇する。しかし、これらの領域は、コントロールとして使用した未消化ＤＮＡでは枯渇しないであろう。

以前は各メチル感受性制限酵素（非メチル化認識配列を有する核酸分子を切断するが、メチル化認識配列を切断しない制限酵素）を使用してＤＮＡメチル化を測定していたが、この酵素は、通常、非メチル化ＤＮＡをマークして検索するために使用されている。このアプローチの新規の態様は、残りのゲノムと比較したこれらの領域の枯渇を測定することである。それぞれ異なる認識部位を有する酵素のカクテルを使用して、任意の１つの酵素のみでの処置下で同一程度に生じない非メチル化領域を枯渇させることができる。メチル化感受性制限酵素の例には、以下が含まれる：ＡａｔＩＩ、ＡｃｉＩ、ＡｃｌＩ、ＡｆｅＩ、ＡｇｅＩ、ＡｓｃＩ、ＡｓｉＳＩ、ＡｖａＩ、ＢｃｅＡＩ、ＢｍｇＢＩ、ＢｓａＡＩ、ＢｓａＨＩ、ＢｓｉＥＩ、ＢｓｉＷＩ、ＢｓｍＢＩ、ＢｓｐＤＩ、ＢｓｐＥＩ、ＢｓｒＢＩ、ＢｓｒＦＩ、ＢｓｓＨＩＩ、ＢｓｔＢＩ、ＢｓｔＵＩ、ＣｌａＩ、ＥａｇＩ、ＦａｕＩ、ＦｓｅＩ、ＦｓｐＩ、ＨａｅＩＩ、ＨｇａＩ、ＨｈａＩ、ＨｉｎＰＩＩ、ＨｐａＩＩ、Ｈｐｙ９９Ｉ、ＨｐｙＣＨ４ＩＶ、ＫａｓＩ、ＭｌｕＩ、Ｎａｅｌ、ＮａｒＩ、ＮｇｏＭＩＶ、ＮｏｔＩ、ＮｒｕＩ、ＰａｅＲ７Ｉ、ＰｍｌＩ、ＰｖｕＩ、ＲｓｒＩＩ、ＳａｃＩＩ、ＳａｌＩ、ＳｆｏＩ、ＳｇｒＡＩ、ＳｍａＩ、ＳｎａＢＩ、ＴｉｌＩ、ＸｈｏＩ。

本方法の使用により、全ゲノムのＣＧリッチ領域でのＤＮＡメチル化状態を、効率的に測定することができる。本方法の主な利点は、特異性が非常に高いヒトゲノム中の「ＣｐＧアイランド」の９７％を非常に効率的で安価に測定することである。ＤＮＡメチル化は、発癌および転写調節に関与する。したがって、ゲノムのメチル化状態のプロファイリングは、異なる癌の分類および遺伝子調節の説明に役立ち得る。

ＣｐＧアイランドおよびプロモーターアレイを、本アッセイに特異的にデザインすることができる。オリゴヌクレオチドの１つの実施形態は、使用されるメチル感受性制限酵素セットに応じて、アレイを特異的にデザインするアルゴリズムを実行することであろう。このアルゴリズムは、最初に、目的の哺乳動物ゲノム配列全体の定義されたメチル感受性制限酵素認識部位セットをマッピングするであろう。好ましくは２ＭＳＲＥを超え、本実施形態では約６ＭＳＲＥを使用するであろう。ＭＳＲＥ部位のゲノムワイドのマップは、その場所でメチル化されない場合にゲノムＤＮＡが切断される場所を説明する。ＭＳＲＥ部位セットのマッピング後、アルゴリズムは、各隣接ＭＳＲＥ部位の間の距離を計算する。次いで、アルゴリズムは、相互由来の１００ｂｐ未満のＭＳＲＥ部位をクラスタリングし、領域内の隣接ＭＳＲＥ間の距離が１００ｂｐ未満である少なくとも２つのＭＳＲＥ部位によって結合されたゲノム領域の座標を定義する。これらは、メチル化されずにＭＳＲＥによって消化された場合に枯渇するゲノム領域である。逆に、アルゴリズムは、ＭＳＲＥセットでの消化の際に枯渇しない領域も記録する。これらは、互いに１００ｂｐよりも近いＭＳＲＥ認識配列を持たない１００ｂｐ長を超える領域である。これらの領域は、ＭＳＲＥ処理で枯渇せず、存在する場合、いくつかのＣｐＧジヌクレオチドを含む。このアルゴリズムは、以下のゲノム領域の２つのリストを作製する：１つまたは複数のＭＳＲＥでの処理によって枯渇し得るものおよび１つまたは複数のＭＳＲＥでの処理によって枯渇しないもの。枯渇領域の例を、配列番号４５，０９７〜４５，２９６に示す。回収した領域の例を、４５，２９７〜４５，４９６に示す。次いで、アルゴリズムは、推定「枯渇領域」の１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、または９９％を対象とする約２５、３０、３５、４０、４５、５０、５５、または６０塩基長のオリゴヌクレオチドプローブセットおよび推定「回収領域」の１０％、２０％、３０％、４０％、または５０％を対象とする約２５、３０、３５、４０、４５、５０、５５、または６０塩基長の別のオリゴヌクレオチドプローブセットをデザインするであろう。複数のＭＳＲＥで処理したゲノムＤＮＡサンプルおよび未処理のゲノムＤＮＡサンプルのハイブリッド形成および標識ならびに標識サンプルにより、カスタムデザインのアレイにハイブリッド形成したゲノムサンプル中のどの領域が枯渇され、それによりメチル化しないかを同定するであろう。「回収領域」セットは、これらを使用してエラーモデルを構築し、メチル化していないと推定される領域での枯渇シグナルの有意性を測定するコントロールとして役立つ。

さらに、ＭｃｒＢＣなどのメチル化ＤＮＡを特異的に切断する酵素複合体を使用して、相互実験を行う（枯渇メチル化領域を同定する）ことができる。このアプローチを、全組織および他の哺乳動物モデルに適用することもできる。

本発明は、当業者に公知の詳細について多くの特許、出願、および他の引例に依存する。したがって、特許、出願、または他の引例を引用するか以下を反復する場合、引用した全ての目的および主張のためのその全体が参考として援用されると理解すべきである。明細書および特許請求の範囲で使用される場合、文脈上明確に別なふうに指示していない限り、単数形「ａ」、「ａｎ」、および「ｔｈｅ」には複数形が含まれる。例えば、用語「薬剤」には、複数の薬剤（その混合物が含まれる）が含まれる。個体はヒトに制限されず、他の生物でもあってよく、哺乳動物、植物、細菌、または上記のいずれか由来の細胞が含まれるが、これらに限定されない。

本開示を通して、本発明の種々の態様が種々の範囲の形態で存在する。範囲の形態での説明が便利さおよび簡潔さのみを目的とし、本発明の範囲を頑なに制限すると解釈すべきではないと理解すべきである。したがって、範囲の説明は、この範囲内のすべての可能性のある部分的範囲および一般的な個別の数値を具体的に開示していると見なすべきである。例えば、１〜６などの範囲の説明は、１〜３、１〜４、１〜５、２〜４、２〜６、３〜６などの部分的範囲ならびにその範囲内の個別の数字（例えば、１、２、３、４、５、および６）を具体的に開示していると見なすべきである。これは、例えば、１０^５、１０^４、１０^３、１０^２、１０、１０^−１、１０^−２、１０^−３、１０^−４、または１０^−５の増加範囲についても同じことが言える。これを、範囲の幅と無関係に適用する。

本発明の実施には、他で示さない限り、当業者の範囲内の有機化学、高分子技術、分子生物学（組換え技術が含まれる）、細胞生物学、生化学、および免疫学の従来の技術を使用することができる。かかる従来の技術には、ポリマーアレイ合成、ハイブリッド形成、ライゲーション、および標識を使用したハイブリッド形成の検出が含まれる。適切な技術を、下記の実施例の参照によって具体的に例証することができる。しかし、勿論、他の等価な従来の手順も使用することができる。かかる従来の技術を、ＧｅｎｏｍｅＡｎａｌｙｓｉｓ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌＳｅｒｉｅｓ（Ｖｏｌｓ．Ｉ−ＩＶ）、ＵｓｉｎｇＡｎｔｉｂｏｄｉｅｓ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ、Ｃｅｌｌｓ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ、ＰＣＲＰｒｉｍｅｒ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ、およびＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（全てＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ）（これらは全て、全ての目的のためにその全体が本明細書中で参考として援用される）などの標準的な実験マニュアルに見出すことができる。

（実施例１）
ヒトゲノムの１％の推定ヒトコアプロモーターの予測および転写アッセイ
本実施例では、プロモーター機能に関すいくつかの重要な生物学的疑問に取り組んだ。遺伝子サンプルについての内因性転写産物レベルとプロモーター活性との相関を計算した。エンハンサー、サイレンサー、およびインスレーターなどの他の転写調節エレメントは全てプロモーターの機能を調整し、ｉｎｖｉｖｏでの定常状態のＲＮＡレベルに影響を及ぼし、プロモーターの寄与を定量し、多くの場合にプロモーターがＲＮＡレベルの制御における重要な役割を果たすことが証明された。

転写開始の調節に寄与するコアプロモーターエレメントおよび広域プロモーター内の他のエレメントを同定可能な４５プロモーターセットについての欠失構築物のプロモーター活性を研究した。最後に、機能的プロモーター領域の間の有意な重複を同定し、ＴＢＰ関連因子（ＴＡＦＬ、ＴＡＦ１１２５０とも呼ばれる）とＲＮＡポリメラーゼ２（ＲＮＡＰＩＩ）とを結合させ、哺乳動物ゲノムの間で保存されたエレメント（それぞれ他のＥＮＣＯＤＥコンソーシアムのメンバーによって行われた独立した実験で同定された）を作製した。これらの結果を合わせて、１％のヒトゲノム中のプロモーター活性の前例のない所見が明らかとなり、これが、ゲノム全体としてのゲノム中のプロモーター機能の洞察に役立つ。

結果
プロモーター予測アルゴリズム（ＰＰＡｖ１．１）を使用して予測された９２１個のＥＮＣＯＤＥプロモーター
１５３，６４５個のヒトｃＤＮＡのゲノムへの整列および同一鎖上の重複エキソンを使用した転写産物の差し込みにより、ヒトゲノム中の３８，４１２個の遺伝子モデルを予測した（方法を参照のこと）。前の所見と一致して、これらのうちの約１３，４５０個（３５％）が、推定単一エキソン転写産物のみを含んでいた（Ｉｍａｎｉｓｈｉら２００４）。これらの遺伝子モデルから、５６，９４０個がゲノム中の潜在的転写開始部位と予測され、これは、複数のプロモーターを有すると予測された遺伝子のおよそ半分であった。３０ＭｂのＥＮＣＯＤＥ領域内に６１３個の遺伝子モデルが存在し、その２７％は単一エキソン転写産物から構成されており、その多くの機能が未知であった。全部で９２１個の転写開始部位が、これらの遺伝子モデルに関連すると予想された。これらの予測は、８７５個の既知の遺伝子のほぼ８０％（２００３年７月にＵＣＳＣゲノムブラウザーのフリーズ）およびアンサンブル遺伝子の７４％（２００３７月にＵＣＳＣゲノムブラウザーのフリーズ）（Ｋａｒｏｌｃｈｉｋら２００３）と重複する。ゲノムワイドの推定値と一致して、ＥＮＣＯＤＥ遺伝子の４５％が１つを超えるプロモーターを有すると予測され、これは、以前の推定値よりも実質的に高い（Ｌａｎｄｒｙら２００３）。多数の十分に特徴づけられた単一エキソン遺伝子が存在し（ＧｅｎｔｌｅｓａｎｄＫａｒｌｉｎ１９９９；ＨｅｎｔｓｃｈｅｌａｎｄＢｉｍｓｔｉｅｌ１９８１）、全長ｃＤＮＡライブラリー中の多数の推定単一エキソン転写産物を同定し、これは、ゲノムポリＡストレッチまたは他のライブラリーアーティファクトに起因し得る。結果として、予測された単一エキソンプロモーターのサンプルのみを試験した。まとめると、６４２個の推定プロモーターをクローニングし、１６細胞株におけるそのプロモーター活性を測定した。これらは、複数エキソン転写産物に基づいた５２８個の推定プロモーターおよび１１４個の単一エキソンベースの予測物を含み、表１に示す遺伝子モデルの４４３に相当する。

ＥＮＣＯＤＥ領域中の３８７個の機能的プロモーターの同定
トランスフェクション効率を規準化し、実験間で比較するルシフェラーゼ（実験）シグナルとウミシイタケ（トランスフェクションコントロール）シグナルとの転換比としての一過性トランスフェクションアッセイにおけるクローニングしたプロモーターの活性レベルを定義した。方法に記載のように、１０２個のネガティブコントロールＤＮＡフラグメントの平均比を３標準偏差超える陽性プロモーター活性の閾値を考慮した。この閾値を超える活性を有する場合、機能的プロモーターとしてのフラグメントを同様に考慮した。１０２個のネガティブコントロール内の細胞型あたり１〜３つの外れ値を同定し、アッセイの偽陽性率を１〜３％と予測した。各細胞型について定義した閾値を個別に使用して、ＥＮＣＯＤＥ領域中の３０３個の独特の遺伝子モデルに相当する３８７個のフラグメントが、１６個の細胞型の少なくとも１つでプロモーター活性を示した。単一エキソン転写産物によって予測されたプロモーター間の検証率（３２％、表１）よりも複数エキソン遺伝子モデルによって予測されたプロモーター間の検証率（６６％）がはるかに高いことが認められた。予測した選択的プロモーターは、各遺伝子モデルにおいて最も長いｃＤＮＡに基づいた予測と比較して有意な活性を示す可能性が低かった。最後に、信頼性の高い予測は、活性なプロモーターである可能性が最も高い。

これらのクラスに加えて、ＥＮＣＯＤＥ領域（ヒトゲノムの９９％が残存）は、推定双方向性プロモーターによって調節される多岐に転写される遺伝子の顕著なクラスを含むということであった。以前に公表された研究（Ｔｒｉｎｋｌｅｉｎら２００４）と一致して、４４個の同定されたプロモーターおよび３２個の試験されたプロモーターが双方向性遺伝子対に関与し、試験した細胞型の少なくとも１つで３１個が機能することが見出された。両方向で試験した全てのプロモーターが、双方向性に機能した。

概して、試験した推定プロモーターフラグメントの６０％が、少なくとも１つの細胞型で機能的であった（図１）。これらの多くは、細胞型間でプロモーター活性の変動が大きく（図１Ｂ）、ゲノムの文脈を無視して解釈した場合でさえ、拡大したプロモーター内の調節エレメントが細胞型特異的発現を誘導することが示唆された。プロモーターアッセイが内因性遺伝子の調節を完全に再現することは期待されなかったが、プロモーターがｉｎｖｉｖｏのように細胞型特異的発現をｉｎｖｉｔｒｏで同様に指示したいくつかの例が存在した。例えば、肝細胞成長因子（ＭＥＴ）遺伝子のプロモーターは、１６細胞株のうちの７細胞株のみで活性であり、肝細胞株の１つ（ＨｅｐＧ２）で最も活性が高かった。これは、種々の組織中、しかし主に肝臓および間葉起源の他の組織中のＭＥＴの発現と一致する（Ｒｕｂｉｎら１９９３）。破骨細胞関連受容体（ＯＳＣＡＲ）プロモーターは、４つの細胞株のみで活性であった。そのうちの１つは、ＭＧ−６３（骨肉腫細胞株）である。この遺伝子は、破骨細胞中に排他的に発現すると考えられている（Ｋｉｍら２００２）。データが破骨細胞でのこの遺伝子の発現を支持しているが、さらなる組織中でプロモーター活性が認められ、アッセイがこの遺伝子の特異的発現を制御する全ての調節を捕らえていないことが示唆される。組織特異的活性に加えて、１６細胞株全てで強く遍在する活性を有する、同定された１１８個のプロモーターの顕著なクラスター（全部で３０％）が存在した（図１Ａ）。このクラスター内で、ＵＣＳＣゲノムブラウザーデータベースによって予測したところ、１０１個のプロモーターフラグメント（８６％）がＣｐＧアイランドと重複した（Ｋａｒｏｌｃｈｉｋら２００３）。これらのデータは、ＣｐＧジヌクレオチドの存在と強く遍在するプロモーター活性との間の密接な関連を示す。しかし、ＣｐＧアイランドと重複する試験したフラグメントの１２％（２５／２０２）が、１６細胞型のいずれにおいてもプロモーター活性を持たなかった。ＣｐＧアイランドの予測ＴＳＳとの重複は、これらの２５の例ではあまり一般的ではないが、ＣｐＧアイランドが重複する機能的プロモーターと非機能的プロモーターとの間でＣｐＧの含有量または長さの有意差は認められなかった。これらのデータにより、ＣｐＧアイランド重複が重要な指標である一方で、プロモーター活性の予測には十分ではないことが示唆される。

プロモーター配列の特徴
広域配列含量およびこの巨大なデータセット内の公知のＤＮＡモチーフの存在により、プロモーター機能がさらに洞察される。多くのプロモーターがＣｐＧアイランドと重複するので、機能的プロモーター中のＧＣ含量の分布が強く変動する。全ての活性プロモーターフラグメントは、活性が認められない推定プロモーターフラグメント（４８％）と比較してＧＣ含量が有意に高い（５７％）。ＣｐＧアイランドとの重複および活性プロモーター内のＧＣ含量の増加は、アッセイにおける予測されるが非機能的なプロモーターと機能的プロモーターを区別する最も顕著な配列の特徴である。

機能的プロモーター内のコンセンサス配列の簡潔なパターンマッチングによって、機能的に特徴づけられたプロモーター中の以前に特徴づけられたプロモーター特異的モチーフの存在を決定した。ＴＡＴＡボックス（ＴＡＴＡ（Ｔ／Ａ）（Ｔ／Ａ））を含む６１個の機能的プロモーター（総数の１６％）が同定され、ＣＡＡＴ（ＣＣＡＡＴ）ボックスを含む７２個の機能的プロモーター（総数の１９％）が同定された。しかし、以前の研究と一致して、これらのモチーフの存在とプロモーター活性との間に有意な相関関係は見出されなかった（Ｔｒｉｎｋｌｅｉｎら２００３）。これにより、これらのモチーフは機能的に重要であり得るが、プロモーター内にプロモーター活性に必要な普遍的に必要なエレメントは存在しないことが示唆される。

各標的について６〜９種の哺乳動物由来のオルソロガスな配列とのヒトゲノム配列の比較に基づいて全ＥＮＣＯＤＥ標的について同定された強制エレメントセットを使用して（Ｃｏｏｐｅｒら２００５）、同定された５００ｂｐの機能的プロモーター中の強制範囲を特徴づけた。機能的プロモーター内に見出された塩基の１２．５％が強制されているのに対して、非機能的プロモーター内の塩基の１０％が強制されていた。これらは共に、これらの方法によって定義したところ、３０ＭｂのＥＮＣＯＤＥ領域中の全部で４．３％の強制塩基を優に上回っている。興味深いことに、ランダムを超える大部分の強制は、転写開始部位から±５０塩基対以内に認められる（補足図１）。転写開始部位と比較して＋１の位置で認められる急なピークは、ＴＳＳ予測の精度を示すので、非常に有望である。これらのデータにより、基本エレメントが進化的に強制される可能性がより高いことも示唆される。しかし、広域プロモーターは、偶然予想された強制よりも多くの強制を含み、この領域中の減少しているが依然として有意な機能的エレメントおよび強制エレメントの密度の証拠を示す。

２０％を超える遺伝子が機能的な選択的プロモーターを有する
ＥＮＣＯＤＥ領域中の複数エキソン遺伝子の４５％についてそれぞれ独特のＲＮＡイソ型を調節する複数のプロモーターを予測した。これは、一過性アッセイで試験した遺伝子モデルの約２２％の複数の活性プロモーターを支持する機能データを有する。これらのほとんど（５４／６６）が２つの機能的プロモーターを有するがＵＤＰグリコシルトランスフェラーゼ１遺伝子（ＵＧＴ１）を有し、７つの機能的プロモーターの証拠を示す。選択的プロモーターの予測には全長クローンが必要であるにもかかわらず、これらの予測の半分しか認証されなかった。これを、高度に組織特異的な選択的プロモーターまたは真に全長ではない注釈付きの全長ｃＤＮＡによって説明することができる。興味深いことに、いくつかの場合、これらの選択的プロモーターの使用により、タンパク質産物の変化が予測される。１つを超える機能的プロモーターを有する６６個の遺伝子モデルのうち、４２個の別のイソ型が互いに類似しており、６個のみが同一のアミノ酸配列を有する。残りの１８個により、互いに有意に類似しないタンパク質産物が得られる。遺伝子モデルを定義する方法は、キメラ転写産物または誤整列ｃＤＮＡによって影響を及ぼされ得る。これらの場合では、２つの潜在的に無関係の転写産物を同一の遺伝子モデルに含めることができ、これらの転写産物は、異なるＯＲＦを有する同一の遺伝子モデルの選択的プロモーターを定義する。上記の１８個のうちの６個は、より長い複数エキソン遺伝子中の１つまたは複数のエキソンと重複する短い単一エキソン転写産物を含み、これらの転写産物が異なる予測ＯＲＦを有することは驚くべきことではない。手作業の調査の際、残りの１２個のうちの１０個で、選択的プロモーター由来の転写産物が５’エキソン以外は類似のエキソン構造を有することが認められた。これらの転写産物は別の開始コドンを使用し、それにより、ＯＲＦが完全に異なる。これらのタンパク質はそれ自体の重要な生物機能を有することができるか、選択的プロモーターおよび下流転写産物の存在は、機能的タンパク質のための調節機構として作用することができる。他のグループの研究により、一次転写産物とコードエキソンを共有する無関係の二次タンパク質が一次転写産物の調節で役割を果たすという例が得られている（Ｙａｎｇら１９９８）。いくつかの場合、これらの転写産物は、タンパク質を全く作製しない調節ＲＮＡとして作用することができるか、エキソン配列を共有する完全に無関係の遺伝子であり得る。

タンパク質のアミノ酸配列の変化に加えて、選択的プロモーターは、同一遺伝子の別のイソ型を個別に調製する。結果は、試験した選択的プロモーター対の６０％が１６個の細胞株の間で有意に異なる発現パターンを有することを示す。例えば、テスティン（ＴＥＳ）遺伝子は、２つのプロモーターの証拠を有する。ＴＥＳ遺伝子は遍在的に発現し、３つのイソ型および２つの推定プロモーターを有する（Ｔａｔａｒｅｌｌｉら２０００）。２つの脳細胞株中で１つのプロモーターが活性であり（図２Ａ）、１２個の残りの細胞株で第２のプロモーターが活性である（図２Ｂ）ことが見出された。この場合、タンパク質産物は、選択的プロモーターに影響を受けないが、これらのプロモーターを使用して、種々の組織中のこの遺伝子の差分調節することができる。Ｔａｔａｒｅｌｌｉらのデータを念入りに観察して、脳内の発現が他の組織よりはるかに低いことが認められ、これを、選択的プロモーターの使用によって説明することができる。これは、別のＲＮＡイソ型の転写を差分調節するように機能する選択的プロモーターのほんの一例である。

広域プロモーターフラグメント内の機能的領域
広域プロモーター領域内の機能的エレメントをさらに理解するために、一過性アッセイにおいて活性な４５個のプロモーターの一連のネスト化欠失を使用してレポーター構築物を生成した。図３Ａに概略図を示すように、４０ｂｐ〜１，０００ｂｐのサイズ範囲の欠失フラグメント（方法に記載）を、ルシフェラーゼ遺伝子の上流にクローニングした。これらのフラグメントを、従来通りのプロモーター活性および多数の興味深い点を例示した各欠失構築物の平均活性についてアッセイした（図３Ｂ）。第１に、プロモーター活性は、ＴＳＳの３５０ｂｐ上流と４０ｂｐ上流との間の配列の欠失に伴って減少し、これは、多数のこれらのプロモーター中のＴＳＳと比較して−３５０ｂｐと−４０ｂｐとの間の陽性エレメントの存在を示す。２５のうちの１７において、予測した転写開始部位の４０ｂｐ上流の存在がバックグラウンドを有意に超える基本活性に十分であるが、これらのコアプロモーターフラグメントのうちの５個しか５００ｂｐの広域プロモーターフラグメントの少なくとも９０％の活性を持たないことが見出された。

平均して、５００ｂｐおよび１，０００ｂｐのプロモーターフラグメントが対応する３５０ｂｐフラグメントと比較して活性の減少を示すことも認められた。概して、より大きなフラグメントの活性が減少したが、各プロモーターの一連の挙動が認められた（図３ＣおよびＤ）。精子関連抗原４（ＳＰＡＧ４）プロモーター（図３Ｄ）のように、１，０００ｂｐおよび５００ｂｐフラグメントの多く（１２／２２）が、７つ全部の試験細胞型中の同一プロモーターの３５０ｂｐフラグメントよりも有意に低い活性を示した。これらの結果により、多数のこれらの遺伝子の−３５０〜−１，０００ｂｐ上流の領域中の負の調節エレメントの存在が示唆される。これらのフラグメントの配列を試験し、偶然の予測を超える終止コドンまたは反復ストレッチなどの簡潔な配列エレメントは認められず、これらの結果を説明するために同定されるいかなる有意な二次構造も認められなかった（データ示さず）。実験を行い、２連の５００ｂｐプロモーターのクローニングまたは５００ｂｐプロモーターの上流の５００ｂｐのランダム配列のクローニングによって認められた活性の変化がプラスミドサイズの増加の結果ではないことが証明された（図４、構築物１〜２および３と比較せよ）。

これらのフラグメントが負の調節エレメントを含むという仮説をさらに試験するために、これらの細胞型で別なふうに高度に活性な２つの４０ｂｐの異種プロモーターの上流の５つのプロモーターの−１，０００ｂｐ〜−５００ｂｐのフラグメントをクローニングした（図４の構築物５および６を参照のこと）。これらの結果は、ＳＰＡＧ４プロモーターのこの領域中の負のエレメントの存在を強く支持する。試験した５つのフラグメントのうち、３つが負の調節エレメントを含む証拠が認められた（補足データを参照のこと）。他は、位置特異的または遺伝子特異的な負のエレメントとして作用することができる。

内因性転写産物レベルはプロモーター活性と相関する
遺伝子のプロモーター領域の外側に存在することが公知の転写調節エレメントおよび転写後調節機構をかんがみて、プロモーターフラグメントの活性が同一の細胞型における定常状態の内因性転写産物レベルと相関する範囲を定量した。定量的ＲＴ−ＰＣＲを使用して、そのプロモーター活性を１４細胞型におけるレポーターアッセイで測定した３５個の遺伝子の絶対内因性転写産物レベルをアッセイした。さらに、１つの細胞型中の９６個のさらなる遺伝子についてより包括的なデータを収集した。その転写開始部位によって予測された内因性ＲＮＡレベルとプロモーター活性とがｒ＝０．５３で相関することが認められた（図５）。この相関関係の有意性を評価するために、無作為化したデータの相関係数を１，０００回計算した。これらの無作為化データセットの平均相関係数は、０．０４の標準偏差で０．０２６であり、これは、認められた相関関係がランダムと比較して有意性が高いことを示した（ｐ＜１０〜１２）。この相関関係は、広域プロモーターフラグメントがｉｎｖｉｖｏでのこれらの遺伝子の転写の調節に重要な多数のエレメントを含むことを示す。

ＲＮＡデータにより、プロモーター活性がｉｎｖｉｖｏＲＮＡ転写産物レベルをいかに良く予測するかを示す偽陽性率および偽陰性率を評価することが可能である。１４個の細胞型および３５個の遺伝子にわたり、５８／２７３（２１％）の活性プロモーターフラグメントが検出可能なＲＮＡ転写産物を持たないことが見出され、７２／２１７（３３％）の不活性プロモーターが検出可能なＲＮＡ転写産物を有することが見出された。これらの見かけの矛盾についての種々の生物学的説明が存在する。アッセイで機能するがｉｎｖｉｖｏでは機能しないようであるプロモーターを、エピジェネティックシグナルから取り出された文脈を無視して解釈されるプロモーターもしくは関連調節配列または存在量は低いが高代謝回転のＲＮＡによって説明することができる。これらのデータにより、遺伝子の発現画分について、プロモーターが不正確に予測されたという予想も確認される。それにもかかわらず、認められた相関度は、遺伝子発現に関連する調節配列の多くが補足されたことを示す。

これらの遺伝子に加えて、選択的プロモーターを含む１１個の遺伝子の転写産物レベルとプロモーター活性との間の相関を測定した。多くの場合、２つのプロモーターおよび独特のＲＮＡイソ型を有する遺伝子は、互いに一致する活性を示した（補足図２を参照のこと）。試験した選択的プロモーターを含む１１個の遺伝子のうち、７個が対応する転写レベルで認められた傾向と適合するプロモーター活性パターンを有していた。これらのデータにより、プロモーターおよび選択的プロモーターが細胞内のＲＮＡレベルの制御に有意に寄与し、一過性トランスフェクションアッセイを使用してこの調節を再現することができると言う証拠がさらに得られる。

機能的プロモーターは、ＴＡＦ１、ＲＮＡＰＩＩ結合と同時に起こる
ＥＮＣＯＤＥコンソーシアムの他の研究者は、同定されたプロモーターの活性の理解に有用なデータを作成した。具体的には、２つのプロモーター結合タンパク質の占有を試験するクロマチンＩＰ−マイクロアレイ実験、ＴＢＰ関連因子（ＴＡＦ１）、およびＲＮＡポリメラーゼ２（ＲＮＡＰＩＩ）を、共同研究者のＲｅｎらによって作製し（Ｋｉｍら２００５）、彼らの研究所にてレポーターアッセイで確認する。これらの実験は、ゲノムタイリング（ｔｉｌｉｎｇ）マイクロアレイハイブリッド形成によってＣｈＩＰ富化標的を測定する。結合の同定のためのストリンジェントなカットオフ（ＴＡＦ実験については１０−４未満のｐ値およびＲＮＡＰＩＩ実験については１０−６未満のｐ値）を使用して、機能的プロモーターフラグメントを、これらの２つの転写因子によって結合する領域と比較し、以下の所見を得た（表２）。実験に共通の２つの細胞型（ＨＣＴ１１６およびＨｅＬａ）で同定された２５８個の機能的プロモーターのうちの約半分がクロマチンＩＰによって同定されたＴＡＦ１またはＲＮＡＰＩＩ部位のいずれかと重複した。逆に、レポーターアッセイで試験した１７７個のＴＡＦ１結合部位および２０３個のＲＮＡＰＩＩ結合部位のうち、８０％超が有意な活性を示した。最後に、ＲＮＡＰＩＩおよびＴＡＦ１の両方に結合したプロモーターのうち、８５％が有意なプロモーター活性を有していた。

考察
依然の機能的プロモーター研究との比較
本明細書中に示した実験は、ヒトゲノムの選択された１％が転写プロモーターである可能性が高いＤＮＡフラグメントの包括的機能試験を示す。概して、推定プロモーターの６０％が、一過性トランスフェクションレポーターアッセイにおいて少なくとも１つの細胞型で有意な活性を示した。活性プロモーター画分は、２００３年に記載の依然のより小規模の研究で確立された陽性の実質的に９０％未満である（Ｔｒｉｎｋｌｅｉｎら２００３）。この矛盾についての１つの可能性の高い説明は、以前の研究で予測されたプロモーターは哺乳動物遺伝子コレクションの初期バージョン由来の全長ｃＤＮＡ配列に排他的に依存していたことである。この初期コレクションは、高度に発現された遺伝子に偏っており、最初に予測されたプロモーターは遍在的に高度に発現した遺伝子の上流であった。さらに、ＥＮＣＯＤＥ標的は、高度に組織特異的であることが公知の多数の遺伝子（ＨｏｘＡクラスターならびにβおよびαグロブリン遺伝子クラスターの遺伝子が含まれる）を含む。これらの遺伝子のプロモーターは、細胞株の制限されたパネル中で活性である可能性が低く、転写開始に必要な因子が存在しないかもしれない。

この領域中の全ての機能的プロモーターを同定するための個別の目的により、ＥＮＣＯＤＥ領域中のプロモーターを予測するために使用される方法はまた、排他的にＭＧＣ全長ｃＤＮＡコレクションに基づいた予測を検証することを目的とした以前の研究と非常に異なっていた。ＧｅｎＢａｎｋ中の全てのｃＤＮＡのアラインメントの使用により、弱い証拠（予測を立証するための全長クローンが存在しなかったか、単一ｃＤＮＡのみが転写開始部位の存在を支持した）に基づいたプロモーター予測が含まれた。このストラテジーによって誤った予測が含まれたが、ＥＮＣＯＤＥ領域内のプロモーターがより完全に同定された。これを支持して、双方向性プロモーターについてのデータは、以前の研究に直接匹敵し、類似の高度な検証を示す。

初期の実験（Ｔｒｉｎｌｒｅｉｎら２００３）と同様に、一過性レポーターアッセイの人為的自然状態によって偽陰性の結果が得られる。プラスミド中のプロモーターフラグメントのクローニングにより、クローニングしたフラグメントは独立して機能する必要があり、試験した５００ｂｐ外側のエレメントが必要なプロモーターの活性を検出できない。負の結果の分析において注意を払わなければならないにもかかわらず、活性なしについてのベースラインとしての多数のランダムフラグメントの使用により、正の結果がより最も確実であるようにする。偽陽性率２％では、アッセイによって同定されたほとんどの正のプロモーター活性が生物学的に関連するプロモーターを示すと思われる。ここに示したデータは、最も大きな機能的プロモーターデータセットの１つを示し、これらの領域を研究する多数の研究者に有益な情報源を提供する。

未知の機能の転写産物の有意な画分が機能的プロモーターを有する
いくつかの最近の研究により、以前の見解よりも有意により大きなゲノム画分が転写されることが示されている（Ｂｅｒｔｏｎｅら２００４；Ｋａｐｒａｎｏｖら２００２）。これらの「未知の機能の転写産物」（ＴＵＦ）が重要な生物活性を有するかどうか、そうであるならば、どのようにしてその発現が調節されるのかはまだわからない。本研究のために予測された単一エキソン遺伝子モデルの約半分および他エキソン遺伝子モデルのはるかに小さな画分を、既知の機能または１００アミノ酸より長いＯＲＦを欠く未知の機能の転写産物のカテゴリーに適合させる。負の結果を慎重に解釈しなければならないが、単一エキソンベースの予測および複数エキソンベースの予測の間の相当な検証の相違により、２つのクラスの間の生物学的相違が示唆される。この相違により、より大きなＴＵＦ画分がｃＤＮＡライブラリーまたはアラインメントアーティファクトであるか、そのプロモーターがデザインされた実験で機能する可能性が低いことが示唆される。それにもかかわらず、データは、これらの単一エキソン転写産物の上流排列の１／３が機能的プロモーターであり、少なくとも１００アミノ酸のＯＲＦの存在によってこの転写産物クラスにおけるプロモーター機能が予測されないことを示す。いくつかのＴＵＦの存在量が低いことにしたがって、活性ＴＵＦプロモーターの２／３が試験した１６個の細胞型の少なくとも１個で機能するが、１０個長では機能しない一方で、複数エキソン推定プロモーターの半分未満がこれらの基準を満たし、このことは、ＴＵＦが特定の期間または場所で発現する可能性がより高くなり得る。これらのデータはいくつかのＴＵＦが調節され、且つ生物学的に重要であるという仮説を支持する一方で、これらの転写産物が漏出転写活性を有するゲノム領域に存在し、その存在理由が偽上流プロモーター排列の存在である可能性がある。新規の転写領域の調節エレメントを特徴づけるためのＥＮＣＯＤＥコンソーシアム内で継続している実験は、どのＴＵＦが機能的に関連し、特異的に調節されるのかについての決定で役立つことが判明するであろう。

コアプロモーターおよび上流調節エレメント
４０ｂｐのコアプロモーターの６８％が基本プロモーター活性を保持し、これらのフラグメントがプロモーター中で認められる多くの強制を含むという本発明者らの所見は、コアプロモーターの重要性を強調している。しかし、欠失分析はまた、広域プロモーター全体にさらなる調節配列が存在することを証明している。プロモーターの−３５０ｂｐ〜−４０ｂｐの領域中の配列の連続的除去により、一過性トランスフェクションアッセイにおいてプロモーター活性を有意に減少し、これらの領域が正の調節エレメントを含むことを示している。逆に、−３５０ｂｐの上流領域は、転写開始に負の影響を及ぼすエレメントを含む傾向がある。この傾向は、いくつかの−１，０００〜−５００の領域内で特に顕著であった。

これらの実験により、遺伝子調節についての興味深い仮説を得ることができる。例えば、実験により、古典的に定義されたサイレンサーの基準を満たすＳＰＡＧ４プロモーター内の負のエレメントが証明される（ＯｇｂｏｕｍｅａｎｄＡｎｔａｌｉｓ１９９８）。ＳＰＡＧ４遺伝子は、テール伸長中に精子細胞で排他的に発現し（Ｔａｍａｓｋｙら１９９８）、ＴＳＳから−３７２と−８９８との間に存在するエレメントは、他の細胞型における発現の阻害によってこの遺伝子の組織特異的発現を制御するように作用する。組織特異的な正のエレメントによって開始される組織特異的発現が一般に認められている一方で、負のエレメントによる組織特異的調節の優先もニューロンにおいて以前に確立されており、これは、遺伝子発現がニューロン制限サイレンサーおよびこれに結合する因子によって制御される（ＳｃｈｏｅｎｈｅｒｒａｎｄＡｎｄｅｒｓｏｎ１９９５；Ｓｃｈｏｅｎｈｅｒｒら１９９６）。同定された負のエレメントを含むフラグメントにより、これらの遺伝子の調節に注目している研究に詳細な情報源が提供される。

内因性転写産物レベルへのプロモーターの調節に関する寄与
遺伝子発現分野における根本的な問題の１つは、広域プロモーター領域の転写調節への相対的寄与である。エンハンサー、サイレンサー、およびインスレーターなどの長期調節エレメントが同定され、特に発生中の遺伝子発現の空間的および一過性の調節で重要な役割を果たすことが示されている（ＨｏｗａｒｄａｎｄＤａｖｉｄｓｏｎ２００４）。しかし、この型の調節範囲は今後の課題である。さらに、ＤＮＡメチル化および共有結合性のヒストン修飾などのエピジェネティック変化も、クロマチン高次構造の変化によって遺伝子発現に寄与している（Ｌｕｎｙａｋら２００４）。ｍＲＮＡのプロセシングおよび安定性に影響を及ぼす転写後機構はまた、定常状態のＲＮＡレベルの調節で役割を果たす（Ｍｅｙｅｒら２００４；ＷｉｌｕｓｚａｎｄＷｉｌｕｓｚ２００４）。全てのこれらの寄与要因を使用して、プロモーターのヒト遺伝子発現への寄与の大規模な定量的評価が可能な実験上の証拠はほとんどない。ＥＮＣＯＤＥ領域におけるプロモーター活性の研究により、プロモーター機能とｍＲＮＡ転写産物レベルとの間の相関を測定する独特の機会が与えられた。

測定された定常状態のｍＲＮＡレベルは、種々の転写因子および転写後因子に影響を受け、これらの全因子は、プロモーター機能とｍＲＮＡレベルとの間の相関を減少させると予想されるであろう。それにもかかわらず、各細胞型においてプロモーター活性と内因性ｍＲＮＡレベルとの間に顕著に高い相関関係が存在することが認められ、これは、広域プロモーターが転写レベルの調節で有意な役割を果たすことを示す。計算された相関係数０．５３（Ｒ）に基づいて、転写レベルで認められたばらつきの２８％（Ｒ２）は、プロモーター活性の相違に寄与し得る。これは、プロモーター活性の測定およびｍＲＮＡの定量における独特の実験ノイズによる全プロモーター寄与の過小評価である可能性が高い。ほとんどの遺伝子は、調節入力（ｉｎｐｕｔ）の組み合わせが必要である可能性が高い。遺伝子の間のプロモーター機能とｍＲＮＡレベルとの間の相関の連続的分配は、この仮説を支持する。実験ノイズは、確実にこの連続的分配に寄与するが、広い分布により、いくつかの遺伝子がそのプロモーターによって完全に調節される一方で、他の遺伝子は発現を制御するための他のエレメントに依存するという概念が支持される。プロモーターとＲＮＡレベルとの間に強い相関関係を示す遺伝子を、変異分析によってさらに研究して、認められた調節を付与するプロモーターの特定の領域を突き止めることができる。

プロモーター機能を明らかにするためのデータの統合
ＥＮＣＯＤＥコンソーシアムによって作成された複数のデータセットの統合は、異なる実験アプローチを立証するために役立つ。ＥＮＣＯＤＥ領域にわたる活性プロモーターならびにＴＡＦ１およびＲＮＡＰＩＩ結合部位の位置を、有意に重ね合わせた。ＴＡＦ１およびＲＮＡＰＩＩの両方によって結合し、且つレポーターアッセイで試験した部位のうち、８５％が活性プロモーターであった。２つの実験の正の結果の間の強い重複は、多数の同一の機能的プロモーターを独立して同定するので、両アプローチを立証するのに役立つ。両因子によって結合したがレポーターアッセイにおいて機能的に活性ではなかった少数のフラグメントは、開始前複合体をアセンブリしたが停止しており、転写的に活性ではない部位を示し得る（Ｋｒｕｍｍら１９９５；Ｋｒｕｍｍら１９９２）。これらの遺伝子の内因性転写産物レベルを測定するさらなる研究により、どの部位が偽陽性のクロマチンＩＰの結果または偽陰性のレポーターデータよりもむしろ停止した複合体を示すのかを確認することができる。

最も驚いたことに、ＴＡＦ１またはＲＮＡＰＩＩ結合のいずれにも結合しないアッセイで測定された活性プロモーターの多くの例が見出された。これは、その一部がＴＡＦ１およびＲＮＡＰＩＩ結合についてのストリンジェントな閾値に起因する一方で、１つの生物学的説明として、ｉｎｖｉｖｏでこれらのプロモーターに対して作用する長期の負のエレメントがＴＡＦ１およびＲＮＡＰＩＩの結合を防止し、そのゲノムの文脈を無視して解釈し、負のエレメントから分離した場合、これらのフラグメントは一過性レポーター系でプロモーターとして作用する。これは、一定の細胞型または一定の条件下で関連する真の生物活性を反映し得る。

さらに、ＴＡＦ１やＲＮＡＰＩＩのいずれにも結合しないが、試験した細胞株中に検出可能な転写産物を有する活性プロモーターを有する７個の遺伝子を同定した。ＤＮＡ−タンパク質相互作用が種々の理由のためにクロマチン免疫沈降によって捕らえるのがより困難であるので、これらのプロモーターに結合する因子は検出がより困難である可能性がある。あるいは、いくつかのこれらのプロモーターを、ＴＡＦ１によって結合することができず、転写を開始するためにＴＡＦ１は必要ない。この仮説を支持して、以前の研究は、哺乳動物細胞中の温度感受性ＴＡＦ１対立遺伝子は、ＲＮＡＰＩＩ転写が広域に欠失しておらず、これは、全ての転写がＴＡＦ１を必要とするわけではないことを証明している（Ｓｕｚｕｋｉ−Ｙａｇａｗａら１９９７；ＷａｎｇａｎｄＴｊｉａｎ１９９４）。より多数のプロモーターが同定および特徴づけられるにつれて、プロモーターの小画分のみがＴＡＴＡボックスおよび一般的プロモーターの特徴であると以前に考えられていた他のエレメントを含むことが明らかとなりつつある。実際、より多数のプロモーターが機能的に特徴づけられるにつれて、「一般的転写機構」および「基本プロモーターエレメント」の概念が継続的に改良されるであろう。

示したデータは、全ヒトプロモーターの１％の機能研究を示す。ＥＮＣＯＤＥ領域のために作成した他のデータと組み合わせたデータは、ヒト細胞の調節エレメントを同定し、転写調節コードをより深く理解するための新規の機会を提供する。生物学的洞察の提供に加えて、これらの実験データセットと完全な配列保存およびモチーフデータとの組み合わせにより、ゲノム全体にわたるより正確なプロモーター予測を最終的に促進することができる。

方法
全長ｃＤＮＡ配列に基づくヒトプロモーターの予測
いくらか修正を加えたが前に記載のように、ＥＮＣＯＤＥ領域中の遺伝子のプロモーターの位置を予測した（Ｔｒｉｎｋｌｅｉｎら２００４；Ｔｒｉｎｋｌｅｉｎら２００３）。全てのヒトｃＤＮＡアラインメントを、全アラインメント数が１５３，６４２個のＵＣＳＣゲノムブラウザー（Ｋａｒｏｌｃｈｉｋら２００３）から利用可能な少なくとも９５％同一の２００３年７月のフリーズ（ｆｒｅｅｚｅ）からダウンロードした。これらのｃＤＮＡは、その時のＧｅｎＢａｎｋの利用可能な全てのｃＤＮＡに相当した。これらのｃＤＮＡのゲノムとのアラインメントを使用して、遺伝子モデルを、同一鎖上の少なくとも１ｂｐのエキソン重複での全アラインメントの融合によって定義した。各遺伝子モデルのために、１つのＴＳＳを遺伝子モデルの最も５’側の塩基として定義したが、単一エキソン転写産物は、複数エキソン遺伝子の５’末端を伸長できなかった。別の転写開示部位は、その５’末端が以前に定義した転写開始部位から少なくとも５００ｂｐ下流にある注釈付き全長クローンのみに基づいた。マニュスクリプト全体にわたって選択的プロモーターを、別のＲＮＡイソ型を転写する個別の配列と定義した。

クローニングおよびプラスミド調製
Ｐｒｉｍｅｒ３ソフトウェアを使用して、予測したＴＳＳの６００ｂｐの上流配列および１００ｂｐ下流の入力によってプライマーをデザインした（ＲｏｚｅｎａｎｄＳｋａｌｅｔｓｋｙ２０００）。各プライマー対は、転写開始部位と隣接させる必要があった。各プライマーの５’末端に、１６塩基対のテールを添加して、ＩｎｆｕｓｉｏｎＣｌｏｎｉｎｇＳｙｓｔｅｍ（ＢＤＢｉｏｓｃｉｅｎｃｅｓ，Ｃｌｏｎｔｅｃｈｃａｔｎｏ．６３９６０５）によるクローニングを容易にした（左のプライマーテール：５’−ＣＣＧＡＧＣＴＣＴＴＡＣＧＣＧＴ−３’、右のプライマーテール：５’−ＣＴＴＡＧＡＴＣＧＣＡＧＡＴＣＴ−３’）。以前に記載のタッチダウンＰＣＲプロトコール（Ｔｒｉｎｋｌｅｉｎら２００４）およびチタンＴａｑ酵素（ＢＤＢｉｏｓｃｉｅｎｃｅｓ，Ｃｌｏｎｔｅｃｈ，ｃａｔｎｏ６３９２１０）を使用して、フラグメントを増幅した。ＩｎｆｕｓｉｏｎＣｌｏｎｉｎｇＳｙｓｔｅｍを使用してＰＣＲ増幅フラグメントをクローニングするために、２μｌの精製ＰＣＲ産物および１００ｎｇの直鎖状にしたｐＧＬ３−Ｂａｓｉｃベクター（Ｐｒｏｍｅｇａ）を合わせた。この混合物を融合試薬に添加し、４２℃で３０分間インキュベートした。インキュベーション後、混合物を希釈し、コンピテント細胞（Ｃｌｏｎｔｅｃｈカタログ番号６３６７５８）に形質添加した。ＰＣＲによる挿入のためのクローンをスクリーニングし、以前に記載のように陽性クローンを調製した。ＤＮＡを９６ウェル分光光度計（ＭｏｌｅｃｕｌａｒＤｅｖｉｃｅｓ，Ｓｐｅｃｔｒａｍａｘ１９０）で定量し、トランスフェクションのために濃度を５０ｎｇ／μｌに規準化した。

ネガティブコントロールフラグメントの選択
ネガティブコントロールとしてアッセイするために実験フラグメントに類似の長さの全部で１０２個のフラグメントを選択した。予測した転写開始部位から少なくとも５ｋｂにあるコードエキソンから２４個のフラグメントを選別した。残りの７８個のサイズが適合したフラグメントを、ＥＮＣＯＤＥ領域から無作為に選択した。フラグメントが無作為に選択したフラグメントであるので、ＣＧ含量はＥＮＣＯＤＥワイドの平均（約４３％）に類似していた。プライマーをデザインし、推定プロモーターフラグメントのために行ったプロトコールと同一の全ての下流プロコールにしたがった。

細胞培養、一過性トランスフェクション、およびレポーター遺伝子活性アッセイ
１６の各細胞株（ＡＧＳ、Ｂｅ（２）−Ｃ、Ｇ−４０２、ＨＣＴ１１６、ＨｅｐＧ２、ＨｅＬａ、ＨＭＣＢ、ＨＴ１０８０、ＪＥＧ−３、ＭＧ−６３、ＭＲＣ−５、Ｐａｎｃ−１、ＳＫ−Ｎ−ＳＨ、ＳＮＵ−１８２、Ｔ９８Ｇ、およびＵ−８７ＭＧ）をＡＴＣＣから入手し、ＡＴＣＣによって提案されている培地中で増殖させた（ＳｕｐｐｌｅｍｅｎｔａｌＭｅｔｈｏｄｓｆｏｒｍｏｒｅｉｎｆｏｒｍａｔｉｏｎを参照のこと）。

培養したヒト細胞株のトランスフェクションを、以前に記載のように行い（Ｔｒｉｎｋｌｅｉｎら２００４）、５，０００細胞／ウェルを９６ウェルプレートに播種した（ＳｕｐｐｌｅｍｅｎｔａｌＭｅｔｈｏｄｓを参照のこと）。播種から２４時間後、ウェルあたり０．３μｌのＦｕＧｅｎｅ（Ｒｏｃｈｅ）トランスフェクション試薬を使用して、５０ｎｇの実験ルシフェラーゼプラスミドを、１０ｎｇのウミシイタケコントロールプラスミド（ｐＲＬ−ＴＫ、Ｐｒｏｍｅｇａカタログ番号Ｅ２２４１）と同時トランスフェクションを２連で行った。細胞型に応じてトランスフェクションから２４〜４８時間後に細胞を溶解した。ルシフェラーゼおよびウミシイタケ活性を、ＰＥＷａｌｌａｃ照度計およびＤｕａｌＬｕｃｉｆｅｒａｓｅＫｉｔ（Ｐｒｏｍｅｇａ，カタログ番号Ｅ１９６０）を使用して測定した。６０μｌの各ルシフェラーゼおよびウミシイタケ基質試薬を注入し、５秒間読み取ることを除いて、製造者によって提案されたプロトコールに従った。

データの分析および検証
全データを、ルシフェラーゼとウミシイタケとの変換比として報告した。１０２個のネガティブコントロールの平均比を決定し、ディクソン検定（Ｄｉｘｏｎ１９５０）によって外れ値を排除した。この検定により、各細胞株あたり０〜３個の外れ値が同定された。複数の細胞型では、２つの外れ値しか認められなかった。推定プロモーターの活性を、ネガティブコントロールの平均比を３標準偏差超える閾値の定義によって評価した。細胞型間の比較のために、各比を細胞株のネガティブコントロールの平均比で割り、１を足し、各比のｌｏｇ２を取ることによって規準化した（活性＝ｌｏｇ２（（ルシフェラーゼ／ウミシイタケ）／ＡｖｇＮｅｇ＋１）。４８個のプロモーターを独立して調製してデータを検証し、再現性を評価した。各サンプルを、新規の形質転換、細菌培養、ＤＮＡ抽出、定量、およびトランスフェクションから開始した。４つの細胞株のプロモーター活性をアッセイし、２つの独立したサンプルの変換ルシフェラーゼ／ウミシイタケ比の相関が０．９３であることが見出された。

配列分析および比較研究
モチーフの発見のために、図１に表示したクラスタリングに基づいてプロモーターをクラスターに分割し、ＭＥＭＥ（ＢａｉｌｅｙａｎｄＥｌｋａｎ１９９４）を使用して、各クラスター内に示されたモチーフを検索した。高ＧＣ含量が検索を混乱させ、有意なモチーフが同定されなかった。Ｂｉｏｐｒｏｓｐｅｃｔｏｒ（Ｌｉｕら２００１）を使用して、機能的プロモーターと非機能的プロモーターに差異が認められたモチーフを同定したが、いかなる有意なモチーフも発見されなかった。

ＥＮＣＯＤＥコンソーシアムの他のメンバーによって行われた分析（ＣｏｏｐｅｒａｎｄＳｉｄｏｗ、非公開）に基づいて、全ＥＮＣＯＤＥ標的領域について強制エレメントを同定した。ＭＬＡＧＡＮアラインメントソフトウェア（Ｂｒｕｄｎｏら２００３）を使用して構築した多配列アラインメントのＧｅｎｏｍｉｃＥｖｏｌｕｔｉｏｎａｒｙＲａｔｅＰｒｏｆｉｌｉｎｇ（ＧＥＲＰ、（Ｃｏｏｐｅｒら２００５）に詳述）分析を使用した２００４年１０月のＥＮＣＯＤＥ配列フリーズ（ＴｈｅＥＮＣＯＤＥＰｒｏｊｅｃｔＣｏｎｓｏｒｔｉｕｍ２００４）について、強制エレメントの注釈づけを行った。これらの強制エレメントは、集合的に、全ヒトＥＮＣＯＤＥ塩基の４．３％を対象とし、全エレメントは、９５％の信頼区間で統計的に有意である（Ｃｏｏｐｅｒら２００５）。（ＳｕｐｐｌｅｍｅｎｔａｌＭａｔｅｒｉａｌｓを参照のこと）。アップデートした強制エレメント注釈づけおよびスコアと共に、より多くの情報は、ＵＣ−ＳａｎｔａＣｒｕｚゲノムブラウザー（ｈｔｔｐ：／／ｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ／ＥＮＣＯＤＥ）のＥＮＣＯＤＥポータルから利用可能である。

プロモーター欠失系
４５個の各プロモーターのために、さらなるアンプリコンをデザインし、既にクローニングされている５００ｂｐフラグメントに加えて平均１，０００、３３０、２１０、９０、および４０個の上流塩基のプロモーターインサートを有するプラスミドを構築した（補助物質として利用可能なプライマー配列）。より小さな各フラグメントを、元のプロモーターからサブクローニングし、ゲノムＤＮＡから１，０００ｂｐフラグメントを増幅した。これらのフラグメントを、以前に記載のように（Ｔｒｉｎｋｌｅｉｎら２００４；Ｔｒｉｎｋｌｅｉｎら２００３）、制限酵素およびライゲーションを使用してクローニングした。クローニング後、構築物を、７つの細胞株：ＨＴ１０８０、ＨＣＴ１１６、ＡＧＳ、Ｔ９８Ｇ、Ｕ８７ＭＧ、ＨｅＬａ、およびＪＥＧ−３において上記のようにトランスフェクションし、アッセイした。

ＲＮＡ調製およびｃＤＮＡ合成
ＱＩＡＧＥＮＲＮＡ／ＤＮＡＭｉｎｉＫｉｔ（カタログ番号１４１２３）を使用して、１４の細胞型（ＡＧＳ、Ｇ−４０２、ＨＣＴ１１６、ＨｅＬａ、ＨｅｐＧ２、ＨＭＣＢ、ＨＴ１０８０、ＪＥＧ−３、ＭＧ−６３、ＭＲＣ−５、Ｐａｎｃ−１、ＳＮＵ−１８２、Ｔ９８Ｇ、およびＵ−８７ＭＧ）の２連のサンプルからＲＮＡを単離した。各細胞株を、単層で増殖させ、０．５ｍｌ溶解緩衝液中で４×１０６細胞を溶解した。ＲＮＡペレットを、１００μｌの無ＲＮアーゼ水に再懸濁した。次いで、ＲＮＡサンプルを、ランダム六量体、ポリＴファーストスタンダード合成プライマー、およびＳｕｐｅｒｓｃｒｉｐｔ逆転写酵素（Ｉｎｖｉｔｒｏｇｅｎ）の混合物の使用によって逆転写した。

定量的ＲＴ−ＰＣＲ
各遺伝子のｃＤＮＡ配列に対するアンプリコンをデザインし、リアルタイムＰＣＲを行って各遺伝子の絶対ｃＤＮＡ量を定量した（アンプリコンのサイズ範囲は６０〜１００塩基対）。各反応物は、３．５ｍＭＭｇＣｌ２、０．１２５ｍＭｄＮＴＰ、０．５μＭ順方向プライマー、０．５μＭ逆方向プライマー、０．５×ＳｙｂｒＧｒｅｅｎ（ＭｏｌｅｃｕｌａｒＰｒｏｂｅｓ）、１ＵＳｔｏｆｆｅｌフラグメント（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）、およびテンプレートＤＮＡを最終体積２０μｌ中に含んでいた。各アンプリコンについて、複製ｃＤＮＡサンプルに加えて、５０ｎｇ，５ｎｇ，５００ｐｇ，および５０ｐｇの総ゲノムＤＮＡの検量線が存在していた。Ｂｉｏ−ＲａｄＩｃｙｃｌｅｒにおける４０サイクルについて産物の蓄積を測定し、検量線の各希釈物の閾値サイクル（ｔｈｒｅｓｈｏｌｄｃｙｃｌｅ）を計算し、次いで、線形回帰を行ってｃＤＮＡサンプルからこの検量線までの閾値サイクルに適合させて、１４の各細胞株由来のｃＤＮＡのプール中の遺伝子のゲノム等価物の絶対数を測定した。β−アクチンレベルを測定し、各ｃＤＮＡ調製物中のＧＡＰＤＨを、各調製物中のｃＤＮＡの絶対量の任意のばらつきについて規準化した。３つのゲノムコントロールも測定して、夾雑ゲノムＤＮＡのバックグラウンドレベルまたは他のバックグラウンドシグナルを評価した。偽陽性および偽陰性の計算値について、ゲノムバックグラウンドコントロールの１０倍のＲＮＡ転写産物を検出可能と見なした。

（実施例２）
ヒト拡大（ｅｘｐａｎｄｅｄ）プロモーターの大規模な構造および機能の特徴づけ
１）プロモーター予測アルゴリズム（ＰＰＡｖ１．２）
本実施例は、図９Ｂに図解した方法の好ましい実施形態を提供する。

Ａ．ｃＤＮＡアラインメントのポストプロセシング
２００５年７月６日現在、ＵＣＳＣのＢＬＡＴアルゴリズムによってヒトゲノム（ｈｇ１７）に整列されたヒトｃＤＮＡ配列が２００，０００を超えて存在していた。これらのアラインメントは全て、ｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ．のウェブサイトで公的に利用可能である。

ＰＰＡは、これらのアラインメントをダウンロードし、配列同一性が９５％未満のアラインメント、ゲノムに整列していないｃＤＮＡ配列の５’末端に２００塩基超を有するアラインメント、および基準染色体配列にアセンブルされないランダム配列に整列されたアラインメントをフィルタリングによって除去した。これらのフィルターを使用して、５’末端に低品質の配列を有するｃＤＮＡを除去し、それにより、曖昧な転写開始部位を予測する。２００５年７月６日現在、これらの基準を満たすｃＤＮＡは２２３，１００個存在していた。

上記基準を満たすゲノム中の複数の場所に整列するｃＤＮＡをさらに分析して、推定プロセシング偽遺伝子を高度に類似した遺伝子または複製遺伝子と区別する。内因性ｍＲＮＡをＤＮＡに逆転写し、ゲノムに挿入した場合にプロセシング偽遺伝子が形成される。したがって、プロセシング偽遺伝子を区別する１つの特徴は、これらがしばしば単一エキソン遺伝子として出現することである。プロセシング偽遺伝子がウイルス複製のアーティファクトであるので、これらは、転写プロモーターの良好な指標ではない。したがって、ＰＰＡは、これらの配列をフィルタリングによる除去を試みる。エキソン遺伝子を、イントロンの長さによって同定することができるので、ＰＰＡは、各ｃＤＮＡの長さとそのｃＤＮＡのゲノムアラインメントの長さとの比の計算によってイントロンの長さを測定する。比１は単一エキソン遺伝子を示す一方で、比０．１は９０％のゲノムアラインメントがイントロン配列である遺伝子を示す。全アラインメント比の分布は、０．９５がアラインメントを「イントロンレス」と呼ぶための適切な閾値であることを示す。閾値は、ランダム配列決定のエラーおよび小さな一塩基の欠失および挿入を行うアラインメントアーティファクトを考慮するために、１よりわずかに低い。真の単一エキソン遺伝子が存在するので、ＰＰＡは全ての単一エキソン遺伝子を簡単にフィルタリングによって除去することができない。代わりに、ｃＤＮＡがゲノム中の複数の位置に整列する場合にＰＰＡは記録し、最も小さなアラインメント比は、ｃＤＮＡの全アラインメントのためのものである。最も小さな比が０．９５未満である場合、０．９５を超えるさらなるアラインメント比を、偽遺伝子と分類し、比が０．２を超えて異なる場合、最も小さなアラインメント比も偽遺伝子と呼び、比が０．２未満の相違である場合、最も小さな比を遺伝子ファミリーメンバーと呼ぶ可能性が高い。図１５は、ほぼ２，５００個の偽遺伝子を同定し、ＰＰＡｖ１．２によるフィルタリングによって除去することを示す表である。

ＰＰＡｖ１．１と比較して、ＰＰＡｖ１．２は以下の明確な特徴を有する。

−ＰＰＡ１．２は、ｃＤＮＡについて低ストリンジェントの品質管理を使用する。これにより、ｃＤＮＡの５’末端で２００ｂｐの配列が整列されない。ＰＰＡ１．１で使用した１００ｂｐカットオフは過度にストリンジェントであり得ることを示している。

−０ＰＰＡ１．２は、ゲノム中の複数の位置に整列するｃＤＮＡに対処し、ＰＰＡ１．１で実行しなかった方法でプロセシング偽遺伝子をフィルタリングによって除去する可能性が高い。

−ＰＰＡ１．２は、ランダムな非アセンブリ配列へのアラインメントをフィルタリングによって除去する。

Ｂ．遺伝子モデルのアセンブリ
ＰＰＡがｃＤＮＡアラインメントのポストプロセシングを終了した後、整列したｃＤＮＡを遺伝子モデルにアセンブリし始める。「遺伝子」の概念は、ゲノムの展望から見た場合、例外的に複雑になる。重複遺伝子、アンチセンス転写産物、トランススプライシング、および選択的プロモーターは全て遺伝子を定義が困難な物質にしている。Ｕｎｉｇｅｎｅと呼ばれるＮＣＢのプロジェクトは、ｃＤＮＡ配列を相互に整列させ、これらを一定量の類似の配列を有するｃＤＮＡ配列を「ｕｎｉｇｅｎｅ」クラスターに融合するというアプローチを取る。特に、類似のタンパク質ドメインを有する遺伝子を相互に整列し得るので、このアプローチは問題があり、類似のタンパク質ドメインは、この根本的な類似性のためであるが、これらが同一遺伝子の一部であったためではない。対照的に、ＰＰＡは、全てのｃＤＮＡゲノムアラインメントを相互に比較し、そのエキソンをゲノムの同一領域および同一鎖に整列するｃＤＮＡに基づいて遺伝子モデルをアセンブリする。ゲノム遺伝子座に割り当てるために全ｃＤＮＡ配列を使用し、次いで、一般的な基準ゲノム配列へのアラインメントに基づいて重複するエキソンをどのｃＤＮＡが有するのかを測定するので、この明確なアプローチは優れている。ＰＰＡは、同一鎖上の同一ゲノム領域中で少なくとも１つの他のｃＤＮＡとの少なくとも１塩基のエキソン重複を有する全ｃＤＮＡコレクションとして遺伝子モデルを定義する。図１は、遺伝子モデルを含むｃＤＮＡ群の例を示す。

単一ｃＤＮＡによって定義された遺伝子モデルは、多数のｃＤＮＡ配列によって定義された遺伝子モデルよりも信頼性が低く、これは、遺伝子モデルが単一の所見に基づき、ｃＤＮＡのみが単一エキソンｃＤＮＡである場合にさらにより曖昧になるからである。多数の機能的な生物学的に関連するＲＮＡ分子を、スプライシングなどのいくつかの方法でプロセシングし、ゲノムへのＲＮＡ配列のアラインメント中にギャップが作製される。上記のように真の単一エキソン遺伝子が存在する一方で、単一エキソンｃＤＮＡアラインメントの巨大なフラグメントは偽遺伝子を示す。さらに、ｃＤＮＡライブラリー中に存在する夾雑ゲノムＤＮＡの無作為な小片は単一エキソン遺伝子であると思われる。これは、このゲノムＤＮＡの小片がいかなる種類の方法においてもスプライシングやプロセシングを受けないからである。以前の研究は、単一ｃＤＮＡによって示された大部分の「単一エキソン遺伝子」が機能的転写プロモーターを持たないことも示している。これらの全ての理由のために、ＰＰＡＱは、１つの単一エキソンｃＤＮＡアラインメントによって定義される遺伝子モデルをフィルタリングによって除去する。これは、これらの遺伝子モデルが生物学的関連する遺伝子を実際に示す可能性が低いからである。

Ｃ．ＴＳＳおよび転写プロモーターの予測および分類
ＰＰＡが全てのｃＤＮＡをゲノムモデルにアセンブリした後、ＰＰＡは、遺伝子モデル内の転写開始部位（ＴＳＳ）を予測する。ＴＳＳを、遺伝子モデル中のその位置に基づき、このＴＳＳを確立するｃＤＮＡの型から分類する（図１４を参照のこと）。各遺伝子モデルについて、最も５’側のＴＳＳを定義する５’境界およびｃＤＮＡが存在する。いくつかの遺伝子は、最も５’側のＴＳＳの下流に別のＴＳＳを予測するｃＤＮＡを有する。これらのより短いｃＤＮＡは不完全な産物であり得、したがって、真の生物学的ＴＳＳは予測されないであろう。しかし、いくつかのｃＤＮＡは、哺乳動物遺伝子コレクションまたはＤＢＴＳＳなどの全長ｃＤＮＡについて富化されたライブラリーに由来する。他のｃＤＮＡは、質を評価するために手作業で処理されており、これは、ＮＣＢＩで構築したＲｅｆｓｅｑデータベースの一部である。ＰＰＡは、これらの全長ｃＤＮＡに基づいて、次のサブセットｃＤＮＡの少なくとも５００塩基下流のＭＧＣ、ＤＢＴＳＳ、またはＲｅｆＳｅｑから別のＴＳＳを予測する。さらに、ｃＤＮＡが同一遺伝子モデル中のより長いｃＤＮＡ由来のいかなるエキソンとも重複しない第１のエキソンを有する場合、別のＴＳＳを予測する。遺伝子の人為的に短縮された形態である可能性が低いので、独特の第１のエキソンにより、この特定のＴＳＳにおける信頼性が増す。したがって、ＰＰＡはまた、独特の第１のエキソンを含むｃＤＮＡから別のＴＳＳを予測する。単一エキソンｃＤＮＡに関する上記で提起した問題のために、ＰＰＡは、遺伝子モデル中の単一エキソンｃＤＮＡによって予測される任意の別のＴＳＳをフィルタリングによって除去する。図１は、各ＴＳＳ型を有する仮説上の遺伝子モデルおよびこれらを定義するｃＤＮＡの例を示す。さらに、ＰＰＡはまた、遺伝子モデル中の異なるｃＤＮＡによってコードされた読み取り枠を比較し、どのようにして別のＴＳＳの使用法が転写産物によって産生されたタンパク質産物に影響を及ぼし得るのかを記録している。

一旦ＰＰＡがゲノム中の各遺伝子モデルについてのＴＳＳの最終リストを確立すると、ＰＰＡは各ＴＳＳに関連するプロモーター配列を集める。転写プロモーターは、以下の２つの一般的部分を含む：転写開始部位の約７５ｂｐ上流および２０ｂｐ下流に存在するコアプロモーターＴＳＳの２，０００ｂｐまでの上流に存在する広域プロモーター領域。コアプロモーターは、ＲＮＡポリメラーゼおよび他の基本因子をアセンブリして転写を開始する領域であり、広域プロモーター領域は、しばしば、遺伝子の空間的および一過性の調節を制御する遺伝子特異的調節エレメントを含む。以前の研究によってより大きな部分中で定義したこれらのプロモーター境界に基づいて、ＰＰＡは、各ＴＳＳの２，１００ｂｐ上流および２００ｂｐ下流に存在するプロモーター配列を集める。

ＰＣＲ増幅し、これらのプロモーターフラグメントをクローニングするために、次いで、ＰＰＡは、各プロモーターの局所配列の内容ん応じて７００〜２，０００ｂｐの産物の範囲のこれらの各プロモーターフラグメントを増幅するＰＣＲプライマーをデザインするために開発されたｐｒｉｍｅｒ３プライマーデザインプログラムを呼び出す。各プライマーフラグメントのために、ＰＰＡは、ＰＣＲプライマーが各増幅フラグメント中にＴＳＳおを含み、プライマーが反復ＤＮＡを回避することが必要である。

ライゲーションによって各プロモーターフラグメントをクローニングするために、各プロモーター配列を、ディレクショナルライゲーション反応に有用な制限酵素対をスクリーニングしなければならない。このような目的で、ＰＰＡは各プロモーター配列をスクリーニングし、プロモーター配列中に部位が存在しないかどうかに応じて、３つの制限部位対の１つを使用する。ゲノムワイドのプロモーター分析に基づいて、３つの制限酵素対の使用により、ゲノムの全プロモーターの９７％を対象とるのに対して、単一の対の使用により、使用した酵素対に応じて５５〜７８％を対象とする（詳細については、図１６中の表を参照のこと）。一旦プロモーター配列が制限部位の内容に基づいて層状化すると、ＰＰＡは、順方向プロモーターおよび逆宝庫プライマー５’末端に適切な制限酵素認識配列して、プラスミドに有効なディレクショナルクローニングを行うことが可能である。

ＰＰＡアルゴリズムはまた、プロモーターフラグメントの同サイズの分布に適合したゲノム由来の３８４個のネガティブコントロールフラグメントセットを選択する。これらのフラグメントの約２５％は、遺伝子の両末端から少なくとも１０ｋｂに存在するランダム中間エキソン配列である。残りのネガティブコントロールフラグメントを、ＰＰＡによってプロモーターであると予測された領域以外のゲノムから無作為に選択する。

−ＰＰＡｖ１．２は、ＰＰＡｖ１．１で確立された基準の使用に加えて、独特の第１のエキソンを有するｃＤＮＡに基づいて、遺伝子モデル中の選択的プロモーターを予測する。

−ＰＰＡｖ１．２は、単一エキソンｃＤＮＡによって定義された別のＴＳＳを除去するのに対して、ＰＰＡｖ１．１は除去しない。

−ＰＰＡｖ１．２はまた、別のＴＳＳによって遺伝子モデル中の最も長いｃＤＮＡと比較して異なる読み取り枠が得られるかどうかを記録する。

−ＰＰＡｖ１．２は、７００ｂｐと２，０００ｂｐとの間のプロモーターフラグメントを増幅するようにプライマーをデザインした２，０００塩基の推定プロモーター配列を集める。本発明者らは、遠位プロモーター領域中で制御された相当な量の転写調節が存在し、これらのフラグメントを使用して行ったその後の機能アッセイは、７００塩基対未満のプロモーターフラグメントを使用して行った実験よりも情報量が多いと考えている。

図１５は、両アルゴリズムによって予測されたプロモーターのカテゴリーをまとめた表を示す。ＰＰＡｖ１．１は、ヒトゲノム中の６４，５２６個のプロモーターを予測し、ＰＰＡｖ１．２はヒトゲノム中の４５，０９６個のプロモーターを予測する（添付のＤＶＤで列挙した配列番号１〜４５０９６と指定した配列）。全プロモーター数のこの３０％減少は、ＰＰＡｖ１．１中に存在するノイズが非常に減少する。表１は、ＰＰＡｖ１．１およびＰＰＡｖ１．２の両方を使用して各カテゴリー中のプロモーター数をまとめている。

さらに、図１５は、真核生物プロモーターデータベース（ＥＰＤ）におけるプロモーターとの比較の結果を示す。ＥＰＤは、現在実験的に有益なＴＳＳを有する１，８０６個の非とプロモーターを含むデータベースである。これは、アルゴリズムの感度を試験するための合理的なヒトプロモーターセットである。ＰＰＡｖ１．１は、ＥＰＤ中のＴＳＳの２００ｂｐおよび５００ｂｐ以内のＴＳＳの９１．３％および９７．４％を予測する。同様に、ＰＰＡｖ１．２は、ＥＰＤ中のＴＳＳの２００ｂｐおよび５００ｂｐ以内のＴＳＳの９０．８％および９６．５％をそれぞれ予測する。したがって、両アルゴリズムは、ＥＰＤ中に存在するほぼ全てのプロモーターを捕捉する。ＰＰＡｖ１．２によって選別し損ねたＰＰＡｖ１．１によって選別された少数のＥＰＤプロモーターを検討し、興味深いことに、これらの全てが偽遺伝子の上流領域に対するＥＰＤ中の誤注釈づけであるようである。したがって、ＰＰＡｖ１．２は、ＰＰＡｖ１．１よりも有意に改良されており、感度を犠牲にすることなく有意により特異的である（３０％）。

２）大規模なプロモータークローニング
本実施例は、図１０Ｂに図解した方法の好ましい実施形態を提供する。

ヒトプロモーターフラグメントのハイスループットクローニングのためのいくつかの異なるアプローチは、ライゲーションベースの方法および組換えベースの方法を含む。新規の組換えベースのクローニング産物（ＩｎｖｉｔｒｏｇｅｎのＧａｔｅｗａｙｓｙｓｔｅｍおよびＣｌｏｎｔｅｃｈのＩｎＦｕｓｉｏｎｓｙｓｔｅｍなど）が有効であり、近年、非常に多く出回っている。実施例１では、Ｉｎｆｕｓｉｏｎｓｙｓｔｅｍを使用して、１，０００個を超えるプロモーターフラグメントをクローニングした。有効であるが、ＧａｔｅｗａｙおよびＩｎＦｕｓｉｏｎ用の試薬は非常に高い。別の欠点は、２０個もの余分な塩基を、各ＰＣＲプライマーの５’末端に付加するために必要であり、これがオリゴの費用を有意に引き上げていることである。ライゲーションベースのクローニング法および組換えベースのクローニング法の両方を使用した実験は、ＰＣＲおよびクローニング工程の両方でそれぞれ９０％を超える成功率を確実に示した。

５，０００個を超えるフラグメントをクローニングするために、何千もの各反応の取り扱いおよび追跡に関与する活動を最小にするためのプーリングアプローチを使用するための時間がより効率的になると推測した。何百ものサンプルの１つの反応物へのプールにより、全ての匿名でクローニングされたフラグメントを同定するのに必要な配列決定の試みに負担が移る。主な学術的および商業的配列決定センターは、途方もなくハイスループットになっており、何十万ものクローンを迅速且つ効率的に配列決定することができる。この専門知識の活用により、大規模なクローニングの試みに非常に役立つと考えられる。

３８４個のＰＣＲ産物をプールし、このプールからランダムフラグメントをクローニングするパイロット研究を行った。２４個の新規の推定プロモーターおよび１２個のネガティブコントロールフラグメントに相当するプラスミド（ルシフェラーゼレポーターカセットに対して５’側をクローニングしたプロモーター活性について試験すべきフラグメント）を構築した。この３６プラスミドのパネルを、９６および３８４ウェル形式で組織培養細胞（ＨＴ１０８０線維肉腫細胞）に２連でトランスフェクションした。次いで、５０ｎｇのプラスミドを各９６ウェル形式のウェルにトランスフェクションし、２０ｎｇのプラスミドを３８４ウェル形式のウェルにトランスフェクションした。トランスフェクション後、細胞を、３７℃に２４時間戻した。２４時間後、ルシフェラーゼ試薬を各ウェル（Ｓｔｅａｄｙ−Ｇｌｏ、Ｐｒｏｍｅｇａ）に添加した（１００μＬを９６ウェル形式に添加し、３０μＬを３８４ウェル形式に添加した）。５分間待機し、次いで、可視光出力を、プレート照度計を使用して各ウェルから１０秒間読み取った。

より少ないＤＮＡを３８４ウェル形式のより少ない細胞にトランスフェクションしたので、各ウェルからの可視光の絶対量は９６ウェルプレートで認められた量よりも少ないと予想される。実際、これは、光を用いて認められたものが３８４ウェル形式で約５０％減少したということである。しかし、この減少したレベルは、依然として照度計の十分に直線検出範囲内である。（より小さなウェルへの）スケールダウンプロセスによって同一のプラスミド構築物でトランスフェクションした複製ウェル間のばらつきが増加する（すなわち、実験ノイズが増加する）かどうかを見出すことを試みた。

この問題に取り組むために、各ウェル形式の各構築物の複製物の間の標準偏差を最初に計算した。しかし、レポーター活性の絶対レベルの相違により、標準偏差の数値を、２つのウェル形式間で比較することができなかった。異なる活性レベルを補正するために、各ウェル形式の各構築物の変動係数（ＣＶ、標準偏差を平均で割ったもの）を計算した。ＣＶが小さいほど、複製ウェルがより一致する。９６ウェル形式について、平均ＣＶは０．１５であった。３８４ウェル形式について、平均ＣＶは０．１２であった。それにより、複製物間のばらつきは、２つの形式についてほとんど同一であり、どちらかといえば、３８４ウェル形式がわずかに良好に実施された。さらに、試験した各フラグメントのプロモーター活性を、２つの形式間で比較し、全体の相関係数は０．９９であった。これは、３８４ウェル形式から集めたデータが９６ウェル形式から得たデータと同様に良好な品質であることを示す。

３８４個のクローン（１×平均）の配列決定により、１８８個の独特のフラグメント（４９％）が首尾よく回収された。ランダムポアソンサンプリングによって予測されるのは６３％ではないが、これは、予想される値に近く、各フラグメントがＰＣＲおよびクローニングの偏りによって等しく示されないことが知られている。図１７中の表は、本発明者らのパイロット実験に基づいた異なる範囲レベルで回収した独特のクローンの予想される比率を示す。以下の修正されたプロトコールを、任意のマルチウェルプレート、好ましくは、３８４ウェルプレートに適用する。

工程１：第１ラウンドのプール
各２５，０００個のプロモーターを、３８４ウェル形式で個別にＰＣＲ増幅した。予め混合した順方向および逆方向ＰＣＲプライマーを使用して、プラスチック製品、操作、および空間を節約する。忠実度の高いＰＣＲポリメラーゼを使用して、プロモーターを増幅し、１０ｋｂあたり１エラー未満で約９０〜９２％の成功率が予想される。成功率を、ゲル上で３８４のＰＣＲ反応の実施によって測定する。次いで、これらのＰＣＲ産物を、３８４フラグメントの６５プールに合わせる。３８４のプールを使用して研究するために、稀な過剰表示フラグメントの偏りを制限することを決定する。この方法では、過剰表示フラグメントを１つのプール内に含め、より均一に表示される他のプール中のフラグメントを妨害しない用にする。

各６５プール中のフラグメントを精製し、適切な制限酵素対で消化して粘着末端を得る。消化されたフラグメントを再度精製し、定量し、本発明者らのレポーターベクターにライゲーションする。また、本発明者らのレポーターベクターを、柔軟な多クローニング部位を含み、組換えベースのシャトル系に適合するように操作する。この目的のために、プロモーターに隣接する配列を、異なるベクター構築物に効率的にシャトルする用に操作する。ベクターはプラスミドベースのベクターであり、主に一過性遺伝子送達系で使用されるようにデザインされている。

各ライゲーション反応を、ミニライブラリーとして処理する。各ライゲーション物を、高効率の化学的にコンピテントな大腸菌に形質転換し、形質転換した細菌を適切な選択マーカーを含む１５０ｍｍの寒天プレートにプレートする。配列決定のための交渉によるサービスの一部には、コロニーピッキング、プラスミド調整、グリセロールストックの作製、および配列決定が含まれる。プレートを配列決定サービスに送る前に、１９２個のコロニーを選別し、各コロニーから精製プラスミドを調製し、少なくとも９９％のクローンに１ｋｂのインサートが確実に存在するように試験消化物を調製する。次いで、各ライブラリーから、７６８個のコロニー（２×平均）を各プレートから選別し、２ｍｌの培養液で一晩増殖させる。各培養物から、５０μＬアリコートをグリセロールストックとして保管し、残りの培地を使用して、各プラスミド中のプロモーターインサートを配列決定する。

図１７にまとめた研究に基づいて、約１５，２００個の独特の配列は、全てのプール中の元の約２５，０００個のプロモーターから回収されることが予想される（首尾のよいＰＣＲ反応物の約６６％）。自動化配列分析ツールを使用して、各配列を整列させて、基準ヒトゲノム配列から本発明者らのプロモーター配列のデータベースを読む。首尾よくクローニングされたプロモーターを同定し、クローニングされないプロモーターから注釈を作製する。次いで、液体取り扱いロボットを使用して、第１ラウンドでクローニングされなかったプロモーターフラグメントのＰＣＲプライマーを再配置する。

工程２：第２ラウンドのプール
以下の工程は、工程１と同一であり、最初に、前の工程で使用したプロモーター数の約３３％を有することのみが異なる。再配置プライマーからの最初の全てのＰＣＲ増幅を繰り返す。残存物を元のＰＣＲ反応物から再配置することができるので、ＰＣＲ産物を再生することは無駄が多いかもしれない。この経験に基づいて、凍結ＰＣＲ産物中にフラグメントを１週間を超えて放置したフラグメントのクローニング効率は有意に減少する。

以前の通り、ＰＣＲ産物をプールし、消化し、ライゲーションし、元のＰＣＲ反応物ほどの多さのコロニー（２×平均）を２回選別する。次いで、配列決定して新規にクローニングされたフラグメントを同定し、首尾よくクローニングされなかったプロモーターに注釈を付けた。第２ラウンドでＰＣＲの失敗物（ｆａｉｌｕｒｅ）が富化され、フラグメントのクローニングが困難になるので、より小さな比率の独特のフラグメントが第２ラウンドで回収されると予想される。これらの２ラウンド後に、２５，０００個の総プロモーターの約７５％がクローニングされると予想される。

２ラウンドのプール、解析、および再配置の実施に対する別のストラテジーは、１ラウンドを実施し、より広い範囲が得られるようにより多くのクローンを配列決定することであろう。ランダムサンプリングに基づいて、それぞれが倍数範囲で（ｆｏｌｄ−ｃｏｖｅｒａｇｅ）増加するより少ない独特のクローンが回収される。したがって、独特のクローンあたりの費用は、ライブラリーをより深く配列決定するにつれて増加する。

工程３：個別クローニング
ＰＣＲプライマーを再配置し、本発明者らの３つの主な制限酵素部位と不適合なために別の制限酵素対または平滑末端クローンを使用するプロモーターに加えて、前の２ラウンドでクローニングできなかった残りのプロモーターを個別にクローニングする。プールストラテジーでクローニングされない多数のプロモーターはＰＣＲを失敗する。したがって、ハイスループットスラブゲルにて各ＰＣＲ反応を行って、追跡する価値のないＰＣＲの失敗物を同定する。次いで、首尾のよいＰＣＲ反応物を再配置し、クローニング効率の低下を回避するために、１週間未満で９６ウェル形式にて個別に精製する。最後に、同一の消化、ライゲーション、および形質転換工程を、９６ウェル形式で個別に各フラグメントのみに対して行う。

３）大規模な機能的プロモーターアッセイ
本実施例は、図１１Ｂに図解した方法の好ましい実施形態を提供する。

ヒトゲノム中の全プロモーターをクローニングした後、重複していないプロモーター含有プラスミドセット（ネガティブコントロールも含む）を、大腸菌中で大量産生し、精製し、同一濃度（５０ｎｇ／μｌ）に希釈し、９６ウェルブロック（２ｍｌ／ウェル）中に保存する。液体取り扱いロボットを使用して、５０ｎｇの各プラスミドを、複数（６０個）の３８４ウェルプレートセットに再配列する。選択的工程は、各ウェルに１０ｎｇの同一のトランスフェクションコントロールプラスミドも添加することである。トランスフェクションコントロールプラスミドは、実験プロモータープラスミドに対して使用したプロモーターよりも異なるレポーターを駆動する遍在性プロモーターを有する。各プレートは、プレート規準化構築物（ＰＮＣ）のカラム（１６ウェル）を含む。ＰＮＣセットは、プロモーターの強度範囲にわたる８つのポジティブコントロールフラグメントおよび８つのネガティブコントロールフラグメントを含む。各ウェル中でプラスミドＤＮＡを乾燥させ、次の適用のために保存する。

以下のアプローチの１つを使用して、生細胞への大規模なプラスミドの送達を行うことができる。

アプローチ１−ハイスループットでの従来の一過性トランスフェクション：Ｆｕｇｅｎｅ（Ｒｏｃｈｅ）などのリポフェクション試薬および無血清培地を含むトランスフェクション試薬混合物中にプラスミドを再懸濁する。トランスフェクション試薬は、プラスミドＤＮＡとリポソーム複合体を形成し、３８４ウェルプレート中で増殖した組織培養細胞に添加する準備をする。

アプローチ２−ハイスループットでの逆トランスフェクション：あるいは、上記に類似しているがグリセリンまたは寒天のいずれかの液化マトリックスも含むトランスフェクション試薬混合物にプラスミドを再懸濁する。次に、このトランスフェクション混合物が空の３８４ウェル組織培養プレートの底に沈殿し、これをマトリックス中に固化させる。次いで、生細胞をこのトランスフェクションマトリックスの上部にプレートすることができ、マトリックス中に含まれるプロモータープラスミドを取り上げる。ｃＤＮＡの逆トランスフェクションの詳細は、米国特許第６，５４４，７９０号；同第６，６７０，１２９号；同第６，９５１，７５７号；米国特許出願番号０９／８１７，００３号；および同第１０／３７９，１３０号（その全てを、全ての目的のためにその全体が本明細書中で参考として援用される）に記載されている。

上記の方法の１つにおいて一旦ライブラリー由来のプラスミドが細胞に送達されると、２４〜２８時間のレポーター遺伝子の発現時間を与えなければならない。実験は、化合物の添加または環境の変化などの実験条件の変化も含み得る。レポーター遺伝子の発現に十分な時間を与えた後、レポーター産物のレベルを、適切な基質（蛍光レポーター用）の添加または適切な波長の光（蛍光レポーター用）の励起のいずれかによって測定する。発光レポーターのための基質（実験プラスミドおよびトランスフェクションコントロールプラスミド（使用する場合）の両方用）を、生細胞に送達させるか、各ウェル中における溶解緩衝液での細胞の溶解、および基質と細胞抽出物との混合のいずれかによって送達させる。最後の工程は、各ウェルで得られたシグナル（各レポーターによる）を適切なデバイス（照度計または蛍光測定器）によって読み取ることである。

４）大規模な機能的プロモーターアッセイのデータ分析
本実施例は、図１２Ｂに図解した方法の好ましい実施形態を提供する。

一旦生データが回収されると、第１の工程は、実験シグナルの比をトランスフェクションコントロールシグナルで割る計算によってトランスフェクションコントロールプラスミドを使用する場合、トランスフェクションコントロールに基づいて規準化することである。次いで、実施された任意の複製トランスフェクションの平均を求める。

次の工程は、プレート規準化構築物（ＰＮＣ）を使用してプレート毎のばらつきを規準化することである。平均シグナルおよび標準偏差を、ＰＮＣ中の全プレートにわたる１６個の個別の構築物のそれぞれについて計算し、次いで、各プレートについての平均値から各構築物のシグナルの相違を計算する。角構築物の相違を、その構築物の標準偏差で割ることによって規準化する。この規準化は、より大きな絶対値に起因するＰＮＣ中のポジティブコントロールフラグメントのより大きな分散を補正する必要がある。次いで、各プレート中の１６個の規準化した相違を共に平均して、プレート規準化因子を誘導し、その因子を使用して各プレートのデータを規準化する。これにより、最終的に、各プロモーターについての規準化された未加工のプロモーター活性値が得られる。

規準化した未加工のプロモーター値は、ネガティブコントロールフラグメントの文脈で最も関連する。したがって、次の工程は、ネガティブコントロールフラグメントの値の分布を測定し、ネガティブコントロールの分布の平均値および標準偏差に関する各プロモーター値を示すことである。これにより、［未加工のプロモーター活性−ネガティブコントロールの平均値）／ネガティブコントロールの標準偏差］として計算する各プロモーターのＺスコアが得られる。Ｚスコアベースの分析は、ネガティブコントロール値の分布の変動が考慮されるので、実験間のデータをより良好に比較することが可能である。プロモーター活性のＺスコア測定は、細胞株の変動を活用し、これを補正する。

（実施例３）
ゲノムワイドでのＤＮＡメチル化状態の決定
本実施例は、図１３に図解したＤＮＡメチル化の決定方法の好ましい実施形態を提供する。プロセスを以下に示す。

組織培養細胞または組織サンプルのいずれかから、ＤＮＡアフィニティカラム（ＱｉａｇｅｎＤＮｅａｓｙキット中に提供されているもの）またはフェノール−クロロホルム抽出の反復のいずれかを使用して、高分子量のＤＮＡを調製する。２６０／２８０比が＞１．８であり、サンプル中にフェノールの残存微量物が存在しないことを確認する。

次に、１０μｇのゲノムＤＮＡを２μｌの以下の３つの各メチル感受性制限酵素で消化する：ＨｐａＩＩ、ＨｇａＩ、ＨｐｙＣＨ４ＩＶ。総体積１００μｌで２〜４時間消化する。これらの酵素を至適化して、酵素供給者（ＮＥＢ）によって提供された同一の緩衝液条件（ＮＥＢ緩衝液番号１）で作業する。

ＱｉａｇｅｎのＤＮｅａｓｙカラムを使用して、消化物由来のＤＮＡを精製する。最終体積が８５μｌの水で溶離する。２μｌの以下の各３つのメチル感受性制限酵素を使用した第２の消化反応においてこの溶離を使用する：ＡｃｉＩ、ＨｈａＩ、ＢｓｔＵＩ。総体積１００μｌで２〜４時間消化する。これらの酵素を至適化して、酵素供給者（ＮＥＢ）によって提供された同一の緩衝液条件（ＮＥＢ緩衝液番号４＋ウシ血清アルブミン）で作業する。

ＱｉａｇｅｎのＤＮｅａｓｙカラムを使用して、消化物由来のＤＮＡを精製する。最終体積が１００μｌの水で溶離する。メチル感受性酵素での一連の消化により、ゲノムの全ての非メチル化領域が枯渇するはずである。ＤＮｅａｓｙカラムのみが、１００ｂｐを超えるＤＮＡに結合し、それにより、消化によって産生されたより小さな小片を精製によって除去する。

次に、消化されたＤＮＡを蛍光ヌクレオチドまたはプライマー（ｃｙ３またはｃｙ５ｄＵＴＰまたはｄＣＴＰ）で標識する。同一のゲノムＤＮＡの未消化のコントロールサンプルも、消化サンプルで使用した標識と異なる蛍光標識で標識する。標準的な手順にしたがって、ゲノムマイクロアレイとの競合的ハイブリッド形成に両サンプルを適用する。マイクロアレイは、スポットされたプロモーターまたは目的のゲノム領域全体にタイル状に配置するＣｐＧアイランドアレイもしくはオリゴアレイのいずれかであり得る。

マイクロアレイの線状およびスキャニング後、各マイクロアレイの特徴について、消化ＤＮＡシグナルと未消化ＤＮＡシグナルとのｌｏｇ（２進法）比を計算する。酵素処理によって枯渇すべきではないネガティブコントロール領域を使用して、約０のｌｏｇ比のばらつきを測定する。ログ比０は、処理サンプルおよび未処理サンプルの両方における特定の標的の等しい量を示す両方の色由来の等しいシグナルに対応する。

本発明の好ましい実施形態を本明細書中に表示し、説明してきたが、かかる実施形態を例示のみを目的として提供することが当業者に明らかであろう。当業者は、本発明を逸脱することなく、多数の変形形態、変更形態、および置換形態をここに得るであろう。本明細書中に記載の本発明の実施形態の種々の代替物を、本発明の実施において使用することができると理解すべきである。以下の特許請求の範囲は本発明の範囲を定義し、これらの特許請求の範囲およびその等価物の範囲内の方法および構造が本発明によって対象とされることが意図される。

（配列表）
配列番号１〜４５，４９６を、出願書類に同封してファイル名３３１０２−７０１．６０１．ＳｅｑＬｉｓｔ．ＳＴ２５．ｔｘｔとしてコンパクトディスクで提供する。

（参考文献）

本発明の新規の特徴を、特に添付の特許請求の範囲を使用して記載している。本発明の原理を利用した例示的実施形態を記載した以下の詳細な説明および以下の添付の図面によって本発明の特徴および利点がさらに理解されるであろう。
図１は、６４２個の推定プロモーターフラグメントのクラスタグラムである。クラスタグラムは、１６種の多様な細胞株の間のプロモーター活性の階層的クラスタリングを示す。各横列は、各細胞株中のフラグメントのプロモーター活性を示し、赤色は活性の程度を示し、黒色は活性なしを示す。プロモーター活性を規準化し、ログ変換して、細胞株間の比較できる値を反映した。領域Ａは、全細胞株中の強い遍在する活性を有するプロモーターフラグメントのクラスターを示し、領域Ｂは、１６の細胞型で変動する機能を示すプロモーターフラグメントのクラスターを示す。図２は、２つのプロモーターがテスティン（ｔｅｓｔｉｎ）遺伝子を識別的に調節することを示す。Ａ）テスティン（ＴＥＳ）遺伝子の遺伝子構造。ＢおよびＣ）形質転換されたルシフェラーゼ／ウミシイタケ比として示した１６の試験細胞株中のＴＥＳ遺伝子のプロモーターのプロモーター活性。Ｂ）プロモーターＡは、１６組織のうちの１２組織で活性を示すが、２つの能細胞株Ｕ８７およびＴ９８Ｇでは活性はほとんど認められなかった。Ｃ）プロモーターＢは、Ｕ８７およびＴ９８Ｇ（共に脳細胞株）でのみ有意な活性を有する。図３は、プロモーター欠失構築物のレポーター活性を示す。Ａ）プロモーター欠失構築物の図。Ｂ）上流配列を減少させた６つの各構築物（１，０００ｂｐ、５００ｂｐ、３５０ｂｐ、２００ｂｐ、９０ｂｐ、４０ｂｐ）について認められた平均プロモーター活性。平均は、４５のプロモーターおよび７つの細胞株（ＨＴ１０８０、ＨｅＬａ、ＨＣＴ１１６、Ｇ−４０２、ＡＧＳ、Ｔ９８Ｇ、およびＪＥＧ３）中の構築物の規準化した活性を示す。三連でアッセイし、規準化したルシフェラーゼ／ウミシイタケ比として示したプロモーター活性により、細胞株内および細胞株間の活性を比較するためのトランスフェクション規準化値が得られる。Ｃ）７つの細胞型のＵＤＰ−グリコシルトランスフェラーゼ遺伝子（ＵＧＴ１Ａ１０）の間のプロモーターフラグメントの平均活性。Ｄ）７つの細胞型間の精子関連抗原４（ＳＰＡＧ４）プロモーターフラグメントの平均活性。ＳＰＡＧ４プロモーターの８９８ｂｐフラグメントは、３７２ｂｐフラグメントより非常に低い活性を示す。図４は、ＳＰＡＧ４プロモーター中の負の調節エレメントのレポーター活性を示す。６つの構築物（１、ＳＰＡＧ４−３７２ｂｐフラグメント。２、サイズを制御するために縦列重複物中でクローニングしたＳＰＡＧ４−３７２ｂｐプロモーター。３、ＳＰＡＧ４３７２ｂｐプロモーターの上流にクローニングした５００ｂｐのランダム配列。４、ＳＰＡＧ４８９８ｂｐフラグメント。５、異種プロモーターの上流にクローニングしたＳＰＡＧ４−８９８〜−３７２フラグメント。６、異種プロモーターＢのＳＰＡＧ４−８９８→４３７２フラグメント）の２つの細胞型（ＨＴ１０８０およびＨＣＴ１１６）の間の平均プロモーター活性。エラーバーは、各構築物の４つの複製物の平均から１標準偏差を示す。図５は、内因性ＲＮＡ転写産物レベル対プロモーター活性の散布図である。絶対ゲノム当量として示したＲＮＡレベルをＸ軸にプロットし、規準化プロモーター活性をＹ軸に示す。相関関数を計算した（ｒ＝０．５３）（Ｒ２＝０．２８）。象限の境界を、ＲＮＡ転写レベルの中央値（０．１７ゲノム当量）およびプロモーター活性の中央値（２．６９ルシフェラーゼ／ウミシイタケ比）に設定する。図６は、表１を示す。クラスによるプロモーター活性。複数エキソンおよび単一エキソンの予想を再分割し、それにより有意に異なる有効率を示す。最も長いｃＤＮＡプロモーターおよび別の（内部）プロモーターについてさらに分類することにより、両カテゴリー内の最も長いｃＤＮＡの予測がよりうまくいく。高信頼性予測（ＨｉｇｈＣｏｎｆｉｄｅｎｃｅｐｒｅｄｉｃｔｉｏｎｓ）（ＨｉＣｏｎｆ）は、予測のために使用した遺伝子モデル内のＲｅｆＳｅｑ遺伝子または１つを超えるｃＤＮＡのいずれかによる転写開始部位を支持する。図７は、表２を示す。プロモーター結合因子（ＴＡＦ１およびＲＮＡＰＩＩ重複機能的プロモーター）の位置。カラム１：各因子の結合部位数。カラム２：結合部位と重複する推定全プロモーター数。カラム３：一過性トランスフェクションレポーターアッセイによって試験された結合部位数。カラム４：プロモーター活性を有する重複フラグメントの数および比率。図８Ａは、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能分析のための方法を概略的に示す。図８Ｂは、ヒト転写プロモーターなどの多数の調節エレメントの同定、単離、および機能分析のための別の実施形態を概略的に示す。図９Ａは、転写プロモーターの予測方法の１つの実施形態を概略的に示す。図９Ｂは、転写プロモーターの予測方法の別の実施形態を概略的に示す。図１０Ａは、プロモーターを単離し、このプロモーターをレポーターベクターにクローニングする方法の１つの実施形態を概略的に示す。図１０Ｂは、プロモーターを単離し、このプロモーターをレポーターベクターにクローニングする方法の別の実施形態を概略的に示す。図１１Ａは、ハイスループット様式での複数のプロモーターの転写活性の検出方法の１つの実施形態を概略的に示す。図１１Ｂは、大量ハイスループット様式での複数のプロモーターの転写活性の検出方法の別の実施形態を概略的に示す。図１２Ａは、複数のプロモーターの機能アッセイで得たデータの分析法表の１つの実施形態を概略的に示す。図１２Ｂは、多数のプロモーターの機能アッセイで得たデータの分析法表の別の実施形態を概略的に示す。図１３は、ゲノムワイドのプロモーターのメチル化状態の大量ハイスループットによる決定方法の１つの実施形態を概略的に示す。図１４は、各転写開始部位（ＴＳＳ）型およびこれらを定義するｃＤＮＡを含むゲノムモデルを概略的に示す。本発明のプロモーター予測アルゴリズム（ＰＰＡ）は、同一鎖上の同一のゲノム領域中の少なくとも１つの他のｃＤＮＡと少なくとも１つのエキソン塩基が重複するｃＤＮＡの全コレクションとして遺伝子モデルを定義する。ＰＰＡが全ｃＤＮＡを遺伝子モデルにアセンブリした後、ＰＰＡは遺伝子モデル内でＴＳＳを予測する。ＴＳＳを、その遺伝子モデル中の位置に基づき、ＴＳＳを確立するｃＤＮＡ型から分類する。各遺伝子モデルについて、ほとんどの５’ＴＳＳを定義する５’境界およびｃＤＮＡが存在する。いくつかの遺伝子モデルは、ほとんどの５’ＴＳＳの別のＴＳＳ下流を予想するｃＤＮＡを有する。ＰＰＡは、次に最も近いｃＤＮＡの少なくとも５００塩基下流に存在するＭＧＣ、ＤＢＴＳＳまたはＲｅｆＳｅｑ由来のこれらの全長ｃＤＮＡに基づいて別のＴＳＳを予測する。さらに、ｃＤＮＡが同一の遺伝子モデル中のより長いｃＤＮＡ由来のいかなるエキソンとも重複しない第１のエキソンを有する場合、別のＴＳＳを予測する。独特の第１のエキソンは、遺伝子の人為的に短縮された形態である可能性が高くないので、その特定のＴＳＳにおいて信頼性が増す。検討する単一エキソンｃＤＮＡによってもたらされる問題のために、ＰＰＡは、その遺伝子モデル中の単一エキソンｃＤＮＡによって予測される任意の別のＴＳＳをフィルタリングによって除去する。遺伝子モデル構築アプローチおよびＴＳＳカテゴリー分類は、添付のテキストに詳述されている。図１５は、ＰＰＡｖ１．１およびＰＰＡｖ１．２の出力をまとめた表を示す。ＰＰＡｖ１．１は、ヒトゲノム中の６４，５２６個のプロモーターを予測し、ＰＰＡｖ１．２はヒトゲノム中の４５，０９６個のプロモーターを予測する（その配列を、添付のＣＤ中に列挙した配列番号１〜４５０９６と指定する）。最も５’側のカテゴリーに相当する推定プロモーターの比率の増加により、偽遺伝子、推定単一エキソン遺伝子、およびランダム配列アラインメントに関連する推定プロモーターの比率が減少した別の第１のエキソンおよび複数エキソン遺伝子モデルは、全プロモーター数のこの３０％の減少がＰＰＡｖ１．１に存在したノイズの減少に相当することを示す。したがって、ＰＰＡｖ１．２は、ＰＰＡｖ１．１よりも有意に改良されており、感度を犠牲にすることなく有意により特異的である。さらに、２つのバージョンの能力を比較して、真核生物プロモーターデータベース（ＥＰＤ）（以前に既刊文献中で同定された約１，８００個のプロモーター配列を含む公的に利用可能なデータベース）に存在するプロモーターを同定した。ＥＰＤ配列との重複は、２つのバージョンで非常に類似しており、ＰＰＡｖ１．２が真のプロモーターを検出するための感度を失うことなく予測物からノイズを除去することをさらに示す。図１６は、異なる制限酵素対を使用してクローニング可能な推定プロモーター配列の比率を列挙した表を示す。レポーターベクターへのプロモーターフラグメントのライゲーションベースのクローニングを容易にするために、制限酵素部位配列を各プロモーターの順方向プライマーおよび逆方向プライマーに付加する。ディレクショナルクローニングのために、１つの配列を順方向プライマーに付加し、異なる配列を逆方向プライマーに付加する。かかるアプローチが有効である場合、クローニングすべき増幅プロモーター配列は、プライマーに付加すべき制限部位配列を含まないことが好ましい。好ましくは、本発明のＰＰＡは、各プロモーター配列をスクリーニングし、どの部位がプロモーター配列中に存在しないかに応じて、３つの制限部位のうちの１つを使用する。ゲノムワイドのプロモーター分析に基づいて、３つの制限酵素対の使用により、ゲノムの全プロモーターの９７％を対象とするのに対して、単一対の使用は、使用される酵素対に応じて５５〜７８％を対象とする。図１７は、プールしたクローニングストラテジーを使用した異なるレベルの配列決定範囲で回収された独特のクローンの予測比率および実際の比率を列挙した表を示す。

Claims

発現構築物のライブラリーであって、該ライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、
（ａ）該ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｃ）該ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、発現構築物のライブラリー。
前記ライブラリー中の核酸セグメントの平均長が、７００ヌクレオチドと１２００ヌクレオチドとの間である、請求項１に記載のライブラリー。
前記ライブラリー中の核酸セグメントの平均長が、８００ヌクレオチドと１１００ヌクレオチドとの間である、請求項１に記載のライブラリー。
前記ライブラリー中の核酸セグメントの少なくとも９０％が、７００ヌクレオチドと１３００ヌクレオチドとの間の長さを有する、請求項１に記載のライブラリー。
各核酸セグメントが、転写開始部位の上流に少なくとも５００ヌクレオチド含む、請求項１に記載のライブラリー。
前記核酸セグメントのうちの５％以下が、ｃＤＮＡアラインメント人工産物に天然に結合されている、請求項１に記載のライブラリー。
前記ライブラリーが、ゲノム中の各転写調節配列の転写調節下で遺伝子を天然に示すための指標がついている、請求項１に記載のライブラリー。
前記レポーター配列が、同一のレポーター分子をコードする、請求項１に記載のライブラリー。
前記レポーター配列が、発光レポーター分子、蛍光レポーター分子、または比色分子をコードする、請求項１に記載のライブラリー。
各レポーター配列が、可視シグナルをレポートする所定の独特のヌクレオチドバーコードおよび／またはレポーターを含む、請求項１に記載のライブラリー。
前記ゲノムが哺乳動物ゲノムである、請求項１に記載のライブラリー。
前記ゲノムがヒトゲノムである、請求項１に記載のライブラリー。
前記ゲノムがマウスゲノムである、請求項１に記載のライブラリー。
前記核酸セグメントの多様度が少なくとも１００である、請求項１に記載のライブラリー。
前記核酸セグメントの多様度が少なくとも５００である、請求項１に記載のライブラリー。
前記発現構築物がプラスミドまたはウイルス構築物である、請求項１に記載のライブラリー。
前記核酸セグメントが、配列番号１〜４５０９６、もしくはそのフラグメント、またはそれらに対して少なくとも７０％、７５％、８０％、８５％、９０％、９５％、もしくは９８％の相同性を有する配列を有する核酸からなる群から選択されるＤＮＡセグメントのうちの少なくとも２つを含む、請求項１に記載のライブラリー。
単離された核酸分子のライブラリーであって、該ライブラリーの各メンバーは、ゲノム由来の異なる所定の核酸セグメントを含み、該セグメントが転写調節配列を含み、
（ａ）該ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｃ）該ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、ライブラリー。
組換え核酸分子のライブラリーであって、該ライブラリーの各メンバーは、異種核酸分子に連結したゲノム由来の異なる所定の核酸セグメントを含み、該セグメントが転写調節配列を含み、
（ａ）該ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｃ）該ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、組換え核酸分子のライブラリー。
前記核酸分子が、前記セグメントの５’側に隣接する制限部位と３’側に隣接する制限部位との対を含む、請求項１９に記載のライブラリー。
前記核酸分子が、増幅に使用することができるＰＣＲプライマーに相補的なセグメントの５’末端に隣接する制限部位と３’末端に隣接する制限部位との対を含む、請求項１９に記載のライブラリー。
細胞のライブラリーであって、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、該発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写制御下にあり、
（ａ）該ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｃ）該ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、細胞のライブラリー。
前記細胞がヒト細胞である、請求項２２に記載のライブラリー。
前記細胞が非ヒト細胞である、請求項２２に記載のライブラリー。
細胞内に発現構築物のライブラリーを含む細胞のコレクションであって、該発現構築物のライブラリーの各メンバーがゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異なる異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写調節下にある、細胞のコレクション。
前記異なる発現構築物を含む細胞が同定可能なバイアルまたはウェル中に存在する、請求項２５に記載の細胞のコレクション。
（ａ）前記ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｃ）該ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、請求項２５に記載の細胞のコレクション。
複数のウェルを含む少なくとも１つのプレートを含むデバイスであって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、各メンバーがウェル中の既知の位置を有する、デバイス。
（ａ）前記ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｃ）前記ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、請求項２８に記載のデバイス。
前記構築物が、乾燥核酸の形態であるかまたは溶けている、請求項２８に記載のデバイス。
前記構築物が、トランスフェクションマトリックスの組み合わせの状態にある、請求項３０に記載のデバイス。
９６ウェルプレート、３８４ウェルプレート、または１５３６ウェルプレートを含む、請求項２８に記載のデバイス。
前記遺伝子発現調節エレメントが、配列番号１〜４５０９６、もしくはそのフラグメント、またはそれらに対して少なくとも７０％、７５％、８０％、８５％、９０％、９５％、もしくは９８％の相同性を有する配列を有する核酸からなる群から選択されるＤＮＡセグメントのうちの少なくとも２つを含む、請求項２８に記載のデバイス。
複数のウェルを含む少なくとも１つのプレートを含むデバイスであって、各ウェルが細胞のライブラリーの異なるメンバーを含み、細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写制御下にあり、前記細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、デバイス。
（ａ）前記発現構築物のライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｂ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｃ）該ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、請求項３４に記載のデバイス。
標的遺伝子発現調節エレメントの生物機能を特徴づけるためのキットであって、
（ａ）複数のウェルを含む少なくとも１つのプレートを含むデバイスであって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が転写調節配列の転写制御下にあり、各メンバーがウェル中の既知の位置を有する、デバイス、および
（ｂ）レポーターアッセイ基質
を含む、キット。
標的遺伝子発現調節エレメントの生物機能を特徴づけるための説明書をさらに含む、請求項３６に記載のキット。
表面および前記表面にそれぞれ異なる既知の位置に固定された核酸分子を含む固体基板を含むデバイスであって、各分子が転写調節配列を含むゲノムセグメント由来の少なくとも１０ヌクレオチドのヌクレオチド配列を含み、該デバイスが少なくとも５０の異なるゲノムセグメント由来の転写調節配列を含む、デバイス。
各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結している、請求項３８に記載のデバイス。
前記遺伝子発現調節エレメントが、配列番号１〜４５０９６またはそのフラグメントからなる群から選択されるＤＮＡセグメントのうちの少なくとも２つを含む、請求項３８に記載のデバイス。
前記分子が６０ヌクレオチド以下の長さである、請求項３８に記載のデバイス。
前記各ゲノムセグメントが複数の分子を含むセットにより表され、該セット中の各分子がゲノムセグメント由来の異なるヌクレオチド配列を含む、請求項３８に記載のデバイス。
（ａ）請求項３４に記載のデバイス、
（ｂ）該デバイスの各ウェル中で発現されたレポーター配列由来のシグナルを検出するように適合された読み取り装置、
を含むシステム。
前記デバイスが、所定のシグナルレベルを提供する複数のコントロール構築物を含み、前記システムが、（ｃ）（ｉ）該コントロール構築物由来のシグナルに基づいてプレートの全ウェル由来のシグナルを規準化するアルゴリズムを実行するコードを含むソフトウェアをさらに含む、請求項４３に記載のシステム。
請求項４４に記載のアルゴリズムを実行するコードを含むソフトウェア。
（ａ）複数のウェルを含む少なくとも１つのプレートを含むデバイスを提供する工程であって、各ウェルが細胞のライブラリーの異なるメンバーを含み、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、前記セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、該細胞のライブラリーの各メンバーがウェル中の既知の位置を有する、提供する工程、
（ｂ）該細胞を培養する工程、および
（ｃ）各ウェル中のレポーター配列の発現レベルを測定する工程
を含む、方法。
（ｉ）前記ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｉｉ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｉｉｉ）前記ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、請求項４４に記載の方法。
前記デバイスを提供する工程が、
（ｉ）複数のウェルを含む少なくとも１つのプレートを含むデバイスを提供する工程であって、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、該発現構築物のライブラリーの各メンバーがウェル中の既知の位置を有する、工程、
（ｉｉ）該ウェルの各々に細胞を送達する工程、
（ｉｉｉ）該発現構築物で該細胞をトランスフェクションする工程を含む、請求項４４に記載の方法。
（ｄ）各ウェル中で前記細胞を撹乱する工程、
（ｅ）各ウェル中の前記レポーター配列の発現レベルを測定する工程、および
（ｆ）任意のウェル中の発現レベルが該細胞と試験化合物との接触後に変化したかどうかを決定する工程
をさらに含む、請求項４４に記載の方法。
前記撹乱する工程が、各ウェル中の前記細胞を試験化合物と接触させる工程、該細胞を異なる環境条件に曝露する工程、変異の誘導などによって持続的または一過性に該細胞を遺伝子改変する工程、例えばｃＤＮＡでのトランスフェクションによって転写産物を過剰発現させる工程、またはｓｉＲＮＡによって転写産物の発現を減少させる工程を含む、請求項４９に記載の方法。
前記レポーター配列がレポーター分子をコードし、前記レポーター配列の発現の測定が該レポーター分子の発現の測定を含む、請求項４４に記載の方法。
（ａ）第１のデバイスおよび第２のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも１つのプレートを含み、前記各ウェルが細胞のライブラリーの異なるメンバーを含み、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、該細胞のライブラリーの各メンバーがウェル中の既知の位置に存在し、前記第１のデバイスおよび第２のデバイスが同じタイプの細胞を含み、前記発現構築物のライブラリーが該第１のデバイスおよび該第２のデバイスで同一である、工程、
（ｂ）該第１のデバイスおよび該第２のデバイスの細胞を異なる培養条件下で培養する工程、
（ｃ）各ウェル中の該レポーター配列の発現レベルを測定する工程、および
（ｄ）該レポーター配列の発現レベルを前記第１の細胞型と第２の細胞型との間で各転写調節配列と比較する工程
を含む、方法。
前記異なる培養条件が、前記第１のデバイスの細胞の培養物中に存在しない化合物の存在下で前記第２のデバイスの細胞を培養する工程を含む、請求項５２に記載の方法。
（ａ）第１のデバイスおよび第２のデバイスを提供する工程であって、各デバイスが複数のウェルを含む少なくとも１つのプレートを含み、各ウェルが細胞のライブラリーの異なるメンバーを含み、該細胞のライブラリー中の各細胞が発現構築物のライブラリーの異なるメンバーを含み、各発現構築物がゲノム由来の異なる核酸セグメントを含み、該セグメントが発現ベクター中の異種レポーター配列に作動可能に連結された転写調節配列を含み、その結果、該レポーター配列の発現が該転写調節配列の転写制御下にあり、該細胞のライブラリーの各メンバーがウェル中の既知の位置を有し、該第１のデバイスが第１の型の細胞を含み、第２のデバイスが第２の型の細胞を含み、該発現構築物のライブラリーが該第１のデバイスおよび該第２のデバイスで同一である、提供する工程、
（ｂ）該第１のデバイスおよび該第２のデバイスの細胞を培養する工程、
（ｃ）各ウェル中の該レポーター配列の発現レベルを測定する工程、および
（ｄ）該レポーター配列の発現レベルを該第１の細胞型と該第２の細胞型との間で各転写調節配列と比較する工程
を含む、方法。
（ｉ）前記ライブラリーは、少なくとも５０の異なる核酸セグメントという多様度を有し、
（ｉｉ）各核酸セグメントは、該ゲノム中でｃＤＮＡとして発現される配列に天然では連結しており、
（ｉｉｉ）該ライブラリー中の核酸セグメントの平均長が少なくとも６００ヌクレオチドである、請求項５４に記載の方法。
前記デバイスを提供する工程が、
（ｉ）デバイスを提供する工程であって、各デバイスが、複数のウェルを含む少なくとも１つのプレートを含み、各ウェルが発現構築物のライブラリーの異なるメンバーを含み、該発現構築物のライブラリーの各メンバーがウェル中の既知の位置を有する、工程、
（ｉｉ）該ウェルの各々に細胞を送達す工程、
（ｉｉｉ）該発現構築物で該細胞をトランスフェクションするかまたは感染させる工程を含む、請求項５４に記載の方法。
請求項４６に記載の方法によって測定された構築物由来の発現レベルを評価するための方法であって、
（ａ）コントロールレポーター構築物セットを含む細胞セットを提供する工程であって、各コントロールレポーター構築物が前記異種レポーター配列に作動可能に連結されたランダムゲノムフラグメントを含む、提供する工程、
（ｂ）各細胞中の該レポーター配列の発現レベルを測定する工程、
（ｃ）該コントロール構築物間の発現レベルの平均値または平均を決定する工程、
（ｄ）各試験構築物の発現レベルについて、平均値または平均からの統計的距離を決定する工程、および
（ｅ）偏差が統計的に有意であるかどうかを決定する工程
を含む、方法。
前記偏差が標準偏差である、請求項５７に記載の方法。
前記ランダムゲノムフラグメントが、実験フラグメントと同一サイズの分布のゲノムから選択されるランダムフラグメントである、請求項５７に記載の方法。
前記ランダムゲノムフラグメントが、タンパク質コード遺伝子の中間エキソン由来のランダムフラグメントであり、該中間エキソンがタンパク質をコードし、その長さが少なくとも実験フラグメントのサイズであり、且つ前記ゲノム中の既知の転写開始部位から少なくとも５，０００塩基または１０，０００塩基である、請求項５７に記載の方法。
活性および有意性を、以下の式：Ｚスコアプロモーター活性＝（未加工のプロモーター活性−ランダムコントロールの平均値）／ランダムコントロールの標準偏差によってＺスコアとして計算する、請求項５７に記載の方法。
請求項５７に記載の平均値および偏差を決定するアルゴリズムを実行するコードを含むソフトウェア。
Ｚスコア変換プロモーター活性データを、ＤＮＡメチル化実験由来のＺスコア変換機能データ、転写因子結合データ、ヒストン修飾データ、ＤＮアーゼ高感受性データ、ヌクレオソーム置換データ、または遺伝子発現データと統合する分析ソフトウェア。
核酸配列中のメチル化パターンを決定するための方法であって、
（ａ）第１の標識核酸セグメントセットを、
（ｉ）供給源由来の配列を含む核酸分子を得ること、および
（ｉｉ）単離核酸分子を第１の標識で標識することにより、標識により、前記第１の標識核酸セグメントセットが作製されること、
によって作製する工程；
（ｂ）第２の標識核酸セグメントセットを、
（ｉ）該供給源由来のヌクレオチド配列を有する核酸分子を得ること、
（ｉｉ）該核酸分子を、異なる認識配列を有する少なくとも３つのメチル感受性制限酵素と接触させ、該酵素が非メチル化認識配列において核酸分子を切断するが、メチル化認識部位では切断されず、それにより、核酸フラグメントが得られること、
（ｉｉｉ）混合物から少なくとも１００ヌクレオチドの核酸フラグメントを単離すること、および
（ｉｖ）該フラグメントを第２の異なる標識で標識することにより、標識により、前記第２の核酸セグメントセットが作製されること、
によって作製する工程；
（ｃ）該第１の標識セグメントおよび該第２の標識セグメントを、前記ヌクレオチド配列を含む１つまたは複数の核酸プローブとハイブリッド形成する工程、および
（ｄ）該第１の標識セグメントおよび該第２の標識セグメントによって識別的に標識されたヌクレオチド配列の領域を決定する工程であって、該識別的に標識された領域が該ヌクレオチド配列の非メチル化領域である、決定する工程
を含む、方法。
前記核酸分子が転写調節配列を含む、請求項６４に記載の方法。
前記核酸分子を少なくとも６つの異なるメチル感受性酵素と接触させる工程を含む、請求項６４に記載の方法。
前記第１の標識が第１の色を生じ、前記第２の標識が第２の異なる色を生じる、請求項６４に記載の方法。
前記セグメントを、前記核酸分子のヌクレオチド配列をタイル状に配置する複数のプローブとハイブリッド形成する工程を含む、請求項６４に記載の方法。
前記方法を２回目に第２の供給源由来の核酸を使用して行う工程をさらに含み、前記第１の供給源および前記第２の供給源が、健康な組織および罹患組織であるか、または２つの異なるタイプの罹患組織である、請求項６４に記載の方法。
ビジネス方法であって、
（ａ）請求項１、請求項１８、請求項１９、請求項２２、請求項２５、請求項２８、請求項３４、請求項３７、請求項４２、請求項４４、請求項４５、請求項５１、請求項５３、請求項５６、請求項６１、請求項６３、および請求項６３のいずれか１項に記載の組成物、デバイス、または方法を商業化する工程
を含む、方法。