JP2022509532A

JP2022509532A - Ｇｒａｍｃ：シス調節モジュールのゲノムスケールレポーターアッセイ法

Info

Publication number: JP2022509532A
Application number: JP2021548555A
Authority: JP
Inventors: ジョンミンナム，
Original assignee: ラトガーズ、ザステイトユニバーシティオブニュージャージー
Priority date: 2018-10-31
Filing date: 2019-10-30
Publication date: 2022-01-20
Also published as: US20220017895A1; EP3874065A4; CA3116174A1; CN112996927A; WO2020092614A9; WO2020092614A1; KR20210086644A; AU2019369528A1; EP3874065A1

Abstract

本明細書には、機能的調節エレメントのレポーター核酸のライブラリー、ならびにそのようなライブラリーを構築および使用するための方法およびキットが開示されている。例示的なライブラリー、方法、およびキットは、機能的核酸調節エレメントのハイスループット検出、同定、および／または定量化のために使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムＤＮＡである。ゲノムＤＮＡは、これらに限定されないが、動物（例えば、哺乳動物）、植物、細菌、真菌、または古細菌を含む、任意の目的の生物に由来してもよい。

Description

関連出願の相互参照
本出願は、参照によりその全体が本明細書に組み込まれる、２０１８年１０月３１日に出願された米国仮出願第６２／７５３，６０８号の利益を主張する。

分野
本出願は、レポーター核酸、例えば機能的調節エレメントのライブラリー、ならびにそのようなライブラリーを構築および使用するための方法およびキットを提供する。

エンハンサー、プロモーター、およびリプレッサーなどのシス調節モジュール（ＣＲＭ）は、ゲノムの機能的エレメントである。ヒトゲノムにわたって数十万個のＣＲＭが散在していると推定されている（Niu, et al. Nucleic acids research 46.11 (2018): 5395-5409; Visel, et al. Nature 461.7261 (2009):199；ENCODE Project Consortium. Nature 489.7414 (2012):57）。ＣＲＭは、遺伝子が、いつ、どこで、どのレベルで発現されるかを調節するため、ＣＲＭは、ほぼすべての生物学的プロセスに関与する。個々のＣＲＭが複数の転写因子と直接的に相互作用し、複数のＣＲＭが一緒になって機能して遺伝子調節活性を媒介する（Davidson. The Regulatory Genome, Elsevier (2006); Levine, et al. Cell 157.1 (2014): 13-25；De Laat, et al. Nature 502.7472 (2013): 499）。こうしたエレメントの包括的な実験的同定は困難である。

ＣＲＭを同定するための標準的なレポーターアッセイは、基本プロモーターおよびレポーター遺伝子の上流にある候補ＣＲＭをクローニングし、レポーター遺伝子の発現を駆動するその能力を調査することである（Rosenthal, Methods in enzymology 152 (1987): 704-720；Arnone, et al. Methods in cell biology 74. (2004): 621-652；Banerji, et al. Cell 27.2 (1981): 299-308）。同じレポーター構築物により、ＣＲＭが、遺伝子摂動に対して（Nam, et al.PLoS One 7.4 (2012): e35934.）、および転写結合部位の変異に対して（Damle, et al. Developmental biology 357.2 (2011): 505-517；de-Leon, et al. PNAS USA 107.22 (2010): 10103-10108；Cui, et al. Cell reports 19.2 (2017): 364-374；Emison, et al. Nature 434.7035 (2005): 857；Guerreiro, et al. PNAS USA 110.26 (2013): 10682-10686）、どのように応答するかをモニターすることができる。しかしながら、このような従来の１つずつのレポーターアッセイは、ゲノムに含有されている何百万個もの潜在的なＣＲＭの分析（例えば、ハイスループット分析）には好適ではない。幾つかのハイスループットアッセイが試みられているが、バイアスが問題となることがある。

Ｒｏｓｅｎｔｈａｌ、Ｍｅｔｈｏｄｓｉｎｅｎｚｙｍｏｌｏｇｙ（１９８７）１５２：７０４～７２０Ａｒｎｏｎｅら、Ｍｅｔｈｏｄｓｉｎｃｅｌｌｂｉｏｌｏｇｙ（２００４）７４：６２１～６５２Ｂａｎｅｒｊｉら、Ｃｅｌｌ（１９８１）２７．２：２９９～３０８

本明細書には、核酸分子レポーターライブラリーを構築する方法、および本明細書に開示されている方法を使用して産生される核酸分子レポーターライブラリーが開示されている。本開示のゲノムスケールレポーターアッセイ法は、標準的なレポーターアッセイの場合と同様に、エンハンサーおよびプロモーターの両方に対して効果的である。本アッセイは、長鎖ＤＮＡインサートにも対応し、部分的なＣＲＭではなく完全なＣＲＭのスクリーニングを可能にする。ゲノムカバレッジおよびＤＮＡバーコードが過剰であると実験コストが増加し、ゲノムカバレッジおよびＤＮＡバーコードが不十分であると、信頼性の低いデータがもたらされる。しかしながら、本明細書で開示されているライブラリーおよび方法では、ゲノムカバレッジおよびライブラリー内のＤＮＡバーコードの数は調整可能である。最後に、本アッセイは、現在利用可能な方法と同等のまたはそれよりも少ない入力材料で、再現性のあるデータを生成する。

一部の実施形態では、核酸分子レポーターライブラリーを構築する方法は、選択されたサイズ範囲（例えば、約７５０～８５０塩基対長など、１００～３０００塩基対長のサイズ範囲）の複数の核酸分子（例えば、ゲノムＤＮＡまたは合成ＤＮＡ）を単離するステップ；複数の単離された核酸分子を、少なくとも１つの線状アダプター配列（３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドが隣接する少なくとも２つの連続したリボヌクレオチドを含むアダプターなど）にライゲートして、インサート（単離された核酸分子）およびアダプターを含む複数の環状核酸分子を形成するステップ；複数の環状核酸分子を、複数の線状核酸分子を産生するのに十分な条件下で酵素と接触させるステップ；ならびに複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させて複数のレポーター構築物を産生し、核酸分子レポーターライブラリーを形成するステップを含む。

ゲノムＤＮＡ（ゲノムＤＮＡ断片など）または合成ＤＮＡを含む、任意の核酸分子を使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムＤＮＡである。ゲノムＤＮＡは、これらに限定されないが、動物（例えば、哺乳動物）、植物、細菌、真菌、または古細菌を含む、任意の目的の生物に由来してもよい。一部の例では、本方法は、ゲル電気泳動またはビーズに基づくサイズ選択を使用して、単離された核酸分子のサイズ範囲を選択するステップを含む。一部の例では、本方法は、複数の単離された核酸分子を、リガーゼを使用して少なくとも１つの線状アダプター配列にライゲートするステップを含む。一部の例では、リガーゼは、Ｔ４ＤＮＡリガーゼなどのＤＮＡリガーゼを含む。線状アダプター配列は、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドが隣接する少なくとも２つの連続したリボヌクレオチド（例えば、配列番号１および／または配列番号２の核酸）を含んでいてもよい。したがって、ライゲーションにより、インサートおよびアダプターを含む複数の環状核酸分子が産生される。

一部の例では、本方法は、環状核酸を線状化する前に、複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼ（例えば、エキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、および／またはラムダエキソヌクレアーゼ）と接触させるステップをさらに含む。一部の例では、本方法は、次いで、複数の環状核酸分子を、インサートが隣接する、各々が３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下で、エンドリボヌクレアーゼ（例えば、ＲＮａｓｅＨＩＩまたはウラシル－ＤＮＡグリコシラーゼなどの、ＤＮＡ二重鎖内のリボヌクレオチドに特異的なエンドリボヌクレアーゼ）と接触させるステップを含む。一部の例では、本方法は、複数の線状核酸分子を少なくとも１つのレポーター核酸（例えば、蛍光タンパク質をコードする核酸および／またはバーコードを含む核酸）と融合させて、複数のレポーター構築物を産生するステップを含む。

一部の例では、本方法は、複数の線状核酸分子のゲノムカバレッジを決定するステップをさらに含む。例えば、ゲノムカバレッジを決定するステップは、少なくとも１つの目的のゲノム領域を選択するステップ、複数の線状核酸分子を増幅するステップ、ならびに選択されたゲノム領域が複数の線状核酸分子に存在するか否か、複数の線状核酸分子における選択されたゲノム領域のコピー数、および／またはゲノムカバレッジを決定するステップを含んでいてもよい。一部の例では、ゲノムカバレッジは、分析のために１つまたは複数の単一コピー標的を選択することにより決定される。例示的な単一コピー標的としては、ＡＣＴＡ１、ＡＤＭ、ＡＤＡＭ１２、ＡＸＬ、ＣＦＢ、ＤＬＸ５、Ｋｉｓｓ１、ＮＣＯＡ６、Ｎｏｔｃｈ２、ＲＰＰ３０、およびＴＯＰ１が挙げられる。ライブラリーの出発材料の供給源に応じて、追加のまたは代替の単一コピー標的を選択することができる。

一部の例では、本方法は、複数の核酸分子を線状ベクター核酸（例えば、基本プロモーターを含む線状ベクター核酸）と融合させるステップを含む。したがって、本方法を使用して、核酸分子を含む複数の線状ベクターを産生することができる。

一部の例では、少なくとも１つのレポーター核酸は、蛍光タンパク質をコードする核酸を含み、複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させるステップは、複数の線状ベクターを蛍光レポーター核酸と融合させるステップを含む。したがって、本方法を使用して、複数の蛍光レポーター構築物を産生することができる。別の例では、少なくとも１つのレポーター核酸は、バーコードをコードする核酸を含み、複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させるステップは、複数のレポーター線状ベクターをバーコード核酸と融合させるステップを含む。したがって、本方法を使用して、複数のバーコードレポーター構築物を産生することができる。一部の例では、少なくとも１つのレポーター核酸は、バーコードをコードする核酸および蛍光タンパク質をコードする核酸を含み、複数の線状ベクターを少なくとも１つのレポーター核酸と融合させるステップは、複数のレポーター構築物を、バーコード核酸および蛍光タンパク質をコードする核酸と融合させるステップを含む。したがって、本方法を使用して、複数の蛍光およびバーコードレポーター構築物を産生することができる。

一部の例では、本方法は、複数の線状ベクターの各々を、バーコードレポーター構築物を含むプライマー核酸と接触させるステップをさらに含む。一部の例では、本方法は、次いで、ポリメラーゼ連鎖反応（ＰＣＲ）を実施するステップを含む。したがって、本明細書の方法を使用して、バーコードレポーター構築物を含む複数の増幅されたベクターを産生することができる。一部の例では、本方法は、次いで、バーコードレポーター構築物を含む増幅されたベクターを自己ライゲートさせて、環状ベクターを産生するステップを含む。したがって、本明細書の方法を使用して、バーコードレポーター構築物を産生することができる。一部の例では、本明細書の方法は、バーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼ（例えば、エキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、および／またはラムダエキソヌクレアーゼ）と接触させるステップをさらに含む。

核酸分子レポーターライブラリーを構築する方法の特定の例では、本方法は、選択されたサイズ範囲の複数の核酸分子を単離するステップ；複数の単離された核酸分子を、リガーゼを使用して少なくとも１つの線状アダプター配列にライゲートするステップであって、線状アダプター配列は、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドが隣接する少なくとも２つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ；複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ；複数の環状核酸分子を、インサートが隣接する、各々が３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ；ならびに（ａ）複数の核酸分子を線状ベクター核酸と融合させ、それにより核酸分子を含む複数の線状ベクターを産生するステップ、（ｂ）核酸分子を含む複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ、および（ｃ）ポリメラーゼ連鎖反応（ＰＣＲ）およびライゲーション反応を実施して、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップなどによって、複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させて、複数のレポーター構築物を産生するステップ；ならびにバーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップを含む。一部の例では、本方法は、複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させる前に、インサートのゲノムカバレッジを決定するステップをさらに含む。

本明細書には、機能的核酸調節エレメントを検出する方法（例えば、ハイスループット法）がさらに開示されている。一部の例では、本方法は、本明細書で開示されているライブラリーのいずれかを、少なくとも１つの目的の細胞にトランスフェクトまたは形質転換するステップを含む。例示的な細胞としては、動物（例えば、哺乳動物）細胞、細菌細胞、植物細胞、真菌細胞、および古細菌細胞が挙げられる。例えば、哺乳動物細胞としては、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、オルガノイド由来細胞、オルガノイド由来細胞、および誘導幹細胞を挙げることができる。一部の例では、本方法は、少なくとも２つの被験体から少なくとも１つの目的の細胞を収集するステップを含み、少なくとも２つの被験体は、疾患または状態を有する少なくとも１つの被験体および疾患または状態を有していない少なくとも１つの被験体を含む。一部の例では、本方法は、少なくとも１つの被験体から少なくとも１つの目的の細胞を収集するステップを含み、被験体からは、複数の細胞が異なる条件下で収集される。

また、一部の例では、本方法は、少なくとも１つのレポーターを測定するステップを含む。例えば、一部の方法は、少なくとも１つのレポーターを同定および／または定量化するステップを含んでいてもよい。一部の例では、本方法は、目的の細胞からＲＮＡを単離して、単離されたＲＮＡを産生するステップを含む。一部の例では、レポーターを同定するステップは、組換えモロニーマウス白血病ウイルス（ｒＭｏＭｕＬＶ）逆転写酵素またはトリ骨髄芽球症ウイルス（ＡＭＶ）逆転写酵素を使用してなど、単離されたＲＮＡを逆転写してｃＤＮＡを産生するステップを含む。また、特定の例では、ＲＮＡ依存性およびＤＮＡ依存性ＤＮＡポリメラーゼを使用して、単離されたＲＮＡを逆転写することができる。

一部の例では、本方法は、次いで、ｃＤＮＡを検出するステップを含む。一部の例では、検出は、ｃＤＮＡを増幅するステップを含む。例えば、少なくとも１つのレポーターが、少なくとも１つの固有バーコード核酸である場合、ｃＤＮＡを増幅するステップは、少なくとも１つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップ、プライマーをｃＤＮＡと接触させるステップ、ならびにプライマーおよびｃＤＮＡを使用してＰＣＲを実施して増幅されたＤＮＡを産生するステップを含んでいてもよい。

一部の例では、本方法は、少なくとも１つの固有核酸バーコードを同定するステップをさらに含む。一部の例では、少なくとも１つの固有核酸バーコードは、増幅されたＤＮＡを配列決定することにより同定される。また、一部の例では、本方法は、少なくとも１つの固有核酸バーコードを定量化するステップを含む。

本明細書の方法の一部の例では、複数の核酸分子、例えば、本明細書に記載の方法を使用して産生されるライブラリー中の複数の核酸分子は、選択された目的のゲノムの少なくとも８０％を含む。本明細書の方法の一部の例では、複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも８０％を含む。

また、本明細書には、核酸分子レポーターライブラリーを構築するためのキットが開示されている。一部の例では、キットは、本明細書に記載のレポーター核酸のいずれかの少なくとも１つを含む。一部の例では、レポーター核酸は、配列番号１および／または配列番号２の線状アダプター配列を含む。また、例示的なキットは、少なくとも１つのリガーゼ、エキソヌクレアーゼ、エンドリボヌクレアーゼ、および／またはポリメラーゼを含んでいてもよい。

本明細書には、機能的核酸調節エレメントのハイスループット同定および／または定量化のためのキットがさらに開示されている。一部の例では、キットは、目的のゲノムの少なくとも８０％をカバーするライブラリーなど、本明細書で開示されているライブラリーのいずれかを含む。キットの追加の例は、少なくとも１つの逆転写酵素および／またはＰＣＲプライマーおよび高忠実度ＤＮＡポリメラーゼを含む。

本開示の上述の特徴および他の特徴は、添付の図面を参照してなされている以下の詳細な説明からより明らかになるだろう。

図１Ａ～１Ｄは、ＧＲＡＭｃライブラリー構築を示す図である。図１Ａは、ライブラリーのゲノムカバレッジを制御するための例示的な方法を示す。サイズ選択および末端修復したランダムゲノムＤＮＡ断片を、融合アダプターとのライゲーションにより環状化した。線状ＤＮＡをエキソヌクレアーゼ処理により除去し、続いてＲＮａｓｅＨＩＩで消化して、ライゲーション産物およびダイスアダプター－コンカテマーを線状化した。次いで、アダプターライゲート産物を段階希釈して、ＱＰＣＲにより各希釈物のゲノムカバレッジを決定した。意図されているカバレッジの希釈物を、ＳＣＰ－ＧＦＰカセットおよびベクター骨格を用いてＧＩＢＳＯＮＡＳＳＥＭＢＬＹ（登録商標）を使用してアセンブリして、無バーコード線状構築物を形成する。図１Ｂは、ライブラリーのバーコード数を制御するための例示的な方法を示す概略図である。ランダムな２５ｂｐ（Ｎ２５）バーコードおよびコアポリアデニル化シグナルを、ＰＣＲにより線状構築物のライブラリーに付加した。バーコード化構築物をセルフライゲーションさせ、線状ＤＮＡをエキソヌクレアーゼＩ／ＩＩＩで除去した。ごく一部のライゲート物（ｌｉｇａｔｅ）を形質転換して、形質転換の規模を決定した。細胞分裂によるコロニー計数の増加を回避するため、コロニー計数用の形質転換体は、レスキューすることなく直ちにプレーティングしなければならない。所望量のライゲート物を形質転換して、意図されている数のバーコードを有するＧＲＡＭｃライブラリーを産生した。液体培地から抽出したプラスミドを、ライブラリー特徴付けおよびレポーターアッセイに使用した。インサートおよび関連バーコードを、Ｉｌｌｕｍｉｎａペアエンド配列決定により同定した。図１Ｃは、ヒトＧＲＡＭｃライブラリー中のインサートのサイズ分布を示す。図１Ｄは、ヒトＧＲＡＭｃライブラリー中の１インサート当たりのバーコード数の累積分布を示す。同上。同上。同上。

図２Ａ～２Ｅは、ＧＲＡＭｃの再現性および正確度を示す図である。図２Ａは、ＧＲＡＭｃ結果の再現性を示す。ヒトＧＲＡＭｃライブラリーを、２００Ｍ個のＨｅｐＧ２細胞の２つのバッチで試験した。ＣＲＭ活性を、入力プラスミドのコピー数およびバックグラウンド活性（ｂｇ）に対して二重正規化した。１つのバッチでは≧５×ｂｇのおよび別のバッチでは≧４．５×ｂｇのレポーター発現を駆動したインサートをＣＲＭ（「活性」）とみなし、ＣＲＭコールは８０％再現性だった。カットオフを満たしていなかったが、１つのバッチでは依然として≧３×ｂｇであり、別のバッチでは≧２．７×ｂｇであったインサートを、わずかに活性であるとみなした。再現性は６２％とより低かった。図２Ｂは、個々のレポーターアッセイによるＧＲＡＭｃ結果の検証を示す。１１個のＣＲＭ（「活性」）、５個のわずかに活性なインサート、および４個の不活性インサートのセットを、ＱＰＣＲにより個々のレポーターアッセイの４つのバッチで試験した。個々のレポーターアッセイの４つのバッチの平均活性（実線バー）を、ＧＲＡＭｃデータと比較した（Ｒ^２＝０．８３）。図２Ｃは、第１染色体上のＣＲＭ（上段）および発現遺伝子（中段）の相関ゲノム分布を示す。入力ライブラリーのゲノム分布は下段に示されている。セントロメアに由来するインサートを除去した。図２Ｄは、発現遺伝子（黒色ドット）および非発現遺伝子（灰色ドット）の最大１００ｋｂの隣接領域を有する２ｋｂウインドウにおけるＣＲＭの富化を示す。ゲノム平均は破線で示されている。遺伝子領域は０位にあり、エクソンおよびイントロンを両方とも含む。遺伝子の上流エリアは左半分であり、下流エリアは右半分に示されている。図２Ｅは、ＣＲＭ（Ｇ５、５×ｂｇよりも大きい）対不活性インサート（Ｌ１、１×ｂｇよりも低い）のＥＮＣＯＤＥクロマチン注釈の相対的富化を示す。ＥＮＣＯＤＥ注釈は、それらの相対的富化に基づいて順位付けられている。同上。同上。同上。同上。

図３Ａ～３Ｇは、ＣｈｒｏｍＨＭＭにおけるシス調節活性およびＴＦＢＳモチーフ富化は強力なエンハンサーを予測したことを示す図である。図３Ａは、ＣＲＭ（黒色バー）対ＧＲＡＭｃにより測定されたＣＲＭ活性（灰色バー）の予測されたエンハンサー富化を示す。インサートを、２つのバッチのＧＲＡＭｃデータにおけるそれらの平均活性で分類した：Ｇ５、５×ｂｇよりも大きい；Ｇ３Ｌ５、３×ｂｇと等しいかまたはそれよりも大きく、５×ｂｇよりも低い；Ｇ２Ｌ３、２×ｂｇと等しいかまたはそれよりも大きく、３×ｂｇよりも低い；Ｇ１Ｌ２、１×ｂｇと等しいかまたはそれよりも大きく、２×ｂｇよりも低い；およびＬ１、１×ｂｇよりも低い。図３Ｂ～３Ｇは、徐々に弱くなる活性を有する予測されたエンハンサー対ＧＲＡＭｃ同定ＣＲＭ（Ｇ５）の相対的モチーフ富化（ｌｏｇ_２スケール）を示す。各ドットは、ＴＦＢＳモチーフを表し、直線は、２つのデータセット間の２倍の差異を示す。各プロットの左上四角には、予測されたエンハンサーの各ビンのパーセント割合が示されている。同上。同上。同上。同上。同上。同上。

図４Ａ～４Ｅは、遺伝子調節プログラムのＣＲＭ駆動予測を示す図である。図４Ａは、ＣＲＭにおけるＴＦＢＳモチーフの存在量および富化を示す。存在量は、所与のＴＦＢＳモチーフを含有するＣＲＭ（Ｇ５セット）または不活性セット（Ｌ１セット）の割合であり、相対的富化は、Ｇ５セットとＬ１セットとの間のモチーフ富化の比である。縦線は、モチーフの相対的富化の境界線を示す。高度に富化されており存在量が多いモチーフが幾つか標識されている。図４Ｂは、Ｇ５セットにおける予測ＴＦＢＳモチーフおよびＥＮＣＯＤＥＣｈＩＰ－ｓｅｑ注釈の富化の比較を示す。図４Ｃは、他の細胞（細胞Ｘ）のＨｅｐＧ２－ＣＲＭに対するＰＩＴＸ２またはＩＫＺＦ１の役割に関する２つの対立仮説を示す。図４Ｄ～４Ｅは、ヒトｐｉｔｘ２（図４Ｄ）対ＣＭＶ：：ｇｆｐ対照およびヒトｉｋｚｆ１（図４Ｅ）対ＣＭＶ：：ｇｆｐ対照の異所性発現による、ＨｅｐＧ２における非発現転写因子の富化ＴＦＢＳモチーフに関する仮説の試験を示す。Ｇ５セットに属するインサートは、赤色ドット（モチーフ＋）または黒色ドット（モチーフ－）で示されている。２本の黒色対角線は、摂動セットと対照セットとの間の２倍の差異を示す。挿入されているボックスプロットは、２標本ｔ検定を使用した、Ｐ値を有するモチーフ＋インサートとモチーフ－インサートの差異を示す。同上。同上。同上。同上。

図５Ａ～５Ｂは、ＧＲＡＭｃデータにおける反復エレメントの富化を示す図である。インサートを、図３Ａ～３Ｇのように、２つのバッチのＧＲＡＭｃデータでのそれらの平均活性により分類した。図５Ａは、ＧＲＡＭｃデータにおける反復エレメントの代表的なファミリーを示す。活性が異なるゲノム領域内の反復エレメントの富化が示されている。Ｇ５セットのゲノム領域をＣＲＭとみなした。図５Ｂは、ＧＲＡＭｃデータにおけるＡｌｕエレメントの３つの主要なサブファミリーの富化を示す。同上。

図６Ａ～６Ｂは、融合アダプターおよびアダプターライゲートインサートの生成を示す図である。図６Ａは、融合アダプターを示す。融合アダプターは、２つの５’リン酸化オリゴマー（上段、配列番号１；下段、配列番号２）をアニーリングさせることにより調製される。融合アダプターは、アダプターライゲートゲノムインサートを増幅するための２つのプライマー部位であるＰ１（黄色矢印）およびＰ２（深紅色矢印）を含有する。四角は、ＲＮａｓｅＨＩＩ切断のための２つのリボヌクレオチドを示す。図６Ｂは、アダプターライゲートインサートの純粋な集団を調製するための例示的な方法を示す。インサートと融合アダプターとのライゲーションにより、エキソヌクレアーゼ処理に耐性である環状ＤＮＡが生成された。望ましくない線状ＤＮＡはすべて、エキソヌクレアーゼＩ／ＩＩＩで除去した。環状ＤＮＡはＰＣＲを使用して増幅することが難しいため、環状ライゲーション産物を、ＲＮａｓｅＨＩＩで線状化した。この時点で、線状化アダプターライゲートインサートは、Ｐ１プライマーおよびＰ２プライマーを用いたＰＣＲ増幅の準備ができた。同上。

図７は、ＧＩＢＳＯＮＡＳＳＥＭＢＬＹ（登録商標）のためのＧＲＡＭｃベクターを調製するための例示的な方法を示す模式図である。ＧＲＡＭｃベクターを、ＡｆｌＩＩおよびＨｉｎｄＩＩＩで消化することにより線状化し、増幅に必要なサイクルの効率を増加させ、サイクルを低減する。消化した後、ベクターを２片に増幅する。１つはＳＣＰ－ＧＦＰカセットを含有し、もう１つはベクター骨格を含有する。プライマーＮＪ９６およびＮＪ９５は、アダプターライゲートインサートを用いたその後のＧＩＢＳＯＮＡＳＳＥＭＢＬＹ（登録商標）のためのＰ１およびＰ２部位をそれぞれベクター骨格カセットおよびＳＣＰ－ＧＦＰカセットに付加する。プライマーＮＪ１４６およびＮＪ１４５は、ＧＩＢＳＯＮＡＳＳＥＭＢＬＹ（登録商標）中の分解から末端プライマー部位を保護し、事前バーコード化ライブラリーの効率的な増幅を可能にするために、５’末端に６個ホスホロチオエート化（phosporothioated）ヌクレオチドの配列（Ｓ６で示される）を含有する。

図８は、ＩｌｌｕｍｉｎａＮｅｘｔＳｅｑ５００用のペアエンド配列決定ライブラリーを構築するための例示的方法を示す図である。ＧＲＡＭｃライブラリーのＰＣＲを、インサートおよびＮ２５バーコードが隣接するアダプター配列に対する２対のプライマー（Ｐ２／ｎＰ３およびＰ１／Ｐ４）を用いて実施し、続いてセルフライゲーションさせた。これにより、インサートの５’末端（Ｈｓ８００＿１４）またはインサートの３’末端（Ｈｓ８００＿２３）のいずれかにメイトした(mated)Ｎ２５を有する２つのサブライブラリーが生成される。エキソヌクレアーゼ処理は、代替セットのプライマー（Ｈｓ８００＿２３の場合はＰ１／Ｐ４およびＨｓ８００＿１４の場合はＰ２／ｎＰ３）を用いた、インサート：：Ｎ２５カセットのその後の第２のラウンドの増幅中に、メイトした環状ライゲート物のみが残存して、２つの配列決定ライブラリーＨｓ８００＿２３１４およびＨｓ８００＿１４２３が生成されることを保証する。ＰＣＲにより、Ｉｌｌｕｍｉｎａペアエンド配列決定用のＰＥ１部位およびＰＥ２部位が付加される。隣接アダプター配列における多様性の欠如を相殺するために、配列決定ライブラリー１つ当たり７つの位相のずれたプライマー（out of phase primer）を使用してＰＥ１部位を付加した。位相化プライマー（phased primer）により、ＰＥ１部位とそれぞれのｎＰ３部位またはＰ４部位との間に、０Ｎ、２Ｎ、４Ｎ、６Ｎ、８Ｎ、１０Ｎ、および１２Ｎのランダム配列が組み込まれる。１４個の位相化ライブラリーを、ＩｌｌｕｍｉｎａＮｅｘｔＳｅｑ５００プラットフォームで配列決定した。

図９は、全ＲＮＡからＧＲＡＭｃ配列決定ライブラリーを調製するための例示的な概略図を示す。第１のＱＣステップ（ＱＣ１）中、ＱＰＣＲによりＧＦＰＤＮＡを測定することにより、ＲＮＡ試料中の夾雑ＤＮＡの除去をモニターする。ＤＮａｓｅ処理の１２時間後、ＧＦＰＤＮＡのＣｔ値が≦３０のままである場合、ＤＮＡ消化を継続する。Ｃｔ値を６時間ごとに観察し、このプロセスを、Ｃｔ値が＞３０になるまで繰り返す。逆転写（ＲＴ）の品質管理（ＱＣ）基準として、１０００ｎｇのＤＮａｓｅＩ／ＥｘｏＩ／ＥｘｏＩＩＩ消化全ＲＮＡを標準的なＲＴ反応に使用した。第２のＱＣ（ＱＣ２）ステップ中、ゲノムスケールＲＴ反応をモニターし、ＧＦＰｃＤＮＡのＣｔ値がＱＣ基準での１サイクル以内のＣｔ値になるまで、必要に応じて試薬を追加補充する。

図１０Ａ～１０Ｆは、ＣＲＭ、発現遺伝子、および入力のヒトゲノム３８全体にわたる密度を示す図である。図１０Ａ～１０Ｂは、ヒトゲノム３８全体にわたるＧＲＡＭｃＣＲＭ密度を示す。図１０Ｃ～１０Ｄは、ヒトゲノム３８全体にわたる発現遺伝子密度を示す。図１０Ｅ～１０Ｆは、ヒトゲノム３８全体にわたるＧＲＡＭｃ入力密度を示す。同上。同上。同上。同上。同上。

図１１は、異所性転写因子発現のウエスタンブロット確認を示す図である。ＧＲＡＭｃライブラリーに由来する８０Ｋ個の構築物と、Ｆｌａｇタグ付きＥＧＦＰ（対照）またはＦｌａｇタグ付き転写因子ＰＩＴＸ２もしくはＩＫＺＦ１のいずれかとを同時トランスフェクトした細胞の試料を、タンパク質発現の抗Ｆｌａｇ検出に供した。当量の試料負荷を、抗ＧＡＰＤＨ対照ブロットで確認した。

図１２は、ライブラリー構築および特徴付け、ならびにレポーターアッセイにおけるライブラリーの使用、ならびにデータデコンボリューションを含む、ＧＲＡＭｃの例示的な概略図を示す図である。

図１３は、短鎖ランダムオリゴマーからの長鎖ランダムＤＮＡ配列の例示的な段階的合成を示す図である。多数の長鎖ランダムＤＮＡ配列のｄｅｎｏｖｏ合成は依然として困難であり、したがって、市販の短鎖ランダム一本鎖ＤＮＡ（ｓｓＤＮＡ）から長鎖ランダムＤＮＡ配列のプールを生成するための簡便な方法が示されている。第１に、２μｇのｓｓＤＮＡを、ポリヌクレオチドキナーゼを使用してリン酸化し、続いてランダムヘキサマー、ｄＮＴＰ、およびクレノウ酵素により二本鎖ＤＮＡ（ｄｓＤＮＡ）へと変換する。並行して、１μｇのリン酸化されていないｓｓＤＮＡを、ランダムヘキサマー、ｄＮＴＰ、およびクレノウ酵素を使用してｄｓＤＮＡへと変換する。第２に、１×Ｔ４ＤＮＡリガーゼ緩衝液に２００ｎｇのリン酸化されていないｄｓＤＮＡおよびＴ４ＤＮＡリガーゼを有する反応チューブを調製する。リン酸化されていないｄｓＤＮＡを、リン酸化ｄｓＤＮＡにライゲートする。第３に、ライゲーションを開始するため、５０ｎｇのリン酸化ｄｓＤＮＡ（または約１／４などの、リン酸化されていないＤＮＡの一部分）をライゲーション反応チューブに添加する。反応液中に過剰量のリン酸化されていないＤＮＡが存在するため、ほとんどのリン酸化ＤＮＡは、リン酸化されていないＤＮＡとライゲートする。リン酸化されていないＤＮＡの各分子は、最大で２分子のリン酸化ＤＮＡを受け入れることができる（各末端に１分子）。ライゲーション産物は、リン酸化されていない５’末端を含む。ライゲーションプロセスを少なくとも１サイクル繰り返す（例えば、少なくとも約１、２、３、４、５、６、７、８、９、１０、１２、１５、１８、２０、２５、３０、４５、５０、６０、７５、９０、もしくは１００サイクル、または約１～５、１～１０、１～１５、１～２０、５～２０、１０～２５、２５～５０、もしくは５０～１００サイクル、または約１６サイクル）。サイクル数（Ｘ）は、≧２×Ｌ／Ｉであることが予想され、ここで、ＬおよびＩは、それぞれランダムＤＮＡの所望の長さおよび出発オリゴマーの長さである。例えば、約８００ｂｐ長のＤＮＡ分子のプールを１００ｂｐ長のオリゴマーで合成するには、Ｘは約≧１６でなければならない。第４に、ライゲーション産物のニックを、ＤＮＡ修復酵素（ＮＥＢＰｒｅＣＲＲｅｐａｉｒＭｉｘ、カタログ番号Ｍ０３０９Ｓ）で修復した。第５に、所望の長さのＤＮＡ分子を、ゲルに基づくまたはビーズに基づくサイズ選択で富化した。次に、溶出されたＤＮＡは、例えば、約５０～３０００もしくは１００～３０００塩基対長など、約５０～２００、１００～２００、１００～３００、３００～５００、１００～１５００、５００～１２００、７００～１０００、もしくは７５０～８５０塩基対長、または約８００塩基対長など、少なくとも約５０、１００、２００、３００、４００、５００、７５０、８００、９００、１０００、１２００、１５００、２０００、２５００、または３０００塩基対長のインサートを有する、約１０～１００、１００～１０^３、１０^３～１０^４、１０^４～１０^６、１０^６～１０^７、１０^７～１０^８、１０^８～１０^９、もしくは１０^６～１０^９個のレポーター構築物、または約１０^７個のレポーター構築物など、少なくとも約１０、２５、５０、１００、２５０、５００、１０^３、１０^４、１０^５、１０^６、１０^７、１０^８、または１０^９個のレポーター構築物（例えば、インサートを有する）を有するライブラリーなどのライブラリー構築（例えば、ＣＲＭライブラリー）の準備ができる。長鎖ランダムＤＮＡ配列の段階的合成は、他の適用でも使用することができる。

図１４は、摂動実験の再現性を示す図である。８０，０００個のランダム選択レポーター構築物の２つの独立したバッチを、各摂動実験で比較した。３つの実験はすべて高度に再現性であった（ピアソンのｒ≧０．９７）。

配列表
添付の配列表に列挙されている核酸配列およびアミノ酸配列は、米国特許法１．８２２に規定のように、ヌクレオチド塩基は標準文字略語およびアミノ酸は３文字コードを使用して示されている。各核酸配列の一方の鎖のみが示されているが、相補鎖は、表示されている鎖への任意の参照により含まれることが理解される。配列表は、２０１９年１０月３０日に作成された３０ｋｂのＡＳＣＩＩテキストファイルとして提出されており、参照により本明細書に組み込まれる。添付の配列表では、

配列番号１および２は、例示的な線状アダプター核酸配列である。

配列番号３～１１６は、例示的なプライマー配列である。

配列番号１１７～１２４は、例示的なトリミングアダプター配列である。

特に明記されていない限り、技術用語は、従来の用法に従って使用されている。分子生物学における一般用語の定義は、以下の文献に見出すことができる：Benjamin Lewin, Genes VII, published by Oxford University Press, 2000 (ISBN 019879276X)；Kendrew et al. (eds.), The Encyclopedia of Molecular Biology, published by Blackwell Publishers, 1994 (ISBN 0632021829)；Robert A. Meyers (ed.), Molecular Biology and Biotechnology: a Comprehensive Desk Reference, published by Wiley, John & Sons, Inc., 1995 (ISBN 0471186341)；およびGeorge P. Redei, Encyclopedic Dictionary of Genetics, Genomics, and Proteomics, 2nd Edition, 2003 (ISBN: 0-471-26821-6)。

単数形「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」は、状況による明確に別様な指示がない限り、１つまたは複数を指す。「または」という用語は、状況による明確に別様な指示がない限り、記載されている代替要素のうちの単一の要素または２つもしくはそれよりも多くの要素の組合せを指す。本明細書で使用される場合、「含む（ｃｏｍｐｒｉｓｅ）」は「含む（ｉｎｃｌｕｄｅ）」を意味する。したがって、「ＡまたはＢを含む（ｃｏｍｐｒｉｓｉｎｇ）」は、「Ａ、Ｂ、またはＡおよびＢを含む（ｉｎｃｌｕｄｉｎｇ）」ことを意味し、追加の要素を除外しない。

さらに、核酸またはポリペプチドに対して与えられる、すべての塩基サイズまたはアミノ酸サイズ、およびすべての分子量または分子質量の値は、おおよその値であり、説明のために提供されていることが理解されるべきである。本開示の実施または試験には、本明細書に記載のものと同様のまたは等価な方法および材料を使用することができるが、下記には、好適な方法および材料が記載されている。本明細書で言及されているすべての刊行物、特許出願、特許、および他の参考文献は、参照によりそれらの全体が組み込まれており、ＧｅｎＢａｎｋ（登録商標）受託番号（２０１８年１０月３１日に存在する配列の）も同様である。矛盾する場合、用語の説明を含む本明細書が優先されるものとする。加えて、材料、方法、および例は、例示に過ぎず、限定を意図するものではない。

本開示の種々の実施形態の検討を容易にするために、特定の用語の説明が以下に提供されている。

アダプター（またはアダプター配列またはリンカー）：他の核酸分子（例えば、ＤＮＡおよび／またはＲＮＡ）の末端にライゲートすることができる一本鎖または二本鎖核酸（例えば、ＤＮＡ、ＲＮＡ、または両方の組合せ）。二本鎖アダプターは、平滑末端、粘着末端、または粘着末端および平滑末端を有するように合成することができる。特定の例では、アダプター配列は、例えば、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチド（例えば、３’末端および／または５’末端の、少なくとも約１、２、５、１０、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、４０、４５、５０、１００、２５０、５００、もしくは１０００個のデオキシリボヌクレオチド、または約５～４５、１０～４０、１５～３５、２０～３０、１～５０、１～１００、１～２５０、１～５００、もしくは１～１０００個のデオキシリボヌクレオチド、または約２１、２８、もしくは２９個、または約１５～３５もしくは２０～３０個のデオキシリボヌクレオチド）が隣接する少なくとも１つのリボヌクレオチドまたは少なくとも２つの連続したリボヌクレオチド（例えば、約２～５個、２～１０個、２～２５個、２５～５０個、もしくは５０～１００個のリボヌクレオチド、または約２個のリボヌクレオチドなど、少なくとも約２、３、４、５、６、７、８、９、１０、２５、５０、もしくは１００個のリボヌクレオチド）を含む。アダプター配列の具体的で非限定的な例としては、配列番号１および２が挙げられる。

バーコード：任意の核酸または遺伝子マーカー。バーコードは、ランダム（例えば、ハイスループット適用など、レポーター適用の場合）、半ランダム、または非ランダム（例えば、そのような同定のための分類学的群に特異的な固有バーコードなど、分類学的適用の場合）であってもよい。特定の例では、バーコードは、ランダムバーコードである。一部の例では、バーコードは、約１０～１００、１００～１０^３、１０^３～１０^４、１０^４～１０^６、１０^６～１０^７、１０^７～１０^８、１０^８～１０^９、もしくは１０^６～１０^９個のバーコード、または約１０^７～２×１０^７個のバーコード、または約２×１０^７個のバーコードのライブラリーなど、少なくとも１０、２５、５０、１００、２５０、５００、１０^３、１０^４、１０^５、１０^６、１０^７、１０^８、または１０^９個のバーコードのライブラリーなどの、バーコードのライブラリー（例えば、既存の、またはアルゴリズムにより生成されたバーコードライブラリー）に由来する。特定の例では、バーコードは、約２×１０^７個のバーコードのランダムライブラリーに由来する。一部の例では、バーコードは、短鎖バーコード、例えば、少なくとも約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、７５、１００、２５０、５００、１０００、２０００、３０００、もしくは５０００ヌクレオチド長、または約５～１０、１０～２０、１５～４０、２０～３０、１０～５０、１０～７５、１０～１００、１００～２５０、２５０～５００、５００～１０００、１０００～３０００、もしくは１０００～５０００ヌクレオチド長、または約２０、２５、３０、１５～４０、もしくは２０～３０ヌクレオチド長である。

相補的：２つの分子が十分な数の相補的ヌクレオチド（例えば、Ａ－Ｔ、Ａ－Ｕ、またはＧ－Ｃ）を共有し、鎖が、例えばワトソン・クリック、フーグスティーン、または逆フーグスティーン塩基対を形成することにより互いに結合する（ハイブリダイズする）と、安定的な二重鎖または三重鎖を形成する場合、核酸分子は、別の核酸分子と相補的であると言われる。安定的なまたは特異的な結合は、必要とされる条件下で核酸分子の相補的ヌクレオチド間に塩基対が形成される結果として、核酸分子が別の核酸と検出可能に結合したままである場合に生じる。

～に十分な条件：所望の活性を可能にする、例えば、２つの分子間（核酸とタンパク質との間または２つの核酸間など）の特異的結合を可能にするか、または酵素活性（リガーゼ活性またはヌクレアーゼ活性など）を可能にする任意の環境。

接触：直接物理的に関連するように配置すること。固体形態および液体形態の両方を含む。例えば、接触は、ｉｎｖｉｔｒｏにてまたは細胞内にて、核酸、タンパク質、および／または酵素（例えば、リガーゼまたはヌクレアーゼ）で生じてもよい。

検出：作用剤（核酸分子および／またはレポーター分子など）が存在するかまたは存在しないかを決定すること。一部の例では、検出は、同定および／または定量化をさらに含んでいてもよい。例えば、特定の例では、本開示の方法および検出プローブを使用することにより、核酸またはレポーター分子（レポーター核酸など）の存在、量、および／または同一性の決定が可能になる。

ハイブリダイゼーション：相補的な一本鎖ＤＮＡ、ＲＮＡ、またはＤＮＡ／ＲＮＡハイブリッドが二本鎖分子（ハイブリダイゼーション複合体とも呼ばれる）を形成する能力。

ライゲートする：１つの核酸分子の３’ヒドロキシル基と第２の核酸分子の５’リン酸基との間のホスホジエステル結合により２つの核酸分子を一緒に接合すること。核酸の並置された５’リン酸末端と３’ヒドロキシル末端との間のホスホジエステル結合の形成を触媒する酵素は、リガーゼと呼ばれる。例示的なリガーゼとしては、以下のものが挙げられる：ＤＮＡリガーゼ（Ｔ４ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、ＴａｑＤＮＡリガーゼ（例えば、ＴａｑＤＮＡリガーゼ、またはＨｉＦｉＴａｑＤＮＡリガーゼなどの高忠実度ＴａｑＤＮＡリガーゼ）を含む）、熱安定性ＤＮＡリガーゼ（例えば、９°Ｎ（登録商標）ＤＮＡリガーゼなど、相補的ＤＮＡ鎖にギャップ無しでハイブリダイズし正確に対合している２つの隣接するＤＮＡ鎖の５’リン酸と３’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ）、および相補的ＲＮＡ鎖によりスプリントされた（splinted）隣接する一本鎖ＤＮＡをライゲートするリガーゼ（例えば、ＳＰＬＩＮＴＲ（登録商標）リガーゼ）。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である（例えば、Ｔ４ＤＮＡリガーゼまたはＴ３ＤＮＡリガーゼ）。特定の例では、リガーゼは、Ｔ４ＤＮＡリガーゼである。

ヌクレアーゼ：ホスホジエステル結合を切断する酵素。エンドヌクレアーゼは、ヌクレオチド鎖内の内部ホスホジエステル結合を切断する酵素である（ヌクレオチド鎖の末端のホスホジエステル結合を切断するエキソヌクレアーゼとは対照的に）。エンドヌクレアーゼとしては、エンドリボヌクレアーゼ（ＲＮＡを配列特異的部位で切断する）、例えばＲＮａｓｅＨＩＩ（例えば、あらゆるリボヌクレオチドを除去するための）などの制限エンドヌクレアーゼまたは他の部位特異的エンドヌクレアーゼ、またはウラシル－ＤＮＡグリコシラーゼが挙げられる。ヌクレアーゼの他の例としては、ＤＮａｓｅＩ、Ｓ１ヌクレアーゼ、ＣＥＬＩヌクレアーゼ、マングビーンヌクレアーゼ、リボヌクレアーゼＡ（ＲＮａｓｅＡ）、リボヌクレアーゼＴ１（ＲＮａｓｅＴ１）、リボヌクレアーゼＨ（ＲＮａｓｅＨ）、ＲＮａｓｅＩ、ＲＮａｓｅＰｈｙＭ、ＲＮａｓｅＵ２、ＲＮａｓｅＣＬＢ、小球菌ヌクレアーゼ、および脱プリン／脱ピリミジンエンドヌクレアーゼが挙げられる。エキソヌクレアーゼとしては、エキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、ラムダエキソヌクレアーゼ、エキソヌクレアーゼＶＩＩ、およびＢａｌ３１ヌクレアーゼが挙げられる。本明細書の特定の例では、ヌクレアーゼは、ＲＮａｓｅＨＩＩ（例えば、あらゆるリボヌクレオチドを除去するための）などのＲＮＡ特異的ヌクレアーゼ、またはウラシル－ＤＮＡグリコシラーゼ、またはエキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、もしくはラムダエキソヌクレアーゼなどのエキソヌクレアーゼである。

調節エレメント：特定の遺伝子の発現を増加または減少させることが可能な核酸分子のセグメント。例示的な調節エレメントとしては、プロモーター（例えば、遺伝子の転写を開始するＤＮＡの領域）などの活性化因子、およびエンハンサー（例えば、タンパク質などの他の分子と相互作用して、特定の遺伝子の転写の可能性を増加させることができる転写因子またはＤＮＡの領域）、またはサイレンサーなどのリプレッサー（例えば、リプレッサータンパク質または転写因子に結合すると、ＤＮＡ配列のＲＮＡへの転写を阻害するＤＮＡの領域）が挙げられる。

被験体：ヒトおよび非ヒト哺乳動物（例えば、獣医学的被験体）などの任意の多細胞脊椎動物。

ベクター：外来性遺伝物質を別の細胞へと人工的に運搬するためのビヒクルとして使用される核酸（例えば、ＤＮＡまたはＲＮＡ）。ベクターの例示的なタイプとしては、プラスミド、ウイルスベクター、コスミド、および人工染色体が挙げられる。ベクターに含まれる例示的なエレメントは、複製起点、調節エレメント（例えば、プロモーターまたはエンハンサー）、マルチクローニング部位、マーカー、および／またはレポーターである。特定の例では、ベクターは、少なくとも、マルチクローニングサイト；調節エレメント；例えば、プロモーター（例えば、基本プロモーターおよび／またはスーパーコアプロモーターなどの合成プロモーター）、エンハンサー、またはリプレッサー；およびポリ（Ａ）テールを含んでいてもよい。

核酸分子レポーターライブラリーを構築する方法
本明細書には、核酸分子レポーターライブラリーを構築する方法が記載されている。したがって、ゲノム（例えば、動物ゲノムまたはヒトゲノム）などのより大きな核酸配列内の特異的および／または機能的配列などの、目的の核酸配列の存在もしくは非存在および／または目的の核酸配列の発現の決定を可能にする方法が提供される。本明細書の方法は、機能的核酸配列、例えば、遺伝子の発現を調節する核酸配列（例えば、シス調節エレメントまたはモジュールなどの調節エレメントまたはモジュール）などの任意の目的の核酸配列と共に使用することができる。一部の例では、本開示の方法は、目的の核酸配列の同定または定量化を可能にする。一部の例では、本方法は、目的の核酸配列を含む複数の核酸配列などの複数の核酸配列を単離するステップ、および複数の核酸配列をレポーター核酸と融合させて、複数のレポーター構築物を産生するステップを含む。

一部の実施形態では、本方法は、選択されたサイズ範囲の複数の核酸分子を単離するステップを含む。ゲノムＤＮＡ（ゲノムＤＮＡ断片など）または合成ＤＮＡを含む、任意の核酸分子を使用することができる。一部の例では、核酸は、目的の細胞または目的の細胞の集団から得られるゲノムＤＮＡである。動物細胞（例えば、哺乳動物細胞）、植物細胞、細菌細胞、真菌細胞、または古細菌細胞など、任意の細胞または細胞の集団を使用することができる。一部の例では、哺乳動物細胞は、幹細胞、神経細胞、心臓血管細胞、肝臓細胞、内皮細胞、上皮細胞、口腔細胞、生殖細胞、内分泌細胞、水晶体細胞、脂肪細胞、分泌細胞、腎臓細胞、細胞外基質細胞、収縮性細胞、免疫細胞、血液細胞、または胚細胞の少なくとも１つを含む。特定の非限定的な例では、哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞（例えば、血管新生モデルなどにおける、ヒト臍帯静脈内皮細胞、ＨＵＶＥＣ）、胚性幹細胞、誘導多能性幹細胞、ＨｅｐＧ２細胞、ＬＮＣａＰ細胞、ＨｅＬａ細胞、ＨＣＴ１１６細胞、またはＫ５６２細胞の少なくとも１つである。一部の例では、植物細胞は、分裂組織細胞（meristematic cell）（分裂組織派生細胞を含む）、柔組織細胞（parenchyma cell）（葉肉細胞、輸送細胞（transfer cell）、または緑色組織細胞（chlorenchyma cell）など）、厚角組織細胞（collenchyma cell）、厚膜組織細胞（厚膜細胞（sclerenchyma sclereid）または厚膜組織線維など）、仮導管、導管要素、師部細胞（篩管、伴細胞、師部繊維、または師部厚膜細胞（phloem sclereid）など）、または表皮細胞（気孔孔辺細胞（stomatal guard cell）など）の少なくとも１つを含む。特定の非限定的な例では、植物細胞は、Ａｒａｂｉｄｏｐｓｉｓ、大麻、トウモロコシ、イネ、オオムギ、コムギ、スイッチグラス、トマト、ジャガイモ、Ｃｈｌａｍｙｄｏｍｏｎａｓ、Ｈｙｄｒｏｄｉｃｔｙｏｎ、Ｓｐｉｒｏｇｙｒａ、およびＡｃｔｅｂｕｌａｒｉａの少なくとも１つである。一部の例では、細菌細胞は、グラム陰性細菌細胞またはグラム陽性細菌細胞、例えば、Ａｃｉｄｏｂａｃｔｅｒｉａ、Ａｃｔｉｎｏｂａｃｔｅｒｉａ、Ａｑｕｉｆｉｃａｅ、Ｂａｃｔｅｒｏｉｄｅｔｅｓ、Ｃａｌｄｉｓｅｒｉｃａ、Ｃｈｌａｍｙｄｉａｅ、Ｃｈｌｏｒｏｂｉ、Ｃｈｌｏｒｏｆｌｅｘｉ、Ｃｈｒｙｓｉｏｇｅｎｅｔｅｓ、Ｃｙａｎｏｂａｃｔｅｒｉａ、Ｄｅｆｅｒｒｉｂａｃｔｅｒｅｓ、Ｄｅｉｎｏｃｏｃｃｕｓ－Ｔｈｅｒｍｕｓ、Ｄｉｃｔｙｏｇｌｏｍｉ、Ｅｓｃｈｅｒｉｃｈｉａ、Ｅｌｕｓｉｍｉｃｒｏｂｉａ、Ｆｉｂｒｏｂａｃｔｅｒｅｓ、Ｆｉｒｍｉｃｕｔｅｓ、Ｆｕｓｏｂａｃｔｅｒｉａ、Ｇｅｍｍａｔｉｍｏｎａｄｅｔｅｓ、Ｌｅｎｔｉｓｐｈａｅｒａｅ、Ｎｉｔｒｏｓｐｉｒａ、Ｐｌａｎｃｔｏｍｙｃｅｔｅｓ、Ｐｒｏｔｅｏｂａｃｔｅｒｉａ、Ｓｐｉｒｏｃｈａｅｔｅｓ、Ｓｙｎｅｒｇｉｓｔｅｔｅｓ、Ｔｅｎｅｒｉｃｕｔｅｓ、Ｔｈｅｒｍｏｄｅｓｕｌｆｏｂａｃｔｅｒｉａ、Ｔｈｅｒｍｏｔｏｇａｅ、またはＶｅｒｒｕｃｏｍｉｃｒｏｂｉａ細胞の少なくとも１つを含む。一部の例では、真菌細胞は、Ｔｒｉｃｈｏｄｅｒｍａ、Ｎｅｕｒｏｓｐｏｒａ、Ａｓｐｅｒｇｉｌｌｕｓ、Ｍｏｎａｓｃｕｓ、Ｍｕｃｏｒ、Ｓａｃｃｈａｒｏｍｙｃｅｓ、Ｐｉｃｈｉａ、またはＲｈｉｚｏｐｕｓの少なくとも１つを含む。一部の例では、古細菌細胞は、Ｃｅｎａｒｃｈａｅｕｍ、Ｃａｌｄｏｃｏｃｃｕｓ、Ｉｇｎｉｓｐｈａｅｒａ、Ａｃｉｄｉｌｏｂｕｓ、Ａｃｉｄｏｃｏｃｃｕｓ、Ａｅｒｏｐｙｒｕｍ、Ｄｅｓｕｌｆｕｒｏｃｏｃｃｕｓ、Ｉｇｎｉｃｏｃｃｕｓ、Ｓｔａｐｈｙｌｏｔｈｅｒｍｕｓ、Ｓｔｅｔｔｅｒｉａ、Ｓｕｌｆｏｐｈｏｂｏｃｏｃｃｕｓ、Ｔｈｅｒｍｏｄｉｓｃｕｓ、Ｔｈｅｒｍｏｓｐｈａｅｒａ、Ｇｅｏｇｅｍｍａ、Ｈｙｐｅｒｔｈｅｒｍｕｓ、Ｐｙｒｏｄｉｃｔｉｕｍ、Ｐｙｒｏｌｏｂｕｓ、Ｎｉｔｒｏｓｏｐｕｍｉｌｕｓ（ｃａｎｄｉｄａｔｕｓ）、Ａｃｉｄｉａｎｕｓ、Ｍｅｔａｌｌｏｓｐｈａｅｒａ、Ｓｔｙｇｉｏｌｏｂｕｓ、Ｓｕｌｆｏｌｏｂｕｓ、Ｓｕｌｆｕｒｉｓｐｈａｅｒａ、Ｔｈｅｒｍｏｆｉｌｕｍ、Ｃａｌｄｉｖｉｒｇａ、Ｐｙｒｏｂａｃｕｌｕｍ、Ｔｈｅｒｍｏｃｌａｄｉｕｍ、Ｔｈｅｒｍｏｐｒｏｔｅｕｓ、Ｖｕｌｃａｎｉｓａｅｔａ、Ａｃｉｄｕｌｉｐｒｏｆｕｎｄｕｍ、Ａｒｃｈａｅｏｇｌｏｂｕｓ、Ｆｅｒｒｏｇｌｏｂｕｓ、Ｇｅｏｇｌｏｂｕｓ、Ｈａｌａｄａｐｔａｔｕｓ、Ｈａｌａｌｋａｌｉｃｏｃｃｕｓ、Ｈａｌｏａｌｃａｌｏｐｈｉｌｉｕｍ、Ｈａｌｏａｒｃｕｌａ、Ｈａｌｏｂａｃｔｅｒｉｕｍ、Ｈａｌｏｂａｃｕｌｕｍ、Ｈａｌｏｂｉｆｏｒｍａ、Ｈａｌｏｃｏｃｃｕｓ、Ｈａｌｏｆｅｒａｘ、Ｈａｌｏｇｅｏｍｅｔｒｉｃｕｍ、Ｈａｌｏｍｉｃｒｏｂｉｕｍ、Ｈａｌｏｐｉｇｅｒ、Ｈａｌｏｐｌａｎｕｓ、Ｈａｌｏｑｕａｄｒａ、Ｈａｌｏｒｈａｂｄｕｓ、Ｈａｌｏｒｕｂｒｕｍ、Ｈａｌｏｓａｒｃｉｎａ、Ｈａｌｏｓｉｍｐｌｅｘ、Ｈａｌｏｔｅｒｒｉｇｅｎａ、Ｈａｌｏｖｉｖａｘ、Ｎａｔｒｉａｌｂａ、Ｎａｔｒｉｎｅｍａ、Ｎａｔｒｏｎｏｂａｃｔｅｒｉｕｍ、Ｎａｔｒｏｎｏｃｏｃｃｕｓ、Ｎａｔｒｏｎｏｌｉｍｎｏｂｉｕｓ、Ｎａｔｒｏｎｏｒｕｂｒｕｍ、Ｍｅｔｈａｎｏｒｅｇｕｌａ（ｃａｎｄｉｄａｔｕｓ）、Ｍｅｔｈａｎｏｃａｌｃｕｌｕｓ、Ｍｅｔｈａｎｏｂａｃｔｅｒｉｕｍ、Ｍｅｔｈａｎｏｂｒｅｖｉｂａｃｔｅｒ、Ｍｅｔｈａｎｏｓｐｈａｅｒａ、Ｍｅｔｈａｎｏｔｈｅｒｍｏｂａｃｔｅｒ、Ｍｅｔｈａｎｏｔｈｅｒｍｕｓ、Ｍｅｔｈａｎｏｃａｌｄｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｔｏｒｒｉｓ、Ｍｅｔｈａｎｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｔｈｅｒｍｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｃｏｒｐｕｓｃｕｌｕｍ、Ｍｅｔｈａｎｏｃｕｌｌｅｕｓ、Ｍｅｔｈａｎｏｆｏｌｌｉｓ、Ｍｅｔｈａｎｏｇｅｎｉｕｍ、Ｍｅｔｈａｎｏｌａｃｉｎｉａ、Ｍｅｔｈａｎｏｍｉｃｒｏｂｉｕｍ、Ｍｅｔｈａｎｏｐｌａｎｕｓ、Ｍｅｔｈａｎｏｓｐｉｒｉｌｌａｃｅａｅ、Ｍｅｔｈａｎｏｓｐｉｒｉｌｌｕｍ、Ｍｅｔｈａｎｏｓａｅｔａ、Ｍｅｔｈａｎｉｍｉｃｒｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｃｏｃｃｏｉｄｅｓ、Ｍｅｔｈａｎｏｈａｌｏｂｉｕｍ、Ｍｅｔｈａｎｏｈａｌｏｐｈｉｌｕｓ、Ｍｅｔｈａｎｏｌｏｂｕｓ、Ｍｅｔｈａｎｏｍｅｔｈｙｌｏｖｏｒａｎｓ、Ｍｅｔｈａｎｏｓａｌｓｕｍ、Ｍｅｔｈａｎｏｓａｒｃｉｎａ、Ｍｅｔｈａｎｏｐｙｒｕｓ、Ｐａｌａｅｏｃｏｃｃｕｓ、Ｐｙｒｏｃｏｃｃｕｓ、Ｔｈｅｒｍｏｃｏｃｃｕｓ、Ｆｅｒｒｏｐｌａｓｍａ、Ｐｉｃｒｏｐｈｉｌｕｓ、Ｔｈｅｒｍｏｐｌａｓｍａ、Ｋｏｒａｒｃｈａｅｏｔａ、Ｎａｎｏａｒｃｈａｅｏｔａ、またはＮａｎｏａｒｃｈａｅｕｍ細胞の少なくとも１つを含む。

選択されたサイズ範囲の複数の核酸分子は、任意の供給源、例えば、染色体ＤＮＡおよびミトコンドリアＤＮＡを含む、細胞に由来するゲノムまたは部分的なゲノムに由来してもよい。したがって、一部の例では、単離された核酸は、選択された細胞タイプまたは細胞タイプの集団から単離されている。ＤＮＡ（例えば、ゲノムＤＮＡ）は、例えば、消化、剪断、超音波処理、またはそれらの組合せにより断片化されている。一部の例では、核酸は、選択された長さまたは長さの範囲のランダム二本鎖ＤＮＡ配列などの合成ＤＮＡである。合成ＤＮＡの産生には、任意のＤＮＡ合成法を使用することができる。特定の例では、合成ＤＮＡ（例えば、選択されたサイズ範囲のＤＮＡ）は、選択されたサイズ範囲のＤＮＡよりも小さな２つまたはそれよりも多くのＤＮＡ分子をライゲートすることにより生成してもよい（例えば、約７５０～８５０塩基対または約８００塩基対の選択された範囲のサイズのＤＮＡの場合、より小さなＤＮＡは、少なくとも約２５、５０、１００、２００、３００、もしくは４００塩基対、または約２５～５０、２５～１００、２５～２００、２５～４００、もしくは１００～４００塩基対、または約１００塩基対であってもよい）。選択されたサイズ範囲の合成ＤＮＡ核酸分子を生成するための例示的な方法は、図１３に示されている。

一部の例では、単離されている核酸のサイズ範囲は、約５０～２００、１００～２００、１００～３００、３００～５００、１００～１５００、５００～１２００、７００～１０００、７００～９００、もしくは７５０～８５０塩基対長、または約８００塩基対長など、約５０～３０００または１００～３０００塩基対長などの、少なくとも約５０、１００、２００、３００、４００、５００、７５０、８００、９００、１０００、１２００、１５００、２０００、２５００、または３０００塩基対長である。任意の方法を使用して、所望のサイズ範囲の複数の核酸分子を選択することができる。一部の例では、複数の核酸分子は、ゲル電気泳動（例えば、１～５％、１～２％、２～３％、もしくは３～５％アガロースゲル、または１．２％アガロースゲルなど、少なくとも１％、１．２％、１．５％、２％、３％、もしくは５％アガロースゲルなどの、手作業で調製されたアガロースゲルもしくはアガロースゲルカセットなどのアガロースゲルを使用し、例えば、定電圧もしくは可変電圧などを使用して）、またはビーズに基づくサイズ選択（例えば、常磁性ビーズ、例えば、カルボキシルコーティングを有する常磁性ビーズなどを使用した、固相可逆的固定化、ＳＰＲＩ）を使用して選択される。

一部の例では、本方法は、核酸分子（例えば、選択されたサイズの複数の単離された核酸分子、本明細書では「インサート」とも呼ばれる）をアダプター配列（例えば、少なくとも１つの線状アダプター配列など、少なくとも１つのアダプター配列）にライゲートするステップを含む。複数の単離された核酸分子とのライゲーションなどにより環状核酸分子（例えば、複数の環状核酸分子）を形成することが可能な線状アダプター配列など、任意のアダプター配列を使用することができる。一部の例では、アダプター配列は、リボヌクレオチドおよびデオキシリボヌクレオチドを含む。特定の例では、アダプター配列は、１つのリボヌクレオチドまたは少なくとも２つの連続したリボヌクレオチド（例えば、約２～５、２～１０、２～２５、２５～５０、もしくは５０～１００個のリボヌクレオチド、または約２つのリボヌクレオチドなど、少なくとも約２、３、４、５、６、７、８、９、１０、２５、５０、または１００個のヌクレオチド）を含む。一部の例では、アダプター配列は、３’末端の少なくとも１つのデオキシリボヌクレオチド（例えば、３’末端の、少なくとも約１、２、５、１０、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、４０、４５、５０、１００、２５０、５００、もしくは１０００個のデオキシリボヌクレオチド、または約５～４５、１０～４０、１５～３５、２０～３０、１～５０、１～１００、１～２５０、１～５００、もしくは１～１０００個のデオキシリボヌクレオチド、または約２１、２８、もしくは２９個、または約１５～３５もしくは２０～３０個のデオキシリボヌクレオチド）、および５’末端の少なくとも１つのデオキシリボヌクレオチド（例えば、５’末端の、少なくとも約１、２、５、１０、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、４０、４５、５０、１００、２５０、５００、もしくは１０００個のデオキシリボヌクレオチド、または約５～４５、１０～４０、１５～３５、２０～３０、１～５０、１～１００、１～２５０、１～５００、もしくは１～１０００個のデオキシリボヌクレオチド、または約２１、２８、もしくは２９個、または約１５～３５もしくは２０～３０個のデオキシリボヌクレオチド）が隣接する１つのリボヌクレオチドまたは少なくとも２つの連続したリボヌクレオチドを含む。特定の例では、線状アダプター配列は以下のものを含んでいてもよい：
ＣＴＧＣＴＧＡＡＴＣＡＣＴＡＧＴＧＡＡＴＴＡＴＴＡＣＣＣｒＵｒＵＣＡＡＧＡＣＡＣＴＡＣＴＣＴＣＣＡＧＣＡＧＴ（配列番号１）またはＣＴＧＣＴＧＧＡＧＡＧＴＡＧＴＧＴＣＴＴＧｒＡｒＡＧＧＧＴＡＡＴＡＡＴＴＣＡＣＴＡＧＴＧＡＴＴＣＡＧＣＡＧＴ（配列番号２）。配列中、「ｒＵ」および「ｒＡ」はリボヌクレオチドを示す。特定の例では、アダプターは、配列番号１および２の核酸のハイブリダイゼーションにより調製される二本鎖線状アダプターである。

複数の単離された核酸分子（複数のインサートなど）は、任意のライゲーション法（例えば、リガーゼ媒介性ライゲーションまたは化学ライゲーション）を使用して、アダプター配列（例えば、少なくとも１つの線状アダプター配列など、少なくとも１つのアダプター配列、例えば、配列番号１および／または配列番号２）にライゲートされる。一部の例では、少なくとも１つのリガーゼがライゲーションに使用される。本明細書に記載の任意の核酸またはアダプター配列を使用することができる。一部の例では、ライゲーション法は、「インサート」核酸分子およびアダプター配列（例えば、配列番号１および配列番号２を含む二本鎖アダプター）を含む環状核酸分子（例えば、複数の環状核酸分子）を形成するのに十分である。したがって、特定の例では、こうした方法を使用して、各々がインサートおよびアダプター配列を有する複数の環状核酸分子を産生することができる。一部の例では、ＤＮＡリガーゼが使用される。核酸のライゲートに十分な任意のリガーゼ（例えば、Ｔ４ＤＮＡリガーゼ）を使用することができる。使用することができるリガーゼの例としては、以下のものが挙げられる：ＤＮＡリガーゼ（Ｔ４ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、ＴａｑＤＮＡリガーゼ（例えば、ＴａｑＤＮＡリガーゼ、またはＨｉＦｉＴａｑＤＮＡリガーゼなどの高忠実度ＴａｑＤＮＡリガーゼ）を含む）、熱安定性ＤＮＡリガーゼ（例えば、９°Ｎ（登録商標）ＤＮＡリガーゼなど、相補的ＤＮＡ鎖にギャップ無しでハイブリダイズし正確に対合している２つの隣接するＤＮＡ鎖の５’リン酸と３’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ）、および相補的ＲＮＡ鎖によりスプリントされた隣接する一本鎖ＤＮＡをライゲートするリガーゼ（例えば、ＳＰＬＩＮＴＲ（登録商標）リガーゼ）。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である（例えば、Ｔ４ＤＮＡリガーゼまたはＴ３ＤＮＡリガーゼ）。特定の例では、リガーゼは、Ｔ４ＤＮＡリガーゼである。

一部の実施形態では、本方法は、複数の環状核酸分子を、環状核酸分子（例えば、複数の環状核酸分子など、本明細書に記載の任意の環状核酸分子）から線状核酸を除去するのに十分な条件下で、ポリヌクレオチド分子の末端から連続したヌクレオチドを除去することに特異的な少なくとも１つの酵素（例えば、少なくとも約１、２、５、もしくは１０個の酵素、または約１～２、１～５、もしくは１～１０個の酵素、または約１つもしくは２つの酵素）（例えば、少なくとも約１、２、５、もしくは１０個のエキソヌクレアーゼ、または約１～２、１～５、もしくは１～１０個のエキソヌクレアーゼ、または約１つもしくは２つのエキソヌクレアーゼなど、少なくとも１つのエキソヌクレアーゼ）と接触させるステップをさらに含む。一部の例では、少なくとも１つのエキソヌクレアーゼは、エキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、および／またはラムダエキソヌクレアーゼを含む。特定の例では、少なくとも１つのエキソヌクレアーゼは、エキソヌクレアーゼＩおよびエキソヌクレアーゼＩＩＩである。

一部の実施形態では、本方法は、インサートおよびアダプター配列を含む複数の環状核酸分子を、インサートおよびアダプターを含む複数の環状核酸分子から線状核酸分子（例えば、複数の線状核酸分子）を産生するのに十分な条件下で、ポリヌクレオチド鎖内のヌクレオチドを分離することに特異的な酵素（例えば、５’末端または３’末端のヌクレオチド以外のヌクレオチド、エンドヌクレアーゼなど）と接触させるステップを含む。一部の例では、産生される線状核酸分子は各々、例えば、インサート（例えば、本明細書に記載の任意のインサート）が隣接する、５’末端の少なくとも１つのデオキシリボヌクレオチドおよび３’末端の少なくとも１つのデオキシリボヌクレオチドを含む。一部の例では、産生される線状核酸分子は、５’末端の少なくとも１つのデオキシリボヌクレオチドおよび３’末端の少なくとも１つのデオキシリボヌクレオチドが隣接するインサートを含む。例えば、５’末端または３’末端の少なくとも１つのデオキシリボヌクレオチドは、少なくとも約１、２、５、１０、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、４０、４５、５０、１００、２５０、５００、もしくは１０００個のデオキシリボヌクレオチド、または約５～４５、１０～４０、１５～３５、２０～３０、１～５０、１～１００、１～２５０、１～５００、もしくは１～１０００個のデオキシリボヌクレオチド、または約２１、２８、もしくは２９個、または約１５～３５もしくは２０～３０個のデオキシリボヌクレオチドなど、少なくとも１つのデオキシリボヌクレオチドを含んでいてもよい。特定の例では、酵素は、二本鎖核酸内のリボヌクレオチドの除去に特異的である（例えば、エンドリボヌクレアーゼ）。例えば、酵素は、約２～５、２～１０、２～２５、２５～５０、もしくは５０～１００個のリボヌクレオチド、または約２個のリボヌクレオチド）など、少なくとも約２、３、４、５、６、７、８、９、１０、２５、５０、または１００個のリボヌクレオチドなどの少なくとも１つのリボヌクレオチドを、環状核酸（例えば、複数の環状核酸分子など、本明細書に記載の環状核酸分子のいずれか）から除去することができる。特定の例では、酵素（例えば、エンドリボヌクレアーゼ）は、ＲＮａｓｅＨＩＩ（例えば、任意のリボヌクレオチドを除去するため）またはウラシル－ＤＮＡグリコシラーゼ（例えば、ウラシルを除去するため）を含んでいてもよい。環状核酸の線状化により、インサート核酸、ならびに３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを含む複数の線状核酸分子が産生される。

一部の実施形態では、本方法は、インサート、ならびに３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを含む環状核酸を線状化することにより得られる複数の線状核酸分子を、少なくとも１つのレポーター核酸と融合させる（例えば、核酸分子レポーターライブラリーなど、複数のレポーター構築物を産生する）ステップを含む。任意のレポーター核酸、例えば、蛍光タンパク質をコードする核酸および／またはバーコードを含む核酸など、蛍光レポーター核酸またはバーコードレポーター核酸を使用することができる。一部の例では、少なくとも１つのレポーターは、蛍光タンパク質をコードする核酸である。青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質、またはそのような蛍光の任意の組合せもしくは変形形態を示すタンパク質など、任意の蛍光タンパク質をコードすることができる。特定の例では、少なくとも１つのレポーター核酸は、緑色蛍光タンパク質（ＧＦＰ）をコードする核酸である。他の例では、少なくとも１つのレポーター核酸は、バーコード（例えば、核酸または遺伝子マーカー）を含む核酸である。任意の核酸または遺伝子マーカーを、バーコードとして使用することができる。一部の例では、バーコードは、短鎖核酸または遺伝子マーカー、例えば、少なくとも約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、７５、１００、２５０、５００、１０００、２０００、３０００、もしくは５０００ヌクレオチド長、または約５～１０、１０～２０、１５～４０、２０～３０、１０～５０、１０～７５、１０～１００、１００～２５０、２５０～５００、５００～１０００、１０００～３０００、もしくは１０００～５０００ヌクレオチド長、または約２０、２５、３０、１５～４０、もしくは２０～３０ヌクレオチド長の核酸または遺伝子マーカーである。さらなる例では、レポーターは、蛍光タンパク質をコードする少なくとも１つの核酸および少なくとも１つのバーコード核酸を含む。

特定の例では、少なくとも１つのレポーター核酸は、バーコード核酸である。任意の核酸バーコードを使用することができる。例えば、バーコードライブラリーに由来するものなど、ランダム、半ランダム、または非ランダムバーコードを使用することができる。特定の例では、バーコードは、ランダムバーコードである。一部の例では、バーコードは、約１０～１００、１００～１０^３、１０^３～１０^４、１０^４～１０^６、１０^６～１０^７、１０^７～１０^８、１０^８～１０^９、もしくは１０^６～１０^９個のバーコード、または約１０^７～２×１０^７個のバーコード、または約２×１０^７個のバーコードなど、少なくとも１０、２５、５０、１００、２５０、５００、１０^３、１０^４、１０^５、１０^６、１０^７、１０^８、もしくは１０^９個のバーコードのライブラリーなどの、バーコードのライブラリー（例えば、既存の、またはアルゴリズムにより生成されたバーコードライブラリー）に由来する。特定の例では、バーコードは、約２×１０^７個のバーコードのランダムライブラリーに由来する。

一部の実施形態では、本方法は、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを有するインサート核酸を含む線状核酸分子ならびにレポーターを線状ベクター核酸と融合させて、複数の線状ベクターを産生するステップを含む。任意の線状ベクター核酸を使用することができる。例えば、線状ベクター核酸は、ヌクレアーゼ切断部位および転写または翻訳調節エレメント（プロモーター、エンハンサー、リプレッサー、および／またはポリ（Ａ）テールなど）を含んでいてもよい。一部の例では、線状ベクター核酸は、基本プロモーターおよび／または合成プロモーターなどの少なくとも１つのプロモーターを含んでいてもよい。例えば、線状ベクター核酸は、少なくとも約１、２、３、４、５、６、８、もしくは１０個のプロモーター、または約１～４、５～１０、もしくは１～１０個のプロモーターを含んでいてもよい。一部の例では、基本および／または合成プロモーターなどの少なくとも１つのプロモーターは、少なくとも約１、２、３、４、５、６、８、もしくは１０個のプロモーターモチーフ、または約１～４、５～１０、もしくは１～１０個のプロモーターモチーフ、または約４つのプロモーターモチーフなどの少なくとも１つのプロモーターモチーフを含んでいてもよく、例えば合成プロモーターは、ＴＡＴＡボックス、イニシエーター（Ｉｎｒ）、モチーフ１０エレメント（ＭＴＥ）、下流プロモーターエレメント（ＤＰＥ）、Ｂ認識エレメント（ＢＲＥ）、Ｅ－ボックス、ＣＣＡＡＴボックス、ＮＲＦ－１、ＧＡＢＰＡ、ＹＹ１、ＡＣＴＡＣＡｎｎＴＣＣＣ、および／またはデカマープロモーターモチーフを含んでいてもよい。特定の例では、少なくとも１つのプロモーターは、ＴＡＴＡボックス、Ｉｎｒ、ＭＴＥ、およびＤＰＥモチーフを含む合成プロモーター（例えば、スーパーコアプロモーター）である。追加の例示的なプロモーターは、参照によりその全体が本明細書に組み込まれる、Morgan, addgene blog:“Plasmids 101: The Promoter Region - Let's Go!”, 2014に見出すことができる。

３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを有するインサート核酸を含む線状核酸分子は、任意の時点で、例えば、線状核酸分子を少なくとも１つのレポーター核酸と融合させる際に、融合させる前に、または融合させた後で、線状ベクター核酸と融合させることができる。一部の例では、線状ベクター核酸は、少なくとも１つのレポーター核酸（例えば、緑色蛍光タンパク質などの蛍光タンパク質をコードする少なくとも１つのレポーター核酸、または少なくとも１つのバーコードを含む少なくとも１つのレポーター核酸）を含み、したがって、線状核酸分子を線状ベクター核酸と融合させるステップは、少なくとも１つのレポーター核酸との融合を含む。一部の例では、本方法は、線状核酸分子を少なくとも１つのレポーター核酸（例えば、蛍光タンパク質をコードする核酸またはバーコードを含む核酸）と融合させる前に、線状核酸分子を線状ベクター核酸と融合させるステップを含む。例えば、複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させるステップは、複数の線状ベクターを、蛍光タンパク質をコードするレポーター核酸（例えば、蛍光レポーター核酸）と融合させて、複数の蛍光レポーター構築物を産生するステップを含んでいてもよい。一部の例では、複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させるステップは、複数の線状ベクターを、バーコードを含むレポーター核酸（例えば、バーコードレポーター核酸）と融合させて、複数のバーコードレポーター構築物を産生するステップを含んでいてもよい。他の例では、線状核酸は、線状ベクター核酸との融合前に、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを有するインサート核酸、およびレポーター核酸を含む。

本方法は、任意の数のレポーター核酸を、核酸分子、例えば、少なくとも約１、２、３、４、５、１０、１５、２０、もしくは２５個、または約１～２、１～５、１～１０、１０～２０、１５～２５、もしくは１～２５個、または約２個のレポーター核酸を含む複数の線状核酸分子または複数の線状ベクターと融合させるステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸（例えば、ＧＦＰをコードするレポーター核酸）と融合させて、複数の蛍光レポーター構築物を産生するステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、バーコードレポーター核酸（例えば、約２５ヌクレオチド長のバーコードなど、短鎖バーコードを含むレポーター核酸）と融合させて、複数のバーコードレポーター構築物を産生するステップを含む。一部の例では、本方法は、複数の線状核酸分子または核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸およびバーコードレポーター核酸（例えば、ＧＦＰをコードするレポーター核酸、および約２５ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸）と融合させて、複数の蛍光およびバーコードレポーター構築物を産生するステップを含む。特定の例では、本方法は、核酸分子を含む複数の線状ベクターを、蛍光レポーター核酸および／またはバーコードレポーター核酸（例えば、ＧＦＰをコードするレポーター核酸、および／または約２５ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸）と融合させて、複数の蛍光およびバーコードレポーター構築物を産生するステップを含む。

一部の実施形態では、複数の線状核酸分子または核酸分子を含む複数の線状ベクターをバーコードレポーター核酸と融合させるステップは、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを有するインサート核酸を含む複数の線状核酸分子、または３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを有するインサート核酸を含む複数の線状ベクターを、バーコードレポーター核酸（例えば、約２５ヌクレオチド長のバーコードなどの短鎖バーコードを含むレポーター核酸）を含むプライマー核酸と接触させるステップを含む。一部の例では、複数の線状核酸分子または線状核酸分子を含む複数の線状ベクター、およびバーコードレポーター核酸を含む少なくとも１つのプライマー核酸を使用してポリメラーゼ連鎖反応（ＰＣＲ）を実施して、例えば、線状核酸分子または複数の線状ベクターを伸長して、複数のバーコードレポーター構築物またはバーコードレポーター構築物を含む複数の線状ベクターを産生する。特定の例では、核酸分子を含む複数の線状ベクター、およびバーコードレポーター核酸を含むプライマー核酸を使用して、ポリメラーゼ連鎖反応（ＰＣＲ）を実施して、バーコードレポーター構築物を含む複数の線状ベクターを産生する。

一部の例では、本方法は、リガーゼを使用して、レポーター構築物（例えば、蛍光レポーター構築物および／またはバーコードレポーター構築物）を含む複数の線状ベクターの末端をライゲートして、レポーター構築物（例えば、蛍光レポーター構築物および／またはバーコードレポーター構築物）を含む複数の環状ベクターを産生するステップを含む。特定の例では、本方法は、リガーゼを使用して、バーコードレポーター構築物を含む複数の線状ベクターの末端をライゲートして、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップを含む。本明細書に記載の任意のリガーゼ（例えば、Ｔ４ＤＮＡリガーゼなどのＤＮＡリガーゼ）を使用することができる。一部の例では、リガーゼは、二本鎖核酸の平滑末端のライゲートに十分である（例えば、Ｔ４ＤＮＡリガーゼまたはＴ３ＤＮＡリガーゼ）。特定の例では、リガーゼは、Ｔ４ＤＮＡリガーゼである。一部の例では、本方法は、バーコードレポーター構築物を含む複数の環状ベクターを少なくとも１つのエキソヌクレアーゼと接触させて、複数の環状ベクターから線状核酸分子を除去するステップをさらに含む。本明細書に記載の任意のエキソヌクレアーゼを使用することができる（例えば、エキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、および／またはラムダエキソヌクレアーゼ）。特定の例では、少なくとも１つのエキソヌクレアーゼは、エキソヌクレアーゼＩおよびエキソヌクレアーゼＩＩＩである。

また、一部の実施形態では、本方法は、複数の線状核酸分子のゲノムカバレッジを決定するステップを含み、例えば、複数の線状核酸分子はゲノムＤＮＡを含む。ゲノムカバレッジは、任意の時点で決定することができる。一部の例では、ゲノムカバレッジは、インサート核酸、ならびに３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを含む複数の線状核酸分子を、レポーター核酸と融合させる前に決定される。特定の例では、カバレッジは、複数の線状核酸分子（例えば、核酸分子およびアダプター配列を含む線状核酸分子）を使用して決定することができる。ゲノムカバレッジは、任意の方法を使用して決定することができる。特定の例では、ゲノムカバレッジは、少なくとも１つの目的のゲノム領域（例えば、ゲノム全体または部分的ゲノム）を選択し、複数の線状核酸分子を増幅し（例えば、定量的ＰＣＲ、ＱＰＣＲなどのＰＣＲを使用して）、選択されたゲノム領域が複数の線状核酸分子に存在するか否かを決定することにより決定される。線状核酸分子が核酸分子およびアダプター配列を含む場合など、一部の例では、ＰＣＲは、アダプター配列に相補的なプライマー（例えば、核酸分子に対して５’に位置するアダプター配列のすべてまたは一部など、アダプター配列のすべてまたは一部に相補的であるプライマー）を使用して実施される。

核酸分子レポーターライブラリーを構築する方法の特定の例では、本方法は、選択されたサイズ範囲（例えば、約５０～２００、１００～２００、１００～３００、３００～５００、１００～１５００、５００～１２００、７００～１０００、もしくは７５０～８５０塩基対長、または約８００塩基対長など、約５０～３０００もしくは１００～３０００塩基対長などの少なくとも約５０、１００、２００、３００、４００、５００、７５０、８００、９００、１０００、１２００、１５００、２０００、２５００、もしくは３０００塩基対長）の複数の核酸分子を単離するステップ；複数の核酸分子を、リガーゼ（例えば、Ｔ４リガーゼ）を使用して少なくとも１つの線状アダプター配列にライゲートするステップであって、線状アダプター配列は、配列番号１または配列番号２など、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチド（例えば、３’末端または５’末端の少なくとも約２１、２８、もしくは２９個、または約１５～３５もしくは２０～３０個のデオキシリボヌクレオチド）が隣接する少なくとも２つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ；複数の環状核酸分子を、複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼ（例えば、エキソヌクレアーゼＩおよび／またはエキソヌクレアーゼＩＩＩ）と接触させるステップ；複数の環状核酸分子を、インサートが隣接する、各々が３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼ（例えば、ＲＮａｓｅＨＩＩ）と接触させるステップ；ならびに（ａ）複数の核酸分子を線状ベクター核酸と融合させ、それにより核酸分子を含む複数の線状ベクターを産生するステップ；（ｂ）核酸分子を含む複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ；および（ｃ）ポリメラーゼ連鎖反応（ＰＣＲ）を実施して、バーコードレポーター構築物を含む複数の環状ベクターを産生するステップなどによって、複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させて複数のレポーター構築物を産生するステップ；ならびにバーコードレポーター構築物を含む複数の環状ベクターを、バーコードレポーター構築物を含む複数の環状ベクターから線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼ（例えば、エキソヌクレアーゼＩおよび／またはエキソヌクレアーゼＩＩＩ）と接触させるステップを含む。

核酸分子レポーターライブラリーを構築するための組成物およびキット
本明細書には、本明細書に記載の方法のいずれかを使用して産生される核酸分子レポーターライブラリーが企図されている。レポーターライブラリーは、任意の数のレポーター構築物を含んでいてもよい。一部の例では、レポーター構築物の数は、核酸配列または目的の配列に依存する場合がある。例えば、核酸分子レポーターライブラリーが、ゲノム（例えば、動物またはヒトゲノム、植物ゲノム、細菌ゲノム、真菌ゲノム、または古細菌ゲノム）などのより大きな配列に由来する核酸分子を含む場合、レポーター構築物の数は、より大きな配列のサイズおよび／またはライブラリーによるカバレッジのレベルに依存する場合がある。一部の例では、レポーター構築物の数は、約１０～１００、１００～１０^３、１０^３～１０^４、１０^４～１０^６、１０^６～１０^７、１０^７～１０^８、１０^８～１０^９、もしくは１０^６～１０^９、または約１０^７～２×１０^７もしくは約２×１０^７（例えば、１．９１×１０^７）など、少なくとも約１０、２５、５０、１００、２５０、５００、１０^３、１０^４、１０^５、１０^６、１０^７、１０^８、または１０^９である。

本明細書には、レポーター分子および核酸分子（例えば、インサート）を含むレポーター構築物のライブラリーが企図されている。また、本明細書の方法を使用して産生される核酸分子レポーターライブラリー中のレポーター構築物のエレメントは、同定および／または定量化の企図されている方法に応じて様々であってもよい。例えば、本明細書の方法を使用して産生されるライブラリーは、ｉｎｖｉｖｏまたはｉｎｖｉｔｒｏで使用することができ、同定および／または定量化は、視覚に基づくレポーター（例えば、蛍光レポーター、例えば、視覚および／または分光分析に基づく同定および／または定量化などのための、青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質をコードする核酸）を使用することから、配列に基づくレポーター（例えば、アレイに基づくおよび／または配列に基づく同定および／または定量化などのための、バーコードレポーター、例えば、少なくとも約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、７５、１００、２５０、５００、１０００、２０００、３０００、もしくは５０００ヌクレオチド長、または約５～１０、１０～２０、１５～４０、２０～３０、１０～５０、１０～７５、１０～１００、１００～２５０、２５０～５００、５００～１０００、１０００～３０００、もしくは１０００～５０００ヌクレオチド長、または約２０、２５、３０、１５～４０、もしくは２０～３０ヌクレオチド長の核酸または遺伝子マーカーを含む、ランダム、半ランダム、または非ランダムバーコード）まで、多岐にわたっていてもよい。本明細書には、１つよりも多くのレポーターまたはレポーターのタイプを含むライブラリーが企図されている。一部の例では、ライブラリーは、蛍光レポーターおよびバーコードレポーターを含むライブラリーなど、視覚に基づくレポーターおよび配列に基づくレポーターを含んでいてもよい。特定の例では、ライブラリーは、ＧＦＰをコードする核酸および短鎖バーコード（例えば、約２５ヌクレオチド長のバーコード）を含む核酸を両方とも有するレポーター構築物を含む。また、レポーター構築物の企図されるインサートのサイズは、同定および／または定量化の企図される方法に応じて様々であってもよい。例えば、インサートサイズ範囲は、約５０～２００、１００～２００、１００～３００、３００～５００、１００～１５００、５００～１２００、７００～１０００、もしくは７５０～８５０塩基対長、または約８００塩基対長など、約５０～３０００または１００～３０００塩基対長などの、少なくとも約５０、１００、２００、３００、４００、５００、７５０、８００、９００、１０００、１２００、１５００、２０００、２５００、または３０００塩基対長である。

本明細書には、レポーター分子以外の他のエレメントを含むレポーター構築物のライブラリーがさらに企図されている。例えば、レポーター核酸の線状アダプター配列またはその部分（例えば、配列番号１および／または配列番号２またはそれらの部分）が含まれていてもよい。また、例えば、レポーター構築物は、ヌクレアーゼ切断部位および転写または翻訳調節エレメント、例えば、プロモーター（例えば、基本プロモーターおよび／またはスーパーコアプロモーターなどの合成プロモーター）、エンハンサー、リプレッサー、および／またはポリ（Ａ）テールなど、本明細書に記載のベクターおよび／またはベクターエレメントのいずれを含んでいてもよい。

また、本明細書には、核酸分子レポーターライブラリーを構築するためのキットが企図されている。一部の例では、キットは、１つまたは複数の線状アダプター、例えば、配列番号１および／または配列番号２を含む。一部の例では、キットは、本明細書に記載のレポーター核酸のいずれかを含む。例えば、視覚に基づく核酸レポーター（例えば、蛍光レポーター、例えば、視覚に基づくおよび／または分光分析に基づく同定および／または定量化などのための、青色、紫色、緑色、黄色、橙色、または赤色蛍光タンパク質をコードする核酸）および／または配列に基づくレポーター（例えば、アレイに基づくおよび／または配列に基づく同定および／または定量化などのための、少なくとも約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、７５、１００、２５０、５００、１０００、２０００、３０００、もしくは５０００ヌクレオチド長、または約５～１０、１０～２０、１５～４０、２０～３０、１０～５０、１０～７５、１０～１００、１００～２５０、２５０～５００、５００～１０００、１０００～３０００、もしくは１０００～５０００ヌクレオチド長、または約２０、２５、３０、１５～４０、もしくは２０～３０ヌクレオチド長の核酸または遺伝子マーカーを含むバーコードレポーター、例えば、ランダム、半ランダム、または非ランダムバーコード）が含まれていてもよい。１つよりも多くのレポーターまたはレポーターのタイプが企図される。例えば、キットは、蛍光レポーターおよびバーコードレポーターなど、視覚に基づくレポーターおよび配列に基づくレポーターを含んでいてもよい。特定の例では、キットは、ＧＦＰをコードし、かつ短鎖バーコード（例えば、約２５ヌクレオチド長のバーコード）を含む核酸レポーターを含む。

本明細書には、レポーター分子以外の他のエレメントを含むレポーター構築物を有するキットがさらに企図されている。例えば、レポーター核酸の線状アダプター配列が含まれていてもよい（例えば、配列番号１および／または配列番号２）。また、キットは、ヌクレアーゼ切断部位および転写または翻訳調節エレメント、例えば、プロモーター（例えば、基本プロモーターおよび／またはスーパーコアプロモーターなどの合成プロモーター）、エンハンサー、リプレッサー、および／またはポリ（Ａ）テールなど、本明細書に記載のベクターおよび／またはベクターエレメントのいずれを含んでいてもよい。本明細書に記載の方法を実施するための酵素はいずれも企図される。例えば、キットは、ＤＮＡリガーゼ（Ｔ４ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、ＴａｑＤＮＡリガーゼ（例えば、ＴａｑＤＮＡリガーゼ、またはＨｉＦｉＴａｑＤＮＡリガーゼなどの高忠実度ＴａｑＤＮＡリガーゼ）を含む）、熱安定性ＤＮＡリガーゼ（例えば、９°Ｎ（登録商標）ＤＮＡリガーゼなど、相補的ＤＮＡ鎖にギャップ無しでハイブリダイズし正確に対合している２つの隣接するＤＮＡ鎖の５’リン酸と３’ヒドロキシルとの間のホスホジエステル結合の形成を触媒する熱安定性リガーゼ）、および相補的ＲＮＡ鎖によりスプリントされた隣接する一本鎖ＤＮＡをライゲートするリガーゼ（例えば、ＳＰＬＩＮＴＲ（登録商標）リガーゼ）などの少なくとも１つのリガーゼ；少なくとも約１、２、５、もしくは１０個のエキソヌクレアーゼ、または約１～２、１～５、もしくは１～１０個のエキソヌクレアーゼ、または約１つもしくは２つのエキソヌクレアーゼ（例えば、エキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、および／またはラムダエキソヌクレアーゼ）などの少なくとも１つのエキソヌクレアーゼ；エンドリボヌクレアーゼ（例えば、ＲＮａｓｅＨＩＩまたはウラシル－ＤＮＡグリコシラーゼ）、および／またはＰＣＲに好適な任意のポリメラーゼ（例えば、高忠実度ポリメラーゼ）を含むポリメラーゼを含んでいてもよい。

機能的核酸調節エレメントを検出する方法およびそのためのキット
本開示のライブラリーは、目的のゲノム中のシス調節エレメントを同定することを含む、様々な目的に使用することができる。一部の例では、本開示のライブラリーを使用して、同じ種の異なる個体に由来するＣＲＭの機能的な違いを直接的に測定することができる。本開示のライブラリーおよび方法は、細胞に基づく手法（例えば、心筋細胞、ニューロン、肝細胞）における配列変動の機能的帰結を直接的に測定することができる。他の例では、本開示のライブラリーおよび方法を使用して、薬物の細胞毒性を媒介するＣＲＭ、細胞の病理学的状態を維持するＣＲＭ、および／または健康な細胞状態を維持するＣＲＭなど、バイオマーカーＣＲＭを同定することができる。

例えば、本開示のライブラリーおよび方法は、薬物の細胞毒性に応答するＣＲＭを同定することができる。複数の異なる細胞毒性効果を検出するバイオマーカーＣＲＭのコレクションを生成できる。このバイオマーカーのコレクションを使用して、１回のスクリーニングで薬物の毒性を試験することができる。また、本開示のライブラリーおよび方法は、患者由来細胞（例えば、ｉＰＳＣ由来心筋症細胞）の病理学的細胞状態に特異的なＣＲＭを同定することができる。さらに、本開示のライブラリーおよび方法を使用して、対照細胞（例えば、ｉＰＳＣ由来対照心筋細胞）の健康な細胞状態に特異的なＣＲＭを同定することができる。さらに、３つすべてのタイプのバイオマーカーＣＲＭをプールすることにより、細胞毒性効果を引き起こすことなく単一のスクリーニングで、病理学的細胞状態を正常状態にすることができる薬物をスクリーニングすることができる。

別の実施形態では、本開示のライブラリーおよび方法は、任意の所望の活性を保有する人工ＣＲＭをスクリーニングすることができる。そうしたＣＲＭとしては、任意の細胞タイプにおける選択マーカーの強力な駆動因子（例えば、操作された細胞（細菌細胞、真菌細胞、植物細胞、古細菌細胞、哺乳動物細胞）において遺伝子発現（例えば、酵素）を正確に制御するための駆動因子）を挙げることができる。

他の実施形態では、本開示のライブラリーおよび方法は、例えば、種々の細胞タイプ（例えば、胚性幹細胞または誘導幹細胞などの幹細胞から形成される、例えば、相互に排他的な細胞タイプ）における遺伝子調節相互作用を検出するためなど、宿主細胞タイプにおける非発現転写因子の富化モチーフをスクリーニングすることができる。例示的な適用としては、例えば、特定の細胞タイプを生成するための組織工学が挙げられる。例えば、１つの細胞タイプを抑制することができ、別の細胞タイプを促進することができる（例えば、１つの細胞タイプが別の細胞タイプに変わり得る適用、例えば、所望の細胞タイプまたは目的の細胞タイプが、望ましくない細胞タイプまたは目的ではない細胞タイプに変わり得る適用の場合）。

本明細書には、機能的核酸調節エレメント（例えば、プロモーター、エンハンサー、および／またはリプレッサーなどのＣＲＭ）を検出する方法が開示されている。一部の例では、本方法は、少なくとも１つの目的の細胞に、本明細書で開示されている核酸分子レポーターライブラリーをトランスフェクトするステップを含んでいてもよい。一部の例では、本方法は、目的の細胞を選択するステップを含む。動物細胞（例えば、哺乳動物細胞）、植物細胞、真菌細胞、細菌細胞、または古細菌細胞など、任意の目的の細胞を使用および／または選択することができる。一部の例では、哺乳動物細胞は、幹細胞、神経細胞、心臓血管細胞、肝臓細胞、内皮細胞、上皮細胞、口腔細胞、生殖細胞、内分泌細胞、水晶体細胞、脂肪細胞、分泌細胞、腎臓細胞、細胞外基質細胞、収縮性細胞、免疫細胞、血液細胞、または胚細胞の少なくとも１つを含む。特定の非限定的な例では、哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞（例えば、血管新生モデルなどにおける、ヒト臍帯静脈内皮細胞、ＨＵＶＥＣ）、胚性幹細胞、誘導多能性幹細胞、ＨｅｐＧ２細胞、ＬＮＣａＰ細胞、ＨｅＬａ細胞、ＨＣＴ１１６細胞、またはＫ５６２細胞の少なくとも１つである。一部の例では、植物細胞は、分裂組織細胞（分裂組織派生細胞を含む）、柔組織細胞（葉肉細胞、輸送細胞、または緑色組織細胞など）、厚角組織細胞、厚膜組織細胞（厚膜細胞または厚膜組織線維など）、仮導管、導管要素、師部細胞（篩管、伴細胞、師部繊維、または師部厚膜細胞など）、または表皮細胞（気孔孔辺細胞など）の少なくとも１つを含む。特定の非限定的な例では、植物細胞は、Ａｒａｂｉｄｏｐｓｉｓ、大麻、トウモロコシ、イネ、オオムギ、コムギ、スイッチグラス、トマト、ジャガイモ、Ｃｈｌａｍｙｄｏｍｏｎａｓ、Ｈｙｄｒｏｄｉｃｔｙｏｎ、Ｓｐｉｒｏｇｙｒａ、およびＡｃｔｅｂｕｌａｒｉａの少なくとも１つである。一部の例では、細菌細胞は、グラム陰性細菌細胞またはグラム陽性細菌細胞、例えば、Ａｃｉｄｏｂａｃｔｅｒｉａ、Ａｃｔｉｎｏｂａｃｔｅｒｉａ、Ａｑｕｉｆｉｃａｅ、Ｂａｃｔｅｒｏｉｄｅｔｅｓ、Ｃａｌｄｉｓｅｒｉｃａ、Ｃｈｌａｍｙｄｉａｅ、Ｃｈｌｏｒｏｂｉ、Ｃｈｌｏｒｏｆｌｅｘｉ、Ｃｈｒｙｓｉｏｇｅｎｅｔｅｓ、Ｃｙａｎｏｂａｃｔｅｒｉａ、Ｄｅｆｅｒｒｉｂａｃｔｅｒｅｓ、Ｄｅｉｎｏｃｏｃｃｕｓ－Ｔｈｅｒｍｕｓ、Ｄｉｃｔｙｏｇｌｏｍｉ、Ｅｌｕｓｉｍｉｃｒｏｂｉａ、Ｅｓｃｈｅｒｉｃｈｉａ、Ｆｉｂｒｏｂａｃｔｅｒｅｓ、Ｆｉｒｍｉｃｕｔｅｓ、Ｆｕｓｏｂａｃｔｅｒｉａ、Ｇｅｍｍａｔｉｍｏｎａｄｅｔｅｓ、Ｌｅｎｔｉｓｐｈａｅｒａｅ、Ｎｉｔｒｏｓｐｉｒａ、Ｐｌａｎｃｔｏｍｙｃｅｔｅｓ、Ｐｒｏｔｅｏｂａｃｔｅｒｉａ、Ｓｐｉｒｏｃｈａｅｔｅｓ、Ｓｙｎｅｒｇｉｓｔｅｔｅｓ、Ｔｅｎｅｒｉｃｕｔｅｓ、Ｔｈｅｒｍｏｄｅｓｕｌｆｏｂａｃｔｅｒｉａ、Ｔｈｅｒｍｏｔｏｇａｅ、またはＶｅｒｒｕｃｏｍｉｃｒｏｂｉａ細胞の少なくとも１つを含む。一部の例では、真菌細胞は、Ｔｒｉｃｈｏｄｅｒｍａ、Ｎｅｕｒｏｓｐｏｒａ、Ａｓｐｅｒｇｉｌｌｕｓ、Ｍｏｎａｓｃｕｓ、Ｍｕｃｏｒ、Ｓａｃｃｈａｒｏｍｙｃｅｓ、Ｐｉｃｈｉａ、またはＲｈｉｚｏｐｕｓの少なくとも１つを含む。一部の例では、古細菌細胞は、Ｃｅｎａｒｃｈａｅｕｍ、Ｃａｌｄｏｃｏｃｃｕｓ、Ｉｇｎｉｓｐｈａｅｒａ、Ａｃｉｄｉｌｏｂｕｓ、Ａｃｉｄｏｃｏｃｃｕｓ、Ａｅｒｏｐｙｒｕｍ、Ｄｅｓｕｌｆｕｒｏｃｏｃｃｕｓ、Ｉｇｎｉｃｏｃｃｕｓ、Ｓｔａｐｈｙｌｏｔｈｅｒｍｕｓ、Ｓｔｅｔｔｅｒｉａ、Ｓｕｌｆｏｐｈｏｂｏｃｏｃｃｕｓ、Ｔｈｅｒｍｏｄｉｓｃｕｓ、Ｔｈｅｒｍｏｓｐｈａｅｒａ、Ｇｅｏｇｅｍｍａ、Ｈｙｐｅｒｔｈｅｒｍｕｓ、Ｐｙｒｏｄｉｃｔｉｕｍ、Ｐｙｒｏｌｏｂｕｓ、Ｎｉｔｒｏｓｏｐｕｍｉｌｕｓ（ｃａｎｄｉｄａｔｕｓ）、Ａｃｉｄｉａｎｕｓ、Ｍｅｔａｌｌｏｓｐｈａｅｒａ、Ｓｔｙｇｉｏｌｏｂｕｓ、Ｓｕｌｆｏｌｏｂｕｓ、Ｓｕｌｆｕｒｉｓｐｈａｅｒａ、Ｔｈｅｒｍｏｆｉｌｕｍ、Ｃａｌｄｉｖｉｒｇａ、Ｐｙｒｏｂａｃｕｌｕｍ、Ｔｈｅｒｍｏｃｌａｄｉｕｍ、Ｔｈｅｒｍｏｐｒｏｔｅｕｓ、Ｖｕｌｃａｎｉｓａｅｔａ、Ａｃｉｄｕｌｉｐｒｏｆｕｎｄｕｍ、Ａｒｃｈａｅｏｇｌｏｂｕｓ、Ｆｅｒｒｏｇｌｏｂｕｓ、Ｇｅｏｇｌｏｂｕｓ、Ｈａｌａｄａｐｔａｔｕｓ、Ｈａｌａｌｋａｌｉｃｏｃｃｕｓ、Ｈａｌｏａｌｃａｌｏｐｈｉｌｉｕｍ、Ｈａｌｏａｒｃｕｌａ、Ｈａｌｏｂａｃｔｅｒｉｕｍ、Ｈａｌｏｂａｃｕｌｕｍ、Ｈａｌｏｂｉｆｏｒｍａ、Ｈａｌｏｃｏｃｃｕｓ、Ｈａｌｏｆｅｒａｘ、Ｈａｌｏｇｅｏｍｅｔｒｉｃｕｍ、Ｈａｌｏｍｉｃｒｏｂｉｕｍ、Ｈａｌｏｐｉｇｅｒ、Ｈａｌｏｐｌａｎｕｓ、Ｈａｌｏｑｕａｄｒａ、Ｈａｌｏｒｈａｂｄｕｓ、Ｈａｌｏｒｕｂｒｕｍ、Ｈａｌｏｓａｒｃｉｎａ、Ｈａｌｏｓｉｍｐｌｅｘ、Ｈａｌｏｔｅｒｒｉｇｅｎａ、Ｈａｌｏｖｉｖａｘ、Ｎａｔｒｉａｌｂａ、Ｎａｔｒｉｎｅｍａ、Ｎａｔｒｏｎｏｂａｃｔｅｒｉｕｍ、Ｎａｔｒｏｎｏｃｏｃｃｕｓ、Ｎａｔｒｏｎｏｌｉｍｎｏｂｉｕｓ、Ｎａｔｒｏｎｏｒｕｂｒｕｍ、Ｍｅｔｈａｎｏｒｅｇｕｌａ（ｃａｎｄｉｄａｔｕｓ）、Ｍｅｔｈａｎｏｃａｌｃｕｌｕｓ、Ｍｅｔｈａｎｏｂａｃｔｅｒｉｕｍ、Ｍｅｔｈａｎｏｂｒｅｖｉｂａｃｔｅｒ、Ｍｅｔｈａｎｏｓｐｈａｅｒａ、Ｍｅｔｈａｎｏｔｈｅｒｍｏｂａｃｔｅｒ、Ｍｅｔｈａｎｏｔｈｅｒｍｕｓ、Ｍｅｔｈａｎｏｃａｌｄｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｔｏｒｒｉｓ、Ｍｅｔｈａｎｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｔｈｅｒｍｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｃｏｒｐｕｓｃｕｌｕｍ、Ｍｅｔｈａｎｏｃｕｌｌｅｕｓ、Ｍｅｔｈａｎｏｆｏｌｌｉｓ、Ｍｅｔｈａｎｏｇｅｎｉｕｍ、Ｍｅｔｈａｎｏｌａｃｉｎｉａ、Ｍｅｔｈａｎｏｍｉｃｒｏｂｉｕｍ、Ｍｅｔｈａｎｏｐｌａｎｕｓ、Ｍｅｔｈａｎｏｓｐｉｒｉｌｌａｃｅａｅ、Ｍｅｔｈａｎｏｓｐｉｒｉｌｌｕｍ、Ｍｅｔｈａｎｏｓａｅｔａ、Ｍｅｔｈａｎｉｍｉｃｒｏｃｏｃｃｕｓ、Ｍｅｔｈａｎｏｃｏｃｃｏｉｄｅｓ、Ｍｅｔｈａｎｏｈａｌｏｂｉｕｍ、Ｍｅｔｈａｎｏｈａｌｏｐｈｉｌｕｓ、Ｍｅｔｈａｎｏｌｏｂｕｓ、Ｍｅｔｈａｎｏｍｅｔｈｙｌｏｖｏｒａｎｓ、Ｍｅｔｈａｎｏｓａｌｓｕｍ、Ｍｅｔｈａｎｏｓａｒｃｉｎａ、Ｍｅｔｈａｎｏｐｙｒｕｓ、Ｐａｌａｅｏｃｏｃｃｕｓ、Ｐｙｒｏｃｏｃｃｕｓ、Ｔｈｅｒｍｏｃｏｃｃｕｓ、Ｆｅｒｒｏｐｌａｓｍａ、Ｐｉｃｒｏｐｈｉｌｕｓ、Ｔｈｅｒｍｏｐｌａｓｍａ、Ｋｏｒａｒｃｈａｅｏｔａ、Ｎａｎｏａｒｃｈａｅｏｔａ、またはＮａｎｏａｒｃｈａｅｕｍ細胞の少なくとも１つを含む。

一部の例では、本方法は、少なくとも１つの目的の細胞を収集すること（例えば、少なくとも１つの被験体から）を含む。一部の例では、細胞は、疾患または状態を有する少なくとも１つの被験体および疾患または状態を有していない少なくとも１つの被験体など、少なくとも２つの被験体から収集される。他の例では、細胞は、異なる条件下の（例えば、薬物または処置プロトコールなどの試薬またはプロトコールの投与前または投与後の）細胞または被験体から収集される。本明細書に記載のライブラリーのいずれを使用してもよい。また、本方法は、少なくとも１つのレポーターを測定するステップを含む。また、一部の実施形態では、本方法は、少なくとも１つのレポーターを同定および／または定量化するステップを含む。特定の実施形態では、少なくとも１つのレポーターの同定および／または定量化は、レポーターに連結された１つまたは複数のＣＲＭの存在を示す。ＣＲＭは、例えば、レポーターに連結された核酸を単離し、核酸を配列決定することにより、さらに特徴付けることができる。単離された核酸をさらに試験して、核酸に含まれるＣＲＭを同定することができる。

一部の実施形態では、本方法は、核酸レポーターライブラリーをトランスフェクトした目的の細胞からＲＮＡを単離し、それにより単離されたＲＮＡを産生するステップを含む。抽出法および沈殿法を含む、任意の方法を使用してＲＮＡを単離することができる（例えば、参照によりその全体が本明細書に組み込まれる、Tan et al. Journal of biomedicine & biotechnology (2009): 574398-574398）。一部の例では、単離されたＲＮＡの純度を増強するためなどの、追加のステップが含まれていてもよい。ＲＮＡを、ＤＮＡに特異的な酵素、例えば、ＤＮａｓｅ（例えば、ＤＮａｓｅＩ）および／またはエキソヌクレアーゼ（例えば、エキソヌクレアーゼＩおよび／またはエキソヌクレアーゼＩＩＩ）と接触させることなど、任意の追加のＲＮＡ単離ステップが含まれていてもよい。

一部の実施形態では、レポーターを同定するステップは、ｃＤＮＡを合成するステップを含む。一部の例では、ｃＤＮＡを合成するステップは、単離されたＲＮＡ（例えば、本明細書に記載の方法のいずれかを使用して単離されたＲＮＡ）を逆転写し、それによりｃＤＮＡを産生するステップを含む。任意の逆転写法を使用することができる。一部の例では、本方法は、単離されたＲＮＡを、少なくとも１つの逆転写酵素と接触させるステップを含む。任意の逆転写酵素を使用することができる。一部の例では、組換えモロニーマウス白血病ウイルス（ｒＭｏＭｕＬＶ）逆転写酵素および／またはトリ骨髄芽球症ウイルス（ＡＭＶ）逆転写酵素を使用することができる。任意の追加のｃＤＮＡ合成ステップが含まれていてもよい。特定の例では、追加のｃＤＮＡ合成ステップは、ＲＮＡおよび少なくとも１つの逆転写酵素を、ＲＮＡ依存性およびＤＮＡ依存性ＤＮＡポリメラーゼとさらに接触させるステップを含む。一部の例では、追加のｃＤＮＡ合成ステップは、ＲＮａｓｅ（例えば、ＲＮａｓｅＩ_ｆなどの、一本鎖ＲＮＡに特異的なＲＮａｓｅ）を添加するステップを含む。

一部の実施形態では、本方法は、ｃＤＮＡ（例えば、本明細書に記載の方法のいずれかを使用して合成されたｃＤＮＡ）を検出および／または同定するステップを含む。ｃＤＮＡを検出および／または同定するための任意の方法を使用することができる（例えば、次世代シーケンシング法、マイクロアレイおよびハイブリダイゼーション、ならびに／または定量的ＰＣＲなど、配列決定に基づく方法、マイクロアレイに基づく方法、および／またはＰＣＲに基づく方法）。一部の例では、ｃＤＮＡは、少なくとも１つの固有バーコードレポーターを含む。一部の例では、ｃＤＮＡを検出するステップは、バーコードレポーターｃＤＮＡ（例えば、バーコードレポーターｃＤＮＡ）などのｃＤＮＡを増幅するステップを含む（例えば、ｃＤＮＡを、高忠実度ポリメラーゼおよび／または１対のユニバーサルプライマーなどの少なくとも１つのプライマーと接触させることによる、例えば、高忠実度ＰＣＲなどのＰＣＲを使用して）。特定の例では、ｃＤＮＡを増幅するステップは、少なくとも１つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップを含む（例えば、１対のプライマー、例えば、１対のユニバーサルプライマーなどの少なくとも１つのプライマー）。一部の例では、プライマーは、ｃＤＮＡ中のバーコードのプールを増幅する一対のユニバーサルプライマーを含む。一部の例では、ｃＤＮＡを増幅するステップは、プライマーをｃＤＮＡと接触させるステップ、およびＰＣＲを実施するステップ（例えば、プライマーおよびｃＤＮＡを使用して）をさらに含む。したがって、一部の例では、本方法を使用して、増幅されたバーコードＤＮＡなどの増幅されたＤＮＡ（例えば、ｃＤＮＡ）を産生することができる。一部の例では、本方法は、レポーター（例えば、核酸バーコード）を同定することなどによりｃＤＮＡを同定するステップを含む。一部の例では、本方法は、次世代シーケンシング、マイクロアレイおよびハイブリダイゼーション、ならびに／または定量的ＰＣＲなど、配列決定に基づく方法、マイクロアレイに基づく方法、および／またはＰＣＲに基づく方法を使用して、核酸バーコードを同定するステップを含む。特定の例では、ｃＤＮＡは、核酸バーコードを配列決定することにより同定される（例えば、次世代シーケンシングを使用して）。例示的な方法は、定量化ステップ（例えば、少なくとも１つの固有核酸バーコードを定量化すること）をさらに含んでいてもよい。

一部の例では、本明細書に記載の方法は、ハイスループット法である。一部の例では、本明細書に記載のライブラリー中の複数の核酸分子は、選択された目的のゲノム（例えば、動物ゲノムまたはヒトゲノム）の少なくとも約１０％、２０％、３０％、４０％、５０％、６０％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９８％、もしくは１００％、または約１０～２０％、２０～４０％、２５～５０％、５０～７５％、７５～８５％、８０～９０％、８５～９０％、８５～１００％、もしくは９０～１００％、または約９３％、９３．４％、もしくは９４％をカバーする。他の例では、ライブラリー中の複数の核酸は、１Ｘよりも大きなゲノムのカバレッジを提供する（例えば、１Ｘ、１．５Ｘ、２Ｘ、２．５Ｘ、３Ｘ、３．５Ｘ、４Ｘ、４．５Ｘ、５Ｘ、８Ｘ、１０Ｘ、またはそれよりも大きなカバレッジ）。一部の例では、複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも約１０％、２０％、３０％、４０％、５０％、６０％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９８％、もしくは１００％、または約１０～２０％、２０～４０％、２５～５０％、５０～７５％、７５～８５％、８０～９０％、８５～９０％、８５～１００％、もしくは９０～１００％、または約８５％、９０％、もしくは９５％を含む。

本明細書には、機能的核酸調節エレメントを検出するためのキットがさらに企図されている。一部の例では、キットは、機能的核酸調節エレメントの同定および／または定量化のために使用することができる。一部の例では、キットは、機能的核酸調節エレメントのハイスループット検出、同定、および／または定量化のために使用することができる。一部の例では、キットは、本明細書に記載の任意の核酸レポーターライブラリーを含んでいてもよい。一部の例では、ライブラリーは、選択された目的のゲノム（例えば、動物ゲノムまたはヒトゲノム）の少なくとも約１０％、２０％、３０％、４０％、５０％、６０％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９８％、もしくは１００％、または約１０～２０％、２０～４０％、２５～５０％、５０～７５％、７５～８５％、８０～９０％、８５～９０％、８５～１００％、もしくは９０～１００％、または約９３％、９３．４％、もしくは９４％をカバーする。一部の例では、ライブラリーは、選択された目的のゲノム（例えば、動物ゲノムまたはヒトゲノム）中のシス調節エレメントの少なくとも約１０％、２０％、３０％、４０％、５０％、６０％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９８％、もしくは１００％、または約１０～２０％、２０～４０％、２５～５０％、５０～７５％、７５～８５％、８０～９０％、８５～９０％、８５～１００％、もしくは９０～１００％、または約８５％、９０％、もしくは９５％を含む。

一部の例では、キットは、少なくとも１つの逆転写酵素（例えば、組換えモロニーマウス白血病ウイルス（ｒＭｏＭｕＬＶ）逆転写酵素、トリ骨髄芽球症ウイルス（ＡＭＶ）逆転写酵素）をさらに含む。ＲＮＡ依存性およびＤＮＡ依存性ＤＮＡポリメラーゼおよび／またはＲＮａｓｅ（例えば、ＲＮａｓｅＩ_ｆなどの、一本鎖ＲＮＡに特異的なＲＮａｓｅ）などの追加のｃＤＮＡ合成エレメントが含まれていてもよい。一部の例では、キットは、ＰＣＲなどによる増幅のための（例えば、少なくとも１つの固有バーコードを含むｃＤＮＡなどのｃＤＮＡの）エレメントを含む。特定の例では、キットは、ＰＣＲプライマーおよびＤＮＡポリメラーゼ（例えば、高忠実度ＤＮＡポリメラーゼ）を含む。

以下の例は、ある特定の具体的な特徴および／または実施形態を例示するために提供されている。これらの例は、本開示を、記載されている特定の特徴または実施形態に限定するものとして解釈されるべきでない。これらの例では、シス調節モジュール（ＣＲＭ）のゲノムスケールレポーターアッセイ法が説明されている。ＧＲＡＭｃは、ランダムに断片化された約８００ｂｐのインサートを有する２億個のＨｅｐＧ２細胞においてヒトゲノムのほぼ９０％のシス調節活性を確実に測定することができる。≧１５Ｍ個のランダムに断片化された約８００ｂｐのインサートを用いて、ヒトゲノムを約４回カバーする（４×カバレッジ）レポーター構築物のライブラリーを生成した。

（実施例１）
この例には、実施例１～７で使用した方法および材料が記載されている。

ＧＲＡＭｃライブラリー構築
融合アダプター調製：ＧＲＡＭｃ調製は、不要な連結体の形成を最小限に抑えるためのカスタム設計融合アダプターを含む（図６）。２つの相補的ハイブリッドオリゴマーは、ＩｎｔｅｇｒａｔｅｄＤＮＡＴｅｃｈｎｏｌｏｇｉｅｓ（ＩＤＴ）が合成した：ｐ－ＡＤ４＿Ｆ（５’－／ｐ／ＣＴＧＣＴＧＡＡＴＣＡＣＴＡＧＴＧＡＡＴＴＡＴＴＡＣＣＣｒＵｒＵＣＡＡＧＡＣＡＣＴＡＣＴＣＴＣＣＡＧＣＡＧＴ－３’；配列番号１）およびｐ－ＡＤ４＿Ｒ（５’－／ｐ／ＣＴＧＣＴＧＧＡＧＡＧＴＡＧＴＧＴＣＴＴＧｒＡｒＡＧＧＧＴＡＡＴＡＡＴＴＣＡＣＴＡＧＴＧＡＴＴＣＡＧＣＡＧＴ－３’；配列番号２））。リボヌクレオチド部位は、「ｒＵ」および「ｒＡ」と標記されている。融合アダプターは、ｐ－ＡＤ４＿Ｆおよびｐ－ＡＤ４＿Ｒを、１×Ｔ４ＤＮＡリガーゼ緩衝液（ＮＥＢ（登録商標）Ｂ０２０２Ｓ）で４ｐｍｏｌ／μＬに希釈し、続いて９５℃で２分間アニーリングし、その後－０．５℃／２０秒サイクルの速度で１６０サイクルにわたって温度を低下させて、調製した。アニーリングしたアダプターを３μｌ容量にアリコートし、使用するまで－８０℃で維持した。

ＧＲＡＭｃベクター調製：ｐＧＥＭ－ＴＥａｓｙベクター（ＰＲＯＭＥＧＡ（登録商標））に基づく既存ベクター（Nam, et al. PLoS One 7.4 (2012): e35934）のＧＦＰＯＲＦ上流のウニ結節基本プロモーターをスーパーコアプロモーター１（ＳＣＰ）（Juven-Gershon, et al. Developmental biology 339.2 (2010): 225-229）に置き換えることにより、ＧＲＡＭｃベクターを構築した。ＧＦＰＯＲＦは、ｐＧＲＥＥＮＬＡＮＴＥＲＮ（登録商標）（ＧＩＢＣＯＢＲＬ（登録商標））（Arnone, et al. Development 124.22 (1997): 4649-4659）に由来する。ベクターを、ＡｆｌＩＩ／ＨｉｎｄＩＩＩで一晩消化することにより線状化し、１０サイクルのＰＣＲで２０ｎｇの線状化鋳型から２つの別々のカセットとして増幅した（図７）。５０μＬのＱ５（登録商標）高忠実度ＤＮＡポリメラーゼ反応液（ＮＥＢ（登録商標）Ｍ０４９１）中で、ＳＣＰ－ＧＦＰカセットの場合は、プライマーＮＪ－９５およびＮＪ－１４５を使用して、ベクター骨格の場合は、ＮＪ－１４６およびＮＪ－９６を用いて、６２℃のアニーリング温度および２分間の伸長を使用して増幅した。ＮＪ１４５およびＮＪ１４６の５’末端にある６個のホスホロチオエート化塩基の配列は、その後のＧＩＢＳＯＮＡＳＳＥＭＢＬＹ（登録商標）中のプライマー部位喪失を防止する。

ゲノムインサート調製：２００μＬの水中にてＱＳＯＮＩＣＡ（登録商標）Ｑ１２５を２０％アンペア数で用いて１５秒パルス／１０秒休止の３サイクルで、２０マイクログラムのＮＧ１６４０８ゲノムＤＮＡ（ＣｏｒｉｅｌｌＩｎｓｔｉｔｕｔｅ）をランダムに断片化した。Ｚｙｍｏ－２５カラム（ＺｙｍｏＲｅｓｅａｒｃｈ）を使用してＤＮＡをカラムクリーンアップし、約８００ｂｐ断片を１．２％アガロースゲルでサイズ選択した。ゲル精製したｇＤＮＡの部分を、２％アガロースＥ－ゲル（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標）Ｇ５０１８０２）でサイズ確認した。残りの精製断片を、１×ＴＨＥＲＭＯＰＯＬ（登録商標）緩衝液、１００μＭｄＮＴＰ、１×ＮＡＤ＋、および０．５μＬのＰｒｅＣＲ酵素を含有する２５μＬのＰｒｅＣＲ反応液（ＮＥＢ（登録商標）Ｍ０３０９）中で３０分間３７℃にて修復した。Ｚｙｍｏ－６カラムを使用してＰｒｅＣＲ処理断片をカラム精製し、３２．５μＬ反応液中でＥｎｄＲｅｐａｉｒ／ｄＡＴａｉｌｉｎｇＭｏｄｕｌｅ（ＮＥＢ（登録商標）Ｅ７３７０）を用いて処理し、続いて、ＴＡＬｉｇａｔｉｏｎＭｏｄｕｌｅ（ＮＥＢＥ７３７０）の４１μＬ反応液中にて、アニーリングされたＡＤ４融合アダプターの１０：１アダプター対インサートモル比で処理した。未ライゲーションアダプターおよびゲノムインサートを、ＣｕｔＳｍａｒｔ緩衝液で１×に追加補充した５０μＬ反応液中で、各々２０ＵのエキソヌクレアーゼＩ（ＮＥＢＭ０２９３）およびエキソヌクレアーゼＩＩＩ（ＮＥＢ（登録商標）Ｍ０２０６）を用いて除去した。ライゲート物をカラムクリーンアップし（Ｚｙｍｏ－６）、次いで１×ＴＨＥＲＭＯＰＯＬ（登録商標）緩衝液の３０μＬ反応液中にて１５ＵのＲＮａｓｅＨＩＩ（ＮＥＢ（登録商標）Ｍ０２８８）を用いて３７℃で９０分間線状化した。また、ＲＮａｓｅＨＩＩは、ＡＤ４アダプターのコンカテマーを約６０ｂｐ単位に切断する。それらは、その後の磁気ビーズ精製で除去することができる。線状化インサートを、１７％ＰＥＧ８０００および１０ｍＭＭｇＣｌ_２の最終濃度に追加補充された２０μＬのＡＸＹＧＥＮ（登録商標）磁気ビーズ（ＡＸＹＧＥＮ（登録商標））を使用して精製し、続いて７０％エタノールで３回洗浄し、３０μＬの水で溶出した。

短鎖ランダムオリゴマーからの長鎖ランダムＤＮＡ配列の段階的合成：多数の長鎖ランダムＤＮＡ配列のｄｅｎｏｖｏ合成は依然として困難であるため、一部の例では、長鎖ランダムＤＮＡ配列のプールを、市販の短鎖ランダム一本鎖ＤＮＡから生成した（ｓｓＤＮＡ；図１３）。第１に、２μｇのｓｓＤＮＡを、ポリヌクレオチドキナーゼを使用してリン酸化し、続いてランダムヘキサマー、ｄＮＴＰ、およびクレノウ酵素により二本鎖ＤＮＡ（ｄｓＤＮＡ）へと変換した。並行して、１μｇのリン酸化されていないｓｓＤＮＡを、ランダムヘキサマー、ｄＮＴＰ、およびクレノウ酵素を使用してｄｓＤＮＡへと変換した。第２に、１×Ｔ４ＤＮＡリガーゼ緩衝液に２００ｎｇのリン酸化されていないｄｓＤＮＡおよびＴ４ＤＮＡリガーゼを有する反応チューブを調製した。リン酸化されていないｄｓＤＮＡを、リン酸化ｄｓＤＮＡにライゲートした。第３に、ライゲーションを開始するため、５０ｎｇのリン酸化ｄｓＤＮＡ（または約１／４などの、リン酸化されていないＤＮＡの一部分）をライゲーション反応チューブに添加した。反応液中に過剰量のリン酸化されていないＤＮＡが存在したため、ほとんどのリン酸化ＤＮＡは、リン酸化されていないＤＮＡにライゲートした。リン酸化されていないＤＮＡの各分子は、最大で２分子のリン酸化ＤＮＡを受け入れることができる（各末端に１分子）。ライゲーション産物は、リン酸化されていない５’末端を含む。ライゲーションプロセスを少なくとも１サイクル繰り返した（例えば、少なくとも約１、２、３、４、５、６、７、８、９、１０、１２、１５、１８、２０、２５、３０、４５、５０、６０、７５、９０、もしくは１００サイクル、または約１～５、１～１０、１～１５、１～２０、５～２０、１０～２５、２５～５０、もしくは５０～１００サイクル、または約１６サイクル）。サイクル数（Ｘ）は、≧２×Ｌ／Ｉであることが予想され、式中、ＬおよびＩはそれぞれ、生成されるランダムＤＮＡの所望の長さおよび出発核酸の長さである。例えば、約８００ｂｐ長のＤＮＡ分子のプールを１００ｂｐ長の核酸で合成するには、Ｘは約≧１６でなければならない。第４に、ライゲーション産物のニックを、ＤＮＡ修復酵素（ＮＥＢ（登録商標）ＰｒｅＣＲＲｅｐａｉｒＭｉｘ、カタログ番号Ｍ０３０９Ｓ）で修復した。第５に、所望の長さのＤＮＡ分子を、ゲルに基づくまたはビーズに基づくサイズ選択で富化した。溶出したＤＮＡは、この時点で、ＧＲＡＭｃライブラリー構築または他の適用に使用する準備ができた。本発明者らは、この方法を使用して、約８００ｂｐ長のおよそ１Ｍ個のランダムＤＮＡ配列を含有するＧＲＡＭｃライブラリーを生成した。

ゲノムカバレッジ推定：１Ｘゲノムカバレッジを表わす、アダプターライゲートインサートの量を決定するため、０．５ｎｇ／μｌ、０．２５ｎｇ／μｌ、０．１ｎｇ／μｌ、０．０５ｎｇ／μｌ、および０．０２５ｎｇ／μＬのインサートの希釈物を調製した。各希釈物を、２つのアダプター特異的プライマー、ＮＪ－２１３およびＮＪ－２１４を用いて、サイクル試験で決定されたように６１℃でのアニーリングおよび１分間の伸長で増幅した。Ｑ５（登録商標）高忠実度ＤＮＡポリメラーゼキット（ＮＥＢ（登録商標）Ｍ０４９１）を使用した。アンプリコンをＡＸＹＧＥＮ（登録商標）でクリーンアップした。１ウェル当たり８ナノグラムの各増幅希釈物およびＮＧ１６４０８ストックＤＮＡを、以下の単一コピー標的：ＡＣＴＡ１、ＡＤＭ、ＡＤＡＭ１２、ＡＸＬ、ＣＦＢ、ＤＬＸ５、Ｋｉｓｓ１、ＮＣＯＡ６、Ｎｏｔｃｈ２、ＲＰＰ３０、およびＴＯＰ１に対するＱＰＣＲのために使用した。各希釈試料について、ストックゲノムＤＮＡと比較してｄＣＴ＞５の標的を非存在として計数した。

ライブラリーに存在するゲノム領域のポアソン確率（Ｐ）は、Ｐ＝１－（１－ｐ）ＸＮとして与えられる（ｐ＝（インサートサイズ）／（ゲノムサイズ）、Ｎ＝所与のインサートサイズのゲノムのパーティション数、およびＸ＝意図されているゲノムカバレッジ）。ＱＰＣＲにより存在すると同定された標的の割合をＰの値と比較した。このモデルに基づくと、ゲノムカバレッジが約１Ｘの試料のＰは、約０．６だった。０．１ｎｇ／μＬの希釈物を試験したところ、１１個の標的のうちの６つが陽性であり、すなわち０．５４５の割合で陽性であり、これは、カバレッジが０．５Ｘ～１Ｘであることを表す。したがって、０．２ｎｇのインサートが、約１Ｘのゲノムカバレッジを表すと決定した。等モル量の独立して増幅された複製物を混合して、５Ｘのゲノムカバレッジのインサートのプールを得た。

ＧＲＡＭｃライブラリーのインサートクローニングおよびＮ２５バーコード化：３０ナノグラムの５Ｘゲノムインサートを、１６μＬのＮＥＢＵＩＬＤＥＲ（登録商標）ＨｉＦｉアセンブリ反応液（ＮＥＢ（登録商標）Ｅ２６２１）中で、１：１：１モル比の２片の線状化ＧＲＡＭｃベクター、ＳＣＰ－ＧＦＰ、および骨格カセットに５０℃で２０分間クローニングした。アセンブリされた線状ＤＮＡをカラム精製し、２０μＬの水に溶出した。バーコード化用のアセンブリされたライブラリーを調製するため、８ｎｇの精製アセンブリの４つの複製物を、６２℃のアニーリング温度および５分間の伸長時間を使用し、プライマーＮＪ－１０１およびＮＪ－１２６を用いて、サイクル試験で決定されたように９サイクルのＰＣＲで増幅した。複製物を合わせて、カラムクリーンアップした。

ＧＦＰＯＲＦの下流にＮ２５バーコードを付加するため、１５０ｎｇのライブラリーを、５０μＬのＱ５高忠実度ＤＮＡポリメラーゼ反応液中で６０℃のアニーリング温度で４０秒間および１５分間の伸長時間を用いた、ランダム２５ｂｐバーコード配列、コアポリ（Ａ）シグナル（Nag, et al. RNA 12.8 (2006): 1534-1544）、および５’ビオチン化を含有するＮＪ－１２７による単一サイクルのＰＣＲに使用した。ＮＪ－１２６をＰＣＲにおける競合物質として使用して、対向鎖の占有および伸長による鋳型乗換えの可能性を低減させた。５０μＬのビーズおよび２０μＬ水溶出を記載のように使用して、ＡＸＹＧＥＮ（登録商標）ビーズ精製によりプライマーを除去した。製造業者のプロトコールに従ってビーズを準備、結合、および洗浄して、２０μＬのＤＹＮＡＢＥＡＤＳ（登録商標）ＭｙＯｎｅＣ１ビーズ（ＩＮＶＩＴＲＯＧＥＮ（登録商標）６５００１）を使用して、バーコード化ライブラリーを単離した。

単離後、Ｃ１ビーズを２０μＬの水で洗浄し、次いで５０μＬの水に再懸濁した。バーコード化ライブラリーの半分を、２４×２０μＬ複製Ｑ５（登録商標）高忠実度ＤＮＡポリメラーゼ反応液中で、ＮＪ－１２８およびＮＪ－１２９、６１℃のアニーリング、ならびに５分間の伸長を用いて、サイクル試験で決定されたように９サイクルで増幅した。複製物を合わせて、ＡＸＹＧＥＮ（登録商標）ビーズでクリーンアップし、次いでゲル精製し（ＺｙｍｏＲｅｓｅａｒｃｈ）、追加のＡＸＹＧＥＮ（登録商標）ビーズクリーンアップを行った。

次いで、バーコード化ＧＲＡＭｃライブラリーをセルフライゲーションさせた。分子間ライゲーションを低減するため、１２５ｎｇのバーコード化ライブラリーを、６００μＬの１×Ｔ４リガーゼ緩衝液（ＮＥＢ（登録商標）Ｂ０２０２）中で１４，０００Ｕの高濃度Ｔ４ＤＮＡリガーゼ（ＮＥＢ（登録商標）Ｍ０２０２Ｔ）を用いて２０℃で４時間ライゲートした。ライゲーション産物を、６７μＬのラムダエキソヌクレアーゼ緩衝液、ならびに各々３０ＵのエキソヌクレアーゼＩ（ＮＥＢ（登録商標）Ｍ０２９３）およびラムダエキソヌクレアーゼ（ＮＥＢ（登録商標）Ｍ０２６２Ｓ）で１時間３７℃にて追加補充し、次いで、１μＬのプロテイナーゼＫ（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標））で１５分間３７℃にてスパイクした。プロテイナーゼＫ処理は、ライゲーションミックスの粘性を低減させ、ＤＮＡ収量をほぼ２倍増加させる。ライブラリーを、１５％ＰＥＧ８０００および１０ｍＭＭｇＣｌ_２の最終濃度に追加補充された２５μＬの磁気ビーズ（ＡＸＹＧＥＮ（登録商標））を用いて精製し、続いて７０％エタノールで４回洗浄し、６．５μＬの水に溶出した。このプロセスの産物は、環状化ＧＲＡＭｃライブラリーの純粋な集団である。

ＧＲＡＭｃライブラリーの形質転換およびサイズ推定：エレクトロポレーションの規模を決定するため、１μｌのライゲーション産物を、２５μＬのＥＬＥＣＴＲＯＭＡＸ（登録商標）ＤＨ１０Ｂ（登録商標）コンピテント細胞（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標）１８２９００１５）にエレクトロポレーションした。形質転換体を、直ちに１ｍｌの予め温めたＳＯＣ培地に再懸濁し、形質転換体の１／５００を、１０倍段階希釈に使用し、回復させずにプレーティングして、プール全体のコロニー数を推定した。この試験に基づいて、目標コロニー数に到達するための形質転換の規模を決定する。４～１０ｎｇのライゲーション産物のエレクトロポレーションは、約４０Ｍ個のコロニーを生成する。

２００Ｍ個のコロニー標的を有する完全なＧＲＡＭｃライブラリーを生成するため、２×２５μＬのＥＬＥＣＴＲＯＭＡＸ（登録商標）ＤＨ１０Ｂ（登録商標）コンピテント細胞の各々当たり３０ｎｇのライブラリーライゲート物（１２ｎｇ／μＬ）を使用して二連のエレクトロポレーションステップを実施した。エレクトロポレーション直後に、各複製物を１ｍｌのＳＯＣ培地に再懸濁し、次いで複製物を合わせた。ＧＲＡＭｃライブラリーのサイズを推定するため、形質転換体の１／２０００を、１０倍段階希釈に使用し、回復させずにプレーティングした。残りの形質転換体を直ちに使用して１８０ｍｌのＬＢに接種し、２０分間の回復後、それに１００μｇ／ｍｌのアンピシリンを添加し、続いて一晩培養した。ＺＹＭＯＰＵＲＥ（登録商標）ＩＩプラスミドＭａｘｉｐｒｅｐキット（ＺｙｍｏＲｅｓｅａｒｃｈ）を使用して、プラスミドライブラリーを調製した。以降、このライブラリーを、Ｈｓ８００＿ＧＲＡＭｃライブラリーと呼ぶ。

品質管理ステップとして、プレートから１２個のコロニーを選択し、プラスミドを抽出して、サンガー配列決定を使用してインサートサイズおよびバーコードを調べた。各コロニーのプラスミドには、インサート（約８００ｂｐ）およびバーコードが含有されているはずである。ライゲーション産物が高度なバーコード多様性を含む場合、コロニーから同定されたバーコード配列は、最終ライブラリーには存在しないはずである。使用したＧＲＡＭｃベクターおよびオリゴマーの配列例は、表３に示されている。

ＩＬＬＵＭＩＮＡ（登録商標）ペアエンド配列決定によるＧＲＡＭｃライブラリー特徴付け

配列決定ライブラリー：個々のレポーター構築物のインサートおよび関連バーコードを同定するため、ＮｅｘｔＳｅｑ５００プラットフォームでのペアエンド配列決定を使用した。ＩＬＬＵＭＩＮＡ（登録商標）プラットフォームでのＨｓ８００＿ＧＲＡＭｃライブラリーの配列決定は、２つの理由で問題だった：ｉ）レポーター構築物の長さがペアエンド配列決定には長すぎること、およびｉｉ）アダプター配列には多様性が欠如しているため、ＩＬＬＵＭＩＮＡ（登録商標）プラットフォームとは適合しないこと。長さの問題を解決するため、インバースＰＣＲおよびセルフライゲーションでＳＣＰ－ＧＦＰ領域またはベクター骨格のいずれかを欠失させることによりインサートとＮ２５バーコードとをより近づけることにより、構築物の長さを低減させた。配列多様性が低いという問題を解決するため、一組の位相化プライマー（Wu, et al. BMC microbiology 15.1 (2015): 125）を使用して、配列多様性を人為的に増加させた。ＳＣＰ－ＧＦＰ領域またはベクター骨格のいずれかを欠く配列決定ライブラリーの２つの異なる集団の生成も、アダプター領域における配列多様性を増加させる（図８）。

この例では、配列決定ライブラリーの構築は、ベクター骨格またはＧＦＰＯＲＦのいずれかに対するｓｇＲＮＡを使用して、５００ｎｇのｍａｘｉ調製したプラスミドを、Ｃａｓ９（ＮＥＢ（登録商標）Ｍ０３８６）で切断することから始まる。両ｓｇＲＮＡは、ヒトゲノムに７つのオフターゲット部位を有することが予想された（ｃｒｉｓｐｒ．ｍｉｔ．ｅｄｕ）。プライマー対、ＮＪ－１７９／ＮＪ－１８３およびＮＪ－１８０／ＮＪ－１８３を使用して、それぞれ骨格およびＧＦＰを標的とするｓｇＲＮＡのｉｎｖｉｔｒｏ転写のための鋳型を産生した。プライマー配列は表３に示されている。ＣＲＩＳＰＲ切断プラスミドライブラリーを、等モル量の未切断プラスミドライブラリーと混合した。ＮＪ－２０９およびＮＪ－１４１（「Ｈｓ８００＿２３」と表記）を使用して５ｎｇのＧＦＰ切断線状ライブラリー混合物のインバースＰＣＲを実施し、ＳＣＰ－ＧＦＰ領域を除去した。ＮＪ－２０８およびＮＪ－１４２（「Ｈｓ８００＿１４」と表記）を使用して、５ｎｇの骨格切断線状ライブラリー混合物のインバースＰＣＲを実施して、ベクター骨格を除去した。ＰＣＲにはＱ５（登録商標）高忠実度ＤＮＡポリメラーゼ（ＮＥＢ（登録商標））を使用した。鋳型／プライマー対ごとに合計で２０個の複製物を調製した。それぞれの複製物を合わせ、カラム濃縮し、ゲル単離し、ＡＸＹＧＥＮ（登録商標）ビーズでクリーンアップした。それぞれの増幅物を、３５０μＬの１×Ｔ４ＤＮＡリガーゼ緩衝液中７５ｎｇの濃度で３μＬの濃縮Ｔ４リガーゼにより２０℃にて一晩セルフライゲーションさせ、各々２０ＵのエキソヌクレアーゼＩおよびエキソヌクレアーゼＩＩＩで１時間３７℃にて追加補充し、続いてプロテイナーゼＫと共に３７℃で１０分間インキュベートした。ライゲート物を、ＡＸＹＧＥＮ（登録商標）ビーズでクリーンアップし、３０μＬの水に溶出した。

インサート：：Ｎ２５カセットを増幅するため、環状化された第１ラウンドＰＣＲ産物から、２ｎｇのＨｓ８００＿１４ライゲート物を含有する４つの複製物を、ＮＪ－２０９およびＮＪ１４１を使用して増幅し（以降、Ｈｓ８００＿１４２３と表記）、２ｎｇのＨｓ８００＿２３ライゲート物を含有する４つの複製物をＮＪ－２０８およびＮＪ１４２を使用し、６０℃のアニーリング温度および９０秒の伸長時間の合計８サイクルを用いて増幅した（以降、Ｈｓ８００＿２３１４と表記）。その後ＰＣＲ増幅してＩＬＬＵＭＩＮＡ（登録商標）配列決定用のＰＥアダプター配列を付加するために、産物をカラムでクリーンアップし、ゲル単離し、ビーズでクリーンアップした。

ＩＬＬＵＭＩＮＡ（登録商標）プラットフォームで配列決定するためにＨｓ８００＿１４２３およびＨｓ８００＿２３１４配列決定ライブラリーの多様性を増加させるため、各ライブラリー（Ｈｓ８００＿１４２３およびＨｓ８００＿２３１４）を、７つの異なる位相化ＰＥ１含有プライマーを使用して増幅した。Ｈｓ８００＿１４２３ライブラリーの場合、２ｎｇの鋳型を、各々別々の反応ごとに、ＰＥ２含有プライマーＮＪ－４０１、ならびに以下の部分的ＰＥ１含有プライマー：ＮＪ－４００、ＮＪ－５０４、ＮＪ－５０５、ＮＪ－５０６、ＮＪ－５０７、ＮＪ－５０８、およびＮＪ－５０９の各々と共に、６０℃のアニーリング温度および９０秒の伸長時間の合計７サイクルで使用した。Ｈｓ８００＿２３１４ライブラリーの場合、２ｎｇの鋳型を、各々別々の反応ごとに、ＰＥ２含有プライマーＮＪ－４０３、ならびに以下の部分的ＰＥ１含有プライマー：ＮＪ－４０２、ＮＪ－４９８、ＮＪ－４９９、ＮＪ－５００、ＮＪ－５０１、ＮＪ－５０２、およびＮＪ－５０３の各々と共に、６０℃のアニーリング温度および９０秒の伸長時間の合計７サイクルで使用した。位相化ＰＥ１プライマーをＰＣＲ増幅前にプールして、手順を簡略化にすることができる。個々の増幅物を、カラムでクリーンアップし、ゲル単離し、ＡＸＹＧＥＮ（登録商標）ビーズでクリーンアップした。７つの位相化Ｈｓ８００＿１４２３ライブラリーの各々を、ＮＪ－４９７およびＮＪ－４０１を使用して増幅し、ＰＥ１アダプター配列を完成させた。７つの位相化Ｈｓ８００＿２３１４ライブラリーの各々を、ＮＪ－４９７およびＮＪ－４０３を使用して増幅し、ＰＥ１アダプター配列を完成させた。各増幅物について、２ｎｇの対応するライブラリー鋳型を、６０℃のアニーリング温度および９０秒の伸長時間の６サイクルのＰＣＲで増幅した。ライブラリーを再び精製し、ゲル単離し、ＡＸＹＧＥＮ（登録商標）ビーズでクリーンアップした。等モル量の１４個の位相化ライブラリー（各方向から７つ）を、９０％の配列決定プール＋１０％のＰｈｉＸ対照と組み合わせて、ペアエンド配列決定に使用した。プライマーの配列は、表３に示されている。

インサートおよびバーコードからのアダプター配列のトリミング：インサートの５’末端および３’末端ならびにその関連Ｎ２５バーコードを、各対の配列リードから抽出した。Ｔｒｉｍｍｏｍａｔｉｃ（Bolger, et al. Bioinformatics 30.15 (2014): 2114-2120）を使用してアダプター配列を除去し、ｓｅｑｔｋ（ｇｉｔｈｕｂ．ｃｏｍ）を使用して相補配列を逆転させた。インサートの５’末端および３’末端を抽出するため、それぞれＰ１アダプターおよびＰ２アダプターをトリミングした。Ｎ２５バーコードを抽出するため、配列リードの配向に応じて、まずＰ３アダプターまたはＰ４アダプターをトリミングし、トリミングした配列を逆相補化し、Ｐ４アダプターまたはＰ３アダプターをトリミングした。任意のアダプター配列のトリミングに失敗したペアエンドリードを破棄した。Ｎ２５バーコード配列の場合、各アダプターからの１ｂｐが保持され、２７ｂｐリードがもたらされることに留意されたい。トリミングに使用されるアダプター配列は、表３に示されている。

ヒトゲノムにおける配列リードのマッピングおよびインサートの同定：インサートを同定するため、インサートの抽出した５’末端および３’末端をＧＲＣｈ３８／ｈｇ３８アセンブリに対してマッピングした（ｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕからダウンロード）。Ｂｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒアランメントツール（ＢＷＡ）（Li, et al. Bioinformatics 25.14 (2009): 1754-1760）を使用して、以下のコマンド「ｂｗａｍｅｍ－Ｗ１５００」で配列をマッピングした。＞１，５００ｂｐまたは＜３００ｂｐにわたるマッピングされたリード対を破棄した。２つのマッピングされたインサートが重複し、それらの中間点が２０ｂｐ範囲内にあり、両末端が５０ｂｐ範囲内にある場合、それらを組み合わせて１つのインサートにして、その長さを最大化する座標をとる。

Ｎ２５バーコードのクラスタリング：同じバーコードからのリードを同定するため、抽出したバーコードリードを、以下の手順に基づいてクラスター化した。ｉ）Ｋｈｍｅｒソフトウェアパッケージ（Crusoe, et al. F1000 Research 4 (2015)）を使用してコマンド「ｎｏｒｍａｌｉｚｅ－ｂｙ－ｍｅｄｉａｎ．ｐｙ－Ｃ１－ｋ２５－Ｎ５－ｘ２．５ｅ９」により冗長リードをフィルタリングすることにより代表的リードを生成し；ｉｉ）バーコードリードのセット全体を、ＢＷＡソフトウェア（Li, et al. Bioinformatics 25.14 (2009): 1754-1760）を使用してコマンド「ｂｗａａｌｎ－ｎ２－ｏ２－ｅ－１－Ｍ３－Ｏ１１－Ｅ８－ｋ１－ｌ６」で、代表的リードに対して比較した。代表的リードのいずれとも一致しなかったバーコードリードを、代表的リードファイルに追加し、ＢＷＡ検索を繰り返した。同じバーコードのリードを、シングルリンケージクラスタリング（single-linkage-clustering）で同定し、固有バーコードクラスター（ｂｃｌ）番号を各クラスターに割り当てた。将来の使用のために、ｂｃｌ番号を有する代表的リードの新しいファイルを生成した（下記を参照、ＨｅｐＧ２でのＧＲＡＭｃアッセイ：バーコードリードとバーコードクラスターとの比較）。

ゲノムインサートとバーコードクラスター（ｂｃｌ）との関連付け：各バーコードリードは、ペアエンドリードのインサートに由来するリードと本来的に接続されているが、ｂｃｌの少数部分は、同定されたゲノムインサートの１つよりも多くに関連付けられていた。この多義性が生じる主な理由は、ゲノムには非常に類似した重複領域があるためである。ｂｃｌの割り当ては、そのｂｃｌについて最も多くのリードを有していたインサートに対してなされるように強制した。≧２個のインサートが、あるｂｃｌについて同数のリードを有していた場合、そのｂｃｌはどのインサートにも割り当てなかった。

ＨｅｐＧ２でのＧＲＡＭｃアッセイ
細胞培養：ＨｅｐＧ２細胞（ＡＴＣＣＨＢ－８０６５）を、１０％ウシ胎児血清で追加補充されたＥＭＥＭの供給業者の推奨条件下で抗生物質を用いずに成長させた。すべての実験で、ＨｅｐＧ２細胞は、受領から１６継代以内に使用した。実験はすべて、解凍してから最低でも５継代を経た細胞で実施した。それは、＜５継代の細胞でのレポーター発現が、≧５継代の細胞と比べて異なっていたからである。

ゲノムスケールトランスフェクションおよびライセート収集：各ゲノムスケールトランスフェクションバッチについて、１０^７個の細胞を、１０×１５０ｍｍ培養皿の各々の３０ｍｌ培地に播種し（１００Ｍ個の細胞）、３０時間にわたって付着させた。１００μｇのＨｓ８００＿ＧＲＡＭｃライブラリーを、２×２ｍＬシリコン処理チューブに調製した４ｍｌのＯＰＴＩ－ＭＥＭ（登録商標）（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標））中で、１００μＬのＨｅｐＧ２用ＤＮＡ－ＩＮ（登録商標）試薬（ＭＴＩ－Ｇｌｏｂａｌｓｔｅｍ）を使用し、製造業者のプロトコールに従って細胞にトランスフェクトした。合計１０組の１０×１５０ｍｍ皿を使用して、１バッチ当たり約２００Ｍ個の細胞を収集した。

収集のため、トランスフェクション後、細胞を、１×ＰＢＳで２６時間洗浄し、１プレート当たり２．４ｍＬのＲＮＡ－ＳＴＡＴ－６０（ＡＭＳＢＩＯ（登録商標））中で擦過して収集した。ライセートを合わせて、製造業者のプロトコールに従って、２回目の７０％エタノール洗浄を追加して調製した。

ＲＮＡ調製およびｃＤＮＡ合成：このプロトコールでは、２つのパラメーターに着目した：ｉ）ＲＮＡ試料中の夾雑ＤＮＡを徹底的に除去すること、ｉｉ）大量（約４ｍｇ）の全ＲＮＡを用いた逆転写（ＲＴ）の効率を最大化すること。ＤＮａｓｅＩは一本鎖ＤＮＡに対しての効率がより低いため、ＤＮａｓｅＩを、エキソヌクレアーゼＩおよびＩＩＩのカクテルで追加補充することにより、二本鎖および一本鎖両方の夾雑ＤＮＡを徹底的に除去する。ＲＴ反応のｃＤＮＡ収量を損なわずに、ＲＴをコスト効率よく最大化するため、製造業者が推奨する最大入力ＲＮＡよりも１５倍多くのＲＮＡを使用した。この手順の概略図は、図９に示されている。

夾雑ＤＮＡを除去するため、単離した全ＲＮＡ（約４ｍｇ）を１．７ｍＬの無ヌクレアーゼ水に再懸濁し、１×ＤＮａｓｅＩ緩衝液、１００ＵのＤＮａｓｅＩ（ＮＥＢ（登録商標）Ｍ０３０３）、および各々９００ＵのエキソヌクレアーゼＩ（ＥｘｏＩ）およびエキソヌクレアーゼＩＩＩ（ＥｘｏＩＩＩ）を含有する２ｍＬ反応液中にて最低でも４時間３７℃で消化した。ＤＮＡ除去の進行は、ＧＦＰＯＲＦ（ＮＪ－４４３およびＮＪ－４４４）に対するＱＰＣＲによりモニターした。この品質管理ステップでは、ＲＮＡの希釈試料を８０℃で２０分間熱不活化し、等体積の約１０００細胞／ウェルで負荷した。必要に応じて、ＱＰＣＲＣｔ値が３０よりも大きくなるまで、ＤＮａｓｅ消化を一晩進行させた。消化した後、フェノール：クロロホルム：イソアミルアルコール（２５：２４：１）での抽出によりヌクレアーゼを除去し、－２０℃で一晩エタノール沈殿させ、続いて７５％エタノールで２回洗浄した。ＲＮＡを、１ｍＬの無ＲＮａｓｅ水に再懸濁した。

逆転写（ＲＴ）の品質管理として、約４０００個の細胞（約１μｇ）を含有する等体積の全ＲＮＡを、製造業者のプロトコールに従ってＨｉｇｈＣａｐａｃｉｔｙｃＤＮＡ逆転写キット（ＡＰＰＬＩＥＤＢＩＯＳＹＳＴＥＭＳ（登録商標）４３６８８１３）を使用し、５ｐｍｏｌのＧＲＡＭｃライブラリー特異的ＲＴオリゴ（ＮＪ－４８９）を添加してｃＤＮＡ合成に使用し、転写産物からの最大ｃＤＮＡ合成の基準として使用した。

残りの全ＲＮＡ（約４ｍｇ）を１．４２０ｍＬに希釈し、２０００ｐｍｏｌのＧＲＡＭｃ＿ＲＴ＿ｏｌｉｇｏ（ＮＪ－４８９）を添加した。ＲＮＡ／プライマー混合物を６５℃で１分間インキュベートし、氷上で冷却した後、ランダムオリゴマーは使用せずに、２００μＬの１０×ＨｉｇｈＣａｐａｃｉｔｙ緩衝液、８０μＬの１０ｍＭｄＮＴＰ、および１００μＬのＭｕｌｔｉｓｃｒｉｂｅを添加した。反応液を室温で１０分間、次いで３７℃で４時間インキュベートした。ゲノムスケールｃＤＮＡ合成の進行は、等体積の１００細胞／ウェルを使用した基準ＲＴ対照と比較して、ＧＦＰに対するＱＰＣＲによりモニターした。Ｃｔ値が基準ＲＴ反応と同様になるまで反応を進行させた。必要に応じて、反応液を、Ｍ－ＭｕＬＶ逆転写酵素（ＮＥＢ（登録商標）Ｍ０２５３）および追加のｄＮＴＰでスパイクし、一晩進行させた。

ＲＴ反応が完了したら、試料をエタノール沈殿して体積を低減した。ＲＮＡ／ｃＤＮＡを再懸濁し、１×ＮＥＢＵＦＦＥＲ（登録商標）３を有する５００μＬ反応液中にて１０００ＵのＲＮａｓｅＩｆ（ＮＥＢ（登録商標）Ｍ０２４３）により一晩３７℃で消化した。過剰なタンパク質を除去するために、１μＬのプロテイナーゼＫ溶液を反応液に添加し、３７℃で１５分間インキュベートした。ｃＤＮＡを、担体としてのグリコーゲンと共に－２０℃で一晩エタノール沈殿させ、８０％エタノールで３回洗浄した。ｃＤＮＡペレットを２００μＬの水に再懸濁し、１０分間９５℃に加熱して、残留プロテイナーゼＫを破壊した。ｃＤＮＡライブラリーの試料を、ＱＰＣＲによる品質管理に供した。

ＮＧＳのための発現Ｎ２５バーコードの調製：発現Ｎ２５のプール全体を、５０μｌのＱ５（登録商標）ＰＣＲ反応液の８つの複製物中でプライマーＮＪ－１４１およびＮＪ－１４２を使用し、６２℃のアニーリング温度および１分の伸長時間の合計８サイクルを使用して増幅した。複製物をバッチごとに合わせた。各バッチの５０μＬアリコートを以下のように処理した：不要な長鎖ＤＮＡを、０．５×体積のＡＸＹＧＥＮ（登録商標）ビーズを使用して室温で２０分間にわたって結合させた。上清に由来する所望の短鎖アンプリコン（６５ｂｐ）を、二連のＺｙｍｏカラムを使用して各バッチごとにさらに精製し、各々を２０μＬの水に溶出した。発現バーコードを配列決定するためのアンプリコンを調製するため、２ｎｇの第１ラウンド増幅およびクリーンアップされたＮ２５バーコードを、ＮＪ－１４１およびＮＪ－１４２を用いた別の９サイクルの増幅に供した。入力ライブラリーを配列決定するためのアンプリコンを調製するため、２ｎｇの入力ライブラリーを、未切断／ＣＲＩＳＰＲ骨格－切断／ＣＲＩＳＰＲＧＦＰ－切断プラスミドライブラリー鋳型の混合物から、ＮＪ－１４１プライマーおよびＮＪ－１４２プライマーを使用して９サイクルのＰＣＲで増幅した。

ＩＯＮＴＯＲＲＥＮＴ（登録商標）Ｐｒｏｔｏｎ配列決定（バッチ１：ＮＪ１９７およびＮＪ－５２３；バッチ２：ＮＪ－１９８およびＮＪ－５２３）およびＩＬＬＵＭＩＮＡ（登録商標）ＮｅｘｔＳｅｑ５００配列決定（ＮＪ－４００／ＮＪ－５０４／ＮＪ－５０５／ＮＪ－５０６／ＮＪ－５０７／ＮＪ－５０８／ＮＪ－５０９とＮＪ３６４とを使用した、またはＮＪ－４０２／ＮＪ－４９８／ＮＪ－４９９／ＮＪ－５００／ＮＪ－５０１／ＮＪ－５０２／ＮＪ－５０３とＮＪ－３９９とを使用した１４個の位相化ライブラリー）の両方のために、配列決定ライブラリーを調製した。これらの増幅はすべて、６５℃のアニーリング温度と２０秒の伸長時間を合計６サイクルで使用した。プライマーの配列は、表３に示されている。

バーコードリードとバーコードクラスター（ｂｃｌ）との比較：このステップの目標は、発現バーコードまたは各バーコードクラスター（ｂｃｌ）の入力ライブラリーのいずれかに由来するバーコードリードの数を計数することである。アダプタートリミングバーコードリードを、上記と同じコマンドを用いたＢＷＡ検索を使用して、上記で確立された代表的バーコードリードと比較した。バーコードリードが１つよりも多くのｂｃｌと一致した場合、各一致を、対応するｂｃｌに計数した。発現バーコードおよび入力ライブラリーの両方に対して同じ手順を適用したため、バーコードリードの複数計数の影響は中和される。

ＣＲＭ活性の算出：このステップでは、発現バーコードおよび入力ライブラリーから計数される各ｂｃｌのリード数に基づき、各インサートのシス調節活性が算出される。インサートが≧２つのｂｃｌ（インサートの９９％）に関連付けられる場合、このインサートのすべてのｂｃｌのリード計数を合わせた。まず、入力計数が少な過ぎることによる偽陽性ＣＲＭを回避するため、入力ライブラリーからの≧１０計数のインサートまたは実験の両バッチについて≧５０計数の発現バーコードを保持した。このフィルタリングの結果、保持基準を満たす９，３３９，９９６個のインサートがもたらされた。次に、発現バーコードのリード計数を入力ライブラリーのリード計数で除算し、得られた数値を順位付けた。データの中央３０％を使用して、バックグラウンド活性（ｂｇ）を算出した（例えば、２６）。さらに、ＣＲＭ活性をバックグラウンド活性に対して正規化した。少なくとも１つのバッチが≧５×ｂｇを示し、別のバッチが≧４．５×ｂｇ（５×ｂｇの９０％）を示した場合、インサートをＣＲＭとみなした。基準に合格した合計５４，１１５個のインサートが同定された。ゲノムの他の部分に≧９５％同一配列を有するインサートを除去し、重複するＣＲＭをマージした後、最終セットには、４１，２１６個の固有非重複ＣＲＭが含有されていた。図２Ａには散布図が示されている。この散布図は、５００，０００個のランダム選択インサートを使用し、Ｒパッケージ（ｃｒａｎ．ｒ－ｐｒｏｊｅｃｔ．ｏｒｇ）のｇｇｐｌｏｔ２（Wickham. ggplot2: Elegant Graphics for Data Analysis, Springer-Verlag New York, 2009）を使用して作成した。

ＣＲＭのゲノム分布
ＣＲＭおよび遺伝子のゲノム位置を比較するため、ｆｔｐ．ｅｎｓｅｍｂｌ．ｏｒｇから公的に入手可能な遺伝子注釈ファイル「ＧＲＣｈ３８．８９．ｇｆｆ３」、ならびにｅｎｃｏｄｅｐｒｏｊｅｃｔ．ｏｒｇからのＨｅｐＧ２細胞のＲＮＡ－ｓｅｑデータ「ＥＮＣＦＦ８６１ＧＣＲおよびＥＮＣＦＦ６４０ＺＢＪ」を使用した。両方のＲＮＡ－ｓｅｑデータにおいてＦＰＫＭ≧１を有する遺伝子は、「発現される」とみなした。図２Ｃおよび図１０Ａ～１０Ｆに示されているマップを作成するため、ＲのＧｒｉｄＧｒａｐｈｉｃｓパッケージ（Murrell. R graphics. CRC Press, 2016）を、１Ｍｂのビンサイズで使用した。

遺伝子に関するゲノム領域におけるＣＲＭの富化を算出するため（図２Ｄ）、２ｋｂよりも大きなウインドウにわたるインサート／ＣＲＭを、インサートと最も重複するウインドウに割り当てた。遺伝子の５’末端および３’末端のゲノム座標を、ＧＲＣｈ３８．８９．ｇｆｆ３ファイルから抽出した。インサート／ＣＲＭは、遺伝子ごとに１回のみ計数したが、異なる遺伝子については複数回の計数を可能にした。

検証のための１つずつのレポーターアッセイ
個々のレポーター構築物の製作：２０個のゲノム領域（１１個のＣＲＭ、５つのわずかに活性な領域、および４つの不活性領域）を、個々にＰＣＲで増幅し、ＧＩＢＳＯＮＡＳＳＥＭＢＬＹ（登録商標）（Gibson, et al. Methods in enzymology 498 (2011): 349-361）によって事前バーコード化ＳＣＰ－ＧＲＡＭｃベクター（Guay, et al. Developmental biology 422.2 (2017): 92-104）にクローニングした。プライマーを使用して、ベクターに存在するアダプター配列と重複する隣接配列を含有するインサートを増幅した。各アセンブリは、２μＬのＮＥＢＵＩＬＤＥＲ（登録商標）ＨｉＦｉアセンブリ反応液を使用して実施した。アセンブリ反応液を使用して、ＭｉｘａｎｄＧｏＤＨ１０Ｂコンピテント細胞（ＺｙｍｏＲｅｓｅａｒｃｈＴ３０１９）を形質転換し、コロニーＰＣＲにより陽性クローンを同定した。無エンドトキシンプラスミドを調製した（ＺｙｍｏＲｅｓｅａｒｃｈＤ４２０８Ｔ）。

事前バーコード化ＳＣＰ－ＧＲＡＭｃベクターをさらに使用して、個々のクローンのＧＦＰレポーター発現のＱＰＣＲに使用するためのＥＧＦＰ内部対照ベクターを生成した。このステップでは、ＮＪ７３１およびＮＪ７３２を用いたインバースＰＣＲによりベクターを増幅した。ｐＥＧＦＰ－Ｃ１のＥＧＦＰＯＲＦを、ＮＪ７２９およびＮＪ７３０を使用して増幅し、ＮＥＢＵＩＬＤＥＲ（登録商標）ＨｉＦｉアセンブリマスターミックスを使用して、ＧＩＢＳＯＮＡＳＳＥＭＢＬＹ（登録商標）を２：１の比で使用してＳＣＰ－ＧＲＡＭｃベクターへとアセンブリした。ＧＲＡＭｃベクターに使用されているＧＦＰＯＲＦは、一般的に使用されているＥＧＦＰＯＲＦとは異なり、ＱＰＣＲにより２つのＧＦＰを差次的に検出することができる。プライマーの配列は、表３に示されている。

ＧＲＡＭｃの結果を検証するための個々のレポーターアッセイ：ＨｅｐＧ２細胞を、２４ウェルプレートの１０％ＦＢＳで追加補充された５００μＬのＥＭＥＭに１ウェル当たり約６０Ｋ個の細胞で播種した。ゲノムスケールアッセイとの一貫性のために、ＡＴＣＣから受領してから１２～１５継代であり、回復後少なくとも７継代の細胞を使用した。細胞を、２４時間付着させ、５０μＬのＯＰＴＩ－ＭＥＭ（登録商標）、２００ｎｇのＧＦＰを含有する個々の試験プラスミド、２００ｎｇのＳＣＰ－ＥＧＦＰ対照ベクター、および１．２μＬのＤＮＡ－ＩＮ（登録商標）試薬の混合物を用いてトランスフェクトした。２６時間後（ゲノムスケールアッセイと一致する約８０～８５％コンフルエンシー）、細胞をＤＰＢＳ中で２回洗浄し、３００μＬのＤＮＡ／ＲＮＡ溶解緩衝液（ＺｙｍｏＲｅｓｅａｒｃｈ）に収集し、各試料のｇＤＮＡおよび全ＲＮＡを、製造業者のプロトコールに従って結合および洗浄を行い、ＺｙｍｏＩＩカラムを使用して精製した。ＲＮＡを３４μＬの水に溶出した。各試料の全ＲＮＡの半分を、２０μＬのＴｕｒｂｏＤＮａｓｅ反応液（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標））中にて１時間３７℃で処理した。２μＬのＤＮａｓｅ不活化試薬（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標））で反応を停止させた。ＤＮａｓｅ処理ＲＮＡの半分を、追加の１０ｐモルのＧＲＡＭｃ＿ＲＴ＿ｏｌｉｇｏ（ＮＪ－４８９）およびＲＮａｓｅ阻害剤を有する２０μＬの１×Ｈｉｇｈ－ＣａｐａｃｉｔｙｃＤＮＡ合成反応液中で使用した。元の試料の１／４０，０００に相当する全ｇＤＮＡ、全ＲＮＡ試料の１／４０に相当する非ＲＴ対照、および元の試料の１／１６０に相当するｃＤＮＡでのＧＦＰおよびＥＧＦＰに対してＱＰＣＲを実施した。個々の試験断片により駆動されるＧＦＰ発現を、内部対照（ＥＧＦＰ発現、ＮＪ４０４／ＮＪ４０５）に対して正規化した。ＱＰＣＲプライマーの配列は、表３に示されている。

不活性インサートと比べた、ＣＲＭにおけるＥＮＣＯＤＥ注釈の相対的富化
ＥＮＣＯＤＥＣｈＩＰ－ｓｅｑファイルを、ｅｎｃｏｄｅｐｒｏｊｅｃｔ．ｏｒｇから得た。ＣＲＭと個々のＥＮＣＯＤＥデータとの間の重複を、ｂｅｄｔｏｏｌｓ（Quinlan, et al. Bioinformatics 26.6 (2010): 841-842）を使用して、コマンド「ｂｅｄｔｏｏｌｓｊａｃｃａｒｄ－ｆ１Ｅ－０９－Ｆ１Ｅ－０９」で算出した。ＣＲＭにおけるＥＮＣＯＤＥ注釈の相対的富化を、以下の手順で算出した。ｉ）まず、ＣＲＭとＥＮＣＯＤＥ注釈との間で重複する塩基対のゲノム割合を算出した。ｉｉ）２つのデータセットのゲノム割合を乗算することにより、ランダムに予想される重複を算出した。ｉｉｉ）ｉ）の結果をｉｉ）の結果で除算して、富化を算出した。ｉｖ）同じ手順に従って、不活性領域（Ｌ１群）における同じＥＮＣＯＤＥ注釈の富化を算出した。ｖ）ｉｉｉおよびｉｖの比をとることにより相対富化を算出した。

ＣＲＭにおけるモチーフ富化および予測された強力なエンハンサー
ＧＲＡＭｃインサートの選択：ＣｈｒｏｍＨＭＭ（Ernst, et al. Nature 473.7345 (2011): 43; Ernst, et al. Nature biotechnology 28.8 (2010): 817）により予測されるＨｅｐＧ２の強力なエンハンサーを、ＣＲＭ活性およびモチーフ富化についてＧＲＡＭｃデータと比較した。クロマチン状態のゲノム座標を、ｌｉｆｔＯｖｅｒ（Hinrichs, et al. Nucleic acids research 34. suppl_1 (2006): D590-D598）でｈｇ３８に変換した。まず、予測された強力なエンハンサーと長さが≧９０％重複する非重複ＧＲＡＭｃインサートを、ランダムに選択した。この選択プロセスにより、予測された強力なエンハンサーに対応する１８，８９８個のＧＲＡＭｃインサートが得られた。このデータを利用して、図３Ａを生成した。

モチーフ富化を比較するため、予測されたエンハンサーを考慮せずに、別の１８，８９８個の非重複ＧＲＡＭｃＣＲＭ（≧５×ｂｇまたはＧ５）をランダムにサンプリングした。陰性対照として、３７，７９６個の非重複不活性（≦１×ｂｇまたはＬ１）インサートもサンプリングした。

モチーフ富化調査：推定転写因子結合部位（ＴＦＢＳ）モチーフを調査するため、サンプリングした７５，５９２個のインサートを同時に分析した。ＨＯＣＯＭＯＣＯｖ１０データベース（Kulakovskiy, et al. Nucleic acids research 44. D1 (2015): D116-D125）およびＦＩＭＯソフトウェア（Cuellar-Partida, et al. Bioinformatics 28.1 (2011): 56-62；Bailey, et al. Nucleic acids research 37 (2009): W202-W208）を、１Ｅ－５のＥ値カットオフで使用した。各モチーフの存在量は、所与のセットごとの、モチーフ内包インサートの割合である。相対的モチーフ富化は、ＣＲＭにおけるモチーフまたは予測されたエンハンサーの存在量を陰性対照セットの同じモチーフの存在量で除算することにより算出した。

ＣＲＭにおけるモチーフの富化とＣｈＩＰ－ｓｅｑピークとの比較：ＨＯＣＯＭＯＣＯｖ１０とＥＮＣＯＤＥＣｈＩＰ－ｓｅｑデータとの間で共通する５８個の転写因子が名称により同定された。算出された相対富化スコアを使用して、図４Ｂを作成した。

ＣＲＭに対する遺伝子異所性発現の効果の測定
ＧＲＡＭｃライブラリーのランダムサブセットの調製：ｐｉｔｘ２またはｉｋｚｆ１の異所性発現による摂動実験用のＧＲＡＭｃライブラリーの小規模サブセットを得るため、約５０μＬの凍結グリセロールストックを、２ｍｌのＬＢ培地に希釈し、２０分間３７℃での２５０ＲＰＭのオービタル振盪で回復させた。一連の２倍希釈物を調製し、その１／１００を、プレーティングおよびコロニー計数用の２つの１０倍希釈物に使用し、各２倍希釈培養物の残りを使用して、１５０ｍｌのＬＢ－Ａｍｐ培養物に播種し、一晩成長させた。約８０，０００個のコロニー（８０Ｋライブラリー）を含有すると推定された培養物を、ＺＹＭＯＰＵＲＥ（登録商標）プラスミドＭａｘｉｐｒｅｐキットを使用して処理した。

８０Ｋ構築物ライブラリーの摂動アッセイ：３つの同時トランスフェクション：８０Ｋライブラリー＋ＣＭＶ：：ｐｉｔｘ２（ＧｅｎｓｃｒｉｐｔＯＨｕ１７４８０Ｄ）、８０Ｋライブラリー＋ＣＭＶ：：ＩＫＺＦ１（ＧｅｎｓｃｒｉｐｔＯＨｕ２８０１６Ｄ）、および８０Ｋライブラリー＋ＣＭＶ：：ＥＧＦＰ（ＣｌｏｎｔｅｃｈｐＥＧＦＰ－Ｃ１）の各々を用いて、細胞を１０ｃｍ^２プレート１つ当たり約２Ｍ個細胞の二連で播種してトランスフェクションした。トランスフェクション前に細胞を約２４時間培養した。製造業者のプロトコールに従って調製した３６μＬのＨｅｐＧ２用ＤＮＡ－ＩＮ（登録商標）試薬（ＭＴＩ－Ｇｌｏｂａｌｓｔｅｍ）および１．２ｍｌのＯＰＴＩ－ＭＥＭ（登録商標）（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標））を使用して、９μｇの８０Ｋライブラリーおよび３μｇのそれぞれの発現ベクターを細胞に同時トランスフェクトした。

トランスフェクションの２４時間後に、細胞を、トリプシン処理および１×ＤＰＢＳ洗浄により採取した。細胞の１／１０部分を、ウエスタンブロット解析してＰｉｔｘ２およびＩＫＺＦ１の発現を確認するために確保した。残りの細胞を溶解し、Ｚｙｍｏ－Ｄｕｅｔキットを使用してＩＩＩＣＧカラムにより、オンカラムＤＮａｓｅＩ処理は行わずにＤＮＡおよびＲＮＡを両方とも処理した。ＤＮＡを１００μＬに溶出し、ＲＮＡを８０μＬに溶出し、１００μＬの１×ＤＮａｓｅＩ緩衝液の総反応体積中で最低でも４時間３７℃にて、ＤＮａｓｅＩ（８Ｕ）／ＥｘｏＩ（１００Ｕ）／ＥｘｏＩＩＩ（１００Ｕ）で処理した。１試料当たり約１０Ｍ個細胞であると仮定し、ＧＦＰによるＱＰＣＲを標的として使用して、約１０，０００個細胞のｇＤＮＡおよび約５０００個細胞のヌクレアーゼ処理ＲＮＡの当量を試験し、それぞれトランスフェクションの品質およびＲＮＡ中のＤＮＡ除去の完了を確認した。必要に応じて、別の２ＵのＤＮａｓｅＩを反応液にスパイクした。Ｚｙｍｏ－ＩＩＩＣカラムを使用してＲＮＡをカラムクリーンアップし、５０μＬの水に溶出した。ゲノムスケールのプロトコールに記載のような標準的ＲＴ反応の品質管理の尺度として、約４０００個細胞の当量を使用した。残りのＲＮＡを、ＲＴの２時間後の品質管理ＱＰＣＲのために、８μＬのＭｕｌｔｉｓｃｒｉｂｅおよび３．２μＬのｄＮＴＰを使用したが、ランダムプライマーを使用しなかった８０μＬの１×Ｈｉｇｈ－ＣａｐａｃｉｔｙｃＤＮＡ合成反応液中にて、ｃＤＮＡ合成に使用した８０ｐモルのＧＲＡＭｃ＿ＲＴ＿ｏｌｉｇｏ（ＮＪ－４８９）と共に、４時間から一晩３７℃でインキュベートした。ＤＮＡ消化が完了したら、４μＬのＮＥＢＵＦＦＥＲ（登録商標）３および２μＬのＲＮａｓｅＩｆを反応液に添加して３７℃にて２時間置き、次いでプロテイナーゼＫをスパイクして３７℃にて１５分間置き、９５℃で１０分間熱不活化し、続いて一晩エタノール沈殿させ、３０μＬの水に再懸濁した。

Ｎ２５バーコードを、上記に記載のように事前に増幅したが、６サイクルの、単一の５０μＬＱ５（登録商標）高忠実度ＤＮＡポリメラーゼ反応を使用し、ＩＯＮＴＯＲＲＥＮＴ（登録商標）Ｐｒｏｔｏｎ配列決定用のＩＸバーコード化を、以下のプライマー対を用いて使用した：対照－１の場合、ＮＪ－１９７／ＮＪ５２３；対照２の場合、ＮＪ－１９８／ＮＪ５２３；Ｐｉｔｘ２－１の場合、ＮＪ－２００／ＮＪ５２３；Ｐｉｔｘ２－２の場合、ＮＪ－１３２／ＮＪ５２３；ＩＫＺＦ１－１の場合、ＮＪ－１３３／ＮＪ５２３；およびＩＫＺＦ１－２の場合、ＮＪ－１３４／ＮＪ５２３。データ分析は上記に記載のように実施した。プライマーの配列は、表３に示されている。

ウエスタンブロットによる異所性転写因子発現の確認：各トランスフェクション条件（８０Ｋライブラリー＋ＣＭＶ：：ｐｉｔｘ２、８０Ｋライブラリー＋ＣＭＶ：：ＩＫＺＦ１、および８０Ｋライブラリー＋ＣＭＶ：：ＥＧＦＰ）のアリコートを、１：１００希釈のＨａｌｔプロテアーゼ阻害剤カクテル（ＴＨＥＲＭＯＦＩＳＨＥＲ（登録商標））をスパイクした８０μＬのＲＩＰＡ緩衝液（１５０ｍＭＮａＣｌ、１％ＮＰ４０、０．５％デオキシコール酸ナトリウム、０．１％ＳＤＳ、５０ｍＭＴｒｉｓ－ＨＣｌｐＨ８．０、５ｍＭＥＤＴＡ）中で、断続的に軽くはじきながら氷上で３０分間溶解した。ライセートを１２，０００ＲＰＭで１０分間４℃にて遠心分離し、ＢＣＡ試薬を使用して定量化した。

各試料のおよそ２５ｎｇを、二連のセット（発現および対照）で負荷し、１２％ポリアクリルアミドゲルで分離し、ＰＶＤＦ膜に転写し、ＦＬＡＧ（１：５００、ＳａｎｔａＣｒｕｚｓｃ－１６６３５５）またはＧＡＰＤＨ（１：１０００、ＳａｎｔａＣｒｕｚｓｃ－２５７７８）に対する抗体でブロットした。西洋ワサビペルオキシダーゼコンジュゲート二次抗体（１：５０００）および高感度化学発光試薬（ＧＥＨｅａｌｔｈｃａｒｅ）を使用して、Ｂｉｏ－ＲａｄＣｈｅｍｉＤｏｃＭＰシステムでバンドを検出した。

（実施例２）
この例には、ＧＲＡＭｃライブラリーの構築が記載されている。この例では、ＧＲＡＭｃライブラリーを、以下の手順で生成した（図１Ａ～１Ｄ）。第１に、ランダムゲノムＤＮＡ断片をサイズ選択し、アダプターライゲートし、段階希釈して、意図されているゲノムカバレッジに到達させた（図１Ａ）。アダプターライゲーションの正確度を向上させるため、アダプター（図６）を融合させて、非ライゲートＤＮＡおよび線状連結体を含む線状ＤＮＡに対するエキソヌクレアーゼＩ／ＩＩＩ処理に耐性であり得る環状ライゲーション産物を形成した。エキソヌクレアーゼで処理した後、環状ライゲーション産物を、融合アダプター内のリボヌクレオチド部位（ＵＵ／ＡＡ）を切断するＲＮａｓｅＨＩＩで線状化した。次いで、線状化ライゲート物を段階希釈し、アダプター特異的プライマーを使用してＰＣＲ増幅した。意図されているゲノムカバレッジの希釈物を、ＱＰＣＲで、１１個のランダムに選択されたゲノム領域の有無を計数することにより同定した。約４Ｍ個のランダムにサンプリングされた約８００ｂｐ長のゲノムＤＮＡ断片（平均で１×ゲノムカバレッジ）を含有する希釈物の場合、標的領域の予想存在率は０．６である。５×の希釈物（または任意の所望のゲノムカバレッジ）を、２つの一般的なＤＮＡ片と共にアセンブリし、ゲノム試験断片、基本プロモーター、ＧＦＰＯＲＦ（Arnone, et al. Development 124.22 (1997): 4649-4659）、およびベクター骨格を含有する線状ＤＮＡ産物のライブラリーを形成した（図７）。ベクター系には、汎用左右相称スーパーコアプロモーター１（pan-bilaterian Super Core Promoter 1）（ＳＣＰ）（Juven-Gershon, et al. Developmental biology 339.2 (2010): 225-229）を使用する。

第２に、得られたゲノムＤＮＡライブラリーを、ベクター骨格を含むライブラリー全体を増幅することができる１対の共通プライマーを用いたＰＣＲにより、過剰数のランダム２５ｍｅｒ（Ｎ２５）でバーコード化した（図１Ｂ）。共通プライマーの１つであるｐｒｉｍｅｒ＿Ｒは、中央にランダムＮ２５およびコア－ポリアデニル化シグナル（ポリＡ）を含有する（Nag, et al. RNA 12.8 (2006): 1534-1544）。バーコード化ライブラリーを自己ライゲートさせ、エキソヌクレアーゼＩ／ＩＩＩで処理し、ライブラリー増幅およびプラスミド抽出のために、Ｅ．ｃｏｌｉへとエレクトロポレーションした。ごく一部の未回復形質転換体（例えば、１／１，０００）を使用して、コロニー形成単位（ｃｆｕ）を測定し、残りを、液体培養でのライブラリー増幅およびその後のプラスミド抽出に使用した。ＰＣＲ媒介姓バーコード化は過剰なバーコードを導入するため、事実上すべての個々の形質転換体が固有バーコードを含有する。例えば、コロニー計数に使用した形質転換体に存在するバーコードは、最終ライブラリーでは同定されなかった。ＧＲＡＭｃライブラリーの固有バーコードレポーターの数は、エレクトロポレーションの規模により制御することができる。本明細書で使用されるプロトコールでは、約８００ｂｐのインサートを有する４～１０ｎｇの環状ライゲーション産物は、一貫して約４０Ｍｃｆｕを生成した。これは、市販のコンピテント細胞の宣伝されている効率と同等である。採取した固有バーコードの数が固有インサートの数よりも大幅に大きい限り、最初のステップで決定されたライブラリーのゲノムカバレッジは維持される。精製したプラスミドを、ライブラリー特徴付けに使用した。ライブラリー特徴付けは、ＩＬＬＵＭＩＮＡ（登録商標）ペアエンド配列決定（実施例１および図８を参照）により、ゲノムインサートならびにインサートおよびバーコードレポーターの対を同定することを含む。

この方法を使用して、約８００ｂｐ長のインサートのヒトＧＲＡＭｃライブラリーを生成した。このライブラリー中の固有ゲノムＤＮＡインサートの意図されている数および固有バーコードの意図されている数は、それぞれ２０Ｍ個（５×ゲノムカバレッジ）および２００Ｍ個（１０個バーコード／インサート）だった。ｈｇ３８アセンブリにマッピングされた４７９．１Ｍ対の配列を分析したところ（５１９Ｍ個のペアエンドリードのうち）、１５．６Ｍ個のゲノム領域が同定された。これらのゲノム領域に関連付けられた固有バーコードの総数は１９１Ｍ個だった。このライブラリーは、ヒトゲノムの９３．４％を少なくとも１回はカバーしていた（表１）。

より多くの配列決定リードを得ればこれらの数は向上することになるが、これらの数は、ライブラリー中のインサートおよびバーコードの意図されている数に既に近い。検出された１５．６Ｍ個のゲノム領域のうち、１３．８Ｍ個のインサートは配列が固有だった（他のゲノム領域との配列同一性は＜９５％）。加えて、固有インサートのゲノム分布は、ある程度均一だった（図２Ｃ）。固有インサートの場合（図１Ｃ）、インサートの７１％が７５０～８５０ｂｐの範囲内にあった。これはサイズ選択が効果的であったことを示す。さらに、１インサート当たりのバーコード数を考慮すると（図１Ｄ）、大多数のインサートのバーコード数は、予想される数である１０から著しく逸脱したが、固有インサート９９％および５５％は、それぞれ≧２個のバーコードおよび≧１０個のバーコードに接続されていた。したがって、レポーター発現に対するバーコード特異的効果は、ＧＲＡＭｃライブラリーでは些細なものであった。インサートおよびそれらの関連バーコードのゲノム座標のリストは、図６に示されている。
（実施例３）

この例では、ＨｅｐＧ２細胞でのＧＲＡＭｃ適用が記載されている。ＧＲＡＭｃライブラリーを、播種時に１００Ｍ個のＨｅｐＧ２細胞、またはトランスフェクション時に２００Ｍ個の細胞の２つのバッチで試験した。比較として、以前のゲノムスケールエンハンサースクリーニングでは、３００Ｍ個のＬＮＣａＰ細胞（Liu, et al. Genome biology 18.1 (2017): 219）および８００Ｍ個のＨｅＬａ細胞（Muerdter, et al. Nature methods 15.2 (2018): 141）を使用し、ゲノムスケールプロモータースクリーニングでは、１００Ｍ個のＫ５６２細胞を使用した（van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145）。ＧＲＡＭｃライブラリーを細胞にトランスフェクトした後、全ＲＮＡを抽出し、逆転写し、発現バーコードをＰＣＲ増幅した。ｍＲＮＡの二次富化中にレポーター転写産物（Muerdter, et al. Nature methods 15.2 (2018): 141）またはレポーター転写産物（Tewhey, et al. Cell 165.6 (2016): 1519-1529）が失われることを回避するため、全ＲＮＡおよびＧＲＡＭｃ特異的オリゴマーを、逆転写に使用した。発現バーコードを、ＰＣＲで増幅し、レポーターの発現レベルを、ＩＬＬＵＭＩＮＡ（登録商標）配列決定で測定した。ＲＮＡを配列決定ライブラリーへと処理するための概略図は、関連品質管理ステップと共に、図９に示されている。レポーター発現を、入力ＧＲＡＭｃライブラリー内のインサートの相対コピー数、および順位付けされたレポーター発現の中央３０％の平均活性であるバックグラウンド活性に対して二重正規化した（Nam, et al. PNAS USA 107.8 (2010): 3930-3935）。このように測定されたバックグラウンド活性は、ウニ胚における公知の不活性断片の漏出活性と非常に類似している（Nam, et al. PNAS USA 107.8 (2010): 3930-3935, Guay, et al. Developmental biology 422.2 (2017): 92-104）。

発現バーコードの各バッチからおよそ２００Ｍ個のリードを得た。バーコードの７８～７９％が、関連ゲノム領域を有するバーコードと一致した。コピー数の変動を説明するため、入力プラスミドからおよそ４５０Ｍ個のバーコードリードを得た。インサートの９９％が≧２つのバーコードを駆動しているため、同じインサートの複数のバーコードのリード数を合わせた。入力プラスミドに由来する≧１０個のリードを有するおよそ７．５Ｍ個のインサートを、データ分析に使用した。４１，２１６個の非重複ゲノム領域に由来する合計５０，９９３個のインサートは、２つの独立実験にて、バックグラウンド（ｂｇ）活性よりも≧５倍大きな活性（赤色ドット、≧５×ｂｇ）を表示した（図２Ａ）。複製ＧＲＡＭｃデータは、０．９５のピアソン相関係数（ｒ）を示し、１つのバッチのＣＲＭが別のバッチのＣＲＭとみなされる確率は０．８０だった（８０％のＣＲＭ再現性）。カットオフをバックグラウンドの３倍に低下させると（橙色ドットおよび赤色ドット、≧３×ｂｇ）、活性領域の数は、１５０，０１１に増加した（６２％のＣＲＭ再現性）。

ＧＲＡＭｃの正確度を検証するため、１１個のＣＲＭ（≧５×ｂｇ、赤色ドット）、５つのわずかに活性な断片（３～５×ｂｇ、橙色ドット）、および４つの不活性断片（≦１×ｂｇ、黒色ドット）をランダムに選択し、それらの調節活性を、１つずつのレポーターアッセイで個々に試験した（図２Ｂ）。トランスフェクトされたＤＮＡのコピーと比べたＧＦＰ転写産物のレベルを、ＱＰＣＲで測定した。レポーター発現を、４つの不活性レポーター構築物の平均レベルであるバックグラウンド活性（ｂｇ）に対してさらに正規化した。４つの独立したアッセイの平均レベルは、個々のインサートに関して黒色バーで示されている。試験した１１個のＣＲＭのうち、８つのインサートは≧５×ｂｇだったが、２つのインサートおよび１つのインサートは、それぞれ２．８×ｂｇおよび１．９×ｂｇだった。この結果は、ＧＲＡＭｃにおける８０％ＣＲＭ再現性と同等である（図２Ａ）。５つのわずかに活性なインサートの場合、１つのインサートは１０×ｂｇであり、３つのインサートは、３～５×ｂｇの予想範囲内であり、１つのインサートは、１．４×ｂｇだった。全体として、ＧＲＡＭｃで測定されたシス調節活性は、独立したアッセイで再現可能だった（Ｒ２＝０．８３）。これらの結果は、ＧＲＡＭｃが、ＣＲＭをゲノムスケールで発見するための、信頼性が高く効率的なツールであることを示す。

（実施例４）
この例では、予想されるＣＲＭ特徴を保有するＧＲＡＭｃ同定ＣＲＭが記載されている。ＧＲＡＭｃは、レポーター構築物の標準構成に基づくため、ＧＲＡＭｃ同定ＣＲＭは、従来のレポーターアッセイで同定されている公知のＣＲＭ特徴を保有するはずである。第１に、ＣＲＭは、主に、ＨｅｐＧ２で発現された遺伝子付近に位置するはずである。ＨｅｐＧ２で発現された遺伝子、ＣＲＭ、および入力ライブラリーのゲノム位置を比較したところ、発現された遺伝子およびＣＲＭは同様のパターンを有したが、入力ライブラリーは、おおよそ均一に分布していた（図２Ｃおよび図１０Ａ～１０Ｆ）。

第２に、ＣＲＭは、遺伝子の５’近位に富化されていることが知られている（プロモーター）。しかしながら、大多数は、近位領域の外側に位置している（遠位エンハンサー）（２６）。発現遺伝子の上流または下流の移動２ｋｂウインドウ内にある試験したインサートの数についてＣＲＭの割合を算出した場合、５’近位２ｋｂ領域は、最も高い富化（０．０３）を示した（図２Ｄ）。３’近位２ｋｂ領域は、２番目に高いピークを示したが、遺伝子領域ではＣＲＭはわずかに枯渇している。こうした領域変動にも関わらず、ＣＲＭは、ゲノム平均の０．００６７と比較して、各方向の少なくとも１００ｋｂ領域内の発現遺伝子周囲において一貫して富化されている。同様のパターンは、非発現遺伝子付近でも観察されたが、富化の度合いは、発現遺伝子付近よりも低かった。これらの結果は、ＧＲＡＭｃが、近位プロモーターおよび遠位エンハンサーを両方とも効率的に同定することができることを示す。

第３に、ＣＲＭは、ＣＲＭ機能に肯定的な影響を及ぼす転写因子および他のタンパク質の結合に関連付けられることが予想される。不活性断片と比べたＣＲＭにおける狭いピークの相対的富化（ランダム予想に対する共有総塩基対）を、ＨｅｐＧ２に由来する１６７個のＥＮＣＯＤＥＣｈＩＰ－ｓｅｑまたはＤＮａｓｅ－ｓｅｑデータから算出した（図２Ｅ）。１５３個のデータは、不活性領域と比べてＣＲＭにおいて≧２倍の富化を示した。これらには、一般的な転写因子（例えば、ＧＴＦ２Ｆ１、ＴＡＦ１、およびＴＢＰ）、転写共活性化因子（Ｐ３００）、およびヒストン修飾酵素（例えば、Ｈ３Ｋ４ｍｅ３およびＨ３Ｋ９ａｃ）が含まれる。ＣＲＭにおいて富化されていなかったか、または枯渇さえしていたＣｈＩＰ－ｓｅｑピークとしては、転写因子（ＴＣＦ１２およびＢＣＬＡＦ１）、スプライセオソーム成分（ＰＬＲＧ１およびＳＮＲＮＰ７０）、およびヒストンメチラーゼ（Ｈ３Ｋ２７ｍｅ３、Ｈ３Ｋ３６ｍｅ３、およびＨ３Ｋ９ｍｅ３）が挙げられる。興味深いことには、全体的な富化にも関わらず、ＧＲＡＭｃ同定ＣＲＭの３２％のみが、ＣＲＭの≧２倍富化を示す１５３個のＥＮＣＯＤＥデータと重複し、ＣＲＭの５８％は、この分析で使用したいかなるＥＮＣＯＤＥデータとも重複しなかった。より多くの転写因子のＣｈＩＰ－ｓｅｑデータを得ることにより重複を増加させることができるが、レポーターアッセイは、クロマチンサイレンシングのためゲノムでは活性ではないＣＲＭまたはＣｈＩＰ－ｓｅｑによる検出を回避することができるＣＲＭを検出する場合がある。

（実施例５）
この例では、モチーフ富化が、ＣｈｒｏｍＨＭＭで予測されたエンハンサーの活性が異なることを説明することが示される。以前の研究では、クロマチンマークに基づくＣＲＭ予測は、機能的に検証されたＣＲＭでは富化されるが、予測されたＣＲＭの大多数は、レポーターアッセイでは著しい発現を駆動しないことが示されている（Liu, et al. Genome biology 18.1 (2017): 219；Muerdter, et al. Nature methods 15.2 (2018): 141；van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145）。これらの観察結果と一致して、ＨｅｐＧ２のＣｈｒｏｍＨＭＭで予測された強力なエンハンサー（Ernst, et al. Nature methods 9.3 (2012): 215）と≧９０％重複するＧＲＡＭｃ試験断片のシス調節活性のアッセイでは、予測されたエンハンサーのおよそ８０％は、ＧＲＡＭｃのバックグラウンド活性の≦２倍を示した（図３Ａ）。予測されたエンハンサーが真のエンハンサーであれば、転写因子結合部位（ＴＦＢＳ）モチーフの富化が予想されるだろう。プロモーターは本来的にモチーフで富化されており、予測された弱いエンハンサーは多義性を増加させる場合があるため、ここでは予測された強力なエンハンサーに焦点を当てた。

予測されたエンハンサー内の６０１個のＨＯＣＯＭＯＣＯ＿ｖ１０ＨＵＭＡＮモチーフ（Kulakovskiy, et al. Nucleic acids research 44.D1 (2015): D116-D125）、ＧＲＡＭｃ同定ＣＲＭ、および不活性断片の富化を、ＦＩＭＯソフトウェア（Cuellar-Partida, et al. Bioinformatics 28.1 (2011): 56-62; Bailey, et al. Nucleic acids research 37 (2009): W202-W208）を使用して比較した。全体として、ＧＲＡＭｃ同定ＣＲＭは、予測されたエンハンサーよりも強力なモチーフ富化を示した（図３Ｂ）。ＧＲＡＭｃにおいて活性であったかまたはわずかに活性であった予測されたエンハンサー（図３Ｃ～３Ｄ）は、ＧＲＡＭｃ同定ＣＲＭのものと同等のモチーフの富化または枯渇を表示した。対照的に、モチーフの富化は、より弱いレポーター発現を示す予測されたエンハンサーでは徐々に希薄化した（図３Ｅ～３Ｇ）。著しいレポーター発現を駆動することができないことおよびモチーフ富化が弱いことを考慮すると、予測されたエンハンサーの大多数は真のエンハンサーではない可能性が高い。しかしながら、これは、クロマチンマークが、正確な位置ではなくエンハンサーの近傍を示し得る可能性、および予測されたエンハンサーが、レポーターアッセイでは測定することができない他のタイプのシス調節活性を保有し得る可能性を排除するものではない。

インターフェロン経路の活性化は、ＤＮＡトランスフェクション時にインターフェロン応答性エンハンサーの誤った同定をもたらし（Muerdter, et al. Nature methods 15.2 (2018): 141）、そのようなアーチファクトは、ＧＲＡＭｃ同定ＣＲＭとＣｈｒｏｍＨＭＭ予測との間の重複を低減させてしまう場合がある。しかしながら、ＨｅｐＧ２細胞がこの経路を活性化しないという独自の発見と一致して、ＩＲＦ１－９およびｈＭＸ１を含むインターフェロン刺激転写因子のモチーフは、ＧＲＡＭｃ同定ＣＲＭでは富化されていなかった。

（実施例６）
この例では、ＣＲＭの富化モチーフは、潜在的に新しいタイプの遺伝子調節相互作用を予測することが示される。小型レポーター構築物により測定されるレポーター発現のパターンは、宿主細胞のトランス調節環境の直接的な読み出しである。ＣＲＭのＤＮＡ配列は転写因子の結合部位を含有しているため、遺伝子調節プログラムを推定するためには計算的モチーフ分析が多用されている（例えば、Xie, et al. Nature 434.7031 (2005): 338；Mariani, et al. Cell systems 5.3 (2017): 187-201；Enuameh, et al. Genome research (2013): gr-151472；Markstein, et al. Development 131.10 (2004): 2387-2394；Halfon, et al. BMC genomics 12.1 (2011): 578）。ＦＩＭＯによりＣＲＭおよび不活性断片（陰性対照）において計算的に予測された６０１個のＨＯＣＯＭＯＣＯ＿ｖ１０ＨＵＭＡＮモチーフ（Kulakovskiy, et al. Nucleic acids research 44.D1 (2015): D116-D125）に基づき、存在量（モチーフ陽性ＣＲＭまたは不活性断片の割合）およびモチーフの相対的富化（不活性断片と比べたＣＲＭにおけるモチーフの相対的存在量）を算出した（図４Ａ）。結果は、６０１個のモチーフのうちの１７６個のモチーフが、不活性断片と比較してＣＲＭでは≧２倍富化されていたことを示す。富化モチーフの大多数（６５％）は、発現（ＦＰＫＭ≧１）転写因子に関してであったが、興味深いことには、残りは、発現されていないかまたは発現が非常に低い（ＦＰＫＭ＜１）転写因子についてであった（３）。

発現転写因子の富化モチーフは、ＨｅｐＧ２で同定されたＣＲＭの正の調節因子を予測するはずである。調節因子をアッセイするため、モチーフ分析の結果を、ＨｅｐＧ２細胞からのＥＮＣＯＤＥＣｈＩＰ－ｓｅｑデータと比較した（３）。モチーフ富化に基づいて予測された転写因子が正しければ、同じ転写因子のＣｈＩＰ－ｓｅｑピークも富化されているはずである。合計５８個の転写因子が、２つのデータセット間で共通していた。５８個の因子のうち、３１個のモチーフおよび５６個のＣｈＩＰ－ｓｅｑピークは、不活性断片と比べて、ＣＲＭでは≧２倍富化されていた（図４Ｂ）。富化モチーフの１つを除くすべてがＣｈＩＰ－ｓｅｑデータでも富化されていたことを考慮すると、モチーフ富化に基づく正の調節因子の予測は、非常に低い偽陽性率を示す（＜＜０．１）。転写因子の他のおよそ５０％は、＜２倍のモチーフ富化を示したが、ＣｈＩＰ－ｓｅｑピークは依然として高度に富化されていた。より詳細な分析が必要であるが、保守的なシナリオでは、ここでのモチーフに基づく予測は、約０．５の偽陰性率を呈する。

非発現転写因子のモチーフ富化は、それらが、他の細胞タイプもしくは状態において活性化因子またはリプレッサーのいずれかとして、ＨｅｐＧ２－ＣＲＭを制御することを示す（図４Ｃ）。ＨｅｐＧ２における転写因子候補の異所性発現を使用して、そのような調節因子をアッセイした。２つの転写因子遺伝子ｐｉｔｘ２（ホメオボックス遺伝子）およびｉｋｚｆ１（イカロスホモログ）を調査した。マウスでは、ｐｉｔｘ２は、胎児肝臓で発現され、胎児肝臓の造血機能に必要であり、胎児肝臓のｐｉｔｘ２および造血機能を両方とも阻止することは、胎児肝臓から成体肝臓への分化に不可欠である（Kieusseian, et al. Blood 107.2 (2006): 492-500）。同様に、ｉｋｚｆ１は、造血系発生の重要な調節因子であり（Davis. Therapeutic advances in hematology 2.6 (2011): 359-368）、胎児肝臓で発現されるが（Roy, et al. PNAS USA (2012): 201211405）、肝発生におけるその機能は未知である。ｐｉｔｘ２（ＣＭＶ：：ｐｉｔｘ２）またはｉｋｚｆ１（ＣＭＶ：：ｉｋｚｆ１）のｍＲＮＡを構成的に発現することができるプラスミドを、完全なＧＲＡＭｃライブラリーからランダムに選択された約８０，０００個のＧＲＡＭｃレポーター構築物のセットと共に同時トランスフェクトした。対照実験として、ＧＦＰｍＲＮＡ（ＣＭＶ：：ｇｆｐ）を構成的に発現することができるプラスミドを、レポーター構築物の同じセットと共に同時トランスフェクトした。３つすべての実験の反復実験は再現性が高かった（ピアソンのｒ≧０．９９）（図１４）。ＨｅｐＧ２でのｐｉｔｘ２の異所性発現は、ＣＲＭの大多数を≧２倍下方制御し、この下方制御は、ｐｉｔｘ２モチーフ陽性ＣＲＭでより顕著だった（２標本ｔ検定、Ｐ＝４．４Ｅ－１６）（図４Ｄ）。ｉｋｚｆ１の場合、９つのＣＲＭのみが≧２倍下方制御され、９つの下方制御ＣＲＭのうち６つがＩＫＺＦ１モチーフに対して陽性だった（２標本ｔ検定、Ｐ＝２．５Ｅ－４）（図４Ｅ）。両組換え遺伝子のタンパク質発現を、ウエスタンブロット（図１１）で確認した。これらの結果は、ｐｉｔｘ２（および程度はわずかだがｉｋｚｆ１）が、胎児肝臓でのＨｅｐＧ２－ＣＲＭ抑制を維持し、成体肝臓におけるＨｅｐＧ２－ＣＲＭおよび遺伝子発現の活性化にはｐｉｔｘ２のクリアランスが重要であることを示す。これらの結果は、ＣＲＭが、宿主細胞の調節プログラムを予測するためだけでなく、時間的におよび空間的に分離された細胞間の調節相互作用を予測するのにも有用であることを示す。

（実施例７）
この例では、ＳＩＮＥ／Ａｌｕエレメントが、ＣＲＭにおいて富化されていることが示される。真核生物遺伝子調節の初期モデルでは、反復エレメントが、遺伝子発現制御に重要な役割を果たすと提案されていた（McClintock. PNAS USA 36.6 (1950): 344-355；Britten, et al. Science 165.3891 (1969): 349-357）。その後、これらの予測は、遺伝子調節およびその発生に寄与するＡｌｕおよびＥＲＶエレメントという複数の例により支持された（Britten. PNAS USA 93.18 (1996): 9374-9377）。さらに、クロマチンシグネチャーのゲノム調査は、ＳＩＮＥ／Ａｌｕエレメントが推定ＣＲＭにおいて富化されていることを示している（Su, et al. Cell reports 7.2 (2014): 376-385；Trizzino, et al. BMC genomics 19.1 (2018): 468）。しかしながら、エンハンサー（Muerdter, et al. Nature methods 15.2 (2018): 141）またはプロモーター（van Arensbergen, et al. Nature biotechnology 35.2 (2017): 145）のゲノムスケールレポーターアッセイでは、ＣＲＭにおけるＬＴＲ／ＥＲＶ１およびＬＴＲ／ＥＲＶＬ－ＭａＬＲの富化は検出されたが、ＳＩＮＥ／Ａｌｕの富化は検出されていない。ＧＲＡＭｃ同定ＣＲＭのこのような富化をアッセイするため、本明細書のデータを、ヒトゲノムの注釈付き反復エレメントと比較した（Smit, et al. "RepeatMasker Open-4.0" (2015)）。３つの反復エレメントのファミリーであるサテライト／テロメア、ＳＩＮＥ／Ａｌｕ、およびＬＴＲ／ＥＲＶ１が、ＣＲＭでは≧２倍に富化されていたことが検出されたが（図５ＡのＧ５セット）、ＬＴＲ／ＥＲＶＬ－ＭａＬＲは、ＣＲＭでは富化されていなかった。３つのエレメントは、わずかに活性なＧ３Ｌ４およびＧ４Ｌ５セットでも、程度は低いが富化されていた。興味深いことには、アルファサテライトは、ＣＲＭが約８分の１に枯渇されていた。これは、抑制機能またはＨｅｐＧ２の他のＣＲＭと非適合性であることを示す。しかしながら、肝臓での転写リプレッサーであると予測されたレトロポゾン／ＳＶＡエレメントの枯渇は検出されなかった（Trizzino. Genome research 27.10 (2017): 1623-1633）。

ＧＲＡＭｃ同定ＣＲＭを使用して、エンハンサーへと向かうＡｌｕエレメントの進化を時間の関数としてアッセイした（Su, et al. Cell reports 7.2 (2014): 376-385）。ＣＲＭにおけるＡｌｕエレメントの富化は、年齢と正に相関するはずである。しかしながら、Ａｌｕの３つの主要なサブファミリー（図５Ｂ）を調査したところ、最年少のサブファミリー（ＡｌｕＹ）および中間サブファミリー（ＡｌｕＳ）は、ＣＲＭでの≧３倍富化を示したが、最年長のサブファミリー（ＡｌｕＪ）は、中程度の富化しか示さなかった（１．３倍）。元の研究は、ＨｅＬａ細胞のクロマチン注釈に基づいているため、この不一致は、細胞タイプが違うことにより説明することができる。したがって、ＨｅＬａ細胞においてルシフェラーゼアッセイを使用して試験された１９個のＡｌｕエレメントのサブファミリーがまとめられた（Su, et al. Cell reports 7.2 (2014): 376-385）。これらの結果と一致して、８／１０個のＡｌｕＹまたはＡｌｕＳエレメントが活性であり、ＡｌｕＪエレメントは４／９個のみが活性だった。したがって、本結果は、Ａｌｕエレメントが年齢と共に調節活性を失うという対立モデルと一致する。

こうした結果により、ＧＲＡＭｃデータは、複数の進化ゲノミクス仮説の試験に有用であり得ること、およびＧＲＡＭｃデータは、より初期のゲノムスケールレポーターアッセイまたはクロマチン注釈により生成されたデータと比較して異なる結論に結び付き得ることが実証される。さらに、ＧＲＡＭｃとより初期のレポーターアッセイとの間で観察される不一致は、大部分は、使用される細胞タイプが異なることに起因する可能性がある。反復エレメントのリスト全体の富化は、表２に示されている。

注:富化スコアはlog₂スケールである。

本開示の原理を適用することができる実施形態は数多く考え得るため、説明されている実施形態は例に過ぎず、本発明の範囲を限定するものと解釈されるべきではないことが認識されるべきである。むしろ、本発明の範囲は、以下の特許請求の範囲により規定される。したがって、本発明者らは、こうした特許請求の範囲および趣旨内に含まれるすべてのものを本発明者らの発明であると主張する。

Claims

核酸分子レポーターライブラリーを構築する方法であって、
選択されたサイズ範囲の複数の核酸分子を単離するステップ；
前記選択されたサイズ範囲の前記複数の単離された核酸分子を、リガーゼを使用して少なくとも１つの線状アダプター配列にライゲートするステップであって、前記線状アダプター配列は、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドが隣接する少なくとも２つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ；
インサートおよびアダプターを含む前記複数の環状核酸分子を、前記複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ；
インサートおよびアダプターを含む前記複数の環状核酸分子を、前記インサートが隣接する、各々が前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ；ならびに
前記複数の線状核酸分子の各々を少なくとも１つのレポーター核酸と融合させて複数のレポーター構築物を産生し、それにより前記核酸分子レポーターライブラリーを産生するステップ
を含む、方法。
前記リガーゼは、ＤＮＡリガーゼを含む、請求項１に記載の方法。
前記リガーゼは、Ｔ４ＤＮＡリガーゼを含む、請求項１または請求項２に記載の方法。
選択されたサイズ範囲の前記複数の核酸分子は、約１００～３０００塩基対長である、請求項１から３のいずれか一項に記載の方法。
選択されたサイズ範囲の前記複数の核酸分子は、約７５０～８５０塩基対長である、請求項４に記載の方法。
選択されたサイズ範囲の前記複数の単離された核酸分子は、ゲル電気泳動またはビーズに基づくサイズ選択を使用して選択される、請求項１から５のいずれか一項に記載の方法。
選択されたサイズ範囲の前記複数の核酸分子は、ゲノムＤＮＡまたは合成ＤＮＡを含む、請求項１から６のいずれか一項に記載の方法。
前記ゲノムＤＮＡは、哺乳動物細胞、植物細胞、細菌細胞、真菌細胞、または古細菌細胞に由来する、請求項７に記載の方法。
前記ゲノムＤＮＡは、哺乳動物細胞に由来する、請求項８に記載の方法。
哺乳動物細胞に由来する前記ゲノムＤＮＡは、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、皮膚細胞、がん細胞、腎臓細胞、免疫細胞、骨細胞、オルガノイド由来細胞、または誘導幹細胞の少なくとも１つに由来する、請求項８に記載の方法。
前記ゲノムＤＮＡは、植物細胞に由来する、請求項８に記載の方法。
前記ゲノムＤＮＡは、細菌細胞に由来する、請求項８に記載の方法。
前記ゲノムＤＮＡは、真菌細胞に由来する、請求項８に記載の方法。
前記ゲノムＤＮＡは、古細菌細胞に由来する、請求項８に記載の方法。
インサートおよびアダプターを含む前記複数の環状核酸分子を前記エンドリボヌクレアーゼと接触させるステップは、インサートおよびアダプターを含む前記複数の環状核酸分子を、ＤＮＡ二重鎖内のリボヌクレオチドに特異的なエンドリボヌクレアーゼと接触させるステップを含む、請求項１から１４のいずれか一項に記載の方法。
前記エンドリボヌクレアーゼは、ＲＮａｓｅＨＩＩまたはウラシル－ＤＮＡグリコシラーゼである、請求項１５に記載の方法。
前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子のゲノムカバレッジを決定するステップをさらに含む、請求項１から１６のいずれか一項に記載の方法。
前記ゲノムカバレッジを決定するステップは、
少なくとも１つの目的のゲノム領域を選択するステップ、
前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を増幅するステップ、
前記選択されたゲノム領域が前記複数の線状核酸分子に存在するか否かを決定するステップ
を含む、請求項１７に記載の方法。
前記少なくとも１つのレポーター核酸は、蛍光タンパク質をコードする、および／またはバーコード核酸を含む核酸を含む、請求項１から１８のいずれか一項に記載の方法。
前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、線状ベクター核酸と融合させ、それにより複数の線状ベクターを産生するステップをさらに含む、請求項１から１９のいずれか一項に記載の方法。
前記線状ベクター核酸は、基本プロモーターを含む、請求項２０に記載の方法。
前記少なくとも１つのレポーター核酸は、蛍光タンパク質をコードする核酸を含み、前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させるステップは、前記複数の線状ベクターを蛍光レポーター核酸と融合させ、それにより複数の蛍光レポーター構築物を産生するステップを含むか、または
前記少なくとも１つのレポーター核酸は、バーコード核酸を含み、前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を少なくとも１つのレポーター核酸と融合させるステップは、複数のレポーター線状ベクターをバーコード核酸と融合させ、それにより複数のバーコードレポーター構築物を産生するステップを含むか、または
前記少なくとも１つのレポーター核酸は、バーコード核酸および蛍光タンパク質をコードする核酸を含み、前記複数の線状ベクターを少なくとも１つのレポーター核酸と融合させるステップは、前記複数のレポーター構築物を、バーコード核酸および蛍光タンパク質をコードする核酸と融合させ、それにより複数の蛍光およびバーコードレポーター構築物を産生するステップを含む、請求項２０または請求項２１に記載の方法。
前記複数の線状ベクターの各々を、バーコードレポーター構築物を含むプライマー核酸と接触させるステップ、
ポリメラーゼ連鎖反応（ＰＣＲ）を実施し、それにより前記バーコードレポーター構築物を含む複数の増幅されたベクターを産生するステップ、
前記バーコードレポーター構築物を含む前記増幅されたベクターをライゲートし、それにより前記バーコードレポーター構築物を含む複数の環状ベクターを産生するステップ、および
前記バーコードレポーター構築物を含む前記複数の環状ベクターを、前記バーコードレポーター構築物を含む前記複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼと接触させるステップ
をさらに含む、請求項２０から２２のいずれか一項に記載の方法。
核酸分子レポーターライブラリーを構築する方法であって、
（ｉ）選択されたサイズ範囲の複数の核酸分子を単離するステップ；
前記選択されたサイズ範囲の前記複数の単離された核酸分子を、リガーゼを使用して少なくとも１つの線状アダプター配列にライゲートするステップであって、前記線状アダプター配列は、３’末端の少なくとも１つのデオキシリボヌクレオチドおよび５’末端の少なくとも１つのデオキシリボヌクレオチドが隣接する少なくとも２つの連続したリボヌクレオチドを含み、それによりインサートおよびアダプターを含む複数の環状核酸分子を産生する、ステップ；
（ｉｉ）インサートおよびアダプターを含む前記複数の環状核酸分子を、前記複数の環状核酸分子から線状核酸分子を除去するのに十分な条件下でエキソヌクレアーゼと接触させるステップ；
（ｉｉｉ）インサートおよびアダプターを含む前記複数の環状核酸分子を、前記インサートが隣接する、各々が前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む複数の線状核酸分子を産生するのに十分な条件下でエンドリボヌクレアーゼと接触させるステップ；
（ｉｖ）前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子のゲノムカバレッジを決定するステップであって、
（ａ）少なくとも１つの目的のゲノム領域を選択するステップ、
（ｂ）前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を増幅するステップ、および
（ｃ）前記選択されたゲノム領域が前記複数の線状核酸分子に存在するか否かを決定するステップ
を含む、ステップ；ならびに
（ｖ）前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、少なくとも１つのレポーター核酸と融合させて、複数のレポーター構築物を産生するステップであって、
（ａ）前記インサートが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含む前記複数の線状核酸分子を、線状ベクター核酸と融合させ、それにより複数の線状ベクターを産生するステップ、
（ｂ）前記複数の線状ベクターの各々を、バーコード核酸を含むプライマーと接触させるステップ、および
（ｃ）ポリメラーゼ連鎖反応（ＰＣＲ）を実施して、前記インサートおよびバーコードが隣接する、前記３’末端の少なくとも１つのデオキシリボヌクレオチドおよび前記５’末端の少なくとも１つのデオキシリボヌクレオチドを含むバーコードレポーター構築物を含む複数の環状ベクターを産生するステップ、および
（ｄ）前記バーコードレポーター構築物を含む前記複数の環状ベクターを、バーコードレポーター構築物を含む前記複数の環状ベクターから線状核酸分子を除去するのに十分な条件下で、エキソヌクレアーゼと接触させるステップ
を含む、ステップ
を含む、方法。
前記エキソヌクレアーゼは、エキソヌクレアーゼＩ、エキソヌクレアーゼＩＩＩ、および／またはラムダエキソヌクレアーゼである、請求項１から２４のいずれか一項に記載の方法。
前記少なくとも１つの線状アダプター配列は、配列番号１および／または配列番号２を含む、請求項１から２５のいずれか一項に記載の方法。
前記線状アダプター配列は、配列番号１および／または配列番号２の二本鎖の二重鎖を含む、請求項１～２６のいずれか一項に記載の方法。
請求項１から２７のいずれかに記載の方法を使用して産生される核酸分子レポーターライブラリー。
機能的核酸調節エレメントを検出する方法であって、
少なくとも１つの目的の細胞に、請求項２８に記載のライブラリーをトランスフェクトするステップ、および
少なくとも１つのレポーターを測定するステップ
を含む、方法。
前記少なくとも１つのレポーターを同定および／または定量化するステップをさらに含む、請求項２９に記載の方法。
前記目的の細胞からＲＮＡを単離して、単離されたＲＮＡを産生するステップをさらに含む、請求項２９または３０のいずれか一項に記載の方法。
前記レポーターを測定するステップは、
前記単離されたＲＮＡを逆転写して、ｃＤＮＡを産生するステップ、および
前記ｃＤＮＡを検出するステップ
を含む、請求項２９から３１のいずれか一項に記載の方法。
前記単離されたＲＮＡを逆転写するステップは、組換えモロニーマウス白血病ウイルス（ｒＭｏＭｕＬＶ）逆転写酵素またはトリ骨髄芽球症ウイルス（ＡＭＶ）逆転写酵素を使用するステップを含む、請求項３２に記載の方法。
ＲＮＡ依存性およびＤＮＡ依存性ＤＮＡポリメラーゼを使用するステップをさらに含む、請求項３２または請求項３３に記載の方法。
前記少なくとも１つのレポーターは、少なくとも１つの固有バーコード核酸である、請求項２９から３４に記載のいずれか一項に記載の方法。
前記ｃＤＮＡを検出するステップは、
前記ｃＤＮＡを増幅するステップ、および
前記少なくとも１つの固有核酸バーコードを同定するステップ
を含む、請求項３５に記載の方法。
前記ｃＤＮＡを増幅するステップは、
少なくとも１つの固有核酸バーコードを含むヌクレオチドに特異的なプライマーを選択するステップ、
前記プライマーを前記ｃＤＮＡと接触させるステップ、および
前記プライマーおよび前記ｃＤＮＡを使用してＰＣＲを実施して、増幅されたＤＮＡを産生するステップ
を含む、請求項３６に記載の方法。
前記少なくとも１つの固有核酸バーコードを同定するステップは、前記増幅されたＤＮＡを配列決定するステップを含む、請求項３７に記載の方法。
前記少なくとも１つの固有核酸バーコードを定量化するステップをさらに含む、請求項３５から３８のいずれか一項に記載の方法。
前記少なくとも１つの細胞は、哺乳動物細胞、植物細胞、真菌細胞、細菌細胞、または古細菌細胞である、請求項２９から３９のいずれか一項に記載の方法。
前記細胞は、哺乳動物細胞である、請求項４０に記載の方法。
前記哺乳動物細胞は、心筋細胞、ニューロン、肝細胞、内皮細胞、胚性幹細胞、皮膚細胞、がん細胞、腎臓細胞、免疫細胞、骨細胞、オルガノイド由来細胞、または誘導幹細胞の少なくとも１つである、請求項４１に記載の方法。
前記細胞は、植物細胞である、請求項４０に記載の方法。
前記細胞は、細菌細胞である、請求項４０に記載の方法。
前記細胞は、真菌細胞である、請求項４０に記載の方法。
前記細胞は、古細菌細胞である、請求項４０に記載の方法。
疾患もしくは状態を有する少なくとも１つの被験体および疾患もしくは状態を有していない少なくとも１つの被験体を含む少なくとも２つの被験体、または
複数の細胞が異なる条件下で収集される少なくとも１つの被験体
から収集される、前記少なくとも１つの目的の細胞を収集するステップをさらに含む、請求項２９から４６のいずれか一項に記載の方法。
ハイスループットである、請求項２９から４７のいずれか一項に記載の方法。
前記複数の核酸分子は、選択された目的のゲノムの少なくとも８０％を含む、請求項１から４８のいずれか一項に記載の方法。
前記複数の核酸分子は、選択された目的のゲノム中のシス調節エレメントの少なくとも８０％を含む、請求項１から４９のいずれか一項に記載の方法。
請求項１から２８のいずれか一項に記載の少なくとも１つのレポーター核酸を含む、核酸分子レポーターライブラリーを構築するためのキット。
前記レポーター核酸の線状アダプター配列は、配列番号１および／または配列番号２を含む、請求項５１に記載のキット。
少なくとも１つのリガーゼ、エキソヌクレアーゼ、エンドリボヌクレアーゼ、および／またはポリメラーゼをさらに含む、請求項５１または請求項５２に記載のキット。
機能的核酸調節エレメントのハイスループット同定および／または定量化のためのキットであって、請求項２８に記載のライブラリーを含み、前記ライブラリーは、目的のゲノムの少なくとも８０％をカバーする、キット。
少なくとも１つの逆転写酵素をさらに含む、請求項５４に記載のキット。
ＰＣＲプライマーおよび高忠実度ＤＮＡポリメラーゼをさらに含む、請求項５４または請求項５５に記載のキット。