JP7300831B2

JP7300831B2 - ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法

Info

Publication number: JP7300831B2
Application number: JP2018519743A
Authority: JP
Inventors: イー．グリーン，リチャード; ハートレー，ポール; トロル，クリストファー; エイミン，エイ
Original assignee: ダブテイルゲノミクスエルエルシー
Priority date: 2015-10-19
Filing date: 2016-10-18
Publication date: 2023-06-30
Anticipated expiration: 2036-10-18
Also published as: EP3365445A4; US20200131505A1; EP3365445B1; IL258699A; CN108368542B; IL258699B; JP2019500009A; WO2017070123A1; SG11201803289VA; JP2022028662A; CA3002740A1; US10457934B2; EP3365445A1; CN108368542A; KR20180096586A; US20170314014A1; AU2016341198A1; AU2016341198B2

Description

＜相互参照＞
本出願は、全体として参照することで本明細書に組み込まれる２０１５年１０月１９日に出願された米国仮特許出願第６２／２４３，５７６号、全体として参照することで本明細書に組み込まれる２０１５年１０月１９日に出願された米国仮特許出願第６２／２４３，５９１号、全体として参照することで本明細書に組み込まれる２０１５年１１月１６日に出願された米国仮特許出願第６２／２５５，９５３号、全体として参照することで本明細書に組み込まれる２０１６年２月１１日に出願された米国仮特許出願第６２／２９４，１９８号の利点を主張するものである。

連邦政府が支援する研究に関する陳述
本発明は、国立ヒトゲノム研究所によって契約番号５Ｒ４４ＨＧ００８７１９－０２の下で米国政府のサポートを受けてなされた。

高品質の非常に連続したゲノム配列を生成することは、理論上および実際上、依然として困難である。ハイスループット配列決定は、所望の生物医学的、生態学的、または生化学的な様々な環境に居住する生命体の遺伝子解析を可能にする。培養に反応しない微生物をしばしば含む環境サンプルのショットガン配列決定により、所定の環境の生命体内に存在する遺伝子と生化学プロセスを明らかにすることができる。こうしたデータを慎重にフィルタ処理して解析することで、データ内のリード間の系統発生学的関連性の兆候も明らかにすることができる。しかしながら、このような非常に複雑なデータセットの高品質のｄｅｎｏｖｏアセンブリは一般には困難であると考えられている。

次世代配列決定（ＮＧＳ）データの永久的な欠点は、リードの長さが短く、挿入サイズが比較的小さいため、ゲノムの大きな反復領域に及ぶことができないということである。この欠陥はｄｅｎｏｖｏアセンブリに著しい影響を及ぼす。ゲノム再編成の性質と配置が不確かであるので、長い反復領域によって分離されたコンティグを連鎖させ、再配列決定することはできない。さらに、長い距離、変異体をハプロタイプに自信を持って関連付けることはできないため、フェージング情報は確認することができない。本開示は、適切なインプットＤＮＡを備えた約数百キロベースかつ最大でメガベースのゲノム距離に及ぶ非常に長距離のリード対（ＸＬＲＰ）を生成することにより、こうした問題すべてに同時に対処することができる。そのようなデータは、セントロメアを含むゲノム中の大きな反復領域によって提示された実質的な障壁を克服するのに非常に貴重であり、コスト効率の良いｄｅｎｏｖｏアセンブリを可能にし、および、個別化医療に十分な完全性と正確さを備えた再配列決定データを生成することができる。

ＤＮＡの非常に離れているが分子的に連鎖したセグメント間の関連性を形成する際の再構成されたクロマチンの使用は非常に重要である。本開示は、離れたセグメントをくっつけ、クロマチンの立体構造により共有結合させることができ、それにより、ＤＮＡ分子の以前離れていた部分を物理的に接続する。その後の処理は、関連するセグメントの配列の確認を可能にし、ゲノム上での分離が最大でインプットＤＮＡ分子の完全長まで伸びるリード対を得ることができる。リード対は同じ分子に由来するので、フェーズ情報も含んでいる。

健康とフィットネスの多くの態様は、胃腸管内、皮膚上、および他の位置の豊富な微生物群によって影響を受ける。本明細書には、そのような微生物群の十分なゲノムの複雑さを明らかにする簡易かつ有力な手法記載されている。これらの技術は、人体（例えば腸）や微生物群が見られる他の部位などの位置にある十分な遺伝子レパートリーの迅速で、正確で、かつ定量的なアッセイを可能にすることができる。

このような技術は、例えば、糞便のメタゲノミクス用途のためのインビトロの近接ライゲーション方法を含む。これらの技術は、単一遺伝子座分子計数法あるいは統計的推定などの方法を越えるための研究と生物医学的分析を可能にするｄｅｎｏｖｏメタゲノミクスアセンブリに対する有力かつ効率的な手法を提供することができる。

本開示の技術は、複雑なメタゲノミクス群のすべての主成分の正確なアセンブリ向けに単一の統合されたワークフローを提供することができる。これらの技術により、マイクロバイオーム（例えば、腸マイクロバイオーム）がヒトの健康と疾患、他の動物、植物、他の生物形態、および環境に影響を及ぼす方法を包括的に理解することができる。

本明細書に開示された技術は、ヒトの糞便サンプルなどのサンプル中にある微生物の多様性の効率的な捕獲と表現を提供することができる。さらに、これらの技術が生み出す豊富なデータタイプを利用するメタゲノミクスアセンブリに対する計算的な手法も開示される。そのような計算的な手法は非常に連続した足場および菌株のデコンボリューションを達成することができる。本開示の技術は、数日で小サンプル（例えば、糞便サンプル）から動的な微生物環境（例えば、ヒトの腸）についての包括的な見方の生成を与えてくれる頑丈で極めて簡単な研究プロトコルおよびソフトウェア製品を提供することができる。

いくつかの実施形態において、本開示は、以前に要求されていたよりもはるかに少ないデータで高品質なアセンブリを生成することができる方法を提供する。例えば、本明細書に開示された方法は、ＩｌｌｕｍｉｎａＨｉＳｅｑデータの２つのレーンのみからのゲノムアセンブリを提供する。

他の実施形態では、本開示は、長距離リード対手法を使用して、染色体レベルのフェージングを生成することができる方法を提供する。例えば、本明細書に開示された方法は、その個体についてヘテロ接合の一塩基多型（ＳＮＰ）の９０％以上を少なくとも９９％以上の精度になるまでフェージングする（ｐｈａｓｅ）ことができる。この精度は実質的により高価でかつより面倒な方法によって生成されたフェージングと同程度である。

いくつかの例において、最大でメガベースの縮尺までのゲノムＤＮＡの断片を生成することができる方法は、本明細書に開示された方法と共に使用可能である。抽出によって提供される最長の断片にまで及ぶリード対を生成する本方法の能力を確認するために、長いＤＮＡ断片を生成することができる。場合によっては、１５０ｋｂｐを越える長さのＤＮＡ断片を抽出および使用することで、ＸＬＲＰライブラリーを生成することができる。

本開示は、ｄｅｎｏｖｏゲノムアセンブリを非常に加速し改善する方法を提供する。本明細書に開示された方法は、１人以上の被験体からのゲノムの迅速かつ廉価なｄｅｎｏｖｏアセンブリを可能にするデータ分析のための方法を利用する。本開示は、ハプロタイプフェージングを含む様々な用途とメタゲノミクス解析で本明細書に開示された方法を使用することができることを規定している。

ある実施形態では、本開示は、ゲノムアセンブリのための方法を提供し、該方法は、複数のコンティグを生成する工程と、染色体、クロマチンあるいは再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから複数のリード対を生成する工程と、複数のコンティグへ複数のリード対をマッピングあるいはアセンブルする工程と、リードマッピングあるいはアセンブリデータを使用して、コンティグの隣接行列を構築する工程と、その順序および／またはゲノムに対する方向を表す、コンティグを通る経路を決定するために、隣接行列を分析する工程を含む。いくつかの実施形態において、本開示は、コンティグの端までの各リードの距離の関数を得ることにより、少なくとも約９０％のリード対が重み付けされることで、どのリード対が短い範囲の接触を示し、どのリード対がより長い範囲の接触を示すかについての情報を組み込むことを定めている。他の実施形態では、転写リプレッサーＣＴＣＦのような、クロマチンの足場相互作用を調節する１つ以上の薬剤に対する保存結合部位などの、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接点の重みを軽減するために、隣接行列を再スケーリングすることができる。他の実施形態では、本開示は、ヒト被験体のゲノムアセンブリの方法を提供し、それにより複数のコンティグが、ヒト被験体のＤＮＡから生成され、それにより被験体の裸のＤＮＡから作られるヒト被験体の染色体、クロマチン、または再構成されたクロマチンを分析することにより複数のリード対が生成される。

本明細書のいくつかの実施形態において、利点は、フェーズ情報を提供するようにタグ付けされた複合体を隔離するのに必要とされる工程の数の減少である。先行技術中の多くの技術では、例えば、アビジンまたはストレプトアビジンで標識された固体表面への複合体の結合を促すために、複合体は、例えば、ビオチンでタグ付けされたタンパク質あるいはナノ粒子などの、タグ付けされた核酸あるいはタグ付けされた結合部分を含む。本開示のいくつかの方法と組成物では、固体表面は、複合体が固体表面との結合を促すためにリガンドで修飾される必要がないように、直接、あるいは溶媒で媒介されて、複合体と結合する部分でコーティングされる。親水性部分、疎水性部分、正荷電部分、負荷電部分、ＰＥＧ、ポリアミン、アミノ部分、ポリカルボン酸部分、あるいは他の部分または上記部分の組み合わせなどの多くの部分が本明細書で企図されている。場合によっては、表面は、直接あるいは溶媒を介して結合部分－核酸複合体を結合するＳＰＲＩ表面などのＳＰＲＩ表面である。

本開示は、ショットガン配列決定方法を使用することにより複数のコンティグを生成することができることを規定しており、該方法は、被験体の長く伸びたＤＮＡを不定のサイズの無作為の断片へ断片化する工程と、複数の配列決定リードを生成するためにハイスループット配列決定方法を使用して断片を配列決定する工程と、複数のコンティグを形成するために配列決定リードをアセンブルする工程を含む。

ある実施形態では、本開示は、クロマチン捕捉技術を用いて、染色体、クロマチン、あるいは再構成されたクロマチンの物理的な配置を探索することにより複数のリード対を生成することができると規定している。いくつかの実施形態において、クロマチン捕捉技術は、ＤＮＡ－タンパク質の架橋を形成するために、ホルムアルデヒドなどの固定剤で、染色体、クロマチンあるいは再構成されたクロマチンを架橋することと、付着末端を含む複数のＤＮＡ－タンパク質複合体を生成するために、１つ以上のヌクレアーゼ酵素（例えば、制限酵素）で、架橋されたＤＮＡ－タンパク質を切断することと、後に一緒に連結される平滑末端を作製するために、ビオチンなどの１つ以上のマーカーを含有するヌクレオチドで付着末端を充填することと、複数のＤＮＡ－タンパク質複合体を断片へと断片化することと、１つ以上のマーカーを用いて断片を含有する接合部をプルダウンすることと、複数のリード対を生成するためにハイスループット配列決定方法を使用して、断片を含有する接合部を配列決定することを含む。いくつかの実施形態において、本明細書に開示される方法のための複数のリード対は、再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから作製される。

いくつかの実施形態において、本開示は、タグ付けされた配列を生成する方法を提供し、該方法は、ＤＮＡ分子を会合分子に結合する工程と、セグメント末端を含む複数のＤＮＡ－タンパク質複合体を生成するために結合したＤＮＡ－タンパク質を切断する工程と、セグメント末端をタグへ連結する工程と、複数のリード対を生成するためにハイスループット配列決定方法を使用して、断片を含有する接合部を配列決定する工程を含む。ヒストンなどの厳密なクロマチン要素を含むが、同様に、より一般に定義されたクロマチン要素、などの、ＤＮＡ結合タンパク質、転写因子、核タンパク質、トランスポゾン、あるいはＤＮＡ－親和性分子を含む表面を有するナノ粒子などの非ポリペプチドＤＮＡ結合会合分子も含む、ＤＮＡを結合する多くの会合分子が企図されている。場合によっては、タグは、例えば、リガーゼを使用して、あるいはタグ分子を用いて充填されたトランスポゼースを使用して、セグメント末端に連結される。場合によっては、共通のタグを含むセグメント末端は、多くの場合フェーズを示す共通の起始分子に割り当てられる。いくつかの実施形態において、本明細書に開示される方法のための複数のリード対は、再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから作製される。

様々な実施形態では、本開示は、培養細胞または１次組織から単離された染色体またはクロマチンの物理的な配置を探索することにより複数のリード対を決定することができるということを規定している。他の実施形態では、複数のリード対は、１人以上の被験体のサンプルから得られた裸のＤＮＡを単離されたヒストンと複合化することにより形成された、再構成されたクロマチンの物理的な配置を探索することにより決定できる。

本開示は、複数のリード対中のヘテロ接合性の１つ以上の部位を同定する工程を含む、ハプロタイプフェージングを決定する方法を提供し、対立遺伝子変異体のフェージングデータは、１対のヘテロ接合部位を含むリード対を同定することにより、決定できる。

様々な実施形態では、本開示は、修飾されたクロマチン捕捉に基づく方法を使用して、複数の微生物の染色体の物理的な配置を探索することにより、複数のリード対を生成する工程を含む、ハイスループットな細菌ゲノムアセンブリのための方法を提供し、該方法は、改良された以下の工程：ある環境から微生物を捕集する工程と、各微生物細胞内で架橋を形成するために、ホルムアルデヒドなどの固定剤を加える工程であって、様々なコンティグに対するリード対のマッピングが、どのコンティグが同じ種からのものであるかを示す、工程とを含む。

いくつかの実施形態において、本開示は、ゲノムアセンブリのための方法を提供し、該方法は、（ａ）複数のコンティグを生成する工程と、（ｂ）染色体、クロマチン、あるいは再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから複数のリード対を決定する工程と、（ｃ）複数のコンティグへ複数のリード対をマッピングする工程と、（ｄ）リード－マッピングデータを使用して、コンティグの隣接行列を構築する工程と、（ｅ）その順序および／またはゲノムに対する方向を表すコンティグを通る経路を決定するために、隣接行列を分析する工程を含む。

本開示は、クロマチン捕捉技術を用いて、染色体、クロマチン、あるいは再構成されたクロマチンの物理的な配置を探索するにより複数のリード対を生成することができる方法を提供している。いくつかの実施形態において、クロマチン捕捉技術は、（ａ）ＤＮＡ－タンパク質の架橋を形成するために、固定剤で染色体、クロマチンあるいは再構成されたクロマチンを架橋することと、（ｂ）付着末端を含む複数のＤＮＡ－タンパク質複合体を生成するために、１つ以上のヌクレアーゼ（例えば、制限）酵素で、架橋されたＤＮＡ－タンパク質を切断することと、（ｃ）後に一緒に連結される平滑末端を作製するために、１つ以上のマーカーを含有するヌクレオチドで付着末端を充填することと、（ｄ）複数のＤＮＡ－タンパク質複合体を断片へと切断することと、（ｅ）１つ以上のマーカーを用いて断片を含有する接合部をプルダウンすることと、（ｆ）複数のリード対を生成するためにハイスループット配列決定方法を使用して、断片を含有する接合部を配列決定することを含む。

ある実施形態では、複数のリード対は、培養細胞または１次組織から単離された染色体またはクロマチンの物理的な配置を探索することにより決定される。他の実施形態では、複数のリード対は、１人以上の被験体のサンプルから得られた裸のＤＮＡを単離されたヒストンと複合化することにより形成された、再構成されたクロマチンの物理的な配置を探索することにより決定される。

いくつかの実施形態において、長い接触よりも短い接触の高い可能性を組み込むために、コンティグの縁までのリードの距離の関数を求めることにより、複数のリード対の少なくとも約６０％、約７０％、約８０％、約９０％、約９５％、あるいは約９９％以上が重み付けされる。いくつかの実施形態において、隣接行列は、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接点の重みを軽減するために、再スケーリングされる。

ある実施形態では、ゲノムの無差別な領域は、クロマチンの足場相互作用を調節する１つ以上の薬剤のための１つ以上の保存された結合部位を含んでいる。いくつかの例において、薬剤は転写リプレッサーＣＴＣＦである。

いくつかの実施形態では、本明細書に開示される方法は、ヒト被験体のゲノムアセンブリのための方法を提供し、それにより複数のコンティグが、ヒト被験体のＤＮＡから生成され、それにより被験体の裸のＤＮＡから作られるヒト被験体の染色体、クロマチン、または再構成されたクロマチンを分析することにより複数のリード対が生成される。

他の実施形態では、本開示は、複数のリード対中のヘテロ接合性の１つ以上の部位を同定する工程を含む、ハプロタイプフェージングを決定する方法を提供し、対立遺伝子変異体のフェージングデータは、１対のヘテロ接合部位を含むリード対を同定することにより、決定できる。

さらに別の実施形態では、本開示は、メタゲノミクスアセンブリのための方法を提供し、複数のリード対は、修飾されたクロマチン捕捉に基づく方法を使用して、複数の微生物の染色体の物理的な配置を探索することにより生成され、該方法は、ある環境から微生物を捕集する工程と、各微生物細胞内で架橋を形成するために固定剤を加える工程であって、様々なコンティグに対するリード対のマッピングが、どのコンティグが同じ種からのものであるかを示す、工程とを含む。いくつかの実施形態では、固定剤はホルムアルデヒドである。

いくつかの実施形態において、本開示は、ＤＮＡ分子から始まる複数のコンティグをアセンブルする方法を提供し、該方法は、ＤＮＡ分子から複数のリード対を生成する工程と、リード対を使用してコンティグをアセンブルする工程を含み、リード対の少なくとも１％がＤＮＡ分子上で５０ｋＢ以上にも及び、リード対は１４日以内に生成される。いくつかの実施形態において、リード対の少なくとも１０％は、ＤＮＡ分子上で５０ｋＢ以上の距離に及ぶ。いくつかの実施形態において、リード対の少なくとも１％はＤＮＡ分子上で１００ｋＢ以上の距離に及ぶ。場合によっては、リード対は７日以内に生成される。

いくつかの実施形態において、本開示は、ＤＮＡ分子から始まる複数のコンティグをアセンブルする方法を提供し、該方法は、インビトロで単一のＤＮＡ分子から複数のリード対を生成する工程と、リード対を使用してコンティグをアセンブルする工程を含み、リード対の少なくとも１％が単一のＤＮＡ分子上で３０ｋＢ以上の距離に及ぶ。いくつかの実施形態において、リード対の少なくとも１０％は、単一のＤＮＡ分子上で３０ｋＢ以上の距離に及ぶ。他の実施形態において、リード対の少なくとも１％は単一のＤＮＡ分子上で５０ｋＢ以上の距離に及ぶ。

さらに他の実施形態では、本開示はハプロタイプフェージングの方法を提供し、該方法は、単一のＤＮＡ分子から複数のリード対を生成する工程と、リード対を使用してＤＮＡ分子の複数のコンティグをアセンブルする工程を含み、リード対の少なくとも１％が単一のＤＮＡ分子上で５０ｋＢ以上の距離に及び、ハプロタイプフェージングは７０％以上の精度で行われる。いくつかの実施形態において、リード対の少なくとも１０％は、単一のＤＮＡ分子上で５０ｋＢ以上の距離に及ぶ。他の実施形態において、リード対の少なくとも１％は単一のＤＮＡ分子上で１００ｋＢ以上の距離に及ぶ。いくつかの実施形態において、ハプロタイプフェージングは９０％以上の精度で行われる。

本開示は、ハプロタイプフェージングの方法を提供し、該方法は、インビトロで単一のＤＮＡ分子から複数のリード対を生成する工程と、リード対を使用してＤＮＡ分子の複数のコンティグをアセンブルする工程を含み、リード対の少なくとも１％が単一のＤＮＡ分子上で３０ｋＢ以上の距離に及び、ハプロタイプフェージングは７０％以上の精度で行われる。いくつかの実施形態において、リード対の少なくとも１０％は、単一のＤＮＡ分子上で３０ｋＢ以上の距離に及ぶ。他の実施形態において、リード対の少なくとも１％は単一のＤＮＡ分子上で５０ｋＢ以上の距離に及ぶ。さらに他の実施形態において、ハプロタイプフェージングは９０％以上の精度で行われる。いくつかの実施形態において、ハプロタイプフェージングは７０％以上の精度で行われる。

いくつかの実施形態において、本開示は、第１のＤＮＡ分子から第１のリード対を生成する方法を提供し、該方法は、（ａ）インビトロで第１のＤＮＡ分子を複数の会合分子に結合する工程であって、第１のＤＮＡ分子が第１のＤＮＡセグメントと第２のＤＮＡセグメントを含む、工程と、（ｂ）第１のＤＮＡセグメントと第２のＤＮＡセグメントをタグ付けする工程であって、それにより、少なくとも１つのタグ付けされたＤＮＡセグメントを形成する、工程と、（ｃ）タグ付けされたＤＮＡセグメント、あるいは、タグに隣接する部分またはタグ付けされた末端から反対側にある部分などの、タグ付けされたＤＮＡセグメントの少なくとも認識可能な部分を配列決定する工程を含み、複数の会合分子は、（ａ）と（ｂ）の工程の前および最中に、アフィニティー標識で共有結合的に修飾されない。

ある実施形態では、本開示は、第１のＤＮＡ分子からタグ付けされた配列を生成する方法を提供し、該方法は、（ａ）複数の会合分子に上記第１のＤＮＡ分子をインビトロで架橋する工程と、（ｂ）固体支持体上で上記第１のＤＮＡ分子を固定する工程と、（ｃ）第１のＤＮＡセグメントと第２のＤＮＡセグメントを生成するために上記第１のＤＮＡ分子を切断する工程と、（ｄ）上記第１のＤＮＡセグメントと上記第２のＤＮＡセグメントをタグ付けする工程であって、それにより、少なくとも１つのタグ付けされたＤＮＡセグメントを形成する、工程と；および、上記タグ付けされたＤＮＡセグメント、あるいは、タグに隣接する部分またはタグ付けされた末端から反対側にある部分などの、タグ付けされたＤＮＡセグメントの少なくとも認識可能な部分を配列決定する工程、もしくは、タグ付けされたＤＮＡセグメントの各末端の認識可能な部分を配列決定する工程であって、それにより、上記のタグ付けされた配列を得る、工程を含み、上記の第１のＤＮＡ分子は上記の固体支持体に直接結合される。いくつかの例において、固体支持体は、任意のアフィニティー標識（例えば、ビオチン、ストレプトアビジン、アビジン、ポリヒスチジン、ジゴキシゲニン、ＥＤＴＡ、あるいはこれらの誘導体）によるさらなる修飾を伴うことなくＤＮＡに結合するポリマービーズ（例えば、ＳＰＲＩビーズ）を含む。

いくつかの実施形態において、再構成されたクロマチンなどからの複数の会合分子は第１のＤＮＡ分子に架橋される。いくつかの例において、会合分子はアミノ酸を含む。場合によっては、会合分子がペプチドまたはタンパク質である。ある例において、会合分子はヒストンタンパク質である。場合によっては、ヒストンタンパク質は第１のＤＮＡ分子とは異なる供給源からのものである。様々な例において、会合分子はトランスポゼースである。場合によっては、第１のＤＮＡ分子は会合分子に非共有結合する。他の場合には、第１のＤＮＡ分子は会合分子に共有結合する。ある例において、第１のＤＮＡ分子は会合分子に架橋される。ある実施形態では、第１のＤＮＡ分子は固定剤で架橋される。いくつかの実施形態では、固定剤はホルムアルデヒドである。様々な実施形態では、方法は固体支持体上の複数の会合分子を固定することを含む。場合によっては、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。ある例において、ポリマーはポリエチレングリコール（ＰＥＧ）である。ある例において、ビーズは磁気ビーズである。いくつかの例において、ビーズは固体相の可逆的な固定化（ＳＰＲＩ）ビーズである。ある場合では、固体支持体は、複数のカルボキシル基を含んでいる表面を含む。様々な場合において、固体支持体は、任意のポリペプチド（例えばストレプトアビジン）には共有結合しない。場合によっては、会合分子は、固体支持体への固定下の前にアフィニティー標識（例えばビオチン）に共有結合しない。

いくつかの実施形態において、第１のＤＮＡセグメントと第２のＤＮＡセグメントは第１のＤＮＡ分子を切断することにより生成される。場合によっては、第１のＤＮＡ分子は複数の会合分子に結合された後に、切断される。ある場合には、第１のＤＮＡ分子は制限酵素（例えば、ＭｂｏｌＩ）を使用して切断される。場合によっては、第１のＤＮＡ分子はトランスポゼース（例えば、Ｔｎ５）を使用して切断される。他の場合には、第１のＤＮＡ分子は物理的方法（例えば、超音波処理、機械的剪断）を使用して切断される。ある実施形態では、第１のＤＮＡと第２のＤＮＡのセグメントは、アフィニティー標識で修飾されている。いくつかの例において、アフィニティー標識はビオチンを含むことができ、これは、ストレプトアビジンビーズ、アビジンビーズ、あるいはこれらの誘導体で捕捉可能である。ある例において、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩（ｄＮＴＰ）である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩（デオキシシチジン３リン酸）である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩（ｄＧＴＰ）である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩（ｄＡＴＰ）である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩（ｄＵＴＰ）である。ある場合には、第１のＤＮＡセグメントは第１のタグで少なくとも第１の端部においてタグ付けされ、第２のＤＮＡセグメントは第２のタグで少なくとも第２の端部においてタグ付けされる。ある例において、第１のタグと第２のタグは同一である。様々な例において、第１のＤＮＡセグメントと第２のＤＮＡセグメントは、トランスポゼース（例えば、Ｔｎ５）を使用してタグ付けされる。場合によっては、第１のＤＮＡセグメントは第２のＤＮＡセグメントでタグ付けされ、第２のＤＮＡセグメントは第１のＤＮＡセグメントでタグ付けされる。例えば、第１のＤＮＡセグメントは第２のＤＮＡセグメントに連鎖する。いくつかの例において、第１のＤＮＡセグメントはリガーゼを使用して、第２のＤＮＡセグメントに連鎖する。場合によっては、連鎖したＤＮＡセグメントは工程（ｃ）における配列決定の前に切断される。ある例において、連鎖したＤＮＡセグメントは制限酵素（例えば、ＥｘｏＩＩＩ）を使用して切断される。他の場合には、連鎖したＤＮＡセグメントは物理的方法（例えば、超音波処理、機械的剪断）を使用して切断される。

いくつかの実施形態において、第１のＤＮＡセグメントは、第２のＤＮＡセグメントに連鎖する前に、約１０回未満洗浄される。いくつかの実施形態において、第１のＤＮＡセグメントは、第２のＤＮＡセグメントに連鎖する前に、約６回未満洗浄される。いくつかの実施形態において、上記方法は、連鎖したＤＮＡセグメントを配列決定アダプターに結合する工程を含む。

ある実施形態では、該方法は、タグ付けされた配列を使用して、複数のコンティグをアセンブルする工程を含む。いくつかの実施形態において、第１と第２のＤＮＡセグメントの各々は、少なくとも１つのアフィニティー標識に結合し、連鎖したＤＮＡセグメントはアフィニティー標識を使用して捕捉される。様々な実施形態では、該方法は、タグ付けされた配列を使用して、第１のＤＮＡセグメントと第２のＤＮＡセグメントをフェージングする工程を含む。場合によっては、「タグ付け」は、第２のＤＮＡセグメントに第１のＤＮＡセグメントを連結することにより実現され、それによって、リード対セグメントを生成する。

いくつかの実施形態では、該方法は、（ａ）再構成されたクロマチンからなどの複数の会合分子を少なくとも第２のＤＮＡ分子に提供する工程と、（ｂ）会合分子を第２のＤＮＡ分子へ架橋する工程であって、それにより、インビトロで第２の複合体を形成する、工程と、（ｃ）第２の複合体を切断する工程であって、それにより、第３のＤＮＡセグメントと第４のセグメントを生成する、工程と、（ｄ）第３のＤＮＡセグメントを第４のＤＮＡセグメントに連鎖する工程であって、それにより、第２の連鎖したＤＮＡセグメントを形成する、工程と、（ｅ）第２の連鎖したＤＮＡセグメントを配列決定する工程であって、それにより、第２のリード対を得る、工程を含む。いくつかの例において、ＤＮＡ分子からのＤＮＡセグメントの４０％未満は、任意の他のＤＮＡ分子からのＤＮＡセグメントに連鎖する。いくつかの例において、ＤＮＡ分子からのＤＮＡセグメントの２０％未満は、任意の他のＤＮＡ分子からのＤＮＡセグメントに連鎖する。

いくつかの実施形態において、本開示は、あらかじめ決められた配列を含む第１のＤＮＡ分子から第１のリード対を生成する方法を提供し、該方法は、（ａ）第１のＤＮＡ分子に１つ以上のＤＮＡ結合分子を提供する工程であって、１つ以上のＤＮＡ結合分子があらかじめ決められた配列に結合する、工程と、（ｂ）第１のＤＮＡ分子をインビトロで架橋する工程であって、第１のＤＮＡ分子が第１のＤＮＡセグメントと第２のＤＮＡセグメントを含む、工程と、（ｃ）第１のＤＮＡセグメントを第２のＤＮＡセグメントに連鎖する工程であって、それにより、第１の連鎖したＤＮＡセグメントを形成する、工程と、（ｄ）第１の連鎖したＤＮＡセグメントを配列決定する工程であって、それにより、第１のリード対を得る、工程を含み、あらかじめ決められた配列がリード対に現われる確率は、あらかじめ決められた配列へＤＮＡ結合分子の結合させることにより影響される。

いくつかの実施形態において、ＤＮＡ結合分子はあらかじめ決められた配列にハイブリダイズすることができる核酸である。いくつかの例において、核酸はＲＮＡである。他の例において、核酸はＤＮＡである。他の実施形態では、ＤＮＡ結合分子は小分子である。いくつかの例において、小分子は１００μＭ未満の結合親和性であらかじめ決められた配列と結合する。いくつかの例において、小分子は１μＭ未満の結合親和性であらかじめ決められた配列と結合する。いくつかの実施形態において、ＤＮＡ結合分子は表面または固体支持体上に固定される。

いくつかの実施形態において、あらかじめ決められた配列がリード対に現われる確率は減少する。他の実施形態では、あらかじめ決められた配列がリード対に現われる確率は増加する。

本開示は、複数のＤＮＡ分子から複数のタグ付けされた配列を生成するための方法を提供し、該方法は、（ａ）インビトロで複数のＤＮＡ分子を複数の会合分子に結合する工程と、（ｂ）少なくとも複数のＤＮＡセグメントを生成するためにＤＮＡ分子の各々を切断する工程と、（ｃ）複数のタグ付けされたＤＮＡセグメントを形成するために、ＤＮＡセグメントの少なくとも一部にタグ付けする工程と、（ｄ）複数のタグ付けされた配列を得るために、タグ付けされたＤＮＡセグメント、あるいは、タグに隣接する部分またはタグ付けされた末端から反対側にある部分などのタグ付けされたＤＮＡセグメントの少なくとも認識可能な部分を配列決定する工程を含み、複数の会合分子は、（ａ）と（ｂ）の工程の前および最中に、アフィニティー標識で共有結合的に修飾されない。場合によっては、ＤＮＡ分子からのＤＮＡセグメントの４０％未満は、任意の他のＤＮＡ分子からのＤＮＡセグメントに連鎖する。場合によっては、ＤＮＡ分子からのＤＮＡセグメントの２０％未満は、任意の他のＤＮＡ分子からのＤＮＡセグメントに連鎖する。

いくつかの実施形態において、会合分子は、ペプチド結合によって結合されたアミノ酸を含む。ある実施形態では、会合分子はポリペプチドまたはタンパク質である。いくつかの例では、会合分子はヒストンタンパク質である。いくつかの例では、ヒストンタンパク質はＤＮＡ分子とは異なる供給源からのものである。例えば、ヒストンタンパク質はヒト以外の生命体から単離されることもあり、ＤＮＡ分子はヒトから単離されることもある。様々な例において、会合分子はトランスポゼース（例えば、Ｔｎ５）である。場合によっては、第１のＤＮＡ分子は会合分子に非共有結合する。他の場合には、第１のＤＮＡ分子は会合分子に共有結合する。ある例において、第１のＤＮＡ分子は会合分子に架橋される。いくつかの実施形態では、ＤＮＡ分子は固定剤で架橋される。例えば、固定剤はホルムアルデヒドであり得る。場合によっては、該方法は、複数の支持体上で複数の会合分子を固定化する工程を含む。ある場合では、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。ある例において、ポリマーはポリエチレングリコール（ＰＥＧ）である。ある例において、ビーズは磁気ビーズである。いくつかの例において、ビーズはＳＰＲＩビーズである。様々な例において、固体支持体は、複数のカルボキシル基を含んでいる表面を含む。様々な場合において、固体支持体は、任意のポリペプチド（例えばストレプトアビジン）には共有結合しない。場合によっては、会合分子は、固体支持体への固定下の前にアフィニティー標識（例えばビオチン）に共有結合しない。

場合によっては、第１のＤＮＡ分子は複数の会合分子に結合された後に、切断される。場合によっては、第１のＤＮＡ分子は制限酵素（例えば、ＭｂｏＩＩ）を使用して切断される。場合によっては、第１のＤＮＡ分子はトランスポゼース（例えば、Ｔｎ５）を使用して切断される。ある実施形態では、ＤＮＡセグメントの一部はアフィニティー標識で修飾される。場合によっては、アフィニティー標識はビオチンを含む。いくつかの例では、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩（ｄＮＴＰ）である。いくつかの例では、ビオチンで修飾されたヌクレオシド三リン酸（ｄＮＴＰ）はビオチンで修飾されたデオキシリボシトシン三リン酸塩（ｄＣＴＰ）である。場合によっては、ＤＮＡセグメントの一部は第１のタグにより少なくとも第１の端部にタグ付けされている。いくつかの例において、ＤＮＡセグメントはトランスポサーゼを使用してタグ付けされる。様々な例において、ＤＮＡセグメントの一部は、上記ＤＮＡセグメントの各々を、少なくとも１つの他のＤＮＡセグメントに連鎖することによってタグ付けされる。いくつかの例において、ＤＮＡセグメントの一部はリガーゼを使用して他のＤＮＡセグメントに連鎖される。場合によっては、連鎖したＤＮＡセグメントは工程（ｃ）の前に切断される。様々な場合において、連鎖したＤＮＡセグメントは物理的方法（例えば、超音波処理、機械的剪断）を使用して切断される。いくつかの実施形態において、上記方法は、連鎖したＤＮＡセグメントを配列決定アダプターに結合する工程を含む。

いくつかの実施形態において、ＤＮＡセグメントは、連鎖して連鎖ＤＮＡセグメントを形成する前に、約１０回未満洗浄される。ある場合には、ＤＮＡセグメントは、連鎖して連鎖ＤＮＡセグメントを形成する前に、約６回未満で洗浄される。様々な場合において、該方法は、タグ付けされたセグメントを使用して、ＤＮＡ分子の複数のコンティグをアセンブルする工程を含む。場合によっては、方法がタグ付けされたセグメントを使用して、ＤＮＡセグメントを調整することを含む。

本開示は、少なくとも第１の配列要素と第２の配列要素を各々含む複数のリード対を含んでいるインビトロのライブラリーを提供し、第１と第２の配列要素は単一のＤＮＡ分子から始まり、リード対の少なくとも１％は、単一のＤＮＡ分子上で少なくとも５０ｋＢ離れている第１と第２の配列要素を含む。いくつかの実施形態において、リード対の少なくとも１０％は、単一のＤＮＡ分子上で少なくとも５０ｋＢ離れている第１と第２の配列要素を含む。他の実施形態では、リード対の少なくとも１％は、単一のＤＮＡ分子上で少なくとも１００ｋＢ離れている第１と第２の配列要素を含む。いくつかの実施形態において、リード対の２０％未満は１つ以上のあらかじめ決められた配列を含む。いくつかの実施形態において、リード対の１０％未満は１つ以上のあらかじめ決められた配列を含む。いくつかの実施形態において、リード対の５％未満は１つ以上のあらかじめ決められた配列を含む。

いくつかの実施形態において、あらかじめ決められた配列は、あらかじめ決められた配列にハイブリダイズすることができる１つ以上の核酸によって決定される。いくつかの例において、１つ以上の核酸はＲＮＡである。他の例において、１つ以上の核酸はＤＮＡである。いくつかの例において、１つ以上の核酸は表面または固体支持体へ固定化される。

いくつかの実施形態において、あらかじめ決められた配列は１つ以上の小分子によって決定される。いくつかの例において、１つ以上の小分子は１００μＭ未満の結合親和性であらかじめ決められた配列と結合する。いくつかの例において、１つ以上の小分子は１μＭ未満の結合親和性であらかじめ決められた配列と結合する。

本開示は、ＤＮＡ断片と、再構成されたクロマチンからなどの複数の会合分子とを含む組成物を提供し、（ａ）会合分子はインビトロの複合体中でＤＮＡ断片に架橋され、（ｂ）インビトロの複合体は固体支持体上で固定される。

本開示は、ＤＮＡ断片、複数の会合分子、およびＤＮＡ結合分子を含む組成物を提供し、（ａ）ＤＮＡ結合分子はＤＮＡ断片のあらかじめ決められた配列に結合し、および、（ｂ）会合分子はＤＮＡ断片に架橋される。ＤＮＡ結合分子は、場合によっては、あらかじめ決められた配列にハイブリダイズすることができる核酸である。いくつかの例において、核酸はＲＮＡである。他の例において、核酸はＤＮＡである。いくつかの例において、核酸は表面または固体支持体へ固定化される。他の実施形態では、ＤＮＡ結合分子は小分子である。いくつかの例において、小分子は１００μＭ未満の結合親和性であらかじめ決められた配列と結合する。他の例では、小分子は１μＭ未満の結合親和性であらかじめ決められた配列と結合する。

本開示は、インビトロの複合体中のＤＮＡ断片に結合した複数の会合分子を含む組成物を提供し、上記インビトロの複合体は、固体支持体上で固定化され、上記の固体支持体はいかなるポリペプチドにも共有結合しない。場合によっては、固体支持体はストレプトアビジンに共有結合されない。場合によっては、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。ある例において、ポリマーはポリエチレングリコール（ＰＥＧ）である。ある例において、ビーズは磁気ビーズである。いくつかの例において、ビーズは固体相の可逆的な固定化（ＳＰＲＩ）ビーズである。ある場合では、固体支持体は、複数のカルボキシル基を含んでいる表面を含む。様々な場合において、固体支持体は、任意のポリペプチド（例えばストレプトアビジン）には共有結合しない。

いくつかの例では、会合分子はペプチド結合によって結合したアミノ酸を含む。いくつかの例では、会合分子はペプチドまたはタンパク質である。ある例において、会合分子はヒストンタンパク質である。場合によっては、ヒストンタンパク質は第１のＤＮＡ分子とは異なる供給源からのものである。ある例において、会合分子はトランスポゼースである。場合によっては、第１のＤＮＡ分子は会合分子に非共有結合する。他の場合には、第１のＤＮＡ分子は会合分子に非共有結合する。いくつかの例では、第１のＤＮＡ分子は会合分子に架橋される。ある実施形態では、第１のＤＮＡ分子は固定剤で架橋される。いくつかの実施形態では、固定剤はホルムアルデヒドである。

ある実施形態では、ＤＮＡ断片はアフィニティー標識で修飾される。いくつかの例において、アフィニティー標識はビオチンを含むことができ、これは、ストレプトアビジンビーズ、アビジンビーズ、あるいはこれらの誘導体で捕捉可能である。ある例において、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩（ｄＮＴＰ）である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩（デオキシシチジン３リン酸）である。場合によっては、連鎖したＤＮＡセグメントは工程（ｃ）の配列決定の前にさらに切断される。ある例において、連鎖したＤＮＡセグメントは制限酵素（例えば、ＥｘｏＩＩＩ）を使用して切断される。他の場合には、連鎖したＤＮＡセグメントは物理的方法（例えば、超音波処理、機械的剪断）を使用して切断される。

本明細書に開示される方法と組成物は、ゲノム情報を、フェージングされた染色体全体を含む足場へとアセンブルするのに役立つ。場合によっては、本明細書に生成された情報は、以前に生成された配列情報を、フェージングされた染色体全体を含む足場へとアセンブルするのをガイドする。場合によっては、本明細書の方法と組成物は、ｄｅｎｏｖｏ生成された核酸情報を、染色体全体を含むフェージングされた足場へとアセンブルするのに使用される。

タグ情報は、すべての場合で、フェーズに厳密に対応するわけではないが、フェーズ情報に関しては有益である。本明細書の開示を一般に参照すると、配列リードのペア上の共通のタグパターンの存在は、リードが、１）共通の分子から始まっているか、あるいは２）偶然、共有されているかのいずれかであることを示している。

ほとんどの場合、共通のタグ付けは偶然発生せず、したがって、最も共通してタグ付けされた配列、とりわけ、共通のコンティグに独立してマッピングされた共通してタグ付けされた配列は、そのコンティグの共通のフェーズ、すなわち、二倍体生物の同じ一倍体の分子にマッピングされると推測されても差し支えない。群、隣接していると疑われる単一あるいは少数のコンティグに対して一緒にマッピングされ、かつ、タグ配列を共有するリードの群は、単一の分子上のフェーズにある可能性がある。群、共通のタグ配列を共有するが、例えば、別の染色体上にあると疑われるコンティグへマッピングされるリードの群は、偶然、それらの共通のタグ配列を得た可能性が高い。正確なタグ配列を共有するが、２つの別のコンティグまたは疑いのある染色体へマッピングされる配列クラスターの複数の例は、しかしながら、１つの染色体の断片が第２の断片に結合するようになった原因である転座が生じ、リードが実際に、転座の結果である染色体上のフェーズにあることを示すこともある。

配列リードのペア中の異なるタグパターンの存在は、配列がタグ付けの直前に共通の分子から発生しなかったことを示す。しかしながら、核酸分子の複数の同一のコピーあるいは重複するコピーが単一のサンプル中に存在する場合、タグパターンの異なる２セットの配列リードが発生する能性があり、このことは、配列リードがサンプル中の異なる分子から発生したが、それにもかかわらず、２倍体細胞中のフェーズ染色体中の同じものにマッピングされることを示す。すなわち、タグパターン情報は配列が共通の分子から発生したかどうかを示しており、一般に、タグパターン情報はフェーズ情報を相互に関連する。しかしながら、上で議論されるように、矛盾する際には、タグパターン情報は共通の起始分子をより適切に示すものである。起始分子と核酸のフェーズ決定が幾ばくかの矛盾を示す場合、当業者は、それにもかかわらず本明細書の方法により生成されたタグパターン情報からある程度のフェーズ情報を決定できるように、こうした矛盾を解決することができる。

第１のＤＮＡ分子からタグ付けされた配列を生成する方法が本明細書に開示され、該方法は、（ａ）第１の複合体を形成するために上記第１のＤＮＡ分子を複数の会合分子に結合する工程であって、上記第１のＤＮＡ分子が第１のＤＮＡセグメントと第２のＤＮＡセグメントを含む、工程と、（ｂ）上記第１のＤＮＡセグメントと上記第２のＤＮＡセグメントをタグ付けする工程であって、それにより、少なくとも１つのタグ付けされたＤＮＡセグメントを形成する、工程と、（ｃ）複合体の成分に直接結合する表面を有する固体支持体に、複合体を結合する工程と、（ｄ）タグに隣接する部分またはタグ付けされた末端から反対側にある部分などのタグ付けされたＤＮＡセグメントの認識可能な部分を配列決定する工程であって、それにより、上記タグ付けされた配列を得る工程を含み、上記複数の会合分子は、（ａ）と（ｂ）の工程の前あるいは最中に、アフィニティー標識で共有結合的に修飾されない。

第１のＤＮＡ分子からタグ付けされた配列を生成する方法が本明細書に開示され、該方法は、（ａ）複数の会合分子に上記第１のＤＮＡ分子を結合する工程と、（ｂ）固体支持体上で上記第１のＤＮＡ分子を固定する工程と、（ｃ）第１のＤＮＡセグメントと第２のＤＮＡセグメントを生成するために上記第１のＤＮＡ分子を切断する工程と、（ｄ）上記第１のＤＮＡセグメントと上記第２のＤＮＡセグメントをタグ付けする工程であって、それにより、少なくとも１つのタグ付けされたＤＮＡセグメントを形成する、工程と；（ｅ）上記タグ付けされたＤＮＡセグメントを配列決定する工程であって、それにより、上記のタグ付けされた配列を得る工程を含み、上記の第１のＤＮＡ分子は上記の固体支持体に直接結合される。

複数のＤＮＡ分子から複数のタグ付けされた配列を生成するための方法が本明細書で開示され、該方法は、（ａ）複数の会合分子に上記複数のＤＮＡ分子を結合する工程と、（ｂ）複数のＤＮＡセグメントを生成するために上記複数のＤＮＡ分子を切断する工程と、（ｃ）複数のタグ付けされたＤＮＡセグメントを形成するために、上記ＤＮＡセグメントの少なくとも一部をタグ付けする工程と、（ｄ）複数のタグ付けされた配列を得るために、上記タグ付けされたＤＮＡセグメントを配列決定する工程を含み、上記複数の会合分子は、（ａ）と（ｂ）の工程の前あるいは最中に、アフィニティー標識で共有結合的に修飾されない。

インビトロの複合体中のＤＮＡ断片に結合した複数の会合分子を含む組成物が本明細書で開示され、上記のインビトロの複合体は固体支持体上で固定化され、上記の固体支持体はいかなるポリペプチドにも共有結合されない。

複数のＤＮＡ分子から複数のタグ付けされた配列を生成するための方法が本明細書で開示され、該方法は、（ａ）複数の会合分子に結合した複数のＤＮＡ分子を得る工程と、（ｂ）少なくとも複数のＤＮＡセグメントを生成するために上記ＤＮＡ分子を切断する工程と、（ｃ）複数のタグ付けされたＤＮＡセグメントを形成するために、上記ＤＮＡセグメントの少なくとも一部をタグ付けする工程と、（ｄ）複数のタグ付けされた配列を得るために、上記タグ付けされたＤＮＡセグメントを配列決定する工程を含み、上記複数のＤＮＡ分子の合計量は約５マイクログラム未満（μｇ）である。

抗生物質耐性遺伝子の微生物宿主を同定する方法が本明細書に開示され、該方法は、ａ）微生物の抗生物質耐性を実証する条件を有する個体から安定したサンプルを得る工程と、ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程と、ｃ）露出したＤＮＡ末端を標識する工程と、ｄ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程と、ｅ）ペア配列を生成するために標識されたペアエンド全体を配列決定する工程を含み、抗生物質耐性遺伝子配列に隣接している配列は抗生物質耐性遺伝子の微生物宿主を示す。

異種の核酸サンプルに関するゲノムの連鎖情報を判定する方法が本明細書に開示され、該方法は、（ａ）安定した異種の核酸サンプルを得る工程と、（ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程と、（ｃ）露出したＤＮＡ末端を標識する工程と、（ｄ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程と、（ｅ）複数のペア配列リードを生成するために標識されたペアエンド全体を配列決定する工程と、（ｆ）複数の配列リードのペア配列リードの各半分を、共通の核酸起始分子に割り当てる工程を含む。

メタゲノミクスアセンブリのための方法が本明細書に開示され、該方法は、（ａ）ある環境から微生物を捕集する工程と、（ｂ）微生物から複数のコンティグを得る工程と、（ｃ）再構成されたクロマチンの物理的な配置を探索することにより生成されたデータから複数のリード対を生成する工程と、（ｄ）複数のコンティグに複数のリード対をマッピングする工程であって、それにより、リード－マッピングデータを作成する、工程を含み、異なるコンティグに対するリード対のマッピングは、異なるコンティグが共通の種からのものであることを示す。

宿主集団の病原体を検出する方法が本明細書に開示され、該方法は、ａ）共通の病原体を抱えている疑いのある複数の個体の各々から安定したサンプルを得る工程と、ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程と、ｃ）第１のバーコードタグを使用して、安定したサンプルの第１の部分の露出したＤＮＡ末端をタグ付けし、第２のバーコードタグを使用して、安定したサンプルの第２の部分の露出した末端をタグ付けする工程と、ｄ）複数のバーコードでタグ付けされた配列を生成するために、バーコードでタグ付けされた末端全体を配列決定する工程と、ｅ）複数の配列リードの共通のバーコードでタグ付けされた配列リードを、共通の起始生命体に割り当てる工程を含み、共通の病原体を抱えている疑いのある個体に共通の起始生命体は病原体である。

抗生物質耐性遺伝子の微生物宿主を同定する方法が本明細書に開示され、該方法は、ａ）微生物の抗生物質耐性を実証する条件を有する個体から安定したサンプルを得る工程と、ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程と、ｃ）第１のバーコードタグを使用して、安定したサンプルの第１の部分の露出したＤＮＡ末端をタグ付けし、第２のバーコードタグを使用して、安定したサンプルの第２の部分の露出した末端をタグ付けする工程と、ｄ）複数のバーコードでタグ付けされた配列を生成するために、バーコードでタグ付けされた末端全体を配列決定する工程と、抗生物質耐性遺伝子配列のバーコードタグと同一のバーコードタグを有する配列は、抗生物質耐性遺伝子の微生物宿主を示す。

異種の核酸サンプルに関するゲノムの連鎖情報を判定する方法が本明細書に開示され、該方法は、（ａ）安定した異種の核酸サンプルを得る工程と、（ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程と、（ｃ）第１のバーコードタグを使用して、安定したサンプルの第１の部分の露出したＤＮＡ末端をタグ付けし、第２のバーコードタグを使用して、安定したサンプルの第２の部分の露出した末端をタグ付けする工程と、（ｄ）複数のバーコードでタグ付けされた配列リードを生成するために、バーコードでタグ付けされた末端全体を配列決定する工程と、（ｅ）共通のタグ付けされた配列リードを、共通の核酸起始分子に割り当てる工程を含む。

宿主集団の病原体を検出する方法が本明細書に開示され、該方法は、ａ）複数の被験体の各々から安定したサンプルを得る工程と、ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程であって、それにより、露出したＤＮＡ末端を生成する、工程と、ｃ）露出したＤＮＡ末端の少なくとも一部を標識する工程と、ｄ）標識されたペアエンドを形成するために、露出したＤＮＡ末端を連結する工程と、ｅ）複数のリード対を生成するために、標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程と、ｆ）共通の起始生命体にリード対の各半分を割り当てる工程を含み、被験体に共通する起始生命体は病原体として検出される。

抗生物質耐性遺伝子の微生物宿主を同定する方法が本明細書に開示され、該方法は、ａ）微生物の抗生物質耐性を実証する条件を有する被験体から安定したサンプルを得る工程と、ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程であって、それにより、露出したＤＮＡ末端を生成する、工程と、ｃ）露出したＤＮＡ末端の少なくとも一部を標識する工程と、ｄ）標識されたペアエンドを形成するために、標識された露出したＤＮＡ末端を連結する工程と、ｅ）ペア配列を生成するために、連結されたペアエンドの少なくとも認識可能な部分を配列決定する工程を含み、抗生物質耐性遺伝子配列に隣接しているペア配列は、抗生物質耐性遺伝子の微生物宿主を示す。

異種の核酸サンプルに関するゲノムの連鎖情報を判定する方法が本明細書に開示され、該方法は、（ａ）異種の核酸サンプルを安定化させる工程と、（ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程であって、それにより、露出したＤＮＡ末端を生成する、工程と、（ｃ）露出したＤＮＡ末端の少なくとも一部を標識する工程と、（ｄ）標識されたペアエンドを形成するために、標識された露出したＤＮＡ末端を連結する工程と、（ｅ）複数のリード対を生成するために、標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程と、（ｆ）共通の起始核酸分子にリード対の各半分を割り当てる工程を含む。

メタゲノミクスアセンブリのための方法が本明細書に開示され、該方法は、（ａ）ある環境から微生物を捕集する工程と、（ｂ）微生物から複数のコンティグを得る工程と、（ｃ）再構成されたクロマチンの物理的な配置を探索することにより生成されたデータから複数のリード対を生成する工程と、（ｄ）複数のコンティグに複数のリード対をマッピングする工程であって、それにより、リード－マッピングデータを作成する、工程を含み、異なるコンティグに対するリード対のマッピングは、異なるコンティグが共通の個体から始まることを示す。

細菌の感染病原体を検出する方法が本明細書に開示され、該方法は、（ａ）細菌の感染病原体から複数のコンティグを得る工程と、（ｂ）再構成されたクロマチンの物理的な配置を探索することにより生成されたデータから複数のリード対を生成する工程と、（ｃ）複数のコンティグに複数のリード対をマッピングする工程であって、それにより、リード－マッピングデータを作成する、工程と、（ｄ）ゲノムアセンブリへコンティグをアセンブルするために、リードマッピングデータを使用して、コンティグを調整する工程と、（ｅ）細菌の感染病原体の存在を判定するために、ゲノムアセンブリを使用する工程を含む。

生命体からゲノム配列情報を得る方法が本明細書に開示され、該方法は、（ａ）上記の生命体から安定したサンプルを得る工程と、（ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程であって、それにより、露出したＤＮＡ末端を生成する、工程と、（ｃ）タグ付けされたＤＮＡセグメントを生成するために、露出したＤＮＡ末端の少なくとも一部をタグ付けする工程と、（ｄ）タグ付けされたＤＮＡセグメントの少なくとも認識可能な部分を配列決定する工程であって、それにより、タグ付けされた配列を得る、工程と、（ｅ）上記の生命体のゲノム配列情報を生成するために、上記タグ付けされた配列をマッピングする工程を含み、上記のゲノムの配列情報は上記の生命体のゲノムの少なくとも７５％を網羅する。

サンプルを分析する方法が本明細書に開示され、該方法は、（ａ）複数の生命体から、核酸を含む安定したサンプルを得る工程と、（ｂ）安定したサンプル中の二本鎖ＤＮＡを切断するために安定したサンプルを処理する工程であって、それにより、露出したＤＮＡ末端を生成する、工程と、（ｃ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程と、（ｄ）複数のペア配列リードを生成するために標識されたペアエンド全体を配列決定する工程と、（ｆ）複数の配列リードのペア配列リードの各半分を、共通の起始生命体起始に割り当てる工程を含む。

異種のサンプル中の核酸の分子の多様性を分析する方法が本明細書に開示され、該方法は、ａ）多様な複数の核酸のうちの少なくとも１つのメンバーについて、第１の核酸セグメントと第２の核酸セグメントがそれらの共通のリン酸ジエステル骨格とは無関係にまとめて保持されるように、安定化させた多様な複数の核酸を含む安定した核酸サンプルを得る工程であって、上記のリン酸ジエステル骨格が上記の第１の核酸セグメントと上記の第２の核酸セグメントとの間で切断される、工程と、ｂ）上記の第１の核酸セグメントと上記の第２の核酸セグメントが多様な複数の核酸の共通の核酸から生じるものとして同定可能となるように、上記の第１の核酸セグメントと上記の第２の核酸セグメントをタグ付けする工程と、ｃ）上記の第１の核酸セグメントの少なくとも同定可能な部分とそのタグ、および、上記の第２の核酸セグメントの同定可能な部分とそのタグを配列決定する工程と、ｄ）上記の第１の核酸セグメントと上記の第２の核酸セグメントを、上記のタグに対応する足場へ割り当てる工程と、ｅ）上記の多様な複数の核酸の複数のセグメントが少なくとも１つの足場に割り当てられるように、ｆ）どれだけ多くの足場が生成されるかに対応する数を判定する工程を含み、生成された足場の数は異種のサンプルの核酸分子の多様性に対応する。いくつかの態様において、上記の第１の核酸セグメントと上記の第２の核酸セグメントをタグ付けする工程は、第１の核酸セグメントに第１のオリゴを加え、第２のセグメントに第２のオリゴを加える工程を含み、上記の第１のオリゴと上記の第２のオリゴは共通の配列を共有する。いくつかの態様において、上記の共通のオリゴ配列を有する核酸セグメントは、共通の足場に割り当てられる。いくつかの態様において、該方法はさらに、上記の第１の核酸セグメントの上記の同定可能な部分をコンティグデータセットにマッピングする工程と、上記のコンティグデータセットの任意の一致するコンティグを上記の共通の足場へ含める工程を含む。いくつかの態様において、コンティグデータセットは同時に生成される。いくつかの態様において、コンティグデータセットはデータベースから得られる。いくつかの態様において、上記の第１の核酸セグメントと上記の第２の核酸セグメントをタグ付けする工程は、上記の第１の核酸セグメントを上記の第２の核酸セグメントへ連結する工程を含み、ここで、上記の第１の核酸セグメントと上記の第２の核酸セグメントは共通の足場に割り当てられる。いくつかの態様において、該方法はさらに、上記の第１の核酸セグメントの上記の同定可能な部分をコンティグデータセットにマッピングする工程と、上記のコンティグデータセットの任意の一致するコンティグを上記の共通の足場へ含める工程を含む。いくつかの態様において、コンティグデータセットは同時に生成される。いくつかの態様において、コンティグデータセットはデータベースから得られる。いくつかの態様において、異種のサンプルは複数の対立遺伝子変異体を含む。いくつかの態様において、対立遺伝子変異体の数は足場の数よりも多い。いくつかの態様において、対立遺伝子変異体の数は生成された足場の数と等しい。いくつかの態様において、リン酸ジエステル骨格は、安定したサンプルを得る工程の後に切断される。いくつかの態様において、上記の安定したサンプルは橋架剤に接触させる。いくつかの態様において、上記の安定したサンプルはＦＦＰＥサンプルである。いくつかの態様において、方法は逆転写酵素に、上記の異種のサンプルを接触させる工程をさらに含む。いくつかの態様において、方法は核酸配列データベースに対する上記の足場の少なくとも１つを探す工程をさらに含む。いくつかの態様において、方法は、上記の足場へ一意的にマッピングされる核酸配列が上記のデータベースにない場合に、上記の足場を新規なものとして分類する工程をさらに含む。いくつかの態様において、方法は、サンプル条件に相互に関連する複数のサンプルが上記の足場を有するとき、および上記の条件を欠いた複数のサンプルが上記のサンプルを欠いている場合に、上記の足場を、サンプル条件に対応するものとして分類する工程をさらに含む。いくつかの態様において、異種のサンプルは、共通の種の少なくとも２つの個体へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、共通の種の少なくとも３つの個体へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、少なくとも２つの種へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、少なくとも３つの種へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、少なくとも４つの種へマッピングされる核酸を含む。いくつかの態様において、配列リードは、外因性配列情報に関係のない少なくとも２つの核酸足場へアセンブルされる。いくつかの態様において、配列リードは、外因性配列情報に関係のない少なくとも３つの核酸足場へアセンブルされる。いくつかの態様において、第１のゲノムの少なくとも５０％と第２のゲノムの少なくとも５０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる。いくつかの態様において、第１のゲノムの少なくとも６０％と第２のゲノムの少なくとも６０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる。いくつかの態様において、第１のゲノムの少なくとも７０％と第２のゲノムの少なくとも７０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる。いくつかの態様において、第１のゲノムの少なくとも８０％と第２のゲノムの少なくとも８０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる。いくつかの態様において、方法はＳＰＲＩビーズを使用する工程を含む。いくつかの態様において、安定したサンプルはせいぜい約５マイクログラムのＤＮＡを含む。

＜参照による組み込み＞
本明細書で言及される出願公開、特許、および特許出願はすべて、あたかも個々の出願公開、特許、あるいは特許出願がそれぞれ参照により組み込まれるように具体的かつ個々に指示されるかのような同じ程度、参照により本明細書に組込まれる。本明細書で言及される出願公開、特許、および特許出願はすべて、本明細書で引用される任意の文献と同様に、全体として参照することで本明細書に組み込まれる。

本開示の新規な特徴はとりわけ添付の請求項で説明されている。本開示の特徴と利点についてのよりよい理解は、本開示の原則が用いられている例示的な実施形態を説明する以下の詳細な記載と添付の図面を参照することによって得られる。

ハイスループットな配列決定を使用するゲノムアセンブリの図を提示する。アセンブルされるゲノムが示されている（上）。典型的には、ゲノムは、アセンブルするのが難しい多くの反復配列を有する。ゲノムからのランダムなハイスループットの配列データ（中央）は捕集され、ゲノム中の固有の領域の「コンティグ」へアセンブルされる（下）。コンティグアセンブリは一般に多くの反復配列で終わる。最終出力は、互いに対する順序と配向が知られていない数千ものコンティグのセットである。図では、これらは最長から最短のものまで任意に番号を振られている。本開示のクロマチン捕捉に基づくプロトコルを示す：（Ａ）は、ＤＮＡが架橋され、配列決定のために作成されたビオチン化された接合部断片へと処理される倍位を実証する；（Ｂ－Ｄ）は様々な制限酵素に関するヒトｃｈｒ１４上のコンタクトマップデータを提供する。示されるように、ほとんどの接触は染色体に沿って局所的である。ゲノムアセンブリを支援するためにクロマチン捕捉配列データを使用する本開示の方法を提供し、（Ａ）は、ＤＮＡが架橋され、クロマチン捕捉ベースプロトコルを使用して処理される場合を例証し、（Ｂ）は、リード対データがアセンブルされたコンティグにマッピングされ、ランダムショットガン配列決定とアセンブリから生成される場合を実証し、（Ｃ）は、フィルタリングと重み付けの後、コンティグ間リード対データをすべてまとめる隣接行列を構築することができることを例証する。この行列は適切なアセンブリ経路を示すために再度順序可能である。示されるように、リード対の大部分はコンティグ内でマッピングされる。このことから接触距離の分布を学ぶことができる（例えば、図６を参照）。様々なコンティグにマッピングされるリード対は、どのコンティグが適切なゲノムアセンブリにおいて隣接しているかについてのデータを提供する。本開示の典型的なプロトコルを示し、ＤＮＡ断片は最初に生成および調製され、その後、インビトロのクロマチンアセンブリが続き、その後、クロマチン／ＤＮＡ複合体はホルムアルデヒドで固定され、ＳＰＲＩビーズでプルダウンされ、複合体をその後、制限酵素で消化させることで付着末端を生成し、付着末端をその後、ビオチン化されたｄＣＴＰと内部を硫酸化したＧＴＰで充填し、平滑末端ライゲーション後、クロマチン／ＤＮＡ複合体はプロテイナーゼ消化と剪断を経て、その後、ＤＮＡ断片をＳＰＲＩビーズでプルダウンし、配列決定アダプターで連結し、最後に、ＤＮＡ断片をサイズによって選択し、配列決定する。ゲノム中の反復領域からのゲノムアセンブリとアラインメント中で発生するあいまいさ（ａｍｂｉｇｕｉｔｉｅｓ）の図を提供する。（Ａ）連鎖の不確実性は反復領域を架橋することができないリード対に起因する。（Ｂ）リード対が辺縁の反復領域に及ぶことができないが故のセグメントの配置の不確実性。ヒトＸＬＲＰライブラリーからのリード対間のゲノム距離の分布を示す。他の技術で達成可能な最大の距離が比較のために示されている。十分に特徴付けられたハプロタイプ、ＮＡ１２８７８を有するサンプル用のフェージング精度を例証する。示された距離はフェージングされているＳＮＰの間の距離である。本開示の様々な実施形態に係る典型的なコンピュータシステムの様々なコンポーネントを例示する。本開示の様々な実施形態に関連して使用することができる典型的なコンピュータシステムのアーキテクチャを例示するブロック図である。本開示の様々な実施形態に関連して使用することができる典型的なコンピューターネットワークを例証する図である。本開示の様々な実施形態に関連して使用することができる別の典型的なコンピュータシステムのアーキテクチャを例示するブロック図である。近接ライゲーションの手順の典型的な概略図を示す。メタゲノム解析用のサンプル調製のための２つのパイプラインの典型的な概略図を示す。足場技術の典型的な概略図を示す。本開示の態様に合わせて、糞便のＤＮＡサンプルからのＤＮＡ断片の粒径分析を示す。インビトロのアセンブルされたクロマチン凝集体を使用して、配列決定ライブラリーを生成する方法を示す。本開示の態様に合わせて、ショットガンライブラリーの挿入物のサイズ分布を示す。同じ足場へマッピングされたインビトロのアセンブルされたクロマチンを使用して調製されたライブラリーからのリードのサイズ分布を示す。ショットガン配列決定のために調製されたライブラリーと、インビトロのアセンブルされたクロマチン凝集体を使用して調製されたライブラリーのからのヒットの散布図を示す。コンティグ長による１つのコンティグ当たりのショットガンのヒット／インビトロのアセンブルされたクロマチンの散布図を示す。糞便のＤＮＡ調製物（青；ｘ軸上の１００ｂｐと１５０００ｂｐでＹ軸の上部付近でスパイクする）と、ＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒのＤＮＡ（緑；１００ｂｐと１５０００ｂｐのサンプル強度でスパイクする）での断片サイズ分布を示すＴａｐｅＳｔａｔｉｏｎトレースが同様の長さであったことを示す。スパイクイン（ｓｐｉｋｅｄ－ｉｎ）ＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒのＤＮＡの各レベルに関するこれらのショットガンデータ中の倍数カバレージ分布を示す。１％（赤、左）、５％（緑、中心）、および１０％（青、右）のショットガンデータセットのためのコンティグとして存在するＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノムの総量を示す。Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒの既知のゲノム配列にマッピングされた近接ライゲーションライブラリーからのリード対を示し、Ｘ軸は、キロベース単位で及ぶ距離を示し、Ｙ軸はすべてのリード対の累積分布である。５％の実験において本明細書に記載されるように生成された３つの足場に対する既知のＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノム（Ｘ軸）のドットプロットを描く。１０％の実験において本明細書に記載されるように生成された１つの足場に対する既知のＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノム（Ｘ軸）のドットプロットを描く。糞便のＤＮＡ調製キットからのＤＮＡ断片サイズのグラフを描く。リード対の数ｖｓ到達したリード対の距離のグラフを描く。８．６７ＭｂのＳ．ｃｏｅｌｉｃｏｌｏｒゲノムの８９％を含む単一の足場を描く。Ｃｈｉｃａｇｏアセンブリデータ中のリードカバレージｖｓスパイクイン実験でのショットガンデータの比率の典型的なプロットを描く。スパイクイン実験における足場向けのカバレージ深さとＧＣ含有量のグラフを描く。すべての連鎖のごく一部としての各足場に関する１－４番目の最も結合された足場へのインビトロのクロマチンアセンブリ結合性と、足場対間のＧＣ＋倍数カバレージ空間におけるユークリッド距離のグラフを描く。足場の性能に対する株変異の効果のグラフを描く。

本明細書かつ添付の請求項で用いられているように、単数形（「ａ」、「ａｎ」、および「ｔｈｅ」）は特段文脈で明確に記述していない限り、複数の指示物を含んでいる。したがって、例えば、「コンティグ」に対する言及は、複数のこうしたコンティグを含み、「染色体の物理的な配置を探索する」に対する言及は、当業者に知られていた染色体とその同等物の物理的な配置を探索する１つ以上の方法に対する言及などを含む。

同様に、「および（ａｎｄ）」の使用は、特に明記しない限り、「および／または」を意味する。同様に、「含む（ｃｏｍｐｒｉｓｅ）」、「含む（ｃｏｍｐｒｉｓｅｓ）」「含む」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」また、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」ことは交換可能であり、制限するようには意図されていない。

様々な実施形態の記載が「含んでいる」との用語の使用を含む場合、当業者は、いくつかの特定の例において、「～から本質的になる」あるいは「～からなる」との表現を用いて実施形態を二者択一的に記載することができることを理解することになる。

ある数を記載するために本明細書で使用されるような用語「約（ａｂｏｕｔ）」は、別段の定めがない限り、その数の１０％プラスまたはマイナスの数を含む一連の値を指す。

本明細書で使用されるような用語「リード」、「配列リード」、あるいは「配列決定リード」は、単一の反応または配列決定反応の実行中に決定されるＤＮＡまたはＲＮＡ核酸の断片またはセグメントの配列を指す。

本明細書で使用されるような用語「コンティグ」は、ＤＮＡ配列の隣接する領域を指す。「コンティグ」は、重複配列の配列決定を比較することにより、および／または、どの配列リードが隣接している可能性が高いのかを特定するために既知の配列のデータベースに対して配列リードを比較することにより、当該技術分野で知られている任意の数の方法によって決定可能である。

用語「ポリヌクレオチド」、「ヌクレオチド」、「核酸」、および「オリゴヌクレオチド」は、しばしば交換可能に使用される。これらは一般に、任意の長さのヌクレオチドの重合体形態（デオキシリボヌクレオチドまたはリボヌクレオチドのいずれか）あるいはそのアナログを指す。ポリヌクレオチドは、リン酸ジエステル結合によりそのリボース骨格で連結された塩基モノマーを含む。ポリヌクレオチドは任意の三次元構造も有してもよく、既知または未知の任意の機能を行うことがある。以下はポリヌクレオチドの非限定的な例である：遺伝子または遺伝子断片のコードまたは非コード領域、遺伝子間ＤＮＡ、連鎖解析から定義された遺伝子座（複数の遺伝子座）、エキソン、イントロン、メッセンジャーＲＮＡ（ｍＲＮＡ）、転移ＲＮＡ、リボソームＲＮＡ、低分子干渉ＲＮＡ（ｓｉＲＮＡ）、低分子ヘアピン型ＲＮＡ（ｓｈＲＮＡ）、マイクロＲＮＡ（ｍｉＲＮＡ）、核小体低分子ＲＮＡ、リボザイム、メッセンジャーＲＮＡ（ｍＲＮＡ）の逆転写あるいは増幅によって通常得られるｍＲＮＡのＤＮＡ表現である、相補的ＤＮＡ（ｃＤＮＡ）；合成的にあるいは増幅により生成されるＤＮＡ分子、ゲノムＤＮＡ、組み換えポリヌクレオチド、分枝鎖ポリヌクレオチド、プラスミド、ベクター、任意の配列の単離されたＤＮＡ、任意の配列の単離されたＲＮＡ、核酸プローブ、およびプライマー。ポリヌクレオチドは、メチル化されたヌクレオチドとヌクレオチドアナログなどの修飾されたヌクレオチドを含むことがある。存在する場合には、ヌクレオチド構造の修飾はポリマーのアセンブリの前または後に与えられてもよい。一般に、オリゴヌクレオチドはごくわずかな塩基を含み、その一方で、ポリヌクレオチドは任意の数も含むことができるが、一般により長く、その一方で、核酸は染色体あるいは全ゲノムの長さを含む任意の長さのポリマーを指すこともある。同様に、核酸という用語は、核酸サンプルが必ずしも単一の核酸分子を指すことがないように、しばしばまとめて使用され、もっと正確に言えば、核酸は、複数の核酸分子を含むサンプルを指すことがある。核酸との用語は一本鎖の分子と同様に二本鎖または三本鎖の核酸を包含することができる。二本鎖または三本鎖の核酸では、核酸鎖は同一の広がりをもつ必要はなく、例えば、二本鎖の核酸は両方の鎖の全長に沿った二本鎖である必要はない。核酸との用語は、メチル化および／またはキャッピングなどによるその任意の化学修飾も包含することができる。核酸修飾は、個々の核酸塩基、あるいは全体としての核酸に、追加の電荷、分極率、水素結合、静電的相互作用、および機能性を組み込む化学基の添加を含んでもよい。そのような修飾は、２’－位の糖修飾、５－位のピリミジン修飾、８－位のプリン修飾、シトシン環外アミンの修飾、５－ブロモ－ウラシルの置換、骨格修飾、イソ塩基、すなわち、イソシチジンとイソグアニジンなどの珍しい塩基対の組み合わせなどの塩基修飾を含むことがある。

本明細書で使用されるような用語「被験体」とは、任意の真核生物または原始核生物を指すことがある。

本明細書で使用されるような用語「裸のＤＮＡ」は、複合体化したＤＮＡ結合タンパク質を実質的に含まないＤＮＡを指すことがある。例えば、これは、細胞核で見られる内因性のタンパク質の約１０％、約５％、あるいは約１％未満、または、インビボで核酸に規則的に結合された内因性のＤＮＡ結合タンパク質の約１０％、約５％、あるいは約１％未満、あるいは外因的に加えられた核酸結合タンパク質あるいはナノ粒子などの他の核酸結合部分の約１０％、約５％、あるいは約１％未満で複合化されたＤＮＡを指すことがある。場合によっては、裸のＤＮＡはＤＮＡ結合タンパク質に複合化されていないＤＮＡを指す。

「ポリペプチド」と「タンパク質」という用語はしばしば交換可能に使用され、アミノ酸の重合体形態、あるいはポリペプチド結合に結合したそのアナログを一般に指す。ポリペプチドとタンパク質は任意の長さのポリマーであり得る。ポリペプチドは任意の三次元構造も有することができ、既知または未知の任意の機能を行うことがある。ポリペプチドとタンパク質は、リン酸化、脂質化、プレニル化、硫酸化、ヒドロキシル化、アセチル化、ジスルフィド結合の形成などを含む修飾を含み得る。場合によっては、「タンパク質」とは、既知の機能を有するか、生体系で自然に生じることが知られているポリペプチドを指すが、この区別は当該技術分野では必ずしも遵守されるわけではない。

本明細書で使用されるように、核酸の別のセグメントが共通のリン酸ジエステル骨格とは無関係な単一の複合体で保持されるように、核酸は、結合部分あるいは複数の結合部分によって結合されている場合には「安定して」いる。複合体中の安定した核酸は、制限エンドヌクレアーゼによる処理が複合体の崩壊を引き起こさないように、そのリン酸ジエステル骨格とは無関係に結合されたままであり、内部二本鎖ＤＮＡの切断は、完全性を失っている複合体がなくともアクセス可能である。

代替的に、あるいは、組み合わせて、核酸と核酸結合部分を含む核酸複合体は、その結合を増加させるか、あるいは分解または溶解に対する耐性をつけさせる処理によって「安定して」いく。複合体を安定化させる一例は、例えば、制限エンドヌクレアーゼ処理あるいは核酸剪断を引き起こす処理の後に複合体が分解または溶解に対して耐性を有するように、ホルムアルデヒドあるいはソラレン（ｐｓｏｒｌｅｎ）などの固定剤で複合体を処理するか、あるいは核酸と結合部分の間の、または結合部分間での架橋を引き起こすべくＵＶ光で処理することを含む。

本明細書で使用されるような用語「足場」とは、既知の長さであるが未知の配列のギャップによって分離されるか、あるいは未知の長さであるが単一の分子上に存在することが知られている配列のギャップにより分離されるコンティグ、または配列決定リードのメイト対によって互いに連鎖したコンティグの順序付けおよび方向付けられたセットを一般に指す。コンティグが既知の長さのギャップによって分離される場合には、ギャップの配列は、ＰＣＲ増幅とその後の配列決定（より小さなギャップ向け）、およびバクテリア人工染色体（ＢＡＣ）クローニング方法とその後の配列決定（より大きなギャップ向け）を含む様々な方法によって決定されてもよい。

本明細書で使用されるような用語「安定したサンプル」とは、核酸と会合分子が、制限エンドヌクレアーゼ処理、ＤＮＡ剪断、核酸切断の標識、あるいはライゲーションなどの分子操作に耐性があるようなやりかたで結合されるように、分子間相互作用によって会合分子に関して安定している核酸を指す。当該技術分野で既知の核酸は、限定されないが、ＤＮＡとＲＮＡ、およびそれらの誘導体を含む。分子間相互作用は共有結合のこともあれば、非共有結合のこともある。共有結合の典型的な方法は、架橋技術、共役反応、あるいは当業者に知られている他の方法を含む。非共有結合相互作用の典型的な方法は、イオン相互作用による結合、水素結合、ハロゲン結合、ファンデルワールス力（例えば、双極子相互作用）、π－効果（例えば、π－π相互作用、カチオン－πおよびアニオン－π相互作用、極性のπ相互作用など）、疎水性効果、および当業者に知られている他の非共有結合相互作用を含む。会合分子の例としては、限定されないが、染色体のタンパク質（例えばヒストン）、トランスポゼース、および共有結合的あるいは非共有結合的に核酸と相互作用することが知られている任意のナノ粒子が挙げられる。

本明細書で使用されるような用語「異種のサンプル」は、核酸（例えば、ＤＮＡ、ＲＮＡ）、細胞、生命体あるいは他の生体分子の多様な母集団を含む生体サンプルを指す。多くの場合、核酸は１つを超える生命体から始まる。例えば、異種の核酸サンプルは、少なくとも約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１０，０００、２０，０００、５０，０００、１００，０００、２００，０００、５００，０００、１，０００，０００、２，０００，０００、５，０００，０００、１０，０００，０００あるいはそれ以上のＤＮＡ分子を含むことができる。さらに、ＤＮＡ分子の各々は、異種の核酸サンプルが少なくとも約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１０，０００、２０，０００、５０，０００、１００，０００、２００，０００、５００，０００、１，０００，０００、２，０００，０００、５，０００，０００、１０，０００，０００、あるいはそれ以上の様々な生命体の完全または部分的なゲノムを含み得るように、少なくとも１つ、あるいは少なくとも２つ、あるいは２つを超える生命体の完全または部分的なゲノムを含むことができる。異種のサンプルの例は、限定されないが、被験体の血液、汗、尿、便、あるいは皮膚を含む様々な供給源；あるいは環境的な供給源（例えば、土、海水）；食料源；ゴミ捨て場、下水道、あるいは公衆トイレなどの廃棄物を処理する場所；あるいはゴミ箱から得られたものである。

生命体の「部分的なゲノム」は、生命体の全ゲノムの少なくとも約１０％、２０％３０％４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、あるいはそれ以上を含み得るか、あるいは、全ゲノムの配列情報の少なくとも約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、あるいはそれ以上を含む配列データセットを含むことができる。

本明細書で使用されるような用語「再構成されたクロマチン」とは、単離された核タンパク質を裸のＤＮＡに複合化することにより形成された形成クロマチンを指すことがある。

本明細書で使用されるような用語「タグ付けされた配列」とは、解析目的のために配列を同定するか関連付けるために使用することができる追加の配列を含むＤＮＡ配列を指すことができる。例えば、同じタグを共有するタグ付けされた配列の群は、まとめてビニング（ｂｉｎｎｅｄ）可能である。いくつかの例において、同じビンにあるタグ付けされた配列は、共通のフェーズをさらに割り当てられるか、あるいは共通の起始分子に割り当てられる。「タグ付け」の典型的な方法としては、限定されないが、酵素（例えば、トランスポゼース、リガーゼ）を使用してタグを導入すること、および／またはリード対を得るためにＤＮＡセグメントを互いに共有結合させることが挙げられる。タグ付けされた配列は、例えば、末端リードを得ることによって「配列決定され」、１つの末端リードはタグ配列を含み、他の末端リードはタグが加えられたセグメントの配列を含む。場合によっては、完全タグ、タグ－セグメント接合部、および完全セグメントが配列決定される。しかしながら、これは、タグ付けと配列決定を効果的なものとするために必ずしも必要であるとは限らない。これに反して、多くの場合で、タグ末端の同定可能な部分とセグメント末端の同定可能な部分の配列決定は、とりわけ、限定的なわけではないが、前に生成された、あるいは同時に生成されたコンティグ情報などのコンティグ情報が利用可能な場合に、「タグ付けされたセグメントの配列決定」を引き起こすのに十分である。同様に、ペアエンドのタグ配列は、場合によっては、それぞれが連結されたセグメントの認識可能な配列を含む末端リードを得ることにより「配列決定される」。ペアエンド断片は、接合部配列が得られるように、完全に配列決定されることもあるが、これはペアエンドタグ付けと配列決定を効果的なものとするために必ずしも必要であるとは限らない。これに応じて、本明細書で使用されるように、「タグ付けされたセグメントを配列決定する」あるいは「ペアエンドのリードを配列決定する」ことは、連結された分子の完全な末端間配列を得ることを含む必要はない。連結された分子を形成するために結合された核酸の同一性が得られるように、分子の一方の末端の同定可能な配列が得られる限り、連結された断片は、「配列決定され」ていると言われることもある。場合によっては、配列決定は、ライゲーション接合部に及ぶ末端間配列決定を含む。場合によっては、配列決定は連結された分子の一方の末端からリードを生成することを含む。

本明細書で使用されるような用語「リード対（ｒｅａｄｐａｉｒ）」あるいは「リード対（ｒｅａｄ－ｐａｉｒ）」は、配列情報を提供するために連鎖した２つ以上の要素を指すことができる。場合によっては、リード対の数はマッピング可能なリード対の数を指すことがある。他の場合には、リード対の数は生成されたリード対の総数を指すことがある。

用語「結合する」、「結合」、「関連付ける」、「会合」、あるいは「関連付け」、あるいはこれらの派生語は、本明細書で使用されるように、分子間相互作用によってある分子を別の分子に安定化させることを指す。分子間相互作用は自然界では共有結合のこともあれば、非共有結合のこともある。共有結合の典型的な方法は、架橋技術、共役反応、あるいは当業者に知られている他の方法を含む。非共有結合相互作用の典型的な方法は、イオン相互作用、水素結合、ハロゲン結合、ファンデルワールス力（例えば、双極子相互作用）、π－効果（例えば、π－π相互作用、カチオン－πおよびアニオン－π相互作用、極性のπ相互作用など）、疎水性効果、および当業者に知られている他の非共有結合相互作用を含む。

本明細書で使用されるような用語「固定化する」あるいは「固定」は、対象に関して分子あるいは複合体を安定させることを指す。例えば、ＤＮＡ複合体は固体支持体に対して安定しているときに固体支持体に固定される。場合によっては、固定されたＤＮＡ複合体は、様々な洗浄工程にさらされた時でさえ、固体支持体に対して安定したままである。

別段の定めのない限り、本明細書で使用される技術的かつ科学的な用語はすべて、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書に記載される方法や試薬と類似するまたは同等の任意の方法や試薬を開示された方法や組成物を実施する際に使用することができるが、典型的な方法と材料をここで記載している。

本開示は、典型的には、非常に長い距離のリード対を生成するための方法を、前述の探求するものすべてを向上させるべくそのデータを利用するために提供する。いくつかの実施形態において、本開示は、～３００万のリード対のみを有する非常に連続して正確なヒトゲノムアセンブリを生成する方法を提供する。他の実施形態では、本開示は、９９％以上の精度でヒトゲノム中のヘテロ接合変異体の９０％以上をフェージングする方法を提供する。さらに、本開示によって生成されたリード対の範囲ははるかに大きなゲノム距離にまたがるように延長可能である。アセンブリは非常に長距離のリード対ライブラリーに加えて標準的なショットガンライブラリーから生成される。さらに他の実施形態では、本開示は、配列決定データのこれらのセットを両方とも利用することができるソフトウェアを提供する。フェージングされた変異体は、単一の長距離のリード対ライブラリーとともに生成され、そこからのリードは基準ゲノムにマッピングされ、その後、個体の２つの親の染色体の１つに変異体を割り当てるために使用される。最後に、本開示は、例外的に長いリードを生成するために、既知の技術を使用してさらに大きなＤＮＡ断片の抽出を提供する。

これらの反復がアセンブリとアラインメントのプロセスを妨害するメカニズムは、かなり真直ぐであり、究極的にはアンビギュイティ（図５）の結果である。大きな反復領域の場合には、問題はスパンの１つである。リードまたはリード対が反復領域に及ぶほど十分に長くない場合、反復要素に境を接する領域を確信して接続することができない。より小さな反復要素の場合には、問題は主として配置である。ある領域がゲノム中で共通する２つの反復要素と隣接している場合、その正確な配置を決定することは、それらのクラスの他のすべてのものに対する隣接する要素の類似性ゆえに、不可能ではないとしても困難なものとなる。両方の場合には、同定とゆえに特定の反復の配置を困難なものにするのは、反復中の特徴的な情報の不足である。必要とされるものは、反復領域によって囲まれるか分離された一意的なセグメント間の接続を実験的に確立する能力である。

本開示の方法は、これらの反復領域により引き起こされた実質的な障壁を克服するにより、ゲノミクスの分野を大きく進展させ、それにより、ゲノムの分析の多くの領域で重要な進歩を可能にする。従来の技術を用いてｄｅｎｏｖｏアセンブリを行うために、当業者は、多くの小さな足場へと断片化されたアセンブリに甘んじるか、あるいは莫大な時間と資金を、大きな挿入物のライブラリーを生成すること、またはもっと連続したアセンブリを生成するための他の手法を用いることに費やさなければならない。このような手法は、非常に深い配列決定カバレージを獲得すること、ＢＡＣまたはフォスミドのライブラリーを構築すること、光学マッピング、あるいは最も可能性がありそうなのは、これらの技術のいくつかの組み合わせを含み得る。厳しい資金と時間の条件ゆえに、ほとんどの小さな研究所はこのような手法には手が届かず、モデルではない生命体の研究が妨げられる。本明細書に記載される方法が非常に長い距離のリード対を生成することができるため、単一の配列決定の実行でｄｅｎｏｖｏアセンブリを実現することができる。これにより、アセンブリの費用を数桁節約し、必要な時間を数か月または数年から数週にまで短縮することになる。場合によっては、本明細書に開示された方法は、１４日未満、１３日未満、１２日未満、１１日未満、１０日未満、９日未満、８日未満、７日未満、６日未満、５日未満、４日未満で、あるいは前述の指定された期間の任意の２つの範囲で、複数のリード対を生成することを可能にする。例えば、該方法は約１０日から１４日で複数のリード対を生成することを考慮にさせることができる。生命体のほとんどの微小環境向けのゲノムを構築することさえ日常的なものとなり、系統発生解析は比較不足していることに悩まされることなく、ゲノム１０ｋなどのプロジェクトを実現することができる。

同様に、医療目的の構造解析およびフェージングメタゲノム解析も依然として困難なままである。癌、同じタイプの癌を抱える個体の中で、あるいは同じ腫瘍内でさえも驚異的な異質性がある。必然の効果から原因となるものを引き出すことは、サンプルごとに低コストで非常に高い精度かつ高スループットを必要とする。個別化医療の領域では、ゲノムケアのゴールドスタンダードの１つは、大小の構造的な再配置と新規な突然変異を含む、完全に特徴付けられたかつフェージングされたすべての変異体を有する配列決定されたゲノムである。従来の技術でこれを実現するためには、ｄｅｎｏｖｏアセンブリに必要とされる努力と同種の努力が要求され、これは現在非常に高価で多大な時間と労力を要するため、日常的な医療処置ではありえない。開示された方法は、低価格で完全で正確なゲノムを迅速に生成することができ、それにより、ヒト疾患の研究と治療において高度に求められる多くの能力を生み出すことができる。

最後に、本明細書で開示された方法をフェージングに適用することは、家族性分析の精度と統計手法の利便性を組み合わせて、一方の方法を単独で使用するよりも節約－金、労働、およびサンプルをもたらすことができる。従来の技術では禁止された非常に望ましいフェージング分析であるｄｅｎｏｖｏ変異体フェージングは、本明細書に開示された方法を容易に使用して実行可能である。ヒト変異の大部分がまれであるため（５％未満の小さな対立遺伝子頻度）、このことは特に重要である。フェージング情報は、非連鎖遺伝子型に対して高度に結合しているハプロタイプ（単一の染色体に割り当てられた変異体の収集物）のネットワークから重要な利点を獲得する母集団の遺伝学研究にとって価値がある。ハプロタイプ情報は、母集団サイズ、移動、および亜集団間の交換の歴史的な変化に関するより高分解能研究を可能にすることができ、特別な両親と祖父母に至るまで特定の変異体を追跡することができる。このことは、一人の個体で集めると、疾患に関連付けられる変異体の遺伝的伝達と、変異体間の相互作用を明らかにする。本開示の方法は最終的には、非常に長い範囲リード対（ＸＬＲＰ）ライブラリーの調製、配列決定、および解析を可能にすることができる。

本開示のいくつかの実施形態において、被験体からの組織あるいはＤＮＡサンプルは提供可能であり、該方法は、アセンブルされたゲノム、コールされた変異体（大きな構造変異体を含む）を用いるアラインメント、フェージングされた変異体のコール、あるいは任意の追加の解析を戻すことができる。他の実施形態では、本明細書に開示された方法は、個体にＸＬＲＰライブラリーを直接提供することができる。

本開示の様々な実施形態では、本明細書に開示された方法は、遠い距離離れていた非常に長い距離のリード対を生成することができる。この距離の上限は、大きなサイズのＤＮＡサンプルを捕集する能力によって改善されることがある。場合によっては、リード対は、ゲノム距離で最大５０、６０、７０、８０、９０、１００、１２５、１５０、１７５、２００、２２５、２５０、３００、４００、５００、６００、７００、８００、９００、１０００、１５００、２０００、２５００、３０００、４０００、５０００ｋｂｐ、またはそれ以上に及ぶことがある。いくつかの例において、リード対は、ゲノム距離で最大５００ｋｂｐに及ぶことがある。他の例において、リード対は、ゲノム距離で最大２０００ｋｂｐに及ぶことがある。本明細書に開示された方法は、分子生物学の標準配置を統合して積み上げることができ、さらに、効率、特異性、およびゲノムカバレージを増大させるのに適切である。場合によっては、リード対は、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、６０、または９０日未満で生成可能である。いくつかの例において、リード対は約１４日未満で生成可能である。いくつかの例において、リード対は約１０日未満で生成可能である。場合によっては、本開示の方法は、複数のコンティグを正確に順序付けおよび／または配向させる際に少なくとも約５０％、約６０％、約７０％、約８０％、約９０％、約９５％、約９９％、あるいは約１００％の精度で、リード対の約５％、約１０％、約１５％、約２０％、約３０％、約４０％、約５０％、約６０％、約７０％、約８０％、約９０％、約９５％、約９９％、あるいは約１００％以上を提供することができる。例えば、該方法は、複数のコンティグを正確に順序付けおよび／または配向させる際に約９０～１００％の精度を提供することができる。

他の実施形態では、本明細書に開示された方法は、現在採用されている配列決定技術と共に使用することができる。例えば、該方法は、十分に試験されたおよび／または広く展開されている配列決定機器と組み合わせて使用可能である。いくつかの実施形態において、本明細書に開示された方法は、現在使用されている配列決定技術に由来する技術と手法と共に使用することができる。

本開示の方法は、広範囲の生命体向けのｄｅｎｏｖｏゲノムアセンブリを劇的に単純化する。従来の技術を使用して、こうしたアセンブリは現在、経済的なメイト対ライブラリーの短い挿入物によって制限されている。フォスミドで入手可能な最大で４０－５０ｋｂｐまでのゲノム距離でリード対を生成することは可能であることもあるが、これらは高価で、扱いにくく、短すぎるため、最長の反復伸長部（ヒトでは３００ｋｂｐから５Ｍｂｐまでのサイズがあるセントロメア内のものを含む）に及ぶことはない。本明細書に開示された方法は、遠い距離（例えば、メガベースまたはそれよりも長い）に及ぶことができ、それにより、これらの足場の完全性の問題を克服することができるリード対を提供することができる。これに応じて、染色体レベルアセンブリを生成することは、本開示の方法を利用することにより日常的なものとなりうる。アセンブリのためのより困難な手段－現在信じられない量の時間とお金を研究所に要し、拡張的なゲノムのカタログを禁止している－は不必要なものとなり、もっと意味のある解析のための資源を確保することもある。同様に、長距離のフェージング情報の獲得は、母集団のゲノムの研究、系統発生研究、および疾患研究に、さらなる巨大な力を与えることができる。本明細書に開示された方法は、多くの個体のための正確なフェージングを可能にし、それにより、母集団と深さ－時間レベルでゲノムを探索する我々の能力の幅と深さを拡張する。

個別化医療の領域では、本明細書に開示された方法から生成されたＸＬＲＰリード対は、正確で、廉価で、フェージングされて、かつ迅速に生成された個人のゲノムに対する有意義な進歩を表す。現在の方法は、長距離の変異体をフェージングする能力が不十分であり、それによって、化合物のヘテロ接合の遺伝子型の表現型の影響の特徴づけを妨げる。さらに、ゲノムの疾患に関する実質的な対象の構造変異体は、現在の技術では、これらを研究するために使用されるリードとリード対挿入物と比較してサイズが大きいため、同定と特徴付けを正確に行うのは難しい。数十キロベース～メガベースに及ぶリード対はこの問題を緩和する助けとなり、それにより、構造的な変異の高度に平行かつ個別化された解析を可能にする。

基本的な進化および生物医学研究はハイスループットな配列決定の技術的進歩によって突き動かされている。全ゲノム配列決定とアセンブリはかつて大規模なゲノム配列決定センターの供給源地であったが、市販のシーケンサーは今では、ほとんどの研究大学がこうした機器を１つまたは複数所有するほど廉価である。莫大な量のＤＮＡ配列データを生成することは今では比較的廉価である。しかしながら、高品質の非常に連続したゲノム配列を現在の技術で生成することは、理論的にも実際上でも依然として困難である。さらに、ヒトを含む、当業者が分析したいと思うほとんどの生命体が二倍性であるので、各個体はゲノムの２つの一倍体のコピーを有する。ヘテロ接合性の部位（例えば、母から与えられた対立遺伝子が父親から与えられた対立遺伝子とは異なる場所）では、対立遺伝子のどのセットがどの親から来たかを知ることは難しい（ハプロタイプフェージングとして知られている）。この情報は、疾患と形質転換の関連性研究などの多くの進化研究と生物医学研究を行うために使用することができる。

様々な実施形態では、本開示は、所定のゲノム内での短期、中期、および長期的な結合のハイスループットな発見のためのペアエンドの配列決定とＤＮＡ調製のための技術を組み合わせる、ゲノムアセンブリのための方法を提供する。本開示はさらに、ハプロタイプフェージングおよび／またはメタゲノムの研究に、ゲノムアセンブリを助けるこれらの結合を使用する方法を提供する。被験体のゲノムのアセンブリを決定するために本明細書に提示された方法を使用することができるが、染色体などの被験体のゲノムの部分のアセンブリ、あるいは可変長さの被験体のクロマチンのアセンブリを決定するために本明細書に提示された方法を使用することができることも理解されたい。

いくつかの実施形態において、本開示は、被験体から得られた標的ＤＮＡの配列決定断片から複数のコンティグを生成する工程を含む、本明細書に開示された１つ以上の方法を提供する。長く伸びた標的ＤＮＡは、１つ以上のヌクレアーゼ酵素（例えば、制限酵素）でＤＮＡを切断し、ＤＮＡを剪断し、あるいはこれらの組み合わせにより断片化することができる。結果として生じた断片は、複数の配列決定リードを得るためにハイスループット配列決定方法を使用して、配列決定することが可能である。本開示の方法と共に使用することができるハイスループット配列決定方法の例としては、限定されないが、ＲｏｃｈｅＤｉａｇｎｏｓｔｉｃｓにより開発された４５４パイロシークエンシング方法、Ｉｌｌｕｍｉｎａにより開発された「ｃｌｕｓｔｅｒ」配列決定方法、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓによって開発されたＳＯＬｉＤおよびイオン半導体配列決定方法、ならびにＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓによって開発されたＤＮＡナノボール配列決定方法が挙げられる。その後、様々な配列決定リードの重複する末端をアセンブルすることでコンティグを形成することができる。代替的に、断片化された標的ＤＮＡをベクターにクローン化することができる。その後、細胞または生命体を、ライブラリーを形成するためにＤＮＡベクターでトランスフェクトする。トランスフェクトされた細胞あるいは生命体を複製した後に、ベクターを単離して、複数の配列決定リードを生成するように配列決定する。その後、様々な配列決定リードの重複する末端をアセンブルすることでコンティグを形成することができる。

図１に示されるように、ゲノムアセンブリ、特にハイスループットな配列決定技術を用いるものは、問題がある場合がある。しばしば、アセンブリは数千または数万もの短いコンティグからなる。これらのコンティグの順序と配向は一般に未知であり、ゲノムアセンブリの有用性を制限している。これらの足場を順序付けて配向させるための技術は存在するが、一般に高価であり、多大な労力を必要とし、非常に長い距離の相互作用の発見にしばしば失敗する。

コンティグを生成するために使用される標的ＤＮＡを含むサンプルは、体液（例えば、血液、尿、血清、リンパ、唾液、肛門と膣の分泌物、汗、および精液）を採取すること、組織を採取すること、あるいは細胞／生命体を捕集することを含む任意の数の手段によって被験体から得ることが可能である。得られたサンプルは、単一のタイプの細胞／生命体で構成されることもあれば、あるいは複数のタイプの細胞／生命体で構成されることもある。ＤＮＡは被験体のサンプルから抽出および調製可能である。例えば、既知の溶解緩衝液、超音波処理技術、エレクトロポレーションなどを使用して、ポリヌクレオチドを含む細胞を溶解するために、サンプルを処理することもある。標的ＤＮＡはアルコール抽出、セシウム勾配、および／またはカラムクロマトグラフィーの使用により、タンパク質などの汚染物質を取り除くためにさらに精製されてもよい。

本開示の他の実施形態では、非常に高い分子量ＤＮＡを抽出する方法が提供される。場合によっては、ＸＬＲＰライブラリーからのデータは、インプットＤＮＡの断片サイズを増加させることにより改善可能である。いくつかの例において、細胞からＤＮＡのメガベースサイズの断片を抽出することで、ゲノム中のメガベースによって分離されたリード対を生成することができる。場合によっては、生成されたリード対は、約１０ｋＢ、約５０ｋＢ、約１００ｋＢ、約２００ｋＢ、約５００ｋＢ、約１Ｍｂ、約２Ｍｂ、約５Ｍｂ、約１０Ｍｂ、あるいは約１００Ｍｂ以上の大きさの配列情報を提供することができる。いくつかの例において、リード対は、約５００ｋＢ以上の大きさの配列情報を提供することができる。いくつかの例において、リード対は、約２Ｍｂ以上の大きさの配列情報を提供することができる。場合によっては、非常に大きな分子量のＤＮＡは、非常に穏やかな溶菌（Ｔｅａｇｕｅ，Ｂ．ｅｔａｌ．（２０１０）Ｐｒｏｃ．Ｎａｔ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１０７（２４），１０８４８－５３）とアガロース・プラグ（Ｓｃｈｗａｒｔｚ，Ｄ．Ｃ．，＆Ｃａｎｔｏｒ，Ｃ．Ｒ．（１９８４）Ｃｅｌｌ，３７（１），６７－７５）によって抽出可能である。他の場合には、最大でメガベースの長さのＤＮＡ分子を精製することができる市販の機械を用いて、非常に大きな分子量のＤＮＡを抽出することができる。

様々な実施形態では、本開示は、生細胞内の染色体の物理的な配置を探索する工程を含む、本明細書に開示された１つ以上の方法を提供する。配列決定によって染色体の物理的な配置を探索する技術の例としては、染色体立体構造捕捉（「３Ｃ」）、環状化染色体立体構造捕捉（「４Ｃ」）、カーボンコピー染色体捕捉（「５Ｃ」）、および他のクロマチン捕捉に基づく方法などの技術の「Ｃ」ファミリー；および、ＣｈＩＰ－ループ、ＣｈＩＰ－ＰＥＴなどのＣｈＩＰに基づく方法が挙げられる。これらの技術は、核の中の空間的関係を固めるために生細胞のクロマチンの固着を利用する。生成物のその後の処理と配列決定により、研究者はゲノム領域中の近似結合のマトリックスを回復することができる。詳しい分析により、これらの結合は生きている核の中で物理的に配置されるため、これらの結合を用いて、染色体の三次元の幾何学的なマップを作製することができる。こうした技術は、生細胞中の染色体の別の空間的な組織化について記載しており、染色体の遺伝子座の中での機能的な相互作用を正確に把握する。これらの機能的な研究を苦しめた１つの問題は、非特異的相互作用、つまり、染色体の近接に起因するものでしかないデータ中に存在する結合であった。開示では、これらの非特異的な染色体内の相互作用は、アセンブリに価値のある情報を提供するために本明細書に提示された方法によって捕らえられる。

いくつかの実施形態において、染色体内の相互作用は染色体の接続性と相関する。場合によっては、染色体内のデータはゲノムアセンブリを援助することができる。場合によっては、クロマチンはインビトロで再構築される。これは有利なことになりうる。なぜなら、クロマチン－特に、クロマチンの主要なタンパク質成分であるヒストン－は、配列決定：３Ｃ、４Ｃ、５Ｃおよびクロマチンの捕捉によってクロマチンの立体構造と構造を検知するための技術の最も一般的な「Ｃ」ファミリー下での固定に重要なものだからである。クロマチンは、配列の観点から高度に非特異的であり、一般にゲノム全体で均一にアセンブルする。場合によっては、クロマチンを使用しない種のゲノムは、再構築されたクロマチン上でアセンブルし、それにより、開示される視野を生命のすべての領域まで拡大することができる。

クロマチン立体構造捕捉技術は図２にまとめられている。要約すると、架橋は、物理的非常に近接しているゲノム領域間で作られる。クロマチン内でＤＮＡ分子（例えばゲノムＤＮＡ）に対するタンパク質（ヒストンなど）の架橋は、本明細書のどこかでさらに詳細に記載されているか、あるいは当該技術分野で知られている適切な方法によって実現可能である。場合によっては、２つ以上のヌクレオチド配列、あるいは、厳密に言えば、２つ以上の核酸セグメントは、１つ以上のヌクレオチド配列と結合したタンパク質によって架橋可能である。１つの手法はクロマチンを紫外線照射に晒すことである（Ｇｉｌｍｏｕｒｅｔａｌ．，Ｐｒｏｃ．Ｎａｔ’ｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８１：４２７５－４２７９，１９８４）。ポリヌクレオチドセグメントの架橋は、化学的または物理的（例えば、光学）な架橋などの他の手法を利用して実行されてもよい。適切な化学架橋剤としては、限定されないが、ホルムアルデヒドとソラレンが挙げられる（Ｓｏｌｏｍｏｎｅｔａｌ．，Ｐｒｏｃ．ＮａｔＬ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８２：６４７０－６４７４，１９８５；Ｓｏｌｏｍｏｎｅｔａｌ．，Ｃｅｌｌ５３：９３７－９４７，１９８８）。例えば、架橋はＤＮＡ分子とクロマチンタンパク質を含む混合物に２％のホルムアルデヒドを加えることにより行うことができる。ＤＮＡを架橋するために使用することができる薬剤の他の例としては、限定されないが、ＵＶ光、マイトマイシンＣ、ナイトロジェンマスタード、メルファラン、１，３－ブタジエンジエポキシド、シスジアミンジクロロ白金（ＩＩ）、およびシクロホスファミドが挙げられる。適切にいえば、架橋剤は、比較的短い距離（約２Åなど）を埋める架橋を形成し、それにより、逆にすることができる密接な相互作用を選択する。

いくつかの実施形態において、ＤＮＡ分子は架橋前あるいは後に免疫沈降されることもある。場合によっては、ＤＮＡ分子は断片化されてもよい。断片は、アセチル化されたヒストン（例えばＨ３）を特異的に認識・結合する抗体などの結合パートナーに接触させることもある。こうした抗体の例としては、限定されないが、ＵｐｓｔａｔｅＢｉｏｔｅｃｈｎｏｌｏｇｙ（ＮＹ州プラシド湖）から入手可能な抗アセチル化ヒストンＨ３が挙げられる。免疫沈降物からのポリヌクレオチドはその後、免疫沈降物から集めることができる。クロマチンを断片化する前に、アセチル化されたヒストンを、隣接するポリヌクレオチド配列に架橋することができる。

ある実施形態では、ＤＮＡ分子は複数の会合分子に結合し、会合分子は、アフィニティー標識（例えば、ビオチン、ストレプトアビジン、アビジン、ポリヒスチジン、ＥＤＴＡなど）で共有結合的に修飾されない。場合によっては、会合分子は生命体から直接単離されている。いくつかの例において、会合分子はアミノ酸を含む。ある例では、会合分子はポリペプチドまたはタンパク質を含む。いくつかの例では、会合分子はヒストンタンパク質を含む。様々な例において、会合分子はＤＮＡ分子とは異なる供給源からのものである。例えば、ＤＮＡ分子は複数のヒストンに架橋可能であり、上記のヒストンはアフィニティー標識で共有結合的に修飾されない。またさらなる例において、会合分子はトランスポゼースである。いくつかの例では、第１のＤＮＡ分子は会合分子に非共有結合される。他の例では、第１のＤＮＡ分子は会合分子に非共有結合される。場合によっては、第１のＤＮＡ分子は会合分子に架橋される。いくつかの例において、第１のＤＮＡ分子は固定剤（例えばホルムアルデヒド）を使用して会合分子に架橋される。しかしながら、ある場合には、ＤＮＡ分子はＤＮＡセグメントを含み、これはアフィニティー標識で修飾可能である。いくつかの例では、アフィニティー標識がビオチンを含む。ある例において、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩（ｄＮＴＰ）である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩（ｄＣＴＰ）である。様々な場合において、アフィニティー標識はＤＮＡセグメントを単離または精製するために使用される。

共有結合修飾のない会合分子を使用することで、本開示で提供される方法の工程の数を減らし、および／または、効率を増強する。場合によっては、ＤＮＡセグメントは、連鎖ＤＮＡセグメントを形成するために連鎖する前に、約２０、１８、１６、１５、１４、１３、１２、１１、１０、９、８、７、６、５、４、３、２、あるいは１回未満洗浄される。ある場合には、ＤＮＡセグメントは、連鎖ＤＮＡセグメントを形成するために連鎖する前に、約１５、１４、１３、１２、１１、１０、９、８、７、６、あるいは５回未満洗浄される。場合によっては、ＤＮＡセグメントは、連鎖ＤＮＡセグメントを形成するために連鎖する前に、約１２、１１、１０、９、８、７、あるいは６回未満洗浄される。いくつかの実施形態において、ＤＮＡセグメントは、連鎖ＤＮＡセグメントを形成するために連鎖する前に、約１０回未満洗浄される。ある例において、ＤＮＡセグメントは、連鎖ＤＮＡセグメントを形成するために連鎖する前に、約８回未満で洗浄される。いくつかの実施形態において、ＤＮＡセグメントは、連鎖ＤＮＡセグメントを形成するために連鎖する前に、約６回未満洗浄される。

いくつかの実施形態において、結合したＤＮＡ分子は固体支持体上で固定される。場合によっては、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。他の例において、ポリマーはポリエチレングリコール（ＰＥＧ）である。様々な例において、ビーズは磁気ビーズである。いくつかの例において、ビーズは固体相の可逆的な固定化（ＳＰＲＩ）ビーズである。他の場合において、固体支持体はアレイである。ある例において、固体支持体は、アフィニティー標識（例えば、ビオチン、ストレプトアビジン、アビジン、ポリヒスチジン、ＥＤＴＡ、あるいはこれらの誘導体）に共有結合されない。様々な例において、固体支持体は、任意のポリペプチド（例えば、ストレプトアビジン、アビジン、ポリヒスチジンタグ、あるいはこれらの誘導体）に連鎖されない。

固体支持体の表面（例えば、会合分子に共有結合したビオチンに結合するためにストレプトアビジンでコーティングされた表面など）へ結合することにより、その単離を促すべく会合分子を共有結合的に修飾するよりもむしろ、場合によっては、固体支持体は共有結合修飾のない状態で会合分子と結合するために修飾される。場合によっては、これは、会合分子の表面への会合分子の直接的な結合である。代替的に、場合によっては、結合は溶媒中の少なくとも１つの成分を媒介して行われる。場合によっては、固体支持体は会合分子に直接結合する部分を使用してコーティングされる。場合によっては、固体表面は核酸と直接結合する部分を使用してコーティングされる。様々な実施形態における適切なコーティングは、ポリアミン、正荷電部分、カルボキシ基、および負荷電部分を含んでいる。

場合によっては、架橋されたＤＮＡ分子は混合物中のポリヌクレオチドを分画するか切断するために処理される。分画技術は当該技術分野で知られており、例えば、より小さなゲノム断片を生成するための剪断技術を含む。断片化は、例えば、超音波処理、剪断および／またはヌクレアーゼ（例えば制限酵素）あるいは切断酵素（例えば、ｄｓＤＮＡｆｒａｇｍｅｎｔａｓｅ）の使用を含む、クロマチンを断片化するための確立された方法を使用して遂行可能である。制限酵素は、１、２、３、４、５、あるいは６つの塩基長の制限部位を有することができる。ヌクレアーゼはエンドヌクレアーゼ、エキソヌクレアーゼ、あるいはエンド－エキソヌクレアーゼであり得る。ヌクレアーゼの例としては、限定されないが、ＤＮａｓｅＩとＭＮａｓｅが挙げられる。制限酵素の例としては、限定されないが、ＡａｔＩＩ、Ａｃｃ６５Ｉ、ＡｃｃＩ、ＡｃｉＩ、ＡｃｌＩ、ＡｃｕＩ、ＡｆｅＩ、ＡｆｌＩＩ、ＡｆｌＩＩＩ、ＡｇｅＩ、ＡｈｄＩ、ＡｌｅＩ、ＡｌｕＩ、ＡｌｗＩ、ＡｌｗＮＩ、ＡｐａＩ、ＡｐａＬＩ、ＡｐｅＫＩ、ＡｐｏＩ、ＡｓｃＩ、ＡｓｅＩ、ＡｓｉＳＩ、ＡｖａＩ、ＡｖａＩＩ、ＡｖｒＩＩ、ＢａｅＧＩ、ＢａｅＩ、ＢａｍＨＩ、ＢａｎＩ、ＢａｎＩＩ、ＢｂｓＩ、ＢｂｖＣＩ、ＢｂｖＩ、ＢｃｃＩ、ＢｃｅＡＩ、ＢｃｇＩ、ＢｃｉＶＩ、ＢｃｌＩ、ＢｆａＩ、ＢｆｕＡＩ、ＢｆｕＣＩ、ＢｇｌＩ、ＢｇｌＩＩ、ＢｌｐＩ、ＢｍｇＢＩ、ＢｍｒＩ、ＢｍｔＩ、ＢｐｍＩ、Ｂｐｕｌ０Ｉ、ＢｐｕＥＩ、ＢｓａＡＩ、ＢｓａＢＩ、ＢｓａＨＩ、ＢｓａＩ、ＢｓａＪＩ、ＢｓａＷＩ、ＢｓａＸＩ、ＢｓｃＲＩ、ＢｓｃＹＩ、ＢｓｇＩ、ＢｓｉＥＩ、ＢｓｉＨＫＡＩ、ＢｓｉＷＩ、ＢｓｌＩ、ＢｓｍＡＩ、ＢｓＭｂＩ、ＢｓｍＦＩ、ＢｓｍＩ、ＢｓｏＢＩ、Ｂｓｐ１２８６Ｉ、ＢｓｐＣＮＩ、ＢｓｐＤＩ、ＢｓｐＥＩ、ＢｓｐＨＩ、ＢｓｐＭＩ、ＢｓｐＱＩ、ＢｓｒＢＩ、ＢｓｒＤＩ、ＢｓｒＦＩ、ＢｓｒＧＩ、ＢｓｒＩ、ＢｓｓＨＩＩ、ＢｓｓＫＩ、ＢｓｓＳＩ、ＢｓｔＡＰＩ、ＢｓｔＢＩ、ＢｓｔＥＩＩ、ＢｓｔＮＩ、ＢｓｔＵＩ、ＢｓｔＸＩ、ＢｓｔＹＩ、ＢｓｔＺ１７Ｉ、Ｂｓｕ３６Ｉ、ＢｔｇＩ、ＢｔｇＺＩ、ＢｔｓＣＩ、ＢｔｓＩ、Ｃａｃ８Ｉ、ＣｌａＩ、ＣｓｐＣＩ、ＣｖｉＡＩＩ、ＣｖｉＫＩ－１、ＣｖｉＱＩ、ＤｄｃＩ、ＤｐｎＩ、ＤｐｎＩＩ、ＤｒａＩ、ＤｒａＩＩＩ、ＤｒｄＩ、ＥａｃＩ、ＥａｇＩ、ＥａｒＩ、ＥｃｉＩ、Ｅｃｏ５３ｋＩ、ＥｃｏＮＩ、ＥｃｏＯ１０９Ｉ、ＥｃｏＰ１５Ｉ、ＥｃｏＲＩ、ＥｃｏＲＶ、ＦａｔＩ、ＦａｕＩ、Ｆｎｕ４ＨＩ、ＦｏｋＩ、ＦｓｅＩ、ＦｓｐＩ、ＨａｅＩＩ、ＨａｅＩＩＩ、ＨｇａＩ、ＨｈａＩ、ＨｉｎｃＩＩ、ＨｉｎｄＩＩＩ、ＨｉｎｆＩ、ＨｉｎＰｌＩ、ＨｐａＩ、ＨｐａＩＩ、ＨｐｈＩ、Ｈｐｙ１６６ＩＩ、Ｈｐｙ１８８Ｉ、Ｈｐｙ１８８ＩＩＩ、Ｈｐｙ９９Ｉ、ＨｐｙＡＶ、ＨｐｙＣＨ４ＩＩＩ、ＨｐｙＣＨ４ＩＶ、ＨｐｙＣＨ４Ｖ、ＫａｓＩ、ＫｐｎＩ、ＭｂｏＩ、ＭｂｏＩＩ、ＭｆｅＩ、ＭｌｕＩ、ＭｌｙＩ、ＭｍｅＩ、ＭｎｌＩ、ＭｓｃＩ、ＭｓｅＩ、ＭｓｌＩ、ＭｓｐＡｌＩ、ＭｓｐＩ、ＭｗｏＩ、ＮａｅＩ、ＮａｒＩ、Ｎｂ．ＢｂｖＣＩ、Ｎｂ．ＢｓｍＩ、Ｎｂ．ＢｓｒＤＩ、Ｎｂ．ＢｔｓＩ、ＮｃｉＩ、ＮｃｏＩ、ＮｄｅＩ、ＮｇｏＭＩＶ、ＮｈｅＩ、ＮｌａＩＩＩ、ＮｌａＩＶ、ＮｍｅＡＩＩＩ、ＮｏｔＩ、ＮｒｕＩ、ＮｓｉＩ、ＮｓｐＩ、Ｎｔ．ＡｌｗＩ、Ｎｔ．ＢｂｖＣＩ、Ｎｔ．ＢｓｍＡＩ、Ｎｔ．ＢｓｐＱＩ、Ｎｔ．ＢｓｔＮＢＩ、Ｎｔ．ＣｖｉＰＩＩ、ＰａｃＩ、ＰａｅＲ７Ｉ、ＰｃｉＩ、ＰｆｌＦＩ、ＰｆｌＭＩ、ＰｈｏＩ、ＰｌｅＩ、ＰｍｅＩ、ＰｍｌＩ、ＰｐｕＭＩ、ＰｓｈＡＩ、ＰｓｉＩ、ＰｓｐＧＩ、ＰｓｐＯＭＩ、ＰｓｐＸＩ、ＰｓｔＩ、ＰｖｕＩ、ＰｖｕＩＩ、ＲｓａＩ、ＲｓｒＩＩ、ＳａｃＩ、ＳａｃＩＩ、ＳａｌＩ、ＳａｐＩ、Ｓａｕ３ＡＩ、Ｓａｕ９６Ｉ、ＳｂｆＩ、ＳｃａＩ、ＳｃｒＦＩ、ＳｅｘＡＩ、ＳｆａＮＩ、ＳｆｃＩ、ＳｆｉＩ、ＳｆｏＩ、ＳｇｒＡＩ、ＳｍａＩ、ＳｍｌＩ、ＳｎａＢＩ、ＳｐｅＩ、ＳｐｈＩ、ＳｓｐＩ、ＳｔｕＩ、ＳｔｙＤ４Ｉ、ＳｔｙＩ、ＳｗａＩ、Ｔ、ＴａｑαＩ、ＴｆｉＩ、ＴｌｉＩ、ＴｓｅＩ、Ｔｓｐ４５Ｉ、Ｔｓｐ５０９Ｉ、ＴｓｐＭＩ、ＴｓｐＲＩ、Ｔｔｈ１１１Ｉ、ＸｂａＩ、ＸｃｍＩ、ＸｈｏＩ、ＸｍａＩ、ＸｍｎＩ、および、ＺｒａＩが挙げられる。結果として生じる断片はサイズが異なることがある。結果として生じる断片は５’または３’末端に一本鎖のオーバーハンドも含むことがある。ヌクレアーゼは核酸誘導ヌクレアーゼであり得る。核酸誘導ヌクレアーゼは、Ｃａｓ９、Ｃｐｆ１、Ｃａｓ３、Ｃａｓ８ａ－ｃ、Ｃａｓ１０、Ｃｓｅ１、Ｃｓｙ１、Ｃｓｎ２、Ｃａｓ４、Ｃｓｍ２、Ｃｍ５、および、Ｃｓｆ１などの、ＣＡＳＣｌａｓｓＩＴｙｐｅＩ、ＣＡＳＣｌａｓｓＩＴｙｐｅＩＩＩ、ＣＡＳＣｌａｓｓＩＴｙｐｅＩＶ、ＣＡＳＣｌａｓｓＩＩＴｙｐｅＩＩ、およびＣＡＳＣｌａｓｓＩＩＴｙｐｅＶを含む、ヌクレアーゼ（例えばＣａｓ９）のＣａｓファミリーからなどのＲＮＡ誘導ヌクレアーゼであり得る。

いくつかの実施形態において、超音波処理技術を使用して、約１００～５０００のヌクレオチドの断片を得ることができる。代替的に、約１００～１０００、約１５０～１０００、約１５０～５００、約２００～５００、あるいは約２００～４００のヌクレオチドの断片を得ることができる。サンプルは、架橋される結合した配列セグメントの配列決定のために調製可能である。場合によっては、ポリヌクレオチドの単一の短い伸長部は、例えば、分子内で架橋された２つの配列セグメントを連結することにより作製可能である。配列情報は、本明細書のどこかでさらに詳細に記載されるか、あるいはハイスループット配列決定方法などの当該技術分野で知られている任意の適切な配列決定技術も使用して、サンプルから得ることができる。例えば、断片の各末端から配列情報を得るペアエンドの配列決定にライゲーション生成物をさらすことができる。配列セグメントの複数ペアは、ポリヌクレオチドに沿って２つの配列セグメントを分離する直線距離にわたってハプロタイピング情報を関連させて、得られた配列情報で表され得る。

クロマチン捕捉によって生成されたデータの１つの特徴は、ほとんどのリード対は、ゲノムへ再度マッピングする際に、密接に直線的に近接していることがわかるということである。すなわち、ほとんどのリード対はゲノム中で互いに接近していることが分かる。結果として生じるデータセットでは、染色体が明確な領域を占領している場合に予想されるように、染色体内の接触の可能性は染色体間の接触の可能性よりも平均してはるかに高い。さらに、相互作用の可能性は直線距離とともに急激に低下するが、同じ染色体上での＞２００Ｍｂ分離している遺伝子座でさえ、異なる染色体上の遺伝子座よりも相互作用する可能性が高い。長距離の染色体内かつとりわけ染色体間の接触を検知する際に、短距離および中距離の染色体内の接触のこの「背景」は、クロマチン捕捉分析を使用して取り除かれる背景ノイズである。

顕著に、真核生物でのクロマチン捕捉実験は、種に特異的な、および細胞タイプに特異的なクロマチン相互作用に加えて、２つの古典的な相互作用パターンを示した。１つのパターン、つまり、距離依存の性の低下腐食（ＤＤＤ）は、ゲノム距離の機能に応じて相互作用頻度の低下の一般的な傾向である。第２のパターン、つまり、シス－トランス比率（ＣＴＲ）は、異なる染色体上の遺伝子座に対して、数十メガベースの配列によって分離された時でさえ、同じ染色体上に位置する遺伝子座間の著しく高い相互作用頻度である。わずかに混合するだけで、核中で明確な量を占める傾向がある間期染色体の現象である染色体領域の形成などの特定の核構成特徴と同様に、近位の遺伝子座が無作為に相互作用する可能性が高い、これらのパターンは一般的な高分子力学を反映することもある。これらの２つのパターンの正確な詳細は種、細胞タイプ、および細胞の条件の間で変動することがあるが、これらは普遍的かつ顕著である。こうしたパターンは非常に強力かつ一貫しているので、実験の質を評価するために使用され、詳細な相互作用を明らかにするためにデータから通常は正規化される。しかしながら、本明細書で開示された方法では、ゲノムアセンブリは、ゲノムの三次元構造を利用することができる。古典的なクロマチン捕捉相互作用パターンを、特定のループする相互作用の分析のための障害とする特徴（すなわち、その遍在性、強さ、一貫性）は、コンティグのゲノムの位置を評価するための強力なツールとして使用可能である。

特定の実施において、染色体内のリード対の間の物理的な距離の調査は、ゲノムアセンブリに関するデータのいくつかの有用な特徴を示す。第１に、距離の短い相互作用は距離の長い相互作用よりも一般的である（例えば、図６を参照）。すなわち、リード対の各リードは、ずっと遠くにある領域よりも、実際のゲノム中のすぐそばの領域と結合する可能性が高い。第２に、中距離と長距離の相互作用の長い尾部がある。すなわち、リード対は、キロベース（ｋＢ）またはメガベース（Ｍｂ）もの距離で染色体内の配置に関する情報を伝える。例えば、リード対は、約１０ｋＢ、約５０ｋＢ、約１００ｋＢ、約２００ｋＢ、約５００ｋＢ、約１Ｍｂ、約２Ｍｂ、約５Ｍｂ、約１０Ｍｂ、あるいは約１００Ｍｂ以上の大きさの配列情報を提供することができる。データのこれらの特徴は、同じ染色体上で近くにあるゲノムの領域が物理的に近接している可能性が高いことを示している－ＤＮＡ骨格によって互いに化学的に結合しているので予想された結果である。クロマチン捕捉によって生成されたデータなどのゲノム規模のクロマチン相互作用データセットが全染色体に沿った配列のグループ化と線形の組織化に関する長距離の情報を提供することになる。

クロマチン捕捉のための実験的方法は直接的で比較的廉価であるが、ゲノムアセンブリおよびハプロタイピングのための現在のプロトコルは、１０６－１０８の細胞、つまり、とりわけ特定のヒト患者サンプルから入手することができないこともある膨大な量の材料を必要とする。対照的に、本明細書に開示された方法は、細胞からの非常に少ない材料を用いる遺伝子型アセンブリ、ハプロタイプフェージング、およびメタゲノミクスに関する正確かつ予測的な結果を可能にする方法を含む。例えば、約０．１μｇ、約０．２μｇ、約０．３μｇ、約０．４μｇ、約０．５μｇ、約０．６μｇ、約０．７μｇ、約０．８μｇ、約０．９μｇ、約１．０μｇ、約１．２μｇ、約１．４μｇ、約１．６μｇ、約１．８μｇ、約２．０μｇ、約２．５μｇ、約３．０μｇ、約３．５μｇ、約４．０μｇ、約４．５μｇ、約５．０μｇ、約６．０μｇ、約７．０μｇ、約８．０μｇ、約９．０μｇ、約１０μｇ、約１５μｇ、約２０μｇ、約３０μｇ、約４０μｇ、約５０μｇ、約６０μｇ、約７０μｇ、約８０μｇ、約９０μｇ、約１００μｇ、約１５０μｇ、約２００μｇ、約３００μｇ、約４００μｇ、約５００μｇ、約６００μｇ、約７００μｇ、約８００μｇ、約９００μｇ、あるいは約１０００μｇ未満のＤＮＡを、本明細書に開示された方法と共に使用することができる。いくつかの例において、本明細書に開示された方法で使用されるＤＮＡは、約１，０００，０００、約５００，０００、約１００，０００、約５０，０００、約１０，０００、約５，０００、約１，０００、約５，０００あるいは約１，０００、約５００、あるいは約１００未満の細胞から抽出可能である。

場合によっては、ＤＮＡ分子からのＤＮＡセグメントの約８０％、６０％、５０％、４０％、３０％、２０％、１５％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、０．５％、あるいは０．１％未満が任意の他のＤＮＡ分子からのＤＮＡセグメントと連鎖している。ある場合では、ＤＮＡ分子からのＤＮＡセグメントの５０％、４０％、３０％、２０％、１５％、１０％、９％、８％、７％、６％、あるいは５％未満が任意の他のＤＮＡ分子からのＤＮＡセグメントと連鎖している。場合によっては、ＤＮＡ分子からのＤＮＡセグメントの４０％、３０％、２０％、１５％、あるいは１０％未満が任意の他のＤＮＡ分子からのＤＮＡセグメントと連鎖している。場合によっては、ＤＮＡ分子からのＤＮＡセグメントの４０％未満は、任意の他のＤＮＡ分子からのＤＮＡセグメントと連鎖している。場合によっては、ＤＮＡ分子からのＤＮＡセグメントの２０％未満は、任意の他のＤＮＡ分子からのＤＮＡセグメントと連鎖している。場合によっては、ＤＮＡ分子からのＤＮＡセグメントの１０％未満は、任意の他のＤＮＡ分子からのＤＮＡセグメントと連鎖している。

普遍的に、クロマチン捕捉技術などの染色体の物理的な配置を探索するための手順は、培養細胞または１次組織から単離されたクロマチンなどの、細胞／生命体内に形成されるクロマチンを利用する。本開示は、細胞／生命体から単離されたクロマチンを用いるそのような技術の使用だけでなく、再構成されたクロマチンも提供する。再構成されたクロマチンは、様々な特徴にわたって細胞／生命体内に形成されたクロマチンとは区別される。第１に、多くのサンプルについて、裸のＤＮＡサンプルの収集は、体液を採取すること、頬側または直腸の領域を拭き取ること、あるいは上皮のサンプルなどを採取することによるなどして、非侵襲的～侵襲的な様々な方法を用いて達成可能である。第２に、クロマチンの再構成は、ゲノムアセンブリとハプロタイプフェージング向けのアーチファクトを生成する、染色体間と他の長距離の相互作用を実質的に妨げる。場合によっては、サンプルは、本開示の方法と組成物にしたがって、約２０、１５、１２、１１、１０、９、８、７、６、５、４、３、２、１、０．５、０．４、０．３、０．２、０．１％未満の染色体間または分子間の架橋を有することがある。いくつかの例において、サンプルは約５％未満の染色体間あるいは分子間の架橋を有することがある。いくつかの例において、サンプルは約３％未満の染色体間あるいは分子間の架橋を有することがある。いくつかの例において、サンプルは約１％未満の染色体間あるいは分子間の架橋を有することがある。第３に、架橋することができる部位の頻度と、したがって、ポリヌクレオチド内での分子内架橋の頻度は、調節することができる。例えば、ヌクレオソーム密度を望ましい値に調節することができるように、ＤＮＡ対ヒストンの比率を変えることができる。場合によっては、ヌクレオソーム密度は生理的なレベル以下に減らされる。これに応じて、架橋の分布は長距離の相互作用に有利に働くように変更可能である。いくつかの実施形態において、可変の架橋密度を有するサブサンプルは、短距離と長距離のの結合を網羅するように調製されてもよい。例えば、架橋条件は、架橋の少なくとも約１％、約２％、約３％、約４％、約５％、約６％、約７％、約８％、約９％、約１０％、約１１％、約１２％、約１３％、約１４％、約１５％、約１６％、約１７％、約１８％、約１９％、約２０％、約２５％、約３０％、約４０％、約４５％、約５０％、約６０％、約７０％、約８０％、約９０％、約９５％、または約１００％がサンプルＤＮＡ分子上で少なくとも約５０ｋｂ、約６０ｋｂ、約７０ｋｂ、約８０ｋｂ、約９０ｋｂ、約１００ｋｂ、約１１０ｋｂ、約１２０ｋｂ、約１３０ｋｂ、約１４０ｋｂ、約１５０ｋｂ、約１６０ｋｂ、約１８０ｋｂ、約２００ｋｂ、約２５０ｋｂ、約３００ｋｂ、約３５０ｋｂ、約４００ｋｂ、約４５０ｋｂ、または約５００ｋｂ離れたＤＮＡセグメント間で生じるように、調節可能である。

様々な実施形態では、本開示は、複数のコンティグに対する複数のリード対のマッピングを可能にする様々な方法を提供する。コンティグ配列にリード対をマッピングするためのいくつかの市販されているコンピュータプログラムがある。これらのリード－マッピングプログラムデータは、特定のリード－マッピングがゲノム内でどれほど特有なものであるかを説明するデータを提供する。コンティグ内で高い信頼度で特有にマッピングされるリードの母集団から、我々は、各リード対のリード間の距離の分布を推測することができる。これらは図６に示されるデータである。リードが異なるコンティグに確信的にマッピングされるリード対に関して、このマッピングデータは、問題となっている２つのコンティグ間の結合を暗に意味する。それは、上に記載された分析から学習される距離の分布に比例する２つのコンティグ間の距離も暗に意味する。したがって、リードが異なるコンティグにマッピングされる各リード対は、正しいアセンブリ中のその２つのコンティグ間の結合を暗に意味する。こうしたすべてのマッピングされたリード対から推測される結合は、各コンティグが行と列の両方によって表される隣接行列でまとめられる。コンティグを結合するリード対は、リード対中のリードがマッピングされたコンティグを意味する、コンティグを表示する対応する行と列で０ではない値として示される。リード対のほとんどはコンティグ内でマッピングされ、そのことからリード対の間の距離の分布を学習することができ、および、異なるコンティグへマッピングされるリード対を用いて、そのことからコンティグの隣接行列を構築することができる。

様々な実施形態では、本開示は、リード対データからのリード－マッピングデータを使用して、コンティグの隣接行列を構築する工程を含む方法を提供する。いくつかの実施形態において、隣接行列は、長距離の相互作用よりも短距離の相互作用の傾向を組み込むリード対のための重み付けスキームを使用する（例えば、図３を参照）。短距離に及ぶリード対は一般に、より長い距離に及ぶリード対よりも一般的である。特定の距離の可能性を記載する関数は、この分布を学習するために単一のコンティグにマッピングされるリード対データを使用して調整可能である。したがって、様々なコンティグにマッピングされるリード対の１つの重要な特徴は、それらがマッピングされるコンティグ上での位置である。両方ともコンティグの１つの末端付近でマッピングされるリード対について、これらのコンティグの間の推測された距離は短くなることがあり、したがって、結合したリード間の距離は小さくなることがる。リード対間の短い距離が長い距離よりも一般的であるため、この構成は、リードマッピングがコンティグの縁から遠いという証拠よりも、これらの２つのコンティグが隣接するというより強力な証拠を提供する。したがって、隣接行列中の結合は、コンティグの縁までのリードの距離によってさらに重み付けされる。いくつかの実施形態において、隣接行列は、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接点の重みを軽減するために、再スケーリングされる。ゲノムのこうした領域は、当該領域に対するリードマッピングの高い割合を有することにより識別可能であるが、アセンブリに誤った情報を伝えるかもしれない偽性のリードマッピングを含む可能性が演繹的に高い。またさらなる実施形態では、このスケーリングは、転写リプレッサーＣＴＣＦ、内分泌受容体、コヒーシン、あるいは共有結合的に修飾されたヒストンなどのクロマチンの足場相互作用を調節する１つ以上の薬剤に関する１つ以上の保存された結合部位を探索することにより指示可能である。

いくつかの実施形態において、本開示は、順序および／またはゲノムに対する配向を表すコンティグを通る経路を決定するために隣接行列を分析する工程を含む、本明細書に開示された１つ以上の方法を提供する。他の実施形態では、各コンティグに正確に一度辿り着くように、コンティグを通る経路を選択することができる。いくつかの実施形態において、隣接行列を通る経路が辿り着いたエッジ重みの合計を最大化するように、コンティグを通る経路は選択される。この方法で、最も確実なコンティグ結合が適切なアセンブリのために提案される。またさらなる実施形態では、各コンティグに正確に一度辿り着き、隣接行列のエッジ重み付けが最大化されるように、コンティグを通る経路を選択することができる。

二倍体ゲノムにおいて、どの対立遺伝子変異体が同じ染色体上で連鎖しているかを知ることがしばしば重要である。これはハプロタイプフェージングとして知られている。ハイスループットな配列データからの短いリードでは、どの対立遺伝子変異体が連鎖しているかを直接観察することはめったにできない。ハプロタイプフェージングの計算上の推論は長距離では当てにならないことがある。本開示は、リード対上の対立遺伝子変異体を使用してどの対立遺伝子変異体が連鎖しているかを判定することを可能にする１つ以上の方法を提供する。

様々な実施形態では、本開示の方法と組成物は、複数の対立遺伝子変異体に関して二倍体または倍数体のゲノムのハプロタイプフェージングを可能にする。本明細書に記載された方法は、同じものを用いて、リード対および／またはアセンブルしたコンティグからの変異体情報に基づいて連鎖対立遺伝子変異体が連鎖していることを判定することができる。対立遺伝子変異体の例としては、限定されないが、１０００ｇｅｎｏｍｅｓ、ＵＫ１０Ｋ、ＨａｐＭａｐ、およびヒトの間の遺伝変異の発見するための他のプロジェクトから知られているものが挙げられる。特定遺伝子に対する疾患の関連性は、例えば、シャルコー・マリー・トゥースニューロパシー（ＬｕｐｓｋｉＪＲ，ＲｅｉｄＪＧ，Ｇｏｎｚａｇａ－ＪａｕｒｅｇｕｉＣ，ｅｔａｌ．Ｎ．Ｅｎｇｌ．Ｊ．Ｍｅｄ．３６２：１１８１－９１，２０１０）を引き起こすＳＨ３ＴＣ２の両方のコピー中の非連鎖の不活性化突然変異と、高コレステロール血症９（ＲｉｏｓＪ、ＳｔｅｉｎＥ、ＳｈｅｎｄｕｒｅＪ、ｅｔａｌ．Ｈｕｍ．Ｍｏｌ．Ｇｅｎｅｔ．１９：４３１３－１８、２０１０）を引き起こすＡＢＣＧ５の両方のコピー中の非連鎖の不活性化突然変異の発見によって実証されるようなハプロタイプフェージングデータを有することによりはるかに容易に明らかにすることができる。

ヒトは平均して１，０００の部位のうちの１つの部位でヘテロ接合である。場合によっては、ハイスループット配列決定方法を使用するデータの単一のレーンは、少なくとも約１５０，０００，０００のリード対を生成することができる。リード対は約１００の塩基対の長さであり得る。これらのパラメーターから、ヒトサンプルからのすべてのリードの１０分の１はヘテロ接合部位を包含すると推測される。したがって、平均して、ヒトサンプルからのすべてのリード対の１００分の１は、１対のヘテロ接合部位を包含すると推測される。これに応じて、約１，５００，０００のリード対（１５０，０００，０００の１００分の１）は、単一のレーンを使用して、フェージングデータを提供する。ヒトゲノム中およそ３０億の塩基があり、１０００のうちの１つがヘテロ接合であることから、平均的なヒトゲノムにおよそ３００万のヘテロ接合部位がある。１対のヘテロ接合部位を表す約１，５００，０００のリード対があることから、ハイスループット配列決定配列方法の単一のレーンを使用してフェージングされる各ヘテロ接合部位の平均カバレージは、典型的なハイスループット配列決定機器を使用して約（１Ｘ）である。したがって、二倍体ヒトゲノムは、本明細書に開示された方法を使用して調製されるサンプルからの配列変異体を関連づけるハイスループットな配列データの１つのレーンで確実にかつ完全にフェージング可能である。いくつかの例において、データのレーンはＤＮＡ配列リードデータのセットであり得る。いくつかの例において、データのレーンはハイスループット配列決定機器の一回の実行からのＤＮＡ配列リードデータのセットであり得る。

ヒトゲノムが染色体の２つの相同のセットからなることから、個体の正確な遺伝的構成の理解は、母方と父方のコピーの描写あるいは遺伝物質のハプロタイプを必要とする。個体におけるハプロタイプを得ることは、いくつかの方法で有用である。第一に、ハプロタイプは、臓器移植でのドナーと宿主の一致の結果を予測する際に臨床的に有用であり、疾患の関連性を検知するための手段としてますます使用されている。第二に、複合ヘテロ接合性を示す遺伝子において、ハプロタイプは、２つの有害の変異体が同じ対立遺伝子に位置しているかどうかに関する情報を提供し、これらの変異体の遺伝が有害かどうかの予測に大きな影響を与える。第三に、個体の群のからのハプロタイプは、母集団構造と人類の進化の歴史についての情報を提供してきた。最後に、遺伝子発現において最近記載された広範囲の対立形質の不均衡は、対立遺伝子間の遺伝的またはエピジェネティックな差は、発現の定量的な差に寄与することもあることを示す。ハプロタイプ構造についての理解は、対立形質の不均衡に寄与する変異体のメカニズムを描写する。

ある実施形態では、本明細書に開示された方法は、長距離の連鎖とフェージングに必要とされるゲノムの離れた領域中の結合を固定および捕捉するための技術（例えば、インビトロまたはインビボ）を含む。場合によっては、方法が、非常にゲノム的に離れたリード対を伝達するためにＸＬＲＰライブラリーを構築および配列決定する工程を含む。場合によっては、相互作用は主として単一のＤＮＡ断片内のランダムな結合から発生する。いくつかの例において、ＤＮＡ分子中で互いに密接しているセグメントは頻繁に、かつ高い確率で相互作用するため、セグメント間のゲノム距離を推論することができるが、その一方で、分子の離れた部分間の相互作用はそれほど頻繁ではない。結果的に、２つの遺伝子座を結合する対の数とインプットＤＮＡ上でのそれらの近さとの間には系統学的な関係がある。本開示は図２で実証されるように、抽出時に最大のＤＮＡ断片に及ぶことができるリード対を生成することができる。このライブラリーのためのインプットＤＮＡは１５０ｋｂｐの最大の長さを有しており、これは我々が配列決定データから観察したなかで最長の有意なリード対である。このことは、より大きなインプットＤＮＡ断片を提供されれば、本方法はよりゲノム的により離れた遺伝子座に連鎖することができることを示唆する。本方法によって生成されたデータのタイプを取り扱うのに特に適している改良されたアセンブリソフトウェアツールを適用することによって、完全なゲノムアセンブリが可能となることもある。

本開示の方法と組成物を使用して精製されたデータによって非常に高いフェージング精度を達成することができる。従来の方法と比較して、本明細書に記載された方法は、より高い割合の変異体をフェージングすることができる。フェージングは高いレベルの精度を維持しつつ達成可能である。このフェーズ情報をより長距離に、例えば、例えば、約２００ｋｂｐ、約３００ｋｂｐ、約４００ｋｂｐ、約５００ｋｂｐ、約６００ｋｂｐ、約７００ｋｂｐ、約８００ｋｂｐ、約９００ｋｂｐ、約１Ｍｂｐ、約２Ｍｂｐ、約３Ｍｂｐ、約４Ｍｂｐ、約５Ｍｂｐ、あるいは約１０Ｍｂｐ以上、伸長させることができる。いくつかの実施形態において、ヒトサンプル用のヘテロ接合ＳＮＰの９０％以上は、約２億５０００万未満のリードまたはリード対を用いて、例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑデータのたった１つのレーンを用いて、９９％を超える精度でフェージング可能である。他の場合には、ヒトサンプル用のヘテロ接合ＳＮＰの約４０％、５０％、６０％、７０％、８０％、９０％、９５％、あるいは９９％以上は、約２億５０００万あるいは約５億未満のリードまたはリード対を用いて、例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑデータのたった１つあるいは２つのレーンを用いて、約７０％、８０％、９０％、９５％、あるいは９９％を超える精度でフェージング可能である。例えば、ヒトサンプル用のヘテロ接合ＳＮＰの９５％あるいは９９％以上は、約２億５０００万あるいは５億未満のリードを用いて、約９５％あるいは９９％を超える精度でフェージング可能である。場合によっては、追加の変異体は、リード長さを、約２００ｂｐ、２５０ｂｐ、３００ｂｐ、３５０ｂｐ、４００ｂｐ、４５０ｂｐ、５００ｂｐ、６００ｂｐ、８００ｂｐ、１０００ｂｐ、１５００ｂｐ、２ｋｂｐ、３ｋｂｐ、４ｋｂｐ、５ｋｂｐ、１０ｋｂｐ、２０ｋｂｐ、５０ｋｂｐ、あるいは１００ｋｂｐまで増加させることにより、捕捉細く可能である。

本開示の他の実施形態では、ＸＬＲＰライブラリーからのデータは、長距離のリード対のフェージング能力を確認するために使用することができる。図６で示されるように、これらの結果の精度は、以前に利用可能であった最良の技術と同程度であるが、著しく長い距離にまで伸長している。特定の配列決定方法のための現在のサンプル調製プロトコルは、フェージング用の標的とされた制限部位のリード長（例えば１５０ｂｐ）内にある変異体を認識する。一例において、アセンブリのためのベンチマークサンプルであるＮＡ１２８７８のために構築されたＸＬＲＰライブラリーから、存在する１，７０３，９０９のヘテロ接合ＳＮＰの４４％は、９９％を超える精度でフェージングされた。場合によっては、制限酵素の賢明な選択、あるいは様々な酵素の組み合わせを用いて、この割合をほぼすべての可変部位に拡大可能である。

いくつかの実施形態において、本明細書に記載された組成物と方法は、メタゲノム、例えば、ヒトの腸で見られるメタゲノムの検査を可能にする。これに応じて、所定の生態学的環境に存在する一部またはすべての生命体の部分的または全体のゲノム配列を調査することができる。例としては、すべての腸微生物、皮膚の特定の領域で見られる微生物、および有毒廃棄物のある場所に住んでいる微生物のランダムな配列決定が挙げられる。これらの環境中の微生物の集団の組成は、それぞれのゲノムによってエンコードされた相互に関連する生化学の態様と同様に、本明細書に記載される組成物と方法を使用して判定可能である。本明細書に記載された方法は、複雑な生物学的環境、例えば、２、３、４、５、６、７、８、９、１０、１２、１５、２０、２５、３０、４０、５０、６０、７０、８０、９０、１００、１２５、１５０、１７５、２００、２５０、３００、４００、５００、６００、７００、８００、９００、１０００、５０００、１００００、またはそれ以上の生命体および／または生命体の変異体を含む環境からのメタゲノム研究を可能にすることができる。

癌のゲノム配列決定に必要とされる高い精度は、本明細書に記載された方法とシステムを使用して達成可能である。癌ゲノムを配列決定する際、不正確な参照ゲノムではベースコールが困難になりかねない。異種のサンプルと小さな出発物質、例えば、生検によって得られたサンプルは別の課題を引き起こす。さらに、大規模な構造変異体の検出および／またはヘテロ接合性の喪失は、体細胞の変異体とベースコールのエラーとを区別する能力と同様に、癌のゲノム配列決定にはしばしば必要不可欠である。

本明細書に記載されたシステムと方法は、２、３、４、５、６、７、８、９、１０、１２、１５、２０、あるいはそれ以上の様々なゲノムを含む複合体サンプルからの正確な長い配列を生成することがある。正常な、良性の、および／または腫瘍起原の混合サンプルは随意に、正常な対照を必要とすることなく分析されてもよい。いくつかの実施形態において、１００ｎｇほどの小さな、あるいは数百のゲノム同等物と同じくらい小さな開始サンプルを用いて、正確な長い配列を生成する。本明細書に記載されたシステムと方法は、大規模構造変異体と再配置の検出を可能にすることもあり、フェージングされた変異体コール（ｖａｒｉａｎｔｃａｌｌ）は、約１ｋｂｐ、約２ｋｂｐ、約５ｋｂｐ、約１０ｋｂｐ、２０ｋｂｐ、約５０ｋｂｐ、約１００ｋｂｐ、約２００ｋｂｐ、約５００ｋｂｐ、約１Ｍｂｐ、約２Ｍｂｐ、約５Ｍｂｐ、約１０Ｍｂｐ、約２０Ｍｂｐ、約５０Ｍｂｐ、あるいは約１００Ｍｂｐ以上のヌクレオチドに及ぶ長い配列にわたって得られることがある。例えば、フェージングされた変異体コールは、約１Ｍｂｐあるいは約２Ｍｂｐに及ぶ長い配列にわたって得られることがある。

本明細書に記載される方法とシステムを使用して決定されたハプロタイプは、計算上のリソース、例えば、クラウドシステムなどのネットワークを介する計算上のリソースに割り当てられることがある。短い変異体コールは、必要に応じて、計算上のリソースに保存される関連情報を使用して、修正可能である。構造変異体は、短い変異体コールからの組み合わせた情報と、計算上のリソースに保存された情報とに基づいて検知可能である。セグメント重複、構造的な変異の傾向のある領域、非常に可変かつ医学的に関連するＭＨＣ領域、セントロメアおよびテロメアの領域、ならびに、限定されないが、反復領域、低い配列精度、高い変異体比率、ＡＬＵ反復、セグメント重複、あるいは当該技術分野で知られている他の関連する問題のある部分を有する領域を含む他のヘテロクロマチン領域などのゲノムの問題のある部分は、精度を増加させるために再アセンブル可能である。

サンプルタイプは、ローカルに、あるいはクラウドなどのネットワークにつながれた計算上のリソースにおいて配列情報を割り当てられ得る。情報のソースが知られている場合、例えば、情報のソースが癌または正常組織からのものである場合、サンプルタイプの一部としてソースをサンプルに割り当てることができる。他のサンプルタイプの例としては、一般に、限定されないが、組織タイプ、サンプル採取方法、感染の存在、感染の種類、処理方法、サンプルのサイズなどが挙げられる。癌ゲノムとの比較における正常なゲノムなどの完全または部分的な比較ゲノム配列が利用可能である場合、サンプルデータ間と比較ゲノム配列との差を判定し、随意に出力することができる。

該方法は、所望の選択的なゲノム領域と、該選択的な領域と相互に作用することがあるゲノム領域の遺伝子情報の分析で使用される。本明細書で開示されるような増幅方法は、限定されないが、米国特許出願６，４４９，５６２号、６，２８７，７６６号、７，３６１，４６８号、７，４１４，１１７号、６，２２５，１０９号、および６，１１０，７０９号などの遺伝子解析のための当該技術分野で知られている装置、キット、および方法で使用することができる。場合によっては、本開示の増幅方法は、多形性の存在または欠如を判定するためにＤＮＡハイブリダイゼーション研究用の標的核酸を増幅するために使用可能である。多形性（すなわち対立遺伝子）は疾患または遺伝病などの疾病に関連付けられ得る。他の場合には、多形性は、疾患あるいは疾病に対する感度に関連付けられ、例えば、多形性は、中毒、変性および加齢性の疾病、癌などに関連付けられ得る。他の場合には、多形性は、冠状動脈の健康の増大、あるいはＨＩＶまたはマラリアなどの疾患に対する耐性、あるいは骨粗鬆症、アルツハイマー病、または認知症などの成人病に対する耐性といった有益な特色に関連付けられ得る。

本開示の組成物と方法を、診断、予後、治療、患者の層別化、薬剤開発、治療の選択、およびスクリーニング目的に使用することができる。本開示は、本開示の方法を使用して単一のバイオ分子サンプルから一度に多くの様々な標的分子を分析することができるという利点を備えている。これにより、例えば、複数の診断テストを１つのサンプル上で実行することが可能となる。

本開示の組成物と方法はゲノミクスで使用することができる。本明細書に記載された方法は、この用途に非常に望ましい答えを迅速に導き出すことができる。本明細書に記載された方法と組成物は、診断または予後のために、および健康と疾患の指標として使用され得るバイオマーカーを見つける過程で使用することができる。本明細書に記載された方法と組成物は、医薬品をスクリーニングするために、例えば、薬剤開発、処置の選択、処置の有効性の決定、および／または医薬開発の標的の識別のために使用することができる。タンパク質は身体中の最終的な遺伝子産物であるため、医薬品に関するスクリーニングアッセイでの遺伝子発現を試験する能力は非常に重要である。いくつかの実施形態において、本明細書に記載された方法と組成物はタンパク質と遺伝子発現の両方を同時に測定し、これは、実行されている特定のスクリーニングに関するほとんどの情報を提供する。

本開示の組成物と方法は遺伝子発現解析で使用することができる。本明細書に記載された方法は、ヌクレオチド配列を区別する。標的ヌクレオチド配列間の差は、例えば、単一の核酸塩基差、核酸欠失、核酸挿入、あるいは再配置であり得る。１つを超える塩基に関するこうした配列差も検知することができる。本開示のプロセスは感染症、遺伝子疾患、および癌を検知することができる。さらに、これは環境モニタリング、科学捜査および食品科学にも役立つ。核酸上で行うことができる遺伝子解析の例としては、例えば、ＳＮＰ検出、ＳＴＲ検出、ＲＮＡ発現解析、プロモーターメチル化、遺伝子発現、ウイルス検出、ウイルスのサブタイプ分類、および薬剤耐性を挙げることができる。

本方法は、病気の細胞型がサンプル中に存在するかどうか、その病気のステージ、患者の予後、特定の治療に応答する患者の能力、あるいは患者にとって最良の治療を判定するために、患者から得られた、または患者に由来するバイオ分子サンプルの分析にも適用可能である。本方法は特定の疾患用バイオマーカーを識別するためにも適用可能である。

いくつかの実施形態では、本明細書に開示された方法は疾病の診断で使用される。本明細書で使用されるように、「診断する」あるいは疾病の「診断」との用語は、疾病を予測または診断すること、疾病の素因を決定すること、疾病の処置をモニタリングすること、疾病の治療反応、または疾病の予後、疾病の進行、あるいは疾病の特定の処置に対する反応を診断することを含んでもよい。例えば、血液サンプルは、サンプル中の疾患あるいは悪性細胞種のマーカーの存在および／または量を決めるために本明細書に記載された方法のいずれかにしたがって分析可能である。

いくつかの実施形態では、本明細書に開示された方法と組成物は疾病の診断と予後に使用される。

多くの免疫性の、増殖性の、および悪性の疾患と障害は、本明細書に記載された方法にとりわけ影響を受けやすい。免疫性の疾患と障害はアレルギー性疾患と障害、免疫機能の障害と、自己免疫性の疾患と疾病を含んでいる。アレルギー性の疾患と障害としては、限定されないが、アレルギー性鼻炎、アレルギー性結膜炎、アレルギー性喘息、アトピー性湿疹、アトピー性皮膚炎、および食物アレルギーが挙げられる。免疫不全症としては、限定されないが、重症複合免疫不全（ＳＣＩＤ）、好酸球増加症候群、慢性肉芽腫症、Ｉ型とＩＩ型の白血球粘着不全症、高ＩｇＥ症候群、チェディアック・東症候群、好中球増加症、好中球減少症、無形成症、無ガンマグロブリン血症、高ＩｇＭ症候群、ディジョージ症候群／口蓋心臓顔面症候群、および、インターフェロンガンマ－ＴＨ１経路障害が挙げられる。自己免疫性および免疫性の調節異常障害としては、限定されないが、関節リウマチ、糖尿病、全身性エリテマトーデス、グレーブス病、グレーブス眼症、クローン病、多発性硬化症、乾癬、全身性硬化症、甲状腺腫およびリンパ性甲状腺腫（橋本甲状腺炎、リンパ節様甲状腺腫）、円形脱毛症、自己免疫性心筋炎、硬化性苔癬、自己免疫性のブドウ膜炎、アジソン病、萎縮性胃炎、重症筋無力症、特発性血小板減少性紫斑病、溶血性貧血、原発性胆汁性肝硬変、ヴェーゲナー肉芽腫症、結節性多発性動脈炎、および炎症性腸疾患（アレルギー反応から感染性の微生物、あるいは環境抗原に至る有害な同種異系移植片拒絶と組織が挙げられる。

本開示の方法によって評価され得る増殖性の疾患と障害としては、限定されないが、新生児の血管腫症；二次性進行型多発性硬化症；慢性の進行性の骨髄変性疾患；神経線維腫症；神経節神経腫症；ケロイド形成；硬骨のパジェット病；（例えば乳房または子宮の）線維嚢胞症；サルコイドーシス；ペオニー（Ｐｅｒｏｎｉｅｓ）とデュピュイトランの線維症、硬変、アテローム性動脈硬化症、および血管の再狭窄が挙げられる。

本開示の方法によって評価され得る悪性の疾患と障害は、血液系悪性腫瘍と固形腫瘍の両方を含んでいる。

こうした悪性腫瘍は、血液に生まれながらの細胞の変動を含んでいるので、血液系悪性腫瘍は、サンプルが血液サンプルである場合にとりわけ本開示の方法の影響を受けやすい。こうした悪性腫瘍は、非ホジキンリンパ腫、ホジキンリンパ腫、非Ｂ細胞リンパ腫細胞、および他のリンパ腫、急性あるいは慢性の白血病、赤血球増加、血小板血症、多発性骨髄腫、骨髄異形成障害、骨髄増殖性障害、骨髄線維症、異型の免疫のリンパ球増殖、および形質細胞障害を含む。

本開示の方法によって評価され得る形質細胞障害は、多発性骨髄腫、アミロイドーシス、およびワルデンシュトレームマクログロブリン血症を含んでいる。

固形腫瘍の例としては、限定されないが、結腸癌、乳癌、肺癌、前立腺癌、脳腫瘍、中枢神経系腫瘍、膀胱腫瘍、黒色腫、肝臓癌、骨肉腫および他の骨癌、精巣癌および卵巣癌、頭頸部腫瘍、および頸部新生物が挙げられる。

遺伝子疾患も本開示のプロセスによって検知することができる。これは、染色体異常と遺伝子異常、あるいは遺伝子疾患のための出生前または出生後スクリーニングによって実行可能である。検知できる遺伝子疾患の例は以下を含む：２１ヒドロキシラーゼ欠陥、嚢胞性線維症、脆弱Ｘ症候群、ターナー症候群、デュシェンヌ型筋ジストロフィ、ダウン症候群あるいは他のトリソミー、心臓病、単一遺伝子疾患、ＨＬＡタイピング、フェニルケトン尿症、鎌状赤血球貧血、ティサックス病、サラセミア、クラインフェルター症候群、ハンチントン病、自己免疫疾患、リピドーシス、肥満欠損、血友病、先天性代謝異常症、および糖尿病。

本明細書に記載された方法は、サンプル中の細菌またはウイルスそれぞれのマーカーの存在および／または量を決定することにより、病原体感染、例えば、細胞内の細菌とウイルスによる感染を診断するために、使用可能である。

多種多様な感染症は、本開示のプロセスによって検知することができる。感染症は細菌、ウイルス、寄生虫、および真菌による感染病原体によって引き起こされる可能性がある。医薬品に対する様々な感染病原体の耐性も本開示を使用して判定することができる。

本開示によって検知することができる細菌の感染病原体は、Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ、Ｓａｌｍｏｎｅｌｌａ、Ｓｈｉｇｅｌｌａ、ＫｌＥＳＢｉｅｌｌａ、Ｐｓｅｕｄｏｍｏｎａｓ、Ｌｉｓｔｅｒｉａｍｏｎｏｃｙｔｏｇｅｎｅｓ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｔｕｂｅｒｃｕｌｏｓｉｓ、Ｍｙｃｏｂａｃｔｅｒｉｕｍａｖｉｕｍｉｎｔｒａｃｅｌｌｕｌａｒｅ、Ｙｅｒｓｉｎｉａ、Ｆｒａｎｃｉｓｅｌｌａ、Ｐａｓｔｅｕｒｅｌｌａ、Ｂｒｕｃｅｌｌａ、Ｃｌｏｓｔｒｉｄｉａ、Ｂｏｒｄｅｔｅｌｌａｐｅｒｔｕｓｓｉｓ、Ｂａｃｔｅｒｏｉｄｅｓ、Ｓｔａｐｈｙｌｏｃｏｃｃｕｓａｕｒｅｕｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｐｎｅｕｍｏｎｉａ、Ｂ－Ｈｅｍｏｌｙｔｉｃｓｔｒｅｐ．、Ｃｏｒｙｎｅｂａｃｔｅｒｉａ、Ｌｅｇｉｏｎｅｌｌａ、Ｍｙｃｏｐｌａｓｍａ、Ｕｒｅａｐｌａｓｍａ、Ｃｈｌａｍｙｄｉａ、Ｎｅｉｓｓｅｒｉａｇｏｎｏｒｒｈｅａ、Ｎｅｉｓｓｅｒｉａｍｅｎｉｎｇｉｔｉｄｅｓ、Ｈｅｍｏｐｈｉｌｕｓｉｎｆｌｕｅｎｚａ、Ｅｎｔｅｒｏｃｏｃｃｕｓｆａｅｃａｌｉｓ、Ｐｒｏｔｅｕｓｖｕｌｇａｒｉｓ、Ｐｒｏｔｅｕｓｍｉｒａｂｉｌｉｓ、Ｈｅｌｉｃｏｂａｃｔｅｒｐｙｌｏｒｉ、Ｔｒｅｐｏｎｅｍａｐａｌｌａｄｉｕｍ、Ｂｏｒｒｅｌｉａｂｕｒｇｄｏｒｆｅｒｉ、Ｂｏｒｒｅｌｉａｒｅｃｕｒｒｅｎｔｉｓ、Ｒｉｃｋｅｔｔｓｉａｌｐａｔｈｏｇｅｎｓ、Ｎｏｃａｒｄｉａ、およびＡｃｉｔｎｏｍｙｃｅｔｅｓを含む。

本開示によって検知することができる真菌の感染病原体は、Ｃｒｙｐｔｏｃｏｃｃｕｓｎｅｏｆｏｒｍａｎｓ、Ｂｌａｓｔｏｍｙｃｅｓｄｅｒｍａｔｉｔｉｄｉｓ、Ｈｉｓｔｏｐｌａｓｍａｃａｐｓｕｌａｔｕｍ、Ｃｏｃｃｉｄｉｏｉｄｅｓｉｍｍｉｔｉｓ、Ｐａｒａｃｏｃｃｉｄｉｏｉｄｅｓｂｒａｓｉｌｉｅｎｓｉｓ、Ｃａｎｄｉｄａａｌｂｉｃａｎｓ、Ａｓｐｅｒｇｉｌｌｕｓｆｕｍｉｇａｕｔｕｓ、Ｐｈｙｃｏｍｙｃｅｔｅｓ（Ｒｈｉｚｏｐｕｓ）、Ｓｐｏｒｏｔｈｒｉｘｓｃｈｅｎｃｋｉｉ、Ｃｈｒｏｍｏｍｙｃｏｓｉｓ、およびＭａｄｕｒｏｍｙｃｏｓｉｓを含む。

本開示によって検知することができるウイルスの感染病原体は、ヒト免疫不全ウイルス、ヒトＴ細胞リンパ球向性ウイルス、肝炎ウイルス（例えば、Ｂ型肝炎ウイルスとＣ型肝炎ウイルス）、エプスタイン・バーウイルス、サイトメガロウィルス、ヒトパピローマウイルス、オルソミクソウイルス、パラミクソウイルス、アデノウイルス、コロナウイルス、ラブドウイルス、ポリオウイルス、トーガウイルス、ブニヤウイルス、アリーナウイルス、風疹ウイルス、およびレオウイルスを含む。

本開示によって検知することができる寄生虫性の薬剤は、Ｐｌａｓｍｏｄｉｕｍｆａｌｃｉｐａｒｕｍ、Ｐｌａｓｍｏｄｉｕｍｍａｌａｒｉａ、Ｐｌａｓｍｏｄｉｕｍｖｉｖａｘ、Ｐｌａｓｍｏｄｉｕｍｏｖａｌｅ、Ｏｎｃｈｏｖｅｒｖａｖｏｌｖｕｌｕｓ、Ｌｅｉｓｈｍａｎｉａ、Ｔｒｙｐａｎｏｓｏｍａｓｐｐ．，Ｓｃｈｉｓｔｏｓｏｍａｓｐｐ．，Ｅｎｔａｍｏｅｂａｈｉｓｔｏｌｙｔｉｃａ、Ｃｒｙｐｔｏｓｐｏｒｉｄｕｍ、Ｇｉａｒｄｉａｓｐｐ．，Ｔｒｉｃｈｉｍｏｎａｓｓｐｐ．，Ｂａｌａｔｉｄｉｕｍｃｏｌｉ、Ｗｕｃｈｅｒｅｒｉａｂａｎｃｒｏｆｔｉ、Ｔｏｘｏｐｌａｓｍａｓｐｐ．，Ｅｎｔｅｒｏｂｉｕｓｖｅｒｍｉｃｕｌａｒｉｓ、ＡｓｃａｒｉｓｌｕＭｂｒｉｃｏｉｄｅｓ、Ｔｒｉｃｈｕｒｉｓｔｒｉｃｈｉｕｒａ、Ｄｒａｃｕｎｃｕｌｕｓｍｅｄｉｎｅｓｉｓ、ｔｒｅｍａｔｏｄｅｓ、Ｄｉｐｈｙｌｌｏｂｏｔｈｒｉｕｍｌａｔｕｍ、Ｔａｅｎｉａｓｐｐ．，Ｐｎｅｕｍｏｃｙｓｔｉｓｃａｒｉｎｉｉ、およびＮｅｃａｔｏｒａｍｅｒｉｃａｎｉｓを含む。

さらに、本開示は感染病原体による薬剤耐性の検出にも役立つ。例えば、バイコマイシン耐性Ｅｎｔｅｒｏｃｏｃｃｕｓｆａｅｃｉｕｍ、メチシリン耐性Ｓｔａｐｈｙｌｏｃｏｃｃｕｓａｕｒｅｕｓ、ペニシリン耐性Ｓｔｒｅｐｔｏｃｏｃｃｕｓｐｎｅｕｍｏｎｉａｅ、多剤耐性Ｍｙｃｏｂａｃｔｅｒｉｕｍｔｕｂｅｒｃｕｌｏｓｉｓ、および耐ＡＺＴ性のヒト免疫不全ウイルスはすべて、本開示と同一視することができる。

したがって、本開示の組成物と方法を用いて検出された標的分子は、患者のマーカー（癌マーカーなど）、あるいは細菌またはウイルスのマーカーなどの外来性の薬剤などを用いる感染のマーカーでありうる。

本開示の組成物と方法は、その存在量が生物学的な状態または疾患状態（例えば、疾患状態の結果として上方制御または下方制御される血液マーカー）を示す、標的分子を同定および／または定量化するために使用可能である。

いくつかの実施形態において、本開示の方法と組成物をサイトカイン発現に使用することができる。本明細書に記載された方法の低感受性は、例えば、ある疾病のバイオマーカーとしてのサイトカインの早期検出、癌などの疾患の診断あるいは予後、および亜臨床的な状態の同定に有用である。

標的ポリヌクレオチドが由来する様々なサンプルは、同じ個体からの複数のサンプル、異なる個体からのサンプル、あるいはこれらの組み合わせを含むことができる。いくつかの実施形態において、サンプルは１つの個体からの複数のポリヌクレオチドを含む。いくつかの実施形態において、サンプルは２つ以上の個体からの複数のポリヌクレオチドを含む。個体は、標的ポリヌクレオチドが由来し得るあらゆる生命体あるいはその一部であり、その非限定的な例としては、植物、動物、真菌、原生生物、モネラ、ウイルス、ミトコンドリア、および葉緑体が挙げられる。サンプルのポリヌクレオチドであって、例えば、細胞を含有する培養細胞株、生検、血液サンプル、あるいは流体サンプルを含む、それから由来する細胞サンプル、組織サンプル、あるいは臓器サンプルなどのサンプルのポリヌクレオチドは、被験体から単離可能である。被験体は、限定されないが、ウシ、ブタ、マウス、ラット、トリ、ネコ、イヌなどの動物を含む任意の動物であってもよく、通常はヒトなどの哺乳動物である。サンプルは化学合成などによって人為的に由来するものであってもよい。いくつかの実施形態では、サンプルはＤＮＡを含む。いくつかの実施形態では、サンプルはゲノムＤＮＡを含む。いくつかの実施形態において、サンプルは、ミトコンドリアＤＮＡ、葉緑体ＤＮＡ、プラスミドＤＮＡ、バクテリア人工染色体、酵母人工染色体、オリゴヌクレオチドタグ、あるいはこれらの組み合わせを含む。いくつかの実施形態において、サンプルは、限定されないが、ポリメラーゼ連鎖反応（ＰＣＲ）、逆転写、およびこれらの組み合わせを含む、プライマーとＤＮＡポリメラーゼの任意の適切な組み合わせも使用するプライマー伸長反応によって生成されたＤＮＡを含む。プライマー伸長反応のための鋳型がＲＮＡである場合、逆転写の生成物は相補的ＤＮＡ（ｃＤＮＡ）と呼ばれる。プライマー伸長反応に役立つプライマーは、１つ以上の標的に特異的な配列、ランダム配列、部分的なランダム配列、およびこれらの組み合わせを含み得る。プライマー伸長反応に適している反応条件は当該技術分野で知られている。一般に、サンプルのポリヌクレオチドは、サンプル中に存在する任意のポリヌクレオチドを含み、これは標的ポリヌクレオチドを含むこともあれば、含まないこともある。

いくつかの実施形態において、核酸鋳型分子（例えば、ＤＮＡまたはＲＮＡ）は、タンパク質、脂質、および非鋳型核酸などの様々な他の成分を含有する生体サンプルから単離される。核酸鋳型分子は、動物、植物、細菌、真菌、あるいは他の細胞の生命体から得られた任意の細胞材料から得ることができる。本開示で使用される生体サンプルはウイルス粒子または調製物を含む。核酸鋳型分子は、生命体から、あるいは生命体から得られた生体サンプルから、例えば、血液、尿、脳脊髄液、精液、唾液、痰、便通、および組織から直接得ることができる。いかなる組織または体液の検体も本開示で使用される核酸のソースとして使用されてもよい。核酸鋳型分子はさらに初代細胞培養物または細胞株などの培養細胞から単離可能である。鋳型核酸が得られる細胞または組織はウイルスあるいは他の細胞内の病原体に感染することがある。サンプルはさらに、生物検体、ｃＤＮＡライブラリー、ウイルス、あるいはゲノムＤＮＡから抽出された全ＲＮＡになりえる。サンプルはさらに、非細胞起原から単離されたＤＮＡ、例えば、冷凍庫からの増幅または単離されたＤＮＡ）であってもよい。

核酸の抽出と精製のための方法は当該技術分野で周知である。例えば、核酸は、フェノール、フェノール／クロロホルム／イソアミルアルコール、あるいはＴＲＩｚｏｌおよびＴｒｉＲｅａｇｅｎｔを含む同様の製剤による有機的な抽出によって精製可能である。抽出技術の他の非限定的な例としては、以下が挙げられる：（１）有機的な抽出と、例えば、自動核酸抽出器（例えば、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（ＦｏｓｔｅｒＣｉｔｙ，Ｃａｌｉｆ．）から入手可能なＭｏｄｅｌ３４１ＤＮＡＥｘｔｒａｃｔｏｒ）を使用して、または使用せず、フェノール／クロロホルム有機試薬（Ａｕｓｕｂｅｌｅｔａｌ．，１９９３）を使用するその後のエタノール沈澱、（２）定常期吸着法（米国特許出願５，２３４，８０９；Ｗａｌｓｈｅｔａｌ．，１９９１）；および、（３）食塩誘発性の核酸沈澱法（Ｍｉｌｌｅｒｅｔａｌ．，（１９８８）、このような沈澱法は一般に「塩析」方法と呼ばれる）。核酸の分離および／または精製の別の例は、核酸が特異的または非特異的に結合し得る磁性粒子の使用と、その後の、磁石を使用し、かつビーズからの核酸を洗浄および溶出したビーズの分離を含む（例えば、米国特許出願５，７０５，６２８を参照）。いくつかの実施形態において、上記の単離方法の前に、サンプルから望ましくないタンパク質を除去しやすくする酵素消化工程、例えば、プロテイナーゼＫあるいは他の類似のプロテアーゼを用いる消化が先行することがある。例えば、米国特許出願７，００１，７２４を参照。望ましい場合、ＲＮａｓｅ阻害剤が溶解緩衝液に加えられてもよい。ある細胞またはサンプルタイプについて、タンパク質の変性／消化工程をプロトコルに加えることが望ましいこともある。精製方法はＤＮＡ、ＲＮＡ、あるいはその両方を分離することを対象とすることもある。ＤＮＡとＲＮＡが両方とも抽出手順の間または後に一緒に単離されると、一方または両方を他方とは別に精製するためにさらなる工程が採用されることもある。抽出された核酸の細画分も、例えば、サイズ、配列、あるいは他の物理的または化学的な特性ごとの精製によって、生成することができる。当初の核酸分離工程に加えて、核酸の精製は、過剰なまたは望ましくない試薬、反応物、あるいは生成物を取り除くためなどに、本開示の方法の任意の工程の後に行うことができる。

２００３年１０月９日に公開された米国特許出願公開第ＵＳ２００２／０１９０６６３Ａ１に記載されるように、核酸鋳型分子を得ることができる。一般に、核酸は、Ｍａｎｉａｔｉｓ，ｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．，ｐｐ．２８０－２８１（１９８２）に記載されるような様々な技術によって生体サンプルから抽出可能である。場合によっては、核酸を生体サンプルから最初に抽出し、その後、インビトロで架橋することができる。場合によっては、天然の結合タンパク質（例えばヒストン）を核酸からさらに取り除くことができる。

他の実施形態では、本開示は、例えば、組織、細胞培養物、体液、動物組織、植物、細菌、真菌、ウイルスなどから単離されたＤＮＡを含む任意の高分子量二本鎖ＤＮＡに容易に適用可能である。

いくつかの実施形態において、複数の独立したサンプルの各々は、少なくとも約１ｎｇ、２ｎｇ、５ｎｇ、１０ｎｇ、２０ｎｇ、３０ｎｇ、４０ｎｇ、５０ｎｇ、７５ｎｇ、１００ｎｇ、１５０ｎｇ、２００ｎｇ、２５０ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、１μｇ、１．５μｇ、２μｇ、５μｇ、１０μｇ、２０μｇ、５０μｇ、１００μｇ、２００μｇ、５００μｇ、あるいは１０００μｇ、あるいはそれ以上の核酸材料を独立して含むことができるいくつかの実施形態において、複数の独立したサンプルの各々は、約１ｎｇ、２ｎｇ、５ｎｇ、１０ｎｇ、２０ｎｇ、３０ｎｇ、４０ｎｇ、５０ｎｇ、７５ｎｇ、１００ｎｇ、１５０ｎｇ、２００ｎｇ、２５０ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、１μｇ、１．５μｇ、２μｇ、５μｇ、１０μｇ、２０μｇ、５０μｇ、１００μｇ、２００μｇ、５００μｇ、あるいは１０００μｇ以上未満の核酸を独立して含むことができる。

いくつかの実施形態において、末端修復は、ＥｐｉｃｅｎｔｒｅＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓ（Ｍａｄｉｓｏｎ，ＷＩ）から入手可能なものなどの市販のキットを用いて、平滑末端５’リン酸化された核酸末端を生成するように行われる。

アダプターオリゴヌクレオチドは、標的ポリヌクレオチドに結合可能である配列であって、その少なくとも一部が知られている配列を有する任意のオリゴヌクレオチドを含む。アダプターオリゴヌクレオチドは、ＤＮＡ、ＲＮＡ、ヌクレオチドアナログ、非古典的なヌクレオチド、標識されたヌクレオチド、修飾されたヌクレオチド、あるいはこれらの組み合わせを含み得る。アダプターオリゴヌクレオチドは、一本鎖、二本鎖、あるいは部分二本鎖であり得る。一般に、部分二本鎖アダプターは１つ以上の一本鎖領域と１つ以上の二本鎖領域を含む。二本鎖アダプターは、互いにハイブリダイズされた２つの別のオリゴヌクレオチド（「オリゴヌクレオチド二本鎖」と呼ばれる）を含むことができ、ハイブリダイゼーションは、１つ以上の平滑末端、１つ以上の３’オーバーハング、１つ以上の５’オーバーハング、ミスマッチのおよび／または不対のヌクレオチドに由来する１つ以上のバルジ、あるいはこれらの任意の組み合わせを残すこともある。いくつかの実施形態において、一本鎖のアダプターは、互いにハイブリダイズすることができる２つ以上の配列を含む。２つのこうしたハイブリダイズすることができる配列が一本鎖のアダプターに含まれている場合、ハイブリダイゼーションはヘアピン構造（ヘアピンアダプター）をもたらす。アダプターの２つのハイブリダイズされた領域がハイブリダイズされていない領域によって互いに分けられる場合、「バブル」構造がもたらされる。バブル構造を含むアダプターは、内部ハイブリダイゼーションを含む単一のアダプターオリゴヌクレオチドからなることがあり得るか、あるいは互いにハイブリダイズされた２つ以上のアダプターオリゴヌクレオチドを含むことがある。アダプター中の２つのハイブリダイズすることができる配列間などの内部配列ハイブリダイゼーションは、一本鎖アダプターオリゴヌクレオチド中に二本鎖構造を生成することができる。様々な種類のアダプターは、様々な配列のヘアピンアダプターと二本鎖アダプターなど組み合わせて使用することができる。ヘアピンアダプター中のハイブリダイズすることができる配列は、オリゴヌクレオチドの１つあるいは両方の末端を含むこともあれば、含まないこともある。末端のいずれもハイブリダイズすることができる配列に含まれない場合、両末端は「自由」であるか、あるいは「オーバーハング」している。１つの末端だけがアダプター中の別の配列とハイブリダイズ可能であるとき、もう１つの末端は、３’オーバーハングあるいは５’オーバーハングなどのオーバーハングを形成する。５’－末端ヌクレオチドと３’－末端ヌクレオチドが相補的であり、かつ互いにハイブリダイズするように、５’－末端ヌクレオチドと３’－末端ヌクレオチドの両方がハイブリダイズすることができる配列に含まれている場合、末端は「平滑」と呼ばれる。様々なアダプターは、連続した反応で、あるいは同時に、ポリヌクレオチドを標的とするために結合可能である。例えば、第１と第２のアダプターを同じ反応に加えることができる。アダプターは、標的ポリヌクレオチドと組み合わせる前に操作可能である。例えば、末端のリン酸塩は加えるかことも、取り除くこともできる。

アダプターは、限定されないが、１つ以上の増幅プライマーアニーリング配列あるいはその補体、１つ以上の配列決定プライマーアニーリング配列あるいはその補体、１つ以上のバーコード配列、複数の異なるアダプターあるいは異なるアダプターの部分集合中で共有される１つ以上の共通配列、１つ以上の制限酵素認識部位、１つ以上の標的ポリヌクレオチドオーバーハングに相補的な１つ以上のオーバーハングまたは補体、１つ以上のプローブ結合部位（例えば、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．によって開発されたような超並列配列決定のためのフローセルなどの配列決定プラットフォームとの結合などのため）、１つ以上のランダムまたはほぼランダムな配列（例えば、１つ以上の位置の２つ以上の異なるヌクレオチドのセットから任意に選択された１つ以上のヌクレオチドであって、様々なヌクレオチドの各々はランダム配列を含むアダプターのプール中で表された１つ以上の位置で選択される）、およびこれらの組み合わせを含む様々な配列要素の１つ以上を含むことができる。２つ以上の配列要素は互いに隣接していない（例えば、１つ以上のヌクレオチドによって分離されている）こともあれば、互いに隣接していることもあれば、部分的に重複していることもあれば、完全に重複していることもある。例えば、増幅プライマーアニーリング配列は配列決定プライマーアニーリング配列としても役立つことができる。配列要素は、３’末端にあるいは３’末端の近くに、あるいは５’末端に、あるいは５’末端の近くに、あるいはアダプターオリゴヌクレオチドの内部に位置することがあり得る。アダプターオリゴヌクレオチドがヘアピンなどの二次構造を形成することができる場合、配列要素は、二次構造の部分的に外部あるいは完全に外部に、二次構造の部分的に内部あるいは完全に内部に、あるいは二次構造に関与する配列の間に、位置することがある。例えば、アダプターオリゴヌクレオチドがヘアピン構造を含む場合、配列要素は、ハイブリダイズすることができる配列（「ループ」）間の配列を含む、ハイブリダイズすることができる配列（「基部」）の部分的にあるいは完全に内部または外部に位置することがあり得る。いくつかの実施形態において、様々なバーコード配列を有する複数の第１のアダプターオリゴヌクレオチド中の第１のアダプターオリゴヌクレオチドは、複数の第１のアダプターオリゴヌクレオチド中のすべての第１のアダプターオリゴヌクレオチドで共通の配列要素を含む。いくつかの実施形態において、第２のアダプターオリゴヌクレオチドはすべて、第１のアダプターオリゴヌクレオチドによって共有される共通の配列要素とは異なるすべての第２のアダプターオリゴヌクレオチド中の共通の配列要素を含む。配列要素の差は、異なるアダプターの少なくとも一部が例えば、配列長の差、１つ以上のヌクレオチドの欠失あるいは挿入、あるいは１つ以上のヌクレオチド位置でのヌクレオチド組成の変化（塩基変化または塩基修飾など）によって完全には整列しないように、任意なものであり得る。いくつかの実施形態において、アダプターオリゴヌクレオチドは、５’オーバーハング、３’オーバーハング、あるいは、１つ以上の標的ポリヌクレオチドに相補的なその両方を含む。相補的なオーバーハングは、限定されないが、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、あるいはそれ以上のヌクレオチド長さを含む長さの１つ以上のヌクレオチドであり得る。例えば、相補的なオーバーハングは、約１、２、３、４、５、あるいは６つのヌクレオチドの長さであり得る。相補的なオーバーハングは固定された配列を含むことがある。相補的なオーバーハングは、１つ以上のヌクレオチドが１つ以上の位置で２つ以上の異なるヌクレオチドのセットからランダムに選択されるように、１つ以上のヌクレオチドのランダム配列を含むことがあり、異なるヌクレオチドの各々は、ランダム配列を含む相補的なオーバーハングを有するアダプターのプールで表わされた１つ以上の位置で選択される。いくつかの実施形態において、アダプターオーバーハングは制限エンドヌクレアーゼ消化によって生成された標的ポリヌクレオチドオーバーハングに対して相補的である。いくつかの実施形態において、アダプターオーバーハングはアデニンまたはチミンからなる。

アダプターオリゴヌクレオチドは、それらが構成される１つ以上の配列要素を適合するのに十分な最小で、どんな適切な長さも持つことができる。いくつかの実施形態において、アダプターはそうである、に関して、未満で、に関して、あるいは、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、２００あるいは長さでより多くのヌクレオチドに関して以上に。いくつかの例において、アダプターは長さで約５０のヌクレオチドに約１０でありえる。いくつかの例において、アダプターは長さで約４０のヌクレオチドに約２０でありえる。

本明細書で使用されるように、用語「バーコード」は、バーコードが関連付けられているポリヌクレオチドのある特徴を同定することを可能にする既知の核酸配列を指す。いくつかの実施形態において、同定されるポリヌクレオチドの特徴はポリヌクレオチドが由来するサンプルである。いくつかの実施形態において、バーコードは、少なくとも３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、あるいはそれ以上のヌクレオチド長さであり得る。例えば、バーコードは、少なくとも１０、１１、１２、１３、１４、あるいは１５のヌクレオチド長さであり得る。いくつかの実施形態において、バーコードは、１０、９、８、７、６、５、あるいは４のヌクレオチド長さよりも短いことがある。例えば、バーコードは、１０のヌクレオチド長さよりも短いことがあり得る。いくつかの実施形態において、いくつかのポリヌクレオチドに関連付けられたバーコードは、他のポリヌクレオチドに関連付けられたバーコードとは異なる長さである。一般に、バーコードは十分な長さであり、それらが関連付けられるバーコードに基づいてサンプルの同定を可能にするのに十分に異なる配列を含む。いくつかの実施形態において、バーコードと、バーコードが関連付けられるサンプルソースは、１、２、３、４、５、６、７、８、９、１０、あるいはそれ以上のヌクレオチドの突然変異、挿入、あるいは欠失などのバーコード配列中の１つ以上のヌクレオチドの突然変異、挿入、あるいは欠失の後に、正確に同定可能である。いくつかの例において、１、２、あるいは３つのヌクレオチドを変異、挿入、および／または取り除くことができる。いくつかの実施形態において、複数のバーコード中の各バーコードは、少なくとも２、３、４、５、６、７、８、９、１０、あるいはそれ以上の位置などの少なくとも２つのヌクレオチド位置で、複数のバーコード中で１つのバーコードおきと異なる。いくつかの例において、各バーコードは、少なくとも２、３、４、あるいは５位置において１つおきのバーコードと異なることがある。いくつかの実施形態において、第１の部位と第２の部位の両方は、複数のバーコード配列の少なくとも１つを含む。いくつかの実施形態において、第２の部位のためのバーコードは、第１のアダプターオリゴヌクレオチドのためのバーコードから独立して選択される。いくつかの実施形態において、バーコードを有する第１の部位と第２の部位は対になっており、複数ペアの配列は同じまたは異なる１つ以上のバーコードを含む。いくつかの実施形態において、本開示の方法は、標的ポリヌクレオチドが結合しているバーコード配列に基づいて標的ポリヌクレオチドが由来するサンプルを同定する工程をさらに含む。一般に、バーコードは核酸配列を含むことがあり、核酸配列は、標的ポリヌクレオチドに結合すると、標的ポリヌクレオチドが由来するサンプルの識別子として役立つ。

真核生物では、ゲノムＤＮＡはクロマチンに詰められ、核内の染色体として存在する。クロマチンの基本構造単位はヌクレオソームであり、これは、ヒストン八量体の周りに巻かれたＤＮＡの１４６の塩基対（ｂｐ）からなる。ヒストン八量体は、コアヒストンＨ２Ａ－Ｈ２Ｂ二量体とＨ３－Ｈ４二量体に２つのコピーの各々からなる。ヌクレオソームは、「数珠玉構造」と一般に呼ばれるものの中でＤＮＡに沿って規則的に間隔をおいて配されている。

コアヒストンとＤＮＡのヌクレオソームへのアセンブリは、シャペロンタンパク質と関連するアセンブリ因子によって媒介される。これらの因子のほぼすべてがコアヒストン結合タンパク質である。ヌクレオソームアセンブリタンパク質－１（ＮＡＰ－１）などのヒストンシャペロンの一部は、ヒストンＨ３とＨ４への結合を優先することを示す。新しく合成されたヒストンがアセチル化され、その後、クロマチンへのアセンブリの後に脱アセチルされることが観察されている。したがって、ヒストンアセチル化あるいは脱アセチルを媒介する因子は、クロマチンアセンブリ工程において重要な役割を果たす。

一般に、２つのインビトロの方法がクロマチンの再構成またはアセンブルのために開発されてきた。１つの方法はＡＴＰとは無関係であるが、第２の方法はＡＴＰ依存性である。クロマチンを再構成するためのＡＴＰとは無関係の方法は、ＤＮＡおよびコアヒストン、ならびに、ヒストンシャペロンとして作用するためにＮＡＰ－１のようなタンパク質あるいは塩のいずれかを含んでいる。この方法は、細胞中の天然のコアヌクレオソーム粒子を正確には模倣しないＤＮＡ上のヒストンのランダム配列をもたらす。これらの粒子はしばしばモノヌクレオソームと呼ばれる。なぜなら、これらは規則的に順序付けされた、延長されたヌクレオソームアレイではなく、使用されるＤＮＡ配列は通常２５０ｂｐほど長くないからである（Ｋｕｎｄｕ，Ｔ．Ｋ．ｅｔａｌ．，Ｍｏｌ．Ｃｅｌｌ６：５５１－５６１，２０００）。長い一本のＤＮＡ配列上に順序付けされたヌクレオソームの延長アレイを生成するために、ＡＴＰ依存性のプロセスを介してクロマチンをアセンブルしなければならない。

天然のクロマチンで見られるものに類似する周期的なヌクレオソームアレイのＡＴＰ依存性のアセンブリは、ＤＮＡ配列、コアヒストン粒子、シャペロンタンパク質、およびＡＴＰを利用するクロマチンアセンブリ因子を必要とする。ＡＣＦ（ＡＴＰを利用するクロマチンアセンブリとリモデリング因子）あるいはＲＳＦ（リモデリングおよびスペーシング因子）は、後半に研究されている２つのアセンブリ因子であり、これらを用いて、インビトロのクロマチンへのヌクレオソームの順序付けされたアレイを生成する（Ｆｙｏｄｏｒｏｖ，Ｄ．Ｖ．，ａｎｄＫａｄｏｎａｇａ，Ｊ．Ｔ．ＭｅｔｈｏｄＥｎｚｙｍｏｌ．３７１：４９９－５１５，２００３；Ｋｕｎｄｕ，Ｔ．Ｋ．ｅｔａｌ．Ｍｏｌ．Ｃｅｌｌ６：５５１－５６１，２０００）。

特定の実施形態では、本開示の方法は、限定されないが、例えば、血漿、血清、および／または尿から単離された遊離ＤＮＡ；細胞および／または組織からのアポトーシス性ＤＮＡ；（例えば、ＤＮａｓｅＩおよび／または制限エンドヌクレアーゼによって）インビトロで酵素的に断片化されたＤＮＡ；および／または機械的な力（ヒドロ剪断、超音波処理、噴霧化など）によって断片化されたＤＮＡを含む、断片化された二本鎖ＤＮＡの任意のタイプに容易に適用可能である。

解析に適切な断片を生成するために、生体サンプルから得られた核酸を断片化することができる。鋳型核酸は、様々な機械的、化学的、および／または酵素的な方法を用いて所望の長さに断片化または切断されてもよい。ＤＮＡは、超音波処理、例えば、Ｃｏｖａｒｉｓ方法、ＤＮａｓｅへの短時間の暴露によって、あるいは１つ以上の制限酵素の混合物、あるいはトランスポゼースまたはニッキング酵素を用いて、ランダムに切断されてもよい。ＲＮＡはＲＮａｓｅへの短時間の暴露、熱とマグネシウム、あるいは剪断によって断片化されてもよい。ＲＮＡはｃＤＮＡに変換されてもよい。切断が使用される場合、ＲＮＡは、断片化の前または後に、ｃＤＮＡに変換されてもよい。いくつかの実施形態において、生体サンプルからの核酸は超音波処理によって断片化される。他の実施形態では、核酸はヒロド剪断機器によって断片化される。一般に、個々の核酸鋳型分子は約２ｋｂの塩基から約４０ｋｂまでであり得る。様々な実施形態では、核酸は約６ｋｂ－１０ｋｂ断片であり得る。核酸分子は一本鎖、二本鎖、あるいは一本鎖領域を有する二本鎖（例えば、基部とループ構造）であってもよい。

いくつかの実施形態において、架橋されたＤＮＡ分子は、サイズ選択工程にさらされることがある。核酸のサイズ選択は、一定のサイズよりも下または上の架橋されたＤＮＡ分子に対して行われてもよい。サイズ選択は、例えば、フリークエントカッターまたはレアカッター制限酵素を選択することにより、架橋の頻度および／または断片化方法によってさらに影響を受けることがある。いくつかの実施形態において、組成物は、約１ｋｂ～５Ｍｂ、約５ｋｂ～５Ｍｂ、約５ｋＢ～２Ｍｂ、約１０ｋｂ～２Ｍｂ、約１０ｋｂ～１Ｍｂ、約２０ｋｂ～１Ｍｂ、約２０ｋｂ～５００ｋｂ、約５０ｋｂ～５００ｋｂ、約５０ｋｂ～２００ｋｂ、約６０ｋｂ～２００ｋｂ、約６０ｋｂ～１５０ｋｂ、約８０ｋｂ～１５０ｋｂ、約８０ｋｂ～１２０ｋｂ、あるいは約１００ｋｂ～１２０ｋｂ、あるいはこれらの値のいずれかによって境界を示される任意の範囲（例えば、約１５０ｋｂ～１Ｍｂ）の範囲中のＤＮＡ分子を架橋することを含む調製方法によって調製されてもよい。

幾つかの実施形態において、サンプルのポリヌクレオチドは、１以上の特定の大きさの範囲の断片化ＤＮＡ分子の集団へと断片化される。幾つかの実施形態において、断片は、少なくとも約１、約２、約５、約１０、約２０、約５０、約１００、約２００、約５００、約１０００、約２０００、約５０００、約１０，０００、約２０，０００、約５０，０００、約１００，０００、約２００，０００、約５００，０００、約１，０００，０００、約２，０００，０００、約５，０００，０００、約１０，０００，０００、又はそれ以上の出発ＤＮＡのゲノム等価物から生成され得る。断片化は、化学的、酵素的、及び機械的な断片化を含む、当該技術分野で既知の方法により遂行され得る。幾つかの実施形態において、断片は、平均の長さが約１０～約１０，０００、約２０，０００、約３０，０００、約４０，０００、約５０，０００、約６０，０００、約７０，０００、約８０，０００、約９０，０００、約１００，０００、約１５０，０００、約２００，０００、約３００，０００、約４００，０００、約５００，０００、約６００，０００、約７００，０００、約８００，０００、約９００，０００、約１，０００，０００、約２，０００，０００、約５，０００，０００、約１０，０００，０００、又はそれ以上であるヌクレオチドを有する。幾つかの実施形態において、断片は、約１ｋｂ～約１０ｍｂの平均長さを有している。幾つかの実施形態において、断片は、約１ｋｂ～５Ｍｂ、約５ｋｂ～５Ｍｂ、約５ｋＢ～２Ｍｂ、約１０ｋｂ～２Ｍｂ、約１０ｋｂ～１Ｍｂ、約２０ｋｂ～１Ｍｂ、約２０ｋｂ～５００ｋｂ、約５０ｋｂ～５００ｋｂ、約５０ｋｂ～２００ｋｂ、約６０ｋｂ～２００ｋｂ、約６０ｋｂ～１５０ｋｂ、約８０ｋｂ～１５０ｋｂ、約８０ｋｂ～１２０ｋｂ、又は約１００ｋｂ～１２０ｋｂ、或いはこれらの値の何れかにより境界を付けた任意の範囲（例えば約６０～１２０ｋｂ）の平均長さを有している。幾つかの実施形態において、断片は、約１０Ｍｂ未満、約５Ｍｂ未満、約１Ｍｂ未満、約５００ｋｂ未満、約２００ｋｂ未満、約１００ｋｂ未満、又は約５０ｋｂ未満の平均長さを有している。他の実施形態において、断片は、約５ｋｂより長い、約１０ｋｂより長い、約５０ｋｂより長い、約１００ｋｂより長い、約２００ｋｂより長い、約５００ｋｂより長い、約１Ｍｂより長い、約５Ｍｂより長い、又は約１０Ｍｂより長い平均長さを有している。幾つかの実施形態において、破片化は、サンプルのＤＮＡ分子を音響超音波処理にさらすことを機械的に含んで、遂行される。幾つかの実施形態において、断片化は、二本鎖の核酸の破壊を生成するために、１以上の酵素に適切な条件下で１以上の酵素によりサンプルＤＮＡ分子を処理する工程を含む。ＤＮＡ断片の生成に有用な酵素の例は、配列に特異的及び配列に特異的でないヌクレアーゼを含んでいる。ヌクレアーゼの限定されない例は、ＤＮａｓｅＩ、フラグメンターゼ、制限エンドヌクレアーゼ、それらの変異体、及びそれらの組み合わせを含む。例えば、ＤＮａｓｅＩｄｅｎｏ消化は、Ｍｇ^＋＋が無い状態及びＭｎ^＋＋がある状態で、ＤＮＡ中のランダムな二本鎖の破壊を誘導することができる。幾つかの実施形態において、断片化は、１以上の制限エンドヌクレアーゼによりサンプルＤＮＡ分子を処理する工程を含む。断片化は、５’オーバーハング、３’オーバーハング、平滑末端、又はそれらの組み合わせを持つ断片を産生することができる。幾つかの実施形態において、断片化が１以上の制限エンドヌクレアーゼの使用を含むときなどのように、サンプルＤＮＡ分子の開裂は、オーバーハングに予測可能な配列を持たせる。幾つかの実施形態において、前記方法は、アガロースゲルからのカラム精製又は単離などの標準の方法を介して、断片の大きさを選択する工程を含む。

幾つかの実施形態において、断片化ＤＮＡの５’及び／又は３’のエンドヌクレオチド配列は、ライゲーション前に修飾されない。例えば、制限エンドヌクレアーゼによる断片化は、予測可能なオーバーハングを残すために使用され、その後、ＤＮＡ断片上で予測可能なオーバーハングに相補的なオーバーハングを含む核酸末端のライゲーションを行う。別の例において、予測可能な平滑末端を残す酵素による開裂を行い、その後、平滑末端を含む、アダプター、オリゴヌクレオチド、又はポリヌクレオチドなどの核酸への、平滑末端化されたＤＮＡ断片のライゲーションが行われ得る。幾つかの実施形態において、断片化ＤＮＡ分子は、アダプターに結合される前に平滑末端を持つＤＮＡ断片を産生するために、平滑末端が磨かれる（又は「末端が修復される」）。平滑末端を磨く工程は、例えばＴ４ポリメラーゼについて、３’～５’のエキソヌクレアーゼ活性及び５’～３’のポリメラーゼ活性を有するＤＮＡポリメラーゼなどの適切な酵素でのインキュベーションにより達成され得る。幾つかの実施形態において、末端の修復は、オーバーハングを生成するために、１以上のアデニン、１以上のチミン、１以上のグアニン、又は１以上のシトシンなどの１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、又はそれ以上のヌクレオチドの追加の後に行われ得る。例えば、末端の修復（ｅｎｄｐａｉｒ）は、１、２、３、４、５、又は６ヌクレオチドの追加の後に行われ得る。オーバーハングを持つＤＮＡ断片は、ライゲーション反応などにおいて、相補的なオーバーハングを持つオリゴヌクレオチド、アダプターオリゴヌクレオチド、又はポリヌクレオチドなどの１以上の核酸に結合され得る。例えば、単一のアデニンは、鋳型の独立したポリメラーゼを使用し、その後、３’末端で各々がチミンを有している１以上のアダプターへのライゲーションにより、末端を修復したＤＮＡ断片の３’末端に加えられ得る。幾つかの実施形態において、オリゴヌクレオチド又はポリヌクレオチドなどの核酸は、１以上のヌクレオチドでの３’末端の伸長、その後の５’リン酸化により修飾された平滑末端の二本鎖ＤＮＡ分子に結合され得る。場合によっては、３’末端の伸長は、マグネシウムを含有する適切な緩衝液中の１以上のｄＮＴＰの存在下で、Ｋｌｅｎｏｗポリメラーゼ又は本明細書で提供される適切なポリメラーゼの何れかなどのポリメラーゼにより、或いは、末端のデオキシヌクレオチドトランスフェラーゼの使用により、実行され得る。幾つかの実施形態において、平滑末端を持つ標的ポリヌクレオチドは、平滑末端を含む１以上のアダプターに結合される。ＤＮＡ断片の分子の５’末端のリン酸化は、例えば、ＡＴＰ及びマグネシウムを含有する適切な緩衝液においてＴ４ポリヌクレオチドキナーゼにより実行され得る。断片化ＤＮＡ分子は随意に、例えばホスファターゼなどの当該技術で既知の酵素の使用により、５’末端又は３’末端を脱リン酸化するために処理され得る。

本明細書で使用されるような用語「結合すること（ｃｏｎｎｅｃｔｉｎｇ）」、「結合すること（ｊｏｉｎｉｎｇ）」、及び「ライゲーション」は、アダプターオリゴヌクレオチド及び標的ポリヌクレオチドなどの２つのポリヌクレオチドに関して、隣接するバックボーンを持つ単一のより大きなポリヌクレオチドを生成するための、２つの別個のＤＮＡセグメントの共有結合を指す。２つのＤＮＡセグメントを結合する方法は、当該技術で知られており、限定されないが酵素的及び非酵素的（例えば化学的）な方法を含む。非酵素的であるライゲーション反応の例は、引用により本明細書に組み込まれる、米国特許第５，７８０，６１３号と第５，４７６，９３０号に記載される非酵素的ライゲーション技術を含む。幾つかの実施形態において、アダプターオリゴヌクレオチドは、リガーゼ、例えばＤＮＡリガーゼ又はＲＮＡリガーゼにより、標的ポリヌクレオチドに結合される。各々が特徴化された反応条件を持つ複数のリガーゼは、当該技術で知られており、限定されないが、ｔＲＮＡリガーゼ、ＴａｑＤＮＡリガーゼ、好熱菌ＤＮＡリガーゼ、大腸菌ＤＮＡリガーゼ、ＴｔｈＤＮＡリガーゼ、ＴｈｅｒｍｕｓｓｃｏｔｏｄｕｃｔｕｓＤＮＡリガーゼ（ＩとＩＩ）、熱安定リガーゼ、Ａｍｐｌｉｇａｓｅ熱安定ＤＮＡリガーゼ、ＶａｎＣ型リガーゼ、９°ＮＤＮＡリガーゼ、ＴｓｐＤＮＡリガーゼ、及びバイオプロスペクティングにより発見された新しいリガーゼを含む、ＮＡＤ＋依存性リガーゼ；Ｔ４ＲＮＡリガーゼ、Ｔ４ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、ＰｆｕＤＮＡリガーゼ、ＤＮＡリガーゼ１、ＤＮＡリガーゼＩＩＩ、ＤＮＡリガーゼＩＶ、及びバイオプロスペクティングにより発見された新しいリガーゼを含む、ＡＴＰ依存性リガーゼ；並びに、それらの野生型、突然変異体アイソフォーム、及び遺伝的に設計された変異体を含む。

ライゲーションは、相補的なオーバーハングなどのハイブリダイズ可能な配列を持つＤＮＡセグメント間で行われ得る。ライゲーションは２つの平滑末端間でも行われ得る。通常、５’リン酸塩がライゲーション反応に利用される。５’リン酸塩は、標的ポリヌクレオチド、アダプターオリゴヌクレオチド、又はその両方により提供され得る。５’リン酸塩は、必要に応じて、結合されるＤＮＡセグメントに加えられ、又はそこから取り除かれ得る。５’リン酸塩の追加又は除去の方法は当該技術で知られており、限定されないが酵素的及び化学的なプロセスを含んでいる。５’リン酸塩の追加及び／又は除去に役立つ酵素は、キナーゼ、ホスファターゼ、及びポリメラーゼを含んでいる。幾つかの実施形態において、ライゲーション反応において結合された２つの末端（例えば、アダプター末端及び標的ポリヌクレオチド末端）は共に、２つの共有連鎖が２つの末端を結合する際に行われるように５’リン酸塩を提供する。幾つかの実施形態において、ライゲーション反応において結合された２つの末端（例えば、アダプター末端及び標的ポリヌクレオチド末端）のうち１つだけが、１つの共有連鎖だけが２つの末端を結合する際に作られるように５’リン酸塩を提供する。

幾つかの実施形態において、標的ポリヌクレオチドの１つ又は両方の末端にある１つだけの鎖が、アダプターオリゴヌクレオチドに結合される。幾つかの実施形態において、標的ポリヌクレオチドの１つ又は両方の末端にある鎖の両方が、アダプターオリゴヌクレオチドに結合される。幾つかの実施形態において、３’リン酸塩はライゲーション前に取り除かれる。幾つかの実施形態において、アダプターオリゴヌクレオチドは、標的ポリヌクレオチドの両末端に加えられ、ここで、各末端にある１つ又は両方の鎖は、１以上のアダプターオリゴヌクレオチドに結合される。両末端にある両方の鎖がアダプターオリゴヌクレオチドに結合されると、結合は、３’末端がアダプターオリゴヌクレオチド由来の１以上のヌクレオチドを含むこともあれば含まない場合もある、対応する３’末端の伸長のための鋳型として機能し得る５’オーバーハングを残す開裂反応の後に行われ得る。幾つかの実施形態において、標的ポリヌクレオチドは、１つの末端上の第１のアダプターオリゴヌクレオチド、及び他の末端の第２のアダプターオリゴヌクレオチドに結合される。幾つかの実施形態において、標的ポリヌクレオチドの２つの末端は、単一のアダプターオリゴヌクレオチドの対向端部に結合される。幾つかの実施形態において、標的ポリヌクレオチド、及びそれが結合されるアダプターオリゴヌクレオチドは、平滑末端を含む。幾つかの実施形態において、別個のライゲーション反応は、各サンプルのために少なくとも１つのバーコード配列を含む異なる第１のアダプターオリゴヌクレオチドを使用して各サンプルのために実行され得、その結果、バーコード配列は１より多くのサンプルの標的ポリヌクレオチドに結合されない。ＤＮＡセグメント、又はそれにアダプターオリゴヌクレオチドが結合された標的ポリヌクレオチドは、結合されたアダプターにより「タグ付けされた」と考慮される。

場合によっては、ライゲーション反応は、約０．１ｎｇ／μＬ、約０．２ｎｇ／μＬ、約０．３ｎｇ／μＬ、約０．４ｎｇ／μＬ、約０．５ｎｇ／μＬ、約０．６ｎｇ／μＬ、約０．７ｎｇ／μＬ、約０．８ｎｇ／μＬ、約０．９ｎｇ／μＬ、約１．０ｎｇ／μＬ、約１．２ｎｇ／μＬ、約１．４ｎｇ／μＬ、約１．６ｎｇ／μＬ、約１．８ｎｇ／μＬ、約２．０ｎｇ／μＬ、約２．５ｎｇ／μＬ、約３．０ｎｇ／μＬ、約３．５ｎｇ／μＬ、約４．０ｎｇ／μＬ、約４．５ｎｇ／μＬ、約５．０ｎｇ／μＬ、約６．０ｎｇ／μＬ、約７．０ｎｇ／μＬ、約８．０ｎｇ／μＬ、約９．０ｎｇ／μＬ、約１０ｎｇ／μＬ、約１５ｎｇ／μＬ、約２０ｎｇ／μＬ、約３０ｎｇ／μＬ、約４０ｎｇ／μＬ、約５０ｎｇ／μＬ、約６０ｎｇ／μＬ、約７０ｎｇ／μＬ、約８０ｎｇ／μＬ、約９０ｎｇ／μＬ、約１００ｎｇ／μＬ、約１５０ｎｇ／μＬ、約２００ｎｇ／μＬ、約３００ｎｇ／μＬ、約４００ｎｇ／μＬ、約５００ｎｇ／μＬ、約８００ｎｇ／μＬ、約６００ｎｇ／μＬ、又は約１０００ｎｇ／μＬのＤＮＡセグメント又は標的のポリヌクレオチドの濃度で実行され得る。例えば、ライゲーションは、約１００ｎｇ／μＬ、約１５０ｎｇ／μＬ、約２００ｎｇ／μＬ、約３００ｎｇ／μＬ、約４００ｎｇ／μＬ、又は約５００ｎｇ／μＬのＤＮＡセグメント又は標的ポリヌクレオチドの濃度で実行され得る。

場合によっては、ライゲーション反応は、約０．１～１０００ｎｇ／μＬ、約１～１０００ｎｇ／μＬ、約１～８００ｎｇ／μＬ、約１０～８００ｎｇ／μＬ、約１０～６００ｎｇ／μＬ、約１００～６００ｎｇ／μＬ、又は約１００～５００ｎｇ／μＬのＤＮＡセグメント又は標的ポリヌクレオチドの濃度で実行され得る。

場合によっては、ライゲーション反応は、約５分、約１０分、約２０分、約３０分、約４０分、約５０分、約６０分、約９０分、約２時間、約３時間、約４時間、約５時間、約６時間、約８時間、約１０時間、約１２時間、約１８時間、約２４時間、約３６時間、約４８時間、又は約９６時間よりも長い間、実行され得る。他の場合、ライゲーション反応は、約５分、約１０分、約２０分、約３０分、４０分、約５０分、約６０分、約９０分、約２時間、約３時間、約４時間、約５時間、約６時間、約８時間、約１０時間、約１２時間、約１８時間、約２４時間、約３６時間、約４８時間、又は約９６時間未満にわたり実行され得る。例えば、ライゲーション反応は約３０分～約９０分の間、実行され得る。幾つかの実施形態において、標的ポリヌクレオチドへのアダプターの結合は、アダプター由来のヌクレオチド配列を含む３’オーバーハングを持つ、結合産物のポリヌクレオチドを産生する。

幾つかの実施形態において、標的ポリヌクレオチドに少なくとも１つのアダプターオリゴヌクレオチドを結合した後、１つ以上の標的ポリヌクレオチドの３’末端は、鋳型として１つ以上の結合されたアダプターオリゴヌクレオチドを使用して伸長される。例えば、標的ポリヌクレオチドの５’末端のみに結合される、２つのハイブリダイズされたオリゴヌクレオチドを含むアダプターは、鋳型としてアダプターの結合された鎖を使用して、標的の結合していない３’末端の伸長を可能にし、それと同時に又はその後に、結合していない鎖の変位を可能にする。２つのハイブリダイズされたオリゴヌクレオチドを含むアダプターの両方の鎖は、標的ポリヌクレオチドに結合され得、その結果、結合された産物は５’オーバーハングを持ち、相補的な３’末端は鋳型として５’オーバーハングを使用することで伸長され得る。更なる例として、ヘアピンアダプターオリゴヌクレオチドは、標的ポリヌクレオチドの５’末端に結合され得る。幾つかの実施形態において、伸長される標的ポリヌクレオチドの３’末端は、アダプターオリゴヌクレオチドから１つ以上のヌクレオチドを含む。アダプターが両末端上で結合される標的ポリヌクレオチドについて、伸長は、５’オーバーハングを持つ二本鎖標的ポリヌクレオチドの３’末端の両方に対し行われ得る。この３’末端の伸長、又は「充填（ｆｉｌｌ－ｉｎ）」反応は、鋳型へハイブリダイズされるアダプターオリゴヌクレオチドの鋳型に、相補配列又は「補体」を生成し、それにより、二本鎖配列領域を生成するために５’オーバーハングを充填する。二本鎖標的ポリヌクレオチドの両端が相補鎖の３’末端の伸長により充填される５’オーバーハングを持つ場合、生成物は完全に二本鎖である。伸長は、ＤＮＡポリメラーゼなどの当該技術分野で既知の任意の適切なポリメラーゼにより行なわれ、それらの多くは市販で入手可能である。ＤＮＡポリメラーゼは、ＤＮＡ依存性ＤＮＡポリメラーゼ活性、ＲＮＡ依存性ＤＮＡポリメラーゼ活性、又はＤＮＡ依存性且つＲＮＡ依存性のＤＮＡポリメラーゼ活性を含み得る。ＤＮＡポリメラーゼは熱安定性又は非熱安定性であり得る。ＤＮＡポリメラーゼの例は、限定されないが、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、Ｐｗｏポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、Ｐｈｏポリメラーゼ、ＥＳ４ポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、ＥＸ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｑポリメラーゼ、Ｅｘｐａｎｄポリメラーゼ、ＰｌａｔｉｎｕｍＴａｑポリメラーゼ、Ｈｉ－Ｆｉポリメラーゼ、Ｔｂｒポリメラーゼ、Ｔｆｌポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、Ｋｌｅｎｏｗ断片、及びそれらの変異体、修飾した産物、及び誘導体を含み、３’末端の伸長は、独立したサンプルから標的ポリヌクレオチドをプールする前又は後に実行され得る。

特定の実施形態において、本開示は、標的核酸の富化及び標的核酸の解析のための方法を提供する。場合によっては、富化の方法は、溶液ベースのフォーマットである。場合によっては、標的核酸は標識剤で標識され得る。他の場合、標的核酸は、標識剤で標識される１つ以上の会合分子に架橋され得る。標識剤の例は、限定されないが、ビオチン、ポリヒスチジン標識、及び化学標識（例えば、クリックケミストリー方法に使用されるアルキン及びアジドの誘導体）を含む。更に、標識された標的核酸が捕捉され、それにより捕捉剤の使用によって富化され得る。捕捉剤は、ストレプトアビジン及び／又はアビジン、抗体、化学部分（例えばアルキン、アジド）、及び当該技術分野で既知のアフィニティー精製に使用される任意の生物学的、化学的、物理的、又は酵素的な薬剤であり得る。

場合によっては、固定された又は固定されない核酸プローブが、標的核酸を捕らえるために使用され得る。例えば、標的核酸は、固体支持体上で、又は溶液中でのプローブへのハイブリダイゼーションにより、サンプルから富化され得る。幾つかの例において、サンプルはゲノムサンプルであり得る。幾つかの例において、プローブはアンプリコンであり得る。アンプリコンは予め定められた配列を含み得る。更に、ハイブリダイズされた標的核酸は、プローブから洗浄及び／又は溶出され得る。標的核酸はＤＮＡ、ＲＮＡ、ｃＤＮＡ、又はｍＲＮＡの分子であり得る。

場合によっては、富化方法は、標的核酸を含むサンプルをプローブに接触させる工程、及び標的核酸を固体支持体に結合させる工程を含み得る。場合によっては、サンプルは、標的核酸を得るための化学的、物理的、又は酵素的な方法を使用して断片化され得る。場合によっては、プローブは、標的核酸へと特異的にハイブリダイズされ得る。場合によっては、標的核酸は、平均の大きさが約５０～５０００、約５０～２０００、約１００～２０００、約１００～１０００、約２００～１０００、約２００～８００、約３００～８００、約３００～６００、又は約４００～６００のヌクレオチド残基を有し得る。標的核酸は更に、サンプル中の結合されていない核酸から分離され得る。固体支持体は、富化された標的核酸を得るために洗浄及び／又は溶出され得る。幾つかの例において、富化工程は約１、２、３、４、５、６、７、８、９、又は１０回繰り返され得る。例えば、富化工程は約１、２、又は３回繰り返され得る。

場合によっては、富化方法は、プローブ由来のアンプリコンを提供する工程を含み、ここで、増幅のためのプローブは固体支持体に結合されている。固体支持体は、サンプルから特定の標的核酸を捕捉するために支持体に固定された核酸プローブを含み得る。プローブ由来のアンプリコンは、標的核酸にハイブリダイズされ得る。プローブアンプリコンへのハイブリダイゼーションの後、サンプル中の標的核酸は、捕捉されたプローブからハイブリダイズされた標的核酸を捕捉し（例えばビオチンや抗体などとしての捕捉剤を介して）、且つ洗浄及び／又は溶出することにより、富化され得る（図４）。標的核酸配列は更に、例えば富化されたＰＣＲ産物の増幅されたプールを産生するためのＰＣＲ方法を使用して、増幅され得る。

場合によっては、固体支持体は、マイクロアレイ、スライド、チップ、マイクロウェル、カラム、チューブ、粒子、又はビードであり得る。幾つかの例において、固体支持体は、ストレプトアビジン及び／又はアビジンで覆われ得る。他の例において、固体支持体は抗体で覆われ得る。更に、固体支持体は、ガラス、金属、セラミック、又は高分子材料を含み得る。幾つかの実施形態において、固体支持体は核酸マイクロアレイ（例えばＤＮＡマイクロアレイ）であり得る。他の実施形態において、固体支持体は常磁性ビーズであり得る。

場合によっては、富化方法は、第２の制限酵素での消化、セルフライゲーション（例えば自己環状化（ｓｅｌｆ－ｃｉｒｃｕｌａｒｉｚａｔｉｏｎ））、及び元々の制限酵素での再消化を含み得る。特定の例において、ライゲーション産物のみが直線化され、アダプターライゲーション及び配列決定に利用可能である。他の場合、ライゲーション結合配列自体は、結合配列に相補的な（ｃｏｍｐｌｉｍｅｎｔａｒｙ）ベイトプローブ（ｂａｉｔ－ｐｒｏｂｅ）を使用したハイブリダイゼーションベースの富化に使用され得る。

特定の実施形態において、本開示は、富化されたＤＮＡを増幅する方法を提供する。場合によっては、富化されたＤＮＡはリード対である。リード対は、本開示の方法により得ることができる。

幾つかの実施形態において、１以上の増幅及び／又は複製の工程が、配列決定されるべきライブラリーの調製のために使用される。当該技術分野で既知の任意の増幅方法が使用されてもよい。使用され得る増幅技術の例は、限定されないが、定量ＰＣＲ、定量蛍光ＰＣＲ（ＱＦ－ＰＣＲ）、多重蛍光ＰＣＲ（ＭＦ－ＰＣＲ）、リアルタイムＰＣＲ（ＲＴＰＣＲ）、単細胞ＰＣＲ、制限断片長多型ＰＣＲ（ＰＣＲ－ＲＦＬＰ）、ＰＣＫ－ＲＦＬＰＩＲＴ－ＰＣＲ－ＩＲＦＬＰ、ホットスタートＰＣＲ、ネステッドＰＣＲ、インサイツポロニーＰＣＲ、インサイツローリングサークル増幅（ＲＣＡ）、架橋ＰＣＲ、ライゲーションで媒介されたＰＣＲ、Ｑｂレプリカーゼ増幅、逆ＰＣＲ、ピコタイターＰＣＲ、及びエマルジョンＰＣＲを含む。他の適切な増幅方法は、リガーゼ連鎖反応（ＬＣＲ）、転写増幅、自家持続配列複製法、標的ポリヌクレオチド配列の選択的な増幅、コンセンサス配列プライムポリメラーゼ連鎖反応（ＣＰ－ＰＣＲ）、任意プライムポリメラーゼ連鎖反応（ＡＰ－ＰＣＲ）、縮重オリゴヌクレオチドプライムＰＣＲ（ＤＯＰ－ＰＣＲ）、及び核酸塩基配列増幅（ＮＡＢＳＡ）を含む。本明細書で使用され得る他の増幅方法は、米国特許第５，２４２，７９４号；第５，４９４，８１０号；第４，９８８，６１７号；及び第６，５８２，９３８号に記載されるものを含む。

特定の実施形態において、ＰＣＲは、ＤＮＡ分子が個々の区分へ分配された後でＤＮＡ分子を増幅するために使用される。場合によっては、増幅アダプター内の１以上の特異的なプライミング配列が、ＰＣＲ増幅のために利用される。増幅アダプターは、個々の区分への分配の前又は後に、断片化ＤＮＡ分子に連結され得る。両末端上で適切なプライミング配列を持つ増幅アダプターを含むポリヌクレオチドは、指数関数的に増幅されたＰＣＲであり得る。適切なプライミング配列を１つしかもたないポリヌクレオチドは、例えば、プライミング配列を含む増幅アダプターの不完全なライゲーション効果が原因で、直線的な増幅を受けるだけの場合もある。更に、適切なプライミング配列を含むアダプターが連結されない場合、ポリヌクレオチドは、増幅、例えばＰＣＲ増幅から一斉に取り除かれ得る。幾つかの実施形態において、ＰＣＲサイクルの数は１０－３０の間で変動するが、９、８、７、６、５、４、３、２、又はそれ以下にまで低くなるか、或いは４０、４５、５０、５５、６０、又はそれ以上にまで高くなり得る。その結果、適切なプライミング配列を持つ増幅アダプターを運ぶ指数関数的に増幅可能な断片は、ＰＣＲ増幅の後、直線的に増幅可能又は増幅可能でない断片と比較して、はるかに高い（１０００倍以上）濃度で存在し得る。全体のゲノム増幅技術（無作為化されたプライマーでの増幅、又はｐｈｉ２９ポリメラーゼを使用する複数の変位増幅（ＭｕｌｔｉｐｌｅＤｉｓｐｌａｃｅｍｅｎｔＡｍｐｌｉｆｉｃａｔｉｏｎ）など）と比較しての、ＰＣＲの利点は、限定されないが、より均一な相対配列の適用範囲（各断片が１つのサイクル当たり最大１回コピーされ得るため、及び増幅が熱サイクルプログラムにより制御されるため）、例えばＭＤＡよりも実質的に低い速度のキメラ分子の形成（Ｌａｓｋｅｎｅｔａｌ．，２００７，ＢＭＣＢｉｏｔｅｃｈｎｏｌｏｇｙ）（キメラ分子が、より速い速度のミスアセンブリ又は非常に不明瞭且つ断片化されたアセンブリを結果としてもたらす、アセンブリグラフにおいて非生物学的配列を提示することにより正確な配列アセンブリに関する著しい問題を提起するため）、特異的な配列を持つ特異的なプライミング部位の使用に対してＭＤＡにおいて共通して使用される無作為化されたプライマーの結合から結果として生じ得る減少した配列に特異的なバイアス、ＰＣＲサイクルの数の選択により制御され得る最終の増幅されたＤＮＡ産物の量におけるより高い再現性、及び、当該技術分野で既知の共通の全体のゲノム増幅技術と比べるとＰＣＲにおいて共通して使用されるポリメラーゼを用いた複製におけるより高い忠実度を含む。

幾つかの実施形態において、充填反応は、第１及び第２のプライマーを使用した１つ以上の標的ポリヌクレオチドの増幅の後、又はその一部として実行され、ここで、第１のプライマーは、第１のアダプターオリゴヌクレオチドの１つ以上の補体の少なくとも一部にハイブリダイズされる配列を含み、更に、第２のプライマーは、第２のアダプターオリゴヌクレオチドの１つ以上の補体の少なくとも一部にハイブリダイズされる配列を含む。
第１及び第２のプライマーの各々は、任意の適切な長さ、約１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、又は１００以上、或いはそれら未満、又はそれらより長いヌクレオチドであり、その一部又は全ては、対応する標的配列に相補的であり得る（例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、又は５０以上、或いはそれら未満、又はそれらより長いヌクレオチド）。例えば、約１０～５０のヌクレオチドが対応する標的配列に相補的であり得る。

場合によっては、増幅アダプターは、ライブラリー生成プロセスに使用される。増幅アダプターは、部分的に逆の相補性を共有するオリゴマー対であり、それによりオリゴマー対は、二本鎖部分と一本鎖部分の両方を持つ分子を形成するためにアニールされ得る。増幅アダプターの使用により、ライブラリー分子の各末端へ別個のアニール化標的を連結することができる。増幅アダプターの単一の一本鎖部分が、逆相補的ではない配列を含むため、増幅アダプターの一本鎖アームの一方又は他方、或いは他方の逆相補性にのみアニールするプライマーが利用可能である。従って、増幅アダプターは、ライブラリー分子の第１の末端に第１の別個のプライマー結合部位を加え、且つライブラリー分子の第２の末端に第２の別個のプライマー結合部位を加えることを可能にする。

増幅アダプターの生成に適切なオリゴは、以下に示される（＊はホスホロチオエート結合である）。オリゴはＰ５／Ｐ７の対として列挙され、各Ｐ７オリゴは、それに直接先行するＰ５オリゴで作用するように合成される。各対について、Ｐ５オリゴのホスホチオエート結合接合の前の最後の１０のヌクレオチド塩基は、第２のオリゴの／５Ｐｈｏｓ／の後の第１の１０の塩基に逆相補的である。

「増幅」は、標的配列のコピー数が増大される任意のプロセスを指す。場合によっては、複製反応は、ポリヌクレオチドの単一の相補的なコピー／レプリカのみを産生し得る。標的ポリヌクレオチドの、プライマーに向けられた増幅のための方法は当該技術分野で知られており、限定されないがポリメラーゼ連鎖反応（ＰＣＲ）に基づく方法を含む。当該技術分野で既知のＰＣＲによる標的配列の増幅に好ましい条件は、プロセスにおける様々な工程にて最適化され、且つ、標的のタイプ、標的の濃度、増幅される配列の長さ、標的及び／又は１つ以上のプライマーの配列、プライマーの長さ、プライマーの濃度、使用するポリメラーゼ、反応量、１以上の要素と１以上の他の要素のとの比率、及びその他などの反応における要素の特徴に依存し、それらの一部又は全ては変更され得る。一般に、ＰＣＲは、（二本鎖の場合に）増幅される標的の変性、１つ以上のプライマーの標的へのハイブリダイゼーション、及びＤＮＡポリメラーゼによるプライマーの伸長の工程を含み、工程は、標的配列を増幅するために繰り返される（又は「サイクルされる」）。このプロセスにおける工程は、収量を増強するために、擬似的な産物の形成を減らすために、及び／又はプライマーのアニーリングの特異性を増加又は減少させるためになど、様々な結果について最適化され得る。最適化の方法は当該技術分野で周知であり、及び、増幅反応における要素のタイプ又は量に対する、及び／又は、特定の工程での温度、特定の工程の持続時間、及び／又はサイクルの数など、プロセスにおける与えられた工程の条件に対する調整を含んでいる。

幾つかの実施形態において、増幅反応は、少なくとも約５、１０、１５、２０、２５、３０、３５、４０、５０、６０、７０、８０、９０の、１００、１５０、２００、又はそれ以上のサイクルを含み得る。幾つかの例において、増幅反応は、少なくとも約２０、２５、３０、３５、又は４０のサイクルを含み得る。幾つかの実施形態において、増幅反応は、ほんの約５、１０、１５、２０、２５、３５、４０、５０、６０、７０、８０、９０、１００、１５０、２００、又はそれ以上のサイクルを含む。サイクルは、１、２、３、４、５、６、７、８、９、１０、又はそれ以上の工程など、任意の数の工程を含み得る。工程は、３’末端の伸長（例えば、アダプター充填）、プライマーのアニーリング、プライマーの伸長、及び鎖の変性を含むがこれらに限定されない、与えられた工程の目的を達成するのに適切な温度又は温度の勾配を含む。工程は任意の持続時間であり、限定されないが、約１、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、７０、８０、９０、１００、１２０、１８０、２４０、３００、３６０、４２０、４８０、５４０、６００、１２００、１８００以上、或いはそれら未満又はそれらより多くを含む。異なる工程を含む任意の数のサイクルは、任意の順で組み合わされ得る。幾つかの実施形態において、異なる工程を含む異なるサイクルが組み合わせられ、その結果、組み合わせにおけるサイクルの総数は、約５、１０、１５、２０、２５、３０、３５、４０、５０、６０、７０、８０、９０の、１００、１５０、又は２００以上、或いはそれら未満又はそれらより多くのサイクルである。幾つかの実施形態において、増幅は充填反応の後に行なわれる。

幾つかの実施形態において、増幅反応は、少なくとも約１、２、３、４、５、６、７、８、９、１０、１２、１４、１６、１８、２０、２５、３０、４０、５０、１００、２００、３００、４００、５００、６００、８００、１０００ｎｇの標的ＤＮＡ分子の上で行なわれ得る。他の実施形態において、増幅反応は、約１、２、３、４、５、６、７、８、９、１０、１２、１４、１６、１８、２０、２５、３０、４０、５０、１００、２００、３００、４００、５００、６００、８００、１０００ｎｇ未満の標的ＤＮＡ分子の上で行なわれ得る。

増幅は、独立したサンプルから標的ポリヌクレオチドをプールする前又は後に実行され得る。

本開示の方法は、サンプルに存在する増幅可能な核酸の量を判定する工程を含む。任意の既知の方法は増幅可能な核酸を定量化するために使用され典型的な方法はポリメラーゼ連鎖反応（ＰＣＲ）、具体的に定量的ポリメラーゼ連鎖反応（ｑＰＣＲ）である。ｑＰＣＲはポリメラーゼ連鎖反応に基づく技術であり、標的とされた核酸分子を増幅し且つ同時に定量化するために使用される。ｑＰＣＲは、ＤＮＡサンプル中の特異的配列の検出及び定量化（ＤＮＡ入力又は追加の標準化遺伝子へと標準化された時のコピー又は相対量の絶対数として）の両方を可能にする。手順は、増幅されたＤＮＡが各増幅サイクルの後にリアルタイムでの反応において蓄積すると定量化される付加的な特徴と共に、ポリメラーゼ連鎖反応の共通の原理に従う。ＱＰＣＲは、例えば、Ｋｕｒｎｉｔら（米国特許第６，０３３，８５４号）、Ｗａｎｇら（米国特許第５，５６７，５８３号及び第５，３４８，８５３号）、Ｍａら（ＴｈｅＪｏｕｒｎａｌｏｆＡｍｅｒｉｃａｎＳｃｉｅｎｃｅ，２（３），２００６）、Ｈｅｉｄら（ＧｅｎｏｍｅＲｅｓｅａｒｃｈ９８６－９９４，１９９６）、Ｓａｍｂｒｏｏｋ及びＲｕｓｓｅｌｌ（ＱｕａｎｔｉｔａｔｉｖｅＰＣＲ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＰｒｏｔｏｃｏｌｓ，２００６）、及びＨｉｇｕｃｈｉ（米国特許第６，１７１，７８５号及び第５，９９４，０５６号）に記載されている。これらの内容は、全体において本明細書での引用により組み込まれる。

定量化の他の方法は、二本鎖ＤＮＡで挿入する蛍光染料、及び、相補的ＤＮＡでハイブリダイズされた時に蛍光を発する修飾されたＤＮＡオリゴヌクレオチドプローブの使用を含む。これらの方法は広く使用することができるが、具体的には一例として更に詳細に記載されるようなリアルタイムＰＣＲにも適している。第１の方法において、ＤＮＡ結合染料はＰＣＲにおいて全ての二本鎖（ｄｓ）ＤＮＡに結合し、その結果染料の蛍光が生じる。それ故、ＰＣＲ中のＤＮＡ産物の増加は、蛍光強度の増加を引き起こし、各サイクルにて測定され、故にＤＮＡ濃度の定量化を可能にする。反応は、蛍光性の（ｄｓ）ＤＮＡ染料の追加により、標準ＰＣＲ反応へと同様に調製される。反応はサーモサイクラー中で実行される、各サイクルの後、蛍光のレベルが検出器で比較される；（ｄｓ）ＤＮＡ（即ちＰＣＲ産物）に結合された時、染料は蛍光を発するのみである。標準稀釈液に関して、ＰＣＲにおける（ｄｓ）ＤＮＡ濃度が測定され得る。他のリアルタイムＰＣＲ方法のように、得られた値は、その値に関連する絶対単位を持たない。測定されたＤＮＡ／ＲＮＡサンプルと標準稀釈液との比較は、標準に相対的なサンプルの画分又は比率をもたらして、異なる組織又は実験条件の間の相対的な比較を可能にする。標的遺伝子の定量化及び／又は発現における正確性を確保することは、安定して発現された遺伝子に関して標準化され得る。未知の遺伝子のコピー数は、既知のコピー数の遺伝子に対して同様に標準化され得る。

第２の方法は、プローブ配列を含有するＤＮＡのみを定量化するために配列に特異的なＲＮＡ又はＤＮＡに基づくプローブを使用し；それ故、レポータープローブの使用は、特異性を著しく増大させ、幾つかの非特異的なＤＮＡ増幅の存在下でさえも定量化を可能にする。これにより、多重化、即ち、異なるように色を付けられた標識を伴う特異的なプローブにより同じ反応における様々な遺伝子についてのアッセイを可能にするが、但し、全ての遺伝子は同様の効果で増幅されるものとする。

この方法は、プローブの一端では蛍光レポーター（例えば６－カルボキシフルオレセイン）、及び対向端ではクエンチャー（例えば６－カルボキシ－テトラメチルローダミン）を持つＤＮＡベースのプローブで共通して実行される。クエンチャーに対するレポーターの近接性は、その蛍光の検出を妨げる。ポリメラーゼ（例えばＴａｑポリメラーゼ）の５’～３’のエキソヌクレアーゼ活性によるプローブの破壊は、レポーター－クエンチャーの近接性を破壊し、故に検出され得る蛍光のクエンチされていない発光を可能にする。各ＰＣＲサイクルにてレポータープローブにより標的とされる産物の増加の結果、プローブの破壊及びレポーターの放出に起因した蛍光の比例的な増加が生じる。反応は標準ＰＣＲ反応へと同様に調製され、レポータープローブが加えられる。反応が始まると、ＰＣＲのアニーリング段階中に、プローブとプライマーの両方がＤＮＡ標的へとアニールされる。新しいＤＮＡ鎖の重合はプライマーから始まり、一旦ポリメラーゼがプローブに到達すると、その５’－３’－エキソヌクレアーゼは、プローブを分解し、クエンチャーから蛍光レポーターを物理的に分離して、結果として蛍光の増加をもたらす。蛍光はリアルタイムＰＣＲサーモサイクラーにおいて検出且つ測定され、産物の指数関数的な増加に対応する蛍光の幾何学的な増加は、各反応における閾値サイクルを判定するために使用される。

反応の対数期中に存在するＤＮＡの相対濃度は、対数尺度上でのサイクル数に対する蛍光をプロットすることにより判定される（そのため、指数関数的に増大する量は直線をもたらす）。バックグラウンドの上の蛍光の検出のための閾値が判定される。サンプルからの蛍光が閾値にわたるサイクルは、サイクル閾値、Ｃｔと称される。ＤＮＡの量は対数期中の全てのサイクルで二倍になるため、ＤＮＡの相対量を計算することができ、例えば、他のものよりも早い３つのサイクルのＣ_ｔを持つサンプルは、２^３＝８倍以上の鋳型を持つ。その後、核酸（例えばＲＮＡ又はＤＮＡ）の量は、結果を既知量の核酸の連続希釈のリアルタイムＰＣＲにより産生された標準曲線（例えば、希釈無し、１：４、１：１６、１：６４）と比較することにより判定される。

特定の実施形態において、ｑＰＣＲ反応は、蛍光共鳴エネルギー転移（ＦＲＥＴ）、例えばＬＩＧＨＴＣＹＣＬＥＲハイブリダイゼーションプローブを利用する２重のフルオロフォア方法を含んでおり、そこでは２つのオリゴヌクレオチドプローブがアンプリコンへとアニールされる（例えば、米国特許第６，１７４，６７０号を参照）。オリゴヌクレオチドは、効果的なエネルギー転移に適合する距離で分離されたフルオロフォアで頭－尾の配向においてハイブリダイズするように設計される。核酸に結合された又は伸長産物に組み込まれた時にシグナルを発するように構造化される標識化オリゴヌクレオチドの他の例は、以下を含む：ＳＣＯＲＰＩＯＮＳプローブ（例えば、Ｗｈｉｔｃｏｍｂｅｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１７：８０４－８０７，１９９９、及び米国特許第６，３２６，１４５号）、Ｓｕｎｒｉｓｅ（又はＡＭＰＬＩＦＬＯＵＲ）プライマー（例えば、Ｎａｚａｒｅｎｋｏｅｔａｌ．，Ｎｕｃ．ＡｃｉｄｓＲｅｓ．２５：２５１６－２５２１，１９９７、及び米国特許第６，１１７，６３５号）、及びＬＵＸプライマー並びにＭＯＬＥＣＵＬＡＲＢＥＡＣＯＮＳプローブ（例えば、Ｔｙａｇｉｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１４：３０３－３０８，１９９６及び米国特許第５，９８９，８２３号）。

他の実施形態において、ｑＰＣＲ反応は、蛍光Ｔａｑｍａｎの方法、及びリアルタイムで蛍光を測定することが可能な機器（例えば、ＡＢＩＰｒｉｓｍ７７００ＳｅｑｕｅｎｃｅＤｅｔｅｃｔｏｒ）を用いる。Ｔａｑｍａｎ反応は、２つの異なる蛍光染料で標識されるハイブリダイゼーションプローブを使用する。一方の染料はレポーター染料（６－カルボキシフルオレセイン）であり、他方はクエンチ染料（６－カルボキシ－テトラメチルローダミン）である。プローブが無傷の場合、蛍光エネルギー転移が生じ、レポーター染料の蛍光的な発光がクエンチ染料により吸収される。ＰＣＲサイクルの伸長段階中に、蛍光ハイブリダイゼーションプローブは、ＤＮＡポリメラーゼの５’－３’の核酸分解活性により切断される。プローブの切断時に、レポーター染料の発光はこれ以上クエンチ染料へと効率的に転移されず、その結果レポーター染料の蛍光発光スペクトルが生じる。リアルタイムの方法又は単点の検出方法を含む、任意の核酸定量化方法は、サンプル中の核酸の量を定量化するために使用され得る。検出は、様々な異なる方法（例えば、染色、標識化プローブでのハイブリダイゼーション；ビオチン化プライマーの組み込み、その後のアビジン－酵素の結合の検出；増幅されたセグメントへの、ｄＣＴＰ又はｄＡＴＰなどの３２Ｐ標識化デオキシヌクレオチド三リン酸塩の組み込み）に加えて、核酸定量化のための当該技術分野で既知の他の適切な検出方法で実行され得る。定量化は増幅工程を含むこともあれば、含まないこともある。

幾つかの実施形態において、本開示は、連結されたＤＮＡセグメントを同定又は定量化するための標識を提供する。場合によっては、連結されたＤＮＡセグメントは、アレイのハイブリダイゼーションなどの下流の適用を補助するために標識され得る。例えば、連結されたＤＮＡセグメントは、ランダムなプライミング又はニックトランスレーションを使用して標識され得る。

種々様々な標識（例えば、レポーター）は、本明細書に記載されるヌクレオチド配列を標識するために使用されてもよく、限定されないが増幅工程中を含む。適切な標識は、放射性核種、酵素、蛍光、化学発光、又は色原体の薬剤に加え、リガンド、補助因子、阻害剤、磁気微粒子などを含む。そのような標識の例は、米国特許第３，８１７，８３７号；米国特許第３，８５０，７５２号；米国特許第３，９３９，３５０号；米国特許第３，９９６，３４５号；米国特許第４，２７７，４３７号；米国特許第４，２７５，１４９号、及び米国特許第４，３６６，２４１号に含まれており、これらは全体における引用により組み込まれる。

追加の標識は、限定されないが、β－ガラクトシダーゼ、インベルターゼ、緑色蛍光タンパク質、ルシフェラーゼ、クロラムフェニコール、アセチルトランスフェラーゼ、β－グルクロニダーゼ、ｅｘｏ－グルカナーゼ、及びグルコアミラーゼを含む。蛍光標識も、特定の化学的性質で特異的に合成された蛍光試薬と同様に使用されてもよい。蛍光を測定する種々様々な方法が利用可能である。例えば、幾つかの蛍光標識は、励起又は発光のスペクトルの変化を示し、幾つかの蛍光標識は１つの蛍光レポーターが蛍光を失う共鳴エネルギー転移を示すが、第２の蛍光標識は蛍光を増加させ、幾つかの蛍光標識は蛍光の消失（クエンチ）又は出現を示し、幾つかの蛍光標識は回転動作を報告する。

更に、標識化のための十分な材料を得るために、多数の増幅が、１つの反応当たりの増幅サイクルの数を増やす代わりにプールされ得る。代替的に、標識されたヌクレオチドは、増幅反応の最後のサイクル、例えば、ＰＣＲの３０のサイクル（標識無し）＋ＰＣＲの１０のサイクル（標識をプラス）において組み込まれ得る。

特定の実施形態において、本開示は、連結されたＤＮＡセグメントに結合し得るプローブを提供する。本明細書で使用されるように、用語「プローブ」は、対象の別の分子（例えば、別のオリゴヌクレオチド）にハイブリダイズ可能な分子（例えば、精製された制限消化物などにおいて自然に生じ、又は合成的に、組換え的に、或いはＰＣＲ増幅により産生されたかどうかにかかわらない、オリゴヌクレオチド）を指す。プローブは、オリゴヌクレオチドであると、一本鎖又は二本鎖であり得る。プローブは、特定の標的（例えば遺伝子配列）の検出、同定、及び単離に役立つ。場合によっては、プローブは、任意の検出システムにおいて検出可能となるような標識に関連付けられ、限定されないが、酵素（例えば、ＥＬＩＳＡに加え、酵素に基づく組織化学アッセイ）、蛍光、放射性、及び発光のシステムを含む。

アレイ及びマイクロアレイに関して、用語「プローブ」は、プローブへとハイブリダイズしたヌクレオチド配列を検出するためにアレイに固定される、任意のハイブリダイズ可能な物質を指すために使用される。場合によっては、プローブは、約１０ｂｐ～５００ｂｐ、約１０ｂｐ～２５０ｂｐ、約２０ｂｐ～２５０ｂｐ、約２５ｂｐ～２００ｂｐ、約２５ｂｐ～１００ｂｐ、約３０ｂｐ～１００ｂｐ、又は約３０ｂｐ～８０ｂｐであり得る。場合によっては、プローブは、約１０ｂｐ、約２０ｂｐ、約３０ｂｐ、約４０ｂｐ、約５０ｂｐ、約６０ｂｐ、約７０ｂｐ、約８０ｂｐ、約９０ｂｐ、約１００ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約４００ｂｐ、又は約５００ｂｐの長さであり得る。例えば、プローブは約２０～約５０ｂｐの長さであり得る。プローブ設計の例及び論理的根拠は、ＷＯ９５／１１９９５、ＥＰ７１７，１１３、及びＷＯ９７／２９２１２にて見出すことができる。

場合によっては、１つ以上のプローブは、制限酵素により消化される部位に接近してハイブリダイズされ得るように設計され得る。例えば、プローブは、約１０ｂｐ、約２０ｂｐ、約３０ｂｐ、約４０ｂｐ、約５０ｂｐ、約６０ｂｐ、約７０ｂｐ、約８０ｂｐ、約９０ｂｐ、約１００ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約４００ｂｐ、又は約５００ｂｐの制限酵素認識部位内にあり得る。

他の場合、単一で固有のプローブは、制限酵素により消化される部位の各側部にて、約１０ｂｐ、約２０ｂｐ、約３０ｂｐ、約４０ｂｐ、約５０ｂｐ、約６０ｂｐ、約７０ｂｐ、約８０ｂｐ、約９０ｂｐ、約１００ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約４００ｂｐ、又は約５００ｂｐ内にあるように設計され得る。プローブは、制限酵素により消化される部位の何れかの側部にてハイブリダイズ可能となるように設計され得る。例えば、主要な制限酵素認識部位の各側部の単一のプローブを使用することができる。

場合によっては、２、３、４、５、６、７、８、又はそれ以上のプローブは、後に同じライゲーション事象を調査するために使用され得る制限酵素認識部位の各側部に設計され得る。例えば、２又は３つのプローブが、制限酵素認識部位の各側部に設計され得る。幾つかの例において、主要な制限酵素認識部位あたりの複数（例えば２、３、４、５、６、７、又は８、或いはそれ以上）のプローブの使用は、個々のプローブから結果として生じる偽陰性を得る問題を最小化するのに有用であり得る。

本明細書で使用されるように、用語「プローブのセット」は、ゲノムにおける主要な制限酵素のための主要な制限酵素認識部位の１つ以上にハイブリダイズ可能なプローブの一組又は集まりを指す。

場合によっては、プローブのセットは、ゲノムＤＮＡにおける制限酵素のための主要な制限酵素認識部位の１つ以上に隣接する核酸配列に対し、配列において相補的となり得る。例えば、プローブのセットは、ゲノムＤＮＡにおける制限酵素認識部位の１以上に隣接する、約１０ｂｐ～５００ｂｐ、約１０ｂｐ～２５０ｂｐ、約２０ｂｐ～２５０ｂｐ、約２５ｂｐ～２００ｂｐ、約２５ｂｐ～１００ｂｐ、約３０ｂｐ～１００ｂｐ、又は約３０ｂｐ～８０ｂｐのヌクレオチドに対し、配列において相補的となり得る。プローブのセットは、制限酵素認識部位の１つの（例えば何れかの）側部又は両側部に対し、配列において相補的となり得る。従って、プローブは、ゲノムＤＮＡにおける主要な制限酵素認識部位の１以上の各側部に隣接している核酸配列に対し、配列において相補的となり得る。更に、プローブのセットは、ゲノムＤＮＡにおける主要な制限酵素認識部位の１以上から、約１０ｂｐ、約２０ｂｐ、約３０ｂｐ、約４０ｂｐ、約５０ｂｐ、約６０ｂｐ、約７０ｂｐ、約８０ｂｐ、約９０ｂｐ、約１００ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約４００ｂｐ、又は約５００ｂｐ未満である核酸配列に対し、配列において相補的となり得る。

場合によっては、２つ以上のプローブが、ゲノムＤＮＡにおける制限酵素認識部位の１以上に隣接している配列へとハイブリダイズ可能となるように設計され得る。プローブは重複、又は部分的に重複し得る。

プローブ、プローブのアレイ、又はプローブのセットは、支持体上で固定され得る。支持体（例えば固体支持体）は、ガラス、シリカ、プラスチック、ナイロン、又はニトロセルロースなどの様々な材料で作られ得る。支持体は好ましくは剛性であり、平らな表面を持つ。支持体は、約１～１０，０００，０００の分解された遺伝子座を持ち得る。例えば、支持体は、約１０～１０，０００，０００、約１０～５，０００，０００、約１００～５，０００，０００、約１００～４，０００，０００、約１０００～４，０００，０００、約１０００～３，０００，０００、約１０，０００～３，０００，０００、約１０，０００～２，０００，０００、約１００，０００～２，０００，０００、又は約１００，０００～１，０００，０００の分解された遺伝子座を持ち得る。分解された遺伝子座の密度は、平方センチメートル内で少なくとも約１０、約１００、約１０００、約１０，０００、約１００，０００、又は約１，０００，０００の分解された遺伝子座であり得る。場合によっては、分解された遺伝子座の各々は、単一のタイプのオリゴヌクレオチドの＞９５％まで占有され得る。他の場合、分解された遺伝子座の各々は、プローブのプールされた混合物又はプローブのセットにより占有され得る。場合によっては、幾つかの分解された遺伝子座は、プローブのプールされた混合物又はプローブのセットにより占有され、他の分解された遺伝子座は単一のタイプのオリゴヌクレオチドの＞９５％により占有される。

場合によっては、アレイ上の与えられたヌクレオチド配列のためのプローブの数は、そのようなアレイにハイブリダイズされるＤＮＡサンプルに対し非常に過剰な場合がある。例えば、アレイは、約１０、約１００、約１０００、約１０，０００、約１００，０００、約１，０００，０００、又は約１００，０００，０００倍の、入力サンプルにおけるＤＮＡの量に対するプローブの数を有し得る。

場合によっては、アレイは、約１０、約１００、約１０００、約１０，０００、約１００，０００、約１，０００，０００、約１０，０００，０００、又は約１，０００，０００，０００のプローブを有し得る。

プローブのアレイ又はセットは、支持体上で段階ごとの様式で合成され、又は予め合成された形態で結合され得る。合成方法の１つは、高密度の小型化したアレイにおけるオリゴヌクレオチドプローブの合成に向けるための光の使用を伴う、ＶＬＳＩＰＳ（商標）（米国特許第５，１４３，８５４及びＥＰ４７６，０１４に記載される）である。合成サイクルの数を減らすためのマスクの設計のためのアルゴリズムは、米国特許第５，５７１，６３９号及び米国特許第５，５９３，８３９号に記載されている。アレイはまた、ＥＰ６２４，０５９に記載されるように、機械的に制限された流路により支持体の細胞にモノマーを送達することにより、組み合わせの様式で合成され得る。アレイはまた、インクジェットプリンターを使用して支持体上へと試薬を付ける（ｓｐｏｔｔｉｎｇ）ことにより合成され得る（例えば、ＥＰ７２８，５２０を参照）。

幾つかの実施形態において、本開示は、アレイ上へと連結されたＤＮＡセグメントをハイブリダイズする方法を提供する。「基質」又は「アレイ」は、合成的又は生合成的の何れかで調製され、且つ様々な異なるフォーマット（例えば可溶性分子のライブラリー；及び、樹脂ビーズ、シリカチップ、又は他の固体支持体に拘束されたオリゴヌクレオチドのライブラリー）で生物活性についてスクリーンされ得る核酸の、故意に作り出された集まりである。加えて、用語「アレイ」は、基質上へと実質的に任意の長さ（例えば、１～約１０００の長さのヌクレオチドモノマー）の核酸を付けることにより調製され得る核酸のそのようなライブラリーを含んでいる。

アレイの技術、及び様々な関連技術、並びにその適用は、共通して多数のテキストブック及び文書で記載されている。例えば、これらの文書として、Ｌｅｍｉｅｕｘｅｔａｌ．，１９９８，ＭｏｌｅｃｕｌａｒＢｒｅｅｄｉｎｇ４，２７７－２８９；ＳｃｈｅｎａａｎｄＤａｖｉｓ，ＰａｒａｌｌｅｌＡｎａｌｙｓｉｓｗｉｔｈＢｉｏｌｏｇｉｃａｌＣｈｉｐｓ．ｉｎＰＣＲＭｅｔｈｏｄｓＭａｎｕａｌ（ｅｄｓ．Ｍ．Ｉｎｎｉｓ，Ｄ．Ｇｅｌｆａｎｄ，Ｊ．Ｓｎｉｎｓｋｙ）；ＳｃｈｅｎａａｎｄＤａｖｉｓ，１９９９，Ｇｅｎｅｓ，ＧｅｎｏｍｅｓａｎｄＣｈｉｐｓ．ＩｎＤＮＡＭｉｃｒｏａｒｒａｙｓ：ＡＰｒａｃｔｉｃａｌＡｐｐｒｏａｃｈ（ｅｄ．Ｍ．Ｓｃｈｅｎａ），ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｏｘｆｏｒｄ，ＵＫ，１９９９）；ＴｈｅＣｈｉｐｐｉｎｇＦｏｒｅｃａｓｔ（ＮａｔｕｒｅＧｅｎｅｔｉｃｓｓｐｅｃｉａｌｉｓｓｕｅ；Ｊａｎｕａｒｙ１９９９Ｓｕｐｐｌｅｍｅｎｔ）；ＭａｒｋＳｃｈｅｎａ（Ｅｄ．），ＭｉｃｒｏａｒｒａｙＢｉｏｃｈｉｐＴｅｃｈｎｏｌｏｇｙ，（ＥａｔｏｎＰｕｂｌｉｓｈｉｎｇＣｏｍｐａｎｙ）；Ｃｏｒｔｅｓ，２０００，ＴｈｅＳｃｉｅｎｔｉｓｔ１４［１７］：２５；ＧｗｙｎｎａｎｄＰａｇｅ，Ｍｉｃｒｏａｒｒａｙａｎａｌｙｓｉｓ：ｔｈｅｎｅｘｔｒｅｖｏｌｕｔｉｏｎｉｎｍｏｌｅｃｕｌａｒｂｉｏｌｏｇｙ，Ｓｃｉｅｎｃｅ，１９９９Ａｕｇ．６；及びＥａｋｉｎｓａｎｄＣｈｕ，１９９９，ＴｒｅｎｄｓｉｎＢｉｏｔｅｃｈｎｏｌｏｇｙ，１７，２１７－２１８が挙げられる。

通常、任意のライブラリーは、ライブラリーのメンバーを空間的に分離することにより、アレイへと順序正しい方式で配置され得る。配置に適切なライブラリーの例は、とりわけ、リガンドライブラリーなどの任意の分子を含むライブラリーと同様に、核酸ライブラリー（ＤＮＡ及びｃＤＮＡ、オリゴヌクレオチドなどのライブラリーを含む）、ペプチド、ポリペプチド、及びタンパク質のライブラリーを含む。

ライブラリーは、メンバーの拡散及び混合を制限するために、固相（例えば固体の基質）上へと定着又は固定され得る。場合によっては、ＤＮＡ結合リガンドのライブラリーが調製され得る。特にライブラリーは、膜、及びプラスチックやガラスなどの非多孔基材を含む、実質的に平らな固相に固定され得る。更に、ライブラリーは、インデキシング（即ち、特定のメンバーへの言及又はアクセス）が容易になるような方法で配置され得る。幾つかの例において、ライブラリーのメンバーは、格子形態のスポットとして適用され得る。共通のアッセイ系はこの目的に適しているかもしれない。例えば、アレイは、ウェルに複数のメンバーを持つ、又は各ウェルに１つのメンバーを持つマイクロプレートの表面上で固定され得る。更に、固体の基質は、ニトロセルロース又はナイロンの膜（例えば、実験をブロットするのに使用される膜）などの膜でもよい。代替的な基質は、ガラス、又はシリカベースの基質を含む。故に、ライブラリーは、当該技術分野で既知の適切な方法、例えば、電荷相互作用、又は、ウェルの壁又は底、或いは膜の表面への化学結合により、固定され得る。他の配置及び固定の手段、例えばピペット操作、ドロップ－タッチ、圧電手段、インクジェット及びバブルジェット技術、静電気の適用などが使用され得るシリコンベースのチップの場合、フォトリソグラフィーがチップ上でライブラリーを配置及び固定するために利用され得る。

ライブラリーは、固体の基質上に「配置される（ｓｐｏｔｔｅｄ）」ことにより配置され；これは、手により、又はメンバーを堆積するためにロボット工学を利用することにより行われてもよい。一般に、アレイはマクロアレイ又はマイクロアレイと記載されてもよく、違いはスポットの大きさである。マクロアレイは、約３００ミクロン以上のスポットサイズを含み、既存のゲル及びブロットスキャナーにより容易に撮像され得る。マイクロアレイにおけるスポットサイズは、直径２００ミクロン未満であり、これらアレイは通常、何千ものスポットを含んでいる。故に、マイクロアレイは特殊なロボット工学及び撮像機器を必要とする場合があり、これらは、Ｃｏｒｔｅｓｅ，２０００，ＴｈｅＳｃｉｅｎｔｉｓｔ１４［１１］：２６による報告に通常記載されているカスタムメイドの器具類である必要がある。

ＤＮＡ分子の固定されたライブラリーを産生するための技術は当該技術分野で述べられている。通常、大半の先行技術の方法は、例えば、固体の基質上の様々な別個の位置で配列の様々な並べ替えを構築するためにマスキング技術を使用して、一本鎖核酸分子ライブラリーを合成する方法について述べている。米国特許第５，８３７，８３２号は、超大規模集積回路技術に基づいてシリコン基板に固定されたＤＮＡアレイを産生するための改善された方法について述べている。特に、米国特許第５，８３７，８３２号は、本開示の固定されたＤＮＡライブラリーを産生するために使用され得る基板上の空間的に定められた場所でプローブの特定のセットを合成するために「タイリング」と呼ばれる戦略について述べている。米国特許第５，８３７，８３２号はまた、使用され得る初期の技術に対する言及を提供する。他の場合、アレイはまた、光析出化学（ｐｈｏｔｏｄｅｐｏｓｉｔｉｏｎｃｈｅｍｉｓｔｒｙ）を使用して構築され得る。

ペプチド（又はペプチド模倣体）のアレイも、アレイにおける別個の予め定められた場所で別個のライブラリーのメンバー（例えば、固有のペプチド配列）それぞれを配する様式で、表面上に合成され得る。ライブラリーのメンバーそれぞれの同一性は、アレイにおけるその空間的な場所により判定される。予め定めた分子（例えば標的又はプローブ）と反応的なライブラリーのメンバーとの間の結合相互作用が生じる、アレイにおける場所が判定され、それにより、空間的な場所に基づき反応的なライブラリーのメンバーの配列の同定が行われる。これらの方法は、米国特許第５，１４３，８５４号；ＷＯ９０／１５０７０及びＷＯ９２／１００９２；Ｆｏｄｏｒｅｔａｌ．（１９９１）Ｓｃｉｅｎｃｅ，２５１：７６７；ＤｏｗｅｒａｎｄＦｏｄｏｒ（１９９１）Ａｎｎ．Ｒｅｐ．Ｍｅｄ．Ｃｈｅｍ．，２６：２７１に記載されている。

検出を支援するために、任意の容易に検出可能なレポーター、例えば蛍光性、生物発光性、リン光性、放射性などのレポーターといった標識を使用することができる（上記で議論されるように）。そのようなレポーター、それらの検出、標的／プローブへの結合などは、本文書の他の場所で議論される。プローブ及び標的の標識化はまた、Ｓｈａｌｏｎｅｔａｌ．，１９９６，ＧｅｎｏｍｅＲｅｓ６（７）：６３９－４５に開示されている。

幾つかの市販で入手可能なマイクロアレイのフォーマットの例は、以下の表１に述べられる（ＭａｒｓｈａｌｌａｎｄＨｏｄｇｓｏｎ，１９９８，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ，１６（１），２７－３１も参照）。

アレイベースのアッセイからデータを生成するために、シグナルは、プローブとヌクレオチド配列との間のハイブリダイゼーションの存在又は不在を示すために検出され得る。更に、直接及び間接的な標識化技術も利用され得る。例えば、直接的な標識化は、アレイに関連したプローブへとハイブリダイズするヌクレオチド配列へ直接、蛍光染料を組み込む（例えば、染料は、標識化ヌクレオチド又はＰＣＲプライマーの存在下で酵素的合成によりヌクレオチド配列に組み込まれる）。直接的な標識化のスキームは、例えば同様の化学構造及び特徴を持つ蛍光染料のファミリーの使用により強固なハイブリダイゼーションシグナルをもたらし、且つ簡単に実施することができる。核酸の直接的な標識化を含む場合、シアニン又はアレクサ（ａｌｅｘａ）のアナログが、複数の蛍石比較的アレイ解析（ｍｕｌｔｉｐｌｅ－ｆｌｕｏｒｃｏｍｐａｒａｔｉｖｅａｒｒａｙａｎａｌｙｓｅｓ）に利用され得る。他の実施形態において、間接的な標識化のスキームは、マイクロアレイプローブへのハイブリダイゼーションの前又は後に、核酸にエピトープを組み込むために利用され得る。１つ以上の染色の手順及び試薬は、ハイブリダイズされた複合体（例えば、エピトープに結合し、それによりハイブリダイズされた種のエピトープへの色素分子の結合によって蛍光シグナルをもたらす、蛍光分子）を標識するために使用され得る。

様々な実施形態において、本明細書に記載される又は当該技術分野で既知の適切な配列決定方法が、サンプル内の核酸分子から配列情報を得るために使用される。配列決定は、当該技術分野で周知の古典的なサンガー配列決定方法を通じて遂行され得る。配列決定（Ｓｅｑｕｅｎｃｅ）はまた、ハイスループットシステムを使用して遂行され、その一部は、増大する鎖への組み込みの直後又はその際の配列決定されたヌクレオチドの検出、即ち、リアルタイム又はほぼリアルタイムでの配列の検出を可能にする。場合によっては、ハイスループット配列決定は、１時間につき少なくとも１，０００、少なくとも５，０００、少なくとも１０，０００、少なくとも２０，０００、少なくとも３０，０００、少なくとも４０，０００、少なくとも５０，０００、少なくとも１００，０００、又は少なくとも５００，０００の配列のリードを生成し；ここで、配列決定のリードは、１つのリードにつき少なくとも約５０、約６０、約７０、約８０、約９０、約１００、約１２０、約１５０、約１８０、約２１０、約２４０、約２７０、約３００、約３５０、約４００、約４５０、約５００、約６００、約７００、約８００、又は約１０００の塩基であり得る。

幾つかの実施形態において、ハイスループット配列決定は、ＨｉＳｅｑ２５００、ＨｉＳｅｑ１５００、ＨｉＳｅｑ２０００、又はＨｉＳｅｑ１０００の機械を使用するものなど、Ｉｌｌｕｍｉｎａ’ｓＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩＸ、ＭｉＳｅｑパーソナルシーケンサー、又はＨｉＳｅｑシステムにより利用可能な技術の使用を含む。これらの機械は、合成化学による可逆的なターミネーターベースの配列を使用する。これらの機械は、８日で２０００億以上のＤＮＡのリードを行うことができる。より小さなシステムが、３、２、１日以下の時間内での実行のために利用され得る。

幾つかの実施形態において、ハイスループット配列決定は、ＡＢＩＳｏｌｉｄＳｙｓｔｅｍにより利用可能な技術の使用を含む。クローン的に増幅されたＤＮＡ断片の超並列配列決定を可能にする、この遺伝子解析プラットフォームは、ビーズに連結した。配列決定の方法論は、染料で標識したオリゴヌクレオチドでの連続的なライゲーションに基づく。

次世代の配列決定は、（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＩｏｎＴｏｒｒｅｎｔ）の技術を使用して）イオン半導体配列決定を含み得る。イオン半導体配列決定は、ヌクレオチドがＤＮＡの鎖へ組み込まれる時にイオンが放出され得るという事実を利用することができる。イオン半導体配列決定を行なうために、微細加工されたウェルの高密度アレイを形成することができる。各ウェルは、単一のＤＮＡ鋳型を保持することができる。ウェルの下はイオン感受性の層であり、イオン感受性の層の下はイオンセンサーであり得る。ヌクレオチドがＤＮＡに加えられると、Ｈ＋が放出され、ｐＨの変化として測定され得る。Ｈ＋イオンは電圧に変換され、半導体センサーにより記録され得る。アレイチップは、１つのヌクレオチドで連続して氾濫させられる（ｆｌｏｏｄｅｄ）場合がある。走査、光、又はカメラは必要ではない。場合によっては、ＩＯＮＰＲＯＴＯＮ（商標）シークエンサーが核酸を配列決定するために使用される。場合によっては、ＩＯＮＰＧＭ（商標）シークエンサーが使用される。ＩｏｎＴｏｒｒｅｎｔＰｅｒｓｏｎａｌＧｅｎｏｍｅＭａｃｈｉｎｅ（ＰＧＭ）。ＰＧＭは２時間で１０００万のリードを行うことができる。

幾つかの実施形態において、ハイスループット配列決定は、ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇｂｙＳｙｎｔｈｅｓｉｓ（ＳＭＳＳ）の方法など、ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓＣｏｒｐｏｒａｔｉｏｎ（Ｃａｍｂｒｉｄｇｅ，Ｍａｓｓａｃｈｕｓｅｔｔｓ）により利用可能な技術の使用を含む。ＳＭＳＳは、最大２４時間で全体のヒトゲノムの配列決定を可能にするため、固有なものである。最終的に、ＳＭＳＳは、米国特許出願公開第２００６００２４７１１号；第２００６００２４６７８号；第２００６００１２７９３号；第２００６００１２７８４号；及び第２００５０１００９３２号に部分的に記載されている。

幾つかの実施形態において、ハイスループット配列決定は、ＰｉｃｏＴｉｔｅｒＰｌａｔｅ装置などの４５４Ｌｉｆｅｓｃｉｅｎｃｅｓ，Ｉｎｃ．（Ｂｒａｎｆｏｒｄ，Ｃｏｎｎｅｃｔｉｃｕｔ）により利用可能な技術の使用を含み、これは、機器におけるＣＣＤカメラにより記録される配列決定反応により生成された、化学発光シグナルを伝達するファイバオプティックプレートを含む。このファイバーオプティクスの使用は、４．５時間で最低２０００万の塩基対の検出を可能にする。

ビードの増幅、その後でファイバーオプティクスの検出を使用する方法は、Ｍａｒｇｕｉｌｅｓ，Ｍ．，ｅｔａｌ．“Ｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｉｎｍｉｃｒｏｆａｂｒｉｃａｔｅｄｈｉｇｈ－ｄｅｎｓｉｔｙｐｉｃｏｌｉｔｒｅｒｅａｃｔｏｒｓ”，Ｎａｔｕｒｅ，ｄｏｉ：１０．１０３８／ｎａｔｕｒｅ０３９５９；
及び同様に、米国特許出願公開第２００２００１２９３０号；第２００３００６８６２９号；第２００３０１００１０２号；第２００３０１４８３４４号；第２００４０２４８１６１号；第２００５００７９５１０号；第２００５０１２４０２２号；及び第２００６００７８９０９号に記載されている。

幾つかの実施形態において、ハイスループット配列決定は、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ，Ｉｎｃ．）、又は可逆的なターミネーター化学を利用するｓｅｑｕｅｎｃｉｎｇ－ｂｙ－ｓｙｎｔｈｅｓｉｓ（ＳＢＳ）を使用して行なわれる。これらの技術は、米国特許第６，９６９，４８８号；第６，８９７，０２３号；第６，８３３，２４６号；第６，７８７，３０８号；及び、米国特許出願公開第２００４０１０６１１０号；第２００３００６４３９８号；第２００３００２２２０７号；及びＣｏｎｓｔａｎｓ，Ａ．，ＴｈｅＳｃｉｅｎｔｉｓｔ２００３，１７（１３）：３６に部分的に記載されている。

次世代の配列決定技術は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓによるリアルタイム（ＳＭＲＴ（商標））技術を含み得る。ＳＭＲＴにおいて、４つのＤＮＡ塩基の各々は、４つの異なる蛍光染料の１つに付けられ得る。これらの染料はホスホ連結（ｐｈｏｓｐｈｏｌｉｎｋｅｄ）され得る。単一のＤＮＡポリメラーゼは、ゼロモード導波路（ＺＭＷ）の底部にある鋳型の一本鎖ＤＮＡの単一分子で固定され得る。ＺＭＷは、（マイクロ秒で）ＺＭＷの中及び外で急速に拡散することができる蛍光ヌクレオチドのバックグラウンドに対する、ＤＮＡポリメラーゼによる単一のヌクレオチドの組み込みの観察を可能にする、制限構造となり得る。増大している鎖にヌクレオチドを組み込むのに数ミリ秒かかる場合がある。この間に、蛍光標識は励起され、蛍光シグナルを生成することができ、蛍光標識は切断され得る。ＺＭＷは下から照らすことができる。励起ビームからの減じられた光は、より低い２０－３０ｎｍのＺＭＷそれぞれに浸透し得る。２０ゼプトリットル（１０”リットル）の検出限界を持つ顕微鏡が作成され得る。小さな検出量は、バックグラウンドノイズの減少において１０００倍の改善をもたらし得る。染料の対応する蛍光の検出は、どの塩基が組み込まれるかを示すことができる。このプロセスは繰り返すことができる。

場合によっては、次世代の配列決定はナノ細孔配列決定である（例えば、ＳｏｎｉＧＶａｎｄＭｅｌｌｅｒＡ．（２００７）ＣｌｉｎＣｈｅｍ５３：１９９６－２００１を参照）。ナノ細孔は、直径約１ナノメートルの小さな穴であり得る。導電性流体におけるナノ細孔の浸漬、及びそれをわたる電位の適用は、結果として、ナノ細孔を解したイオンの伝導が原因で、僅かな電流をもたらし得る。流れる電流の量はナノ細孔の大きさに敏感であり得る。ＤＮＡ分子がナノ細孔を通ると、ＤＮＡ分子上のヌクレオチドはそれぞれ、異なる程度にまでナノ細孔を塞ぐことができる。故に、ＤＮＡ分子がナノ細孔と通る時の、ナノ細孔を通る電流の変化は、ＤＮＡ配列のリードを表わすことができる。ナノ細孔配列決定技術は、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ；例えばＧｒｉｄｌＯＮシステムに由来し得る。単一のナノ細孔は、マイクロウェルの上部にわたる高分子膜に挿入され得る。マイクロウェルはそれぞれ、個々の感知のための電極を有し得る。マイクロウェルは、１つのチップ当たり１００，０００以上のマイクロウェル（例えば２００，０００、３００，０００、４００，０００、５００，０００、６００，０００、７００，０００、８００，０００、９００，０００、又は１，０００，０００より多く）で、アレイチップへと組み立てられ得る。機器（又はノード）がチップを解析するために使用され得る。データはリアルタイムで解析され得る。１つ以上の機器は一度に操作され得る。ナノ細孔は、タンパク質ナノ細孔、例えばタンパク質アルファ溶血素、七量体タンパク質細孔であり得る。ナノ細孔は、ソリッドステートナノ細孔で出来ており、例えば、合成膜（例えばＳｉＮ_ｘ、又はＳｉＯ_２）に形成されるナノメートルサイズの穴であり得る。ナノ細孔は、ハイブリッド細孔（例えば、ソリッドステート膜へのタンパク質細孔の統合）であり得る。ナノ細孔は、集積化したセンサーを持つナノ細孔であり得る（例えば、トンネル電極検出器、容量検出器又はグラフェン性ナノギャップ若しくはエッジ状態検出器（例えば、Ｇａｒａｊｅｔａｌ．（２０１０）Ｎａｔｕｒｅｖｏｌ．６７，ｄｏｉ：１０．１０３８／ｎａｔｕｒｅ０９３７９を参照））。ナノ細孔は、特定の型の分子を解析するために官能化することができる（例えば、ＤＮＡ、ＲＮＡ又はタンパク質）。ナノ細孔配列決定は、「鎖配列決定」を含むことができ、完全なＤＮＡポリマーは、ＤＮＡが細孔を転移させる際にリアルタイムで配列決定されながらタンパク質ナノ細孔を通過することができる。酵素は二本鎖ＤＮＡの鎖を分離することができ、ナノ細孔を通じて鎖を与えることができる。ＤＮＡは一方の末端でヘアピンを有することができ、システムは両方の鎖を読み取ることができる。場合によっては、ナノ細孔配列決定は、「エキソヌクレアーゼ配列決定」であり、個々のヌクレオチドは前進性エキソヌクレアーゼによってＤＮＡ鎖から切断されることができ、そのヌクレオチドはタンパク質ナノ細孔を通過することができる。ヌクレオチドは、細孔内の分子（例えば、シクロデキストラン）に一過的に結合することができる。電流の特性的断絶を使用して、塩基を同定する。

ＧＥＮＩＡ製のナノ細孔配列決定技術を使用できる。操作したタンパク質細孔を、脂質二重層の膜に埋めることができる。「能動的制御」技術を使用して、効果的なナノ細孔－膜アセンブリ及びチャネルを通るＤＮＡ運動の制御を可能にする。場合によっては、ナノ細孔配列決定技術は、ＮＡＢｓｙｓ製である。ゲノムＤＮＡは、平均長約１００ｋｂの鎖に断片化され得る。１００ｋｂの断片を一本鎖にし、その後６ｍｅｒのプローブでハイブリダイズさせることができる。プローブを持つゲノム断片は、ナノ細孔を通り抜けることができ、電流対時間の追跡を作り出すことができる。電流追跡は、各ゲノム断片上のプローブ位置を提供することができる。ゲノム断片を並べて、ゲノムに対するプローブマップを作り出すことができる。そのプロセスは、プローブライブラリーに対して並列に行うことができる。各プローブに対するゲノム長のプローブマップを生成することができる。誤りは、「移動窓配列決定バイハイブリダイゼーション（ＳｅｑｕｅｎｃｉｎｇＢｙＨｙｂｒｉｄｉｚａｔｉｏｎ）（ｍｗＳＢＨ）」と称されるプロセスで直すことができる。場合によっては、ナノ細孔配列決定技術は、ＩＢＭ／Ｒｏｃｈｅ製である。電子ビームを使用して、マイクロチップにナノ細孔サイズの開口部を作製することができる。電界を使用して、ナノ細孔を通じてＤＮＡを引き寄せる又はねじ込むことができる。ナノ細孔におけるＤＮＡトランジスタ装置は、金属と誘電体が交互になったナノメートルサイズの層を含むことができる。ＤＮＡ骨格中の別個の電荷を、電界によってＤＮＡナノ細孔の内部に閉じ込めることができる。ゲート電圧をオフ／オンすることにより、ＤＮＡ配列を読み取ることができる。

次世代配列決定は、ＤＮＡナノボール配列決定を含むことができる（例えば、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓによって実施されるように、例えば、Ｄｒｍａｎａｃｅｔａｌ．（２０１０）Ｓｃｉｅｎｃｅ３２７：７８－８１を参照）。ＤＮＡを、単離し、断片化し、サイズ選択することができる。例えば、ＤＮＡは、約５００ｂｐの平均長へと（例えば、超音波処理によって）断片化することができる。アダプター（Ａｄｌ）を、断片の末端に結合させることができる。アダプターを使用して、配列決定反応のためのアンカーにハイブリダイズさせることができる。各末端に結合したアダプターを持つＤＮＡを、ＰＣＲ増幅することができる。アダプター配列を修飾することができ、それにより相補的一本鎖末端が互いに結合して環状ＤＮＡを形成する。ＤＮＡをメチル化して、その後の工程において使用されるＩＩＳ型制限酵素による切断から保護することができる。アダプター（例えば、右のアダプター）は、制限認識部位を有することができ、制限認識部位は非メチル化されたままであり得る。アダプター中にある非メチル化制限認識部位は、制限酵素（例えば、Ａｃｕｌ）によって認識され得、ＤＮＡは、Ａｃｕｌによって右アダプターの右側１３ｂｐで切断されて、線状二本鎖ＤＮＡを形成することができる。右及び左のアダプターの第２巡（Ａｄ２）を、線状ＤＮＡのいずれかの末端に連結することができ、両方のアダプターが結合しているＤＮＡは全て、ＰＣＲ増幅することができる（例えば、ＰＣＲによって）。Ａｄ２配列を修飾して、それらが互いに結合して環状ＤＮＡを形成することを可能にする。ＤＮＡはメチル化することができるが、制限酵素認識部位は、左Ａｄ１アダプターにおいて非メチル化のままであり得る。制限酵素（例えば、Ａｃｕｌ）を適用することができ、ＤＮＡは、Ａｄ１の左側１３ｂｐで切断され、線状ＤＮＡ断片を形成することができる。右及び左のアダプターの第３巡（Ａｄ３）を、線状ＤＮＡの右及び左側面に連結することができ、その結果生じる断片はＰＣＲ増幅することができる。アダプターは修飾することができ、それにより互いに結合し、環状ＤＮＡを形成することができる。ＩＩＩ型制限酵素（例えば、ＥｃｏＰ１５）を添加することができ、ＥｃｏＰ１５は、Ａｄ３の左側２６ｂｐ及びＡｄ２の右側２６ｂｐでＤＮＡを切断することができる。この切断は、ＤＮＡの大きなセグメントを除去し、ＤＮＡを再び線状化することができる。右及び左のアダプターの第４巡（Ａｄ４）を、ＤＮＡに連結することができ、ＤＮＡを（例えば、ＰＣＲによって）増幅し且つ修飾することができ、それによりそれらは互いに結合し、完成した環状ＤＮＡ鋳型を形成する。

ローリングサークル複製（例えばＰｈｉ２９ＤＮＡポリメラーゼを使用する）を使用して、ＤＮＡの小さな断片を増幅することができる。４つのアダプター配列は、ハイブリダイズできるパリンドローム配列を含有することができ、一本鎖は、それ自体の上へと折りたたまれて、平均で直径およそ２００～３００ナノメートルとなり得るＤＮＡナノボール（ＤＮＢ（商標））を形成することができる。ＤＮＡナノボールは、マイクロアレイ（配列決定フローセル）に付着させることができる（例えば、吸着により）。フローセルは、二酸化ケイ素、チタン、及びヘキサメチルジシラザン（ＨＭＤＳ）及びフォトレジスト材料でコーティングされたシリコンウエハであり得る。配列決定は、ＤＮＡに蛍光プローブを連結することによる連鎖しない配列決定によって実施することができる。問い合わせられる位置の蛍光の色は、高解像度カメラによって可視化することができる。アダプター配列間のヌクレオチド配列の同一性を決定することができる。

幾つかの実施形態において、ハイスループット配列決定は、ＡｎｙＤｏｔ．ｃｈｉｐｓ（Ｇｅｎｏｖｏｘｘ，Ｇｅｒｍａｎｙ）を使用して行うことができる。特に、ＡｎｙＤｏｔ．ｃｈｉｐｓは、ヌクレオチド蛍光シグナル検出を１０×－５０×増強できる。ＡｎｙＤｏｔ．ｃｈｉｐｓ及びそれを使用する方法は、国際公開ＷＯ０２０８８３８２、ＷＯ０３０２０９６８、ＷＯ０３０３１９４７、ＷＯ２００５０４４８３６、ＰＣＴ／ＥＰ０５／０５６５７、ＰＣＴ／ＥＰ０５／０５６５５、並びにドイツ特許出願第ＤＥ１０１４９７８６、ＤＥ１０２１４３９５、ＤＥ１０３５６８３７、ＤＥ１０２００４００９７０４、ＤＥ１０２００４０２５６９６、ＤＥ１０２００４０２５７４６、ＤＥ１０２００４０２５６９４、ＤＥ１０２００４０２５６９５、ＤＥ１０２００４０２５７４４、ＤＥ１０２００４０２５７４５、及びＤＥ１０２００５０１２３０１にある程度記載されている。

他のハイスループット配列決定システムには、Ｖｅｎｔｅｒ，Ｊ．，ｅｔａｌ．Ｓｃｉｅｎｃｅ１６Ｆｅｂｒｕａｒｙ２００１；Ａｄａｍｓ，Ｍ．ｅｔａｌ．Ｓｃｉｅｎｃｅ２４Ｍａｒｃｈ２０００；及びＭ．Ｊ．Ｌｅｖｅｎｅ，ｅｔａｌ．Ｓｃｉｅｎｃｅ２９９：６８２－６８６，Ｊａｎｕａｒｙ２００３；並びに米国特許出願公開第２００３／００４４７８１号及び第２００６／００７８９３７号に開示されるものがある。そのようなシステム全体は、核酸分子上で測定される重合反応による塩基の経時的な付加によって、複数の塩基を有する標的核酸分子を配列決定することを含み、即ち、配列決定される鋳型核酸分子上の核酸重合酵素の活性がリアルタイムで追跡される。次いで配列の塩基付加の各工程でどの塩基が核酸重合酵素の触媒活性により標的核酸の成長相補鎖に組み込まれているかについて同定することにより、配列を推論することができる。標的核酸分子複合体上のポリメラーゼは、標的核酸分子に沿って移動し、活性部位でオリゴヌクレオチドプライマーを伸長するのに適した位置に提供される。それぞれ識別可能な型のヌクレオチドアナログが標的核酸配列中の異なるヌクレオチドに対して相補的である、複数の標識型のヌクレオチドアナログが活性部位のすぐ近くに提供される。成長核酸鎖は、ポリメラーゼを使用して活性部位で核酸鎖にヌクレオチドアナログを付加することによって伸長され、付加されるヌクレオチドアナログは、活性部位で標的核酸のヌクレオチドに相補的である。重合工程の結果としてオリゴヌクレオチドプライマーに付加されたヌクレオチドアナログが、同定される。標識したヌクレオチドアナログを提供する工程と、成長核酸鎖を重合させる工程と、付加されたヌクレオチドアナログを同定する工程は繰り返され、それにより核酸鎖が更に伸長され、標的核酸の配列が決定される。

本開示は、単一ＤＮＡ分子から複数のリード対を生成する工程と、リード対を使用してＤＮＡ分子の複数のコンティグをアセンブルする工程とを含む、ハプロタイプフェージングの方法を提供し、少なくとも１％のリード対が、単一ＤＮＡ分子上で５０ｋＢより長い距離に跨り、ハプロタイプフェージングは、７０％を超える精度で実施される。幾つかの実施形態において、少なくとも１０％のリード対が、単一ＤＮＡ分子上で５０ｋＢより長い距離に跨る。他の実施形態において、少なくとも１％のリード対が、単一ＤＮＡ分子上で１００ｋＢより長い距離に跨る。幾つかの実施形態において、ハプロタイプフェージングは、９０％を超える精度で実施される。

更なる実施形態において、本開示は、（例えばインビトロで）単一ＤＮＡ分子から複数のリード対を生成する工程と、リード対を使用してＤＮＡ分子の複数のコンティグをアセンブルする工程とを含む、ハプロタイプフェージングの方法を提供し、少なくとも１％のリード対が、単一ＤＮＡ分子上で３０ｋＢより長い距離に跨り、ハプロタイプフェージングは７０％を超える精度で実施される。幾つかの実施形態において、少なくとも１０％のリード対が、単一ＤＮＡ分子上で３０ｋＢより長い距離に跨る。他の実施形態において、少なくとも１％のリード対が、単一ＤＮＡ分子上で５０ｋＢより長い距離に跨る。また他の実施形態において、ハプロタイプフェージングは、９０％を超える精度で実施される。幾つかの実施形態において、ハプロタイプフェージングは、７０％を超える精度で実施される。

特定の実施形態において、本開示は、本開示の１つ以上の成分を含むキットを更に提供する。キットは、上述のものを含めて、当業者に明らかな任意の用途に使用することができる。キットは、例えば、複数の会合分子、固定剤、エンドヌクレアーゼ（例えば制限エンドヌクレアーゼ）、リガーゼ及び／又はそれらの組合せを含むことができる。幾つかの場合において、会合分子は、例えばヒストンを含むタンパク質であり得る。場合によっては、固定剤は、ホルムアルデヒド又は他の任意のＤＮＡ架橋剤であり得る。

場合によっては、キットは複数のビーズを更に含むことができる。ビーズは、常磁性であり及び／又は捕捉剤でコーティングされている。例えば、ビーズは、ストレプトアビジン及び／又は抗体でコーティングすることができる。

場合によっては、キットは、アダプターオリゴヌクレオチド及び／又は配列決定プライマーを含むことができる。更に、キットは、アダプターオリゴヌクレオチド及び／又は配列決定プライマーを使用してリード対を増幅することが可能な装置を含むことができる。

場合によっては、キットは、溶解緩衝液、ライゲーション試薬（例えばｄＮＴＰ、ポリメラーゼ、ポリヌクレオチドキナーゼ及び／又はリガーゼ緩衝液など）、及びＰＣＲ試薬（例えばｄＮＴＰ、ポリメラーゼ及び／又はＰＣＲ緩衝液など）を含むが、これらに限定されない他の試薬を含むこともできる。

キットは、キットの成分を使用するための及び／又はリード対を生成するための指示書を含むこともできる。

本開示の技術は、他のクロマチンアセンブリ手順など他の技術と比較して、多くの利点を提供することができる。利点は、限定されないが、必要な入力ＤＮＡ量の減少、プロトコルを完了する総合時間の短縮、プロトコルを完了する実地時間の短縮、ＤＮＡ回収の改善、高価な及び／又は時間のかかる工程の除去、より容易な自動化、より容易なスケールアップ、及びより高いスループットを含む。

本明細書に開示された技術は、少量の入力ＤＮＡを必要とする場合がある。例えば、必要な入力ＤＮＡは、約５マイクログラム（μｇ）未満、約４．５μｇ未満、約４μｇ未満、約３．５μｇ未満、約３μｇ未満、約２．５μｇ未満、約２μｇ未満、約１．５μｇ未満、約１μｇ未満、約９００ナノグラム（ｎｇ）未満、約８００ｎｇ未満、約７００ｎｇ未満、約６００ｎｇ未満、約５００ｎｇ未満、約４００ｎｇ未満、約３００ｎｇ未満、約２００ｎｇ未満、又は約１００ｎｇ未満であり得る。場合によっては、必要な入力ＤＮＡは約５００ｎｇ未満である。

サンプルから配列決定ライブラリーを調製する経過時間（即ち「実時間」）の合計は短縮され得る。例えば、サンプルから配列決定ライブラリー（例えば、クロマチンアセンブリライブラリー）を調製する合計時間は、約５．５日未満、約５日未満、約４．５日未満、約４日未満、約３．５日未満、約３日未満、約２．５日未満、約２日未満、約１．５日未満、約１日未満、又は約０．５日未満である。場合によっては、配列決定ライブラリーを調製する合計時間は約２日未満である。

配列決定ライブラリーを調製するためにユーザー（例えば科学者又は専門家）から要求される活動時間（即ち「実施時間」）の量は短縮され得る。例えば、実施時間の量は、約８時間未満、約７時間未満、約６時間未満、約５時間未満、約４時間未満、約３時間未満、約２時間未満または約１時間未満である。場合によっては、配列決定ライブラリーを調製するための実施時間の量は約４時間未満である。

例えば架橋逆転（ｃｒｏｓｓ－ｌｉｎｋｒｅｖｅｒｓａｌ）工程の後、回収されたＤＮＡの量は、本明細書に開示された技術を使用して改善することができる。例えば、架橋逆転工程の後のＤＮＡ回収は、少なくとも５％、少なくとも１０％、少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％、少なくとも４５％、少なくとも５０％、少なくとも５５％、少なくとも６０％、少なくとも６５％、少なくとも７０％、少なくとも７５％、少なくとも８０％、少なくとも８５％、少なくとも９０％、又は少なくとも９５％であり得る。場合によっては、架橋逆転工程の後のＤＮＡ回収は少なくとも３０％から少なくとも５０％までである。

高価な又は時間のかかる工程を含む特定の工程は、本開示の技術を使用して回避することができる。例えば、配列決定ライブラリーは、透析を必要とすることなく調製され得る。配列決定ライブラリーは、クロマチンのビオチン化を必要とすることなく調整され得る。配列決定ライブラリーは、クロマチンのプルダウンを必要とすることなく調整され得る。配列決定ライブラリーは、ビオチンビーズの占有工程を必要とすることなく調整され得る。配列決定ライブラリーは、ＥｘｏＩＩＩの消化物などの特定の消化物を必要とすることなく調整され得る。必要とされるクロマチンの量も減少することができる。例えば、以前のクロマチンアセンブリライブラリーの調製と比較して、必要とされるクロマチンの量は、少なくとも２倍、少なくとも３倍、少なくとも４倍、少なくとも５倍、少なくとも６倍、少なくとも７倍、少なくとも８倍、少なくとも９倍、又は少なくとも１０倍減少され得る。必要とされるクロマチンの量は、約５ユニット未満、約４．５ユニット未満、約４ユニット未満、約３．５ユニット未満、約３ユニット未満、約２．５ユニット未満、約２ユニット未満、約１．５ユニット未満、約１ユニット未満、約０．９ユニット未満、約０．８ユニット未満、約０．７ユニット未満、約０．６ユニット未満、約０．５ユニット未満約０．４ユニット未満、約０．３ユニット未満、約０．２ユニット未満、約０．１ユニット未満であり得る。１ユニットのクロマチンは、クロマチンへとアセンブルされた１マイクログラム（μｇ）のＤＮＡの等価物である。

図８に例示されるコンピュータシステム（５００）は、媒体（５１１）及び／又はネットワークポート（５０５）から命令を読み出すことが可能な、論理的な装置として理解され、固定された媒体（５１２）を持つサーバー（５０９）に随意に接続され得る。図８に示されるものなどのシステムは、ＣＰＵ（５０１）、ディスクドライブ（５０３）、キーボード（５１５）及び／又はマウス（５１６）などの随意の入力装置、及び随意のモニター（５０７）を含み得る。データ通信は、局所又は遠隔の位置でサーバーに対して示された通信媒体を通じて達成され得る。通信媒体は、データを送信及び／又は受信する任意の手段を含み得る。例えば、通信媒体は、ネットワーク接続、無線接続、又はインターネット接続であり得る。そのような接続は、ワールド・ワイド・ウェブ上での通信を提供することができる。本開示に関するデータは、図８に例示されるように当事者（５２２）による受理及び／又は検討のためにそのようなネットワーク又は接続によって伝達され得る。

図９は、本開示の実施形態の例と関連して使用され得るコンピュータシステム（１００）の第１の例のアーキテクチャを示すブロック図である。図９に表されるように、コンピュータシステムの例は、命令を処理するためのプロセッサ（１０２）を含み得る。プロセッサの限定されない例は、以下を含む：ＩｎｔｅｌＸｅｏｎ（商標）プロセッサ、ＡＭＤＯｐｔｅｒｏｎ（商標）プロセッサ、Ｓａｍｓｕｎｇ３２－ｂｉｔＲＩＳＣＡＲＭ１１７６ＪＺ（Ｆ）－Ｓｖ１．０（商標）プロセッサ、ＡＲＭＣｏｒｔｅｘ－Ａ８ＳａｍｓｕｎｇＳ５ＰＣ１００（商標）プロセッサ、ＡＲＭＣｏｒｔｅｘ－Ａ８ＡｐｐｌｅＡ４（商標）プロセッサ、ＭａｒｖｅｌｌＰＸＡ９３０（商標）プロセッサ、又は機能的に同等なプロセッサ。複数のスレッドの実行が並列処理のために使用され得る。幾つかの実施形態において、複数のプロセッサ、又は複数のコアを持つプロセッサはまた、単一のコンピュータシステム中でも、クラスターの中でも、又は、複数のコンピューター、携帯電話、及び／又は個人用携帯情報端末装置を含むネットワーク上のシステムにわたって分布されても、使用され得る。

図９に例示されるように、高速キャッシュ（１０４）は、プロセッサ（１０２）に接続するか、又はその中に組み込まれることで、プロセッサ（１０２）により近年使用されてきた又は頻繁に使用されている命令又はデータのための高速メモリを提供することができる。プロセッサ（１０２）は、プロセッサバス（１０８）によりノースブリッジ（１０６）に接続される。ノースブリッジ（１０６）は、メモリバス（１１２）によりランダムアクセスメモリ（ＲＡＭ）（１１０）に接続され、プロセッサ（１０２）によりＲＡＭ（１１０）へのアクセスを管理する。ノースブリッジ（１０６）はまた、チップセットバス（１１６）によりサウスブリッジ（１１４）に接続される。サウスブリッジ（１１４）は次に、周辺バス（１１８）に接続される。周辺バスは、例えばＰＣＩ、ＰＣＩ－Ｘ、ＰＣＩＥｘｐｒｅｓｓ、又は他の周辺バスであり得る。ノースブリッジ及びサウスブリッジは頻繁に、プロセッサチップセットと称され、周辺バス（１１８）上でプロセッサと、ＲＡＭと、周辺コンポーネントとの間のデータ転送を管理する。幾つかの代替的なアーキテクチャにおいて、ノースブリッジの機能性は、別個のノースブリッジチップを使用する代わりにプロセッサに組み込まれ得る。

幾つかの実施形態おいて、システム（１００）は、周辺バス（１１８）に付けられるアクセラレータカード（１２２）を含み得る。アクセラレータは、特定の処理を促進するためのフィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のハードウェアを含み得る。例えば、アクセラレータは、適応データの再構築のために、又は、拡張設定処理に使用される代数式を評価するために使用され得る。

ソフトウェアとデータは、外部記憶装置（１２４）に記憶され、プロセッサによる使用のためにＲＡＭ（１１０）及び／又はキャッシュ（１０４）へとロードされ得る。システム（１００）は、システムリソースの管理のためのオペレーティングシステムを含み；オペレーティングシステムの限定されない例は、以下を含む：Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（商標）、ＭＡＣＯＳ（商標）、ＢｌａｃｋＢｅｒｒｙＯＳ（商標）、ｉＯＳ（商標）、及び他の機能的に同等なＯＳ、同様に、本開示の実施形態の例に従ってデータの記憶と最適化を管理するためのオペレーティングシステム上で実行するアプリケーションソフトウェア。

この例において、システム（１００）はまた、ネットワーク接続ストレージ（ＮＡＳ）などの外部記憶装置、及び分散並列処理に使用され得る他のコンピュータシステムに対するネットワークインターフェースを提供するために、周辺バスに接続されるネットワークインターフェースカード（ＮＩＣ）（１２０）及び（１２１）を含む。

図１０は、複数のコンピュータシステム（２０２ａ）及び（２０２ｂ）、複数の携帯電話及び個人用携帯情報端末（２０２ｃ）、並びにネットワーク接続ストレージ（ＮＡＳ）（２０４ａ）及び（２０４ｂ）を含むネットワーク（２００）を示す略図である。実施形態の例において、システム（２０２ａ）、（２０２ｂ）、及び（２０２ｃ）は、データ記憶を管理し、ネットワーク接続ストレージ（ＮＡＳ）（２０４ａ）及び（２０４ｂ）に記憶されたデータに対するデータアクセスを最適化することができる。数学モデルはこのデータに対して使用され、コンピュータシステム（２０２ａ）及び（２０２ｂ）、並びに携帯電話及び個人用携帯情報端末システム（２０２ｃ）にわたって分散並列処理を使用して評価され得る。コンピュータシステム（２０２ａ）及び（２０２ｂ）、並びに携帯電話及び個人用携帯情報端末システム（２０２ｃ）はまた、ネットワーク接続ストレージ（ＮＡＳ）（２０４ａ）及び（２０４ｂ）に記憶されたデータの適応データ再構築に対して並列処理を提供することができる。図１０は一例のみを例示しており、様々な他のコンピューターのアーキテクチャ及びシステムは、本開示の様々な実施形態と共に使用され得る。例えば、ブレードサーバーは並列処理を提供するために使用され得る。プロセッサブレードは、並列処理を提供するためにバックプレーンを通じて接続され得る。ストレージはまた、別個のネットワークインターフェースを通ってバックプレーンに、又はネットワーク接続ストレージ（ＮＡＳ）として接続され得る。

幾つかの実施形態の例において、プロセッサは、別個のメモリ空間を維持し、ネットワークインターフェース、バックプレーン、又は他のプロセッサによる並列処理のための他のコネクターを通じてデータを伝達することができる。他の実施形態において、プロセッサの幾つか又は全てが、共有仮想アドレスメモリ空間を使用することができる。

図１１は、実施形態の例に従って共有仮想アドレスメモリ空間を使用するマルチプロセッサコンピュータシステム（３００）のブロック図である。システムは、共有メモリサブシステム（３０４）にアクセス可能な複数のプロセッサ（３０２ａ－ｆ）を含む。システムは、メモリサブシステム（３０４）に複数のプログラマブルハードウェアのメモリアルゴリズムプロセッサ（ＭＡＰ）（３０６ａ－ｆ）を組み込む。ＭＡＰ（３０６ａ－ｆ）は各々、メモリ（３０８ａ－ｆ）及び１以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）（３１０ａ－ｆ）を含み得る。ＭＡＰは設定可能な機能ユニットを提供し、特定のアルゴリズム又はその一部は、各プロセッサと密接に協働して処理を行うためにＦＰＧＡ（３１０ａ－ｆ）に提供され得る。例えば、ＭＡＰは、データモデルに関する代数式を評価し、且つ実施形態の例における適応データの再構築を行なうために使用され得る。この例において、ＭＡＰは各々、このような目的のためのプロセッサ全てにより世界的にアクセス可能である。１つの構成において、ＭＡＰは各々、関連するメモリ（３０８ａ－ｆ）にアクセスするためにダイレクトメモリアクセス（ＤＭＡ）を使用することができ、それにより、各マイクロプロセッサ（３０２ａ－ｆ）とは別個に、且つこれらから非同期的にタスクを実行することが可能となる。この構成において、ＭＡＰは、パイプライン処理（ｐｉｐｅｌｉｎｉｎｇ）及びアルゴリズムの並列の実行のために別のＭＡＰに直接結果を供給することができる。

上述のコンピューターのアーキテクチャ及びシステムは単なる例であり、様々な他のコンピューター、携帯電話、個人用携帯情報端末のアーキテクチャ及びシステムは、共通のプロセッサ、コプロセッサ、ＦＰＧＡ、及び他のプログラム可能論理回路の任意の組み合わせを使用するシステム、システムオンチップ（ＳＯＣ）、特定用途向け集積回路（ＡＳＩＣ）、及び他の処理要素と論理素子を含む実施形態の例と共に使用され得る。幾つかの実施形態において、コンピュータシステムの全て又は一部は、ソフトウェア又はハードウェアに実装され得る。様々なデータ記憶媒体が、例えばランダムアクセスメモリ、ハードドライブ、フラッシュメモリ、テープドライブ、ディスクアレイ、ネットワーク接続ストレージ（ＮＡＳ）、及び他のローカル又は分散データ記憶装置及びシステムを含む実施形態の例と共に使用され得る。

実施形態の例において、コンピュータシステムは、上述の又は他のコンピューターのアーキテクチャ及びシステムの何れかで実行するソフトウェアモジュールを使用して実施され得る。他の実施形態において、システムの機能は、ファームウェア、図１１で言及されるようなフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などのプログラム可能論理回路、システムオンチップ（ＳＯＣ）、特定用途向け集積回路（ＡＳＩＣ）、又は他の処理要素及び論理素子において部分的又は完全に実施され得る。例えば、セットプロセッサ及びオプティマイザは、図９に示されるアクセラレータカード（１２２）などのハードウェアアクセラレータカードの使用によるハードウェアアクセラレーションで実施され得る。

メタゲノミクス及び複合サンプル
生物学又は生医学的なサンプル、生態学又は環境的サンプル、及び食物サンプルの微生物含有量は、培養に依存した方法により頻繁に同定又は定量化される。多くの微生物が培養可能でなく、又は研究所内で培養できないため、かなりの量の微生物の生物多様性を、培養に基づく方法により見落としかねない。何千もの生物が平行して配列決定される、ショットガンメタゲノム配列決定方法により、与えられた複合サンプルに存在する大多数の生物における大多数の遺伝子を研究者が包括的にサンプリングすることが可能となる。この方法により、細菌の多様性の評価、及び解析が困難となり得る培養できない微生物に関する研究が可能となり得る。しかし、支持されていないショットガン配列決定方法は、基準配列無しに、又はｄｅｎｏｖｏで配列をアセンブルすることが必要とされるような長期的な連鎖情報の一部のソース無しにアセンブルするのが困難となり得る、短いリード配列を含むかなりの数のリードを生成する。短いリードのショットガンデータ（例えばＣｏｎＳｔｒａｉｎｓ）の生物情報学解析は、ショットガンデータのみを必要とする場合があり；しかし、出力は、配列の機能によりビニングされる（ｂｉｎｎｅｄ）がアセンブルされないコンティグから成り、近年の水平移動セグメントは不正確にビニングされかねない。単一分子の長いリード配列決定（例えばＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ＆ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓＭｉｎＩＯＮ）は、長い範囲のアセンブリの可能性を提供する；しかし、これらは、適用範囲の乏しい低い存在量のゲノムを提供することができ、アセンブルされた塩基当たりのコストは比較的高価である。１６ＳＲＮＡ増幅を使用して、群集１６ＳＲＮＡを深くサンプリングすることができ；しかし、この技術は系統差や病原性の型などを解決することなく、粗い分類の情報のみを提供する。合成の長いリード（例えばＭｏｌｅｃｕｌｏ，１０Ｘ）は、コンティグの真の足場組みを提供することができ；しかし、サンプルの調整は複雑にされ且つ標準化されかねず、１つのサンプル当たりのコストはより高価になり、高レベルの汚染がＭｏｌｅｃｕｌｏの研究において報告された。インビボでの近接ライゲーションは、長い範囲の足場組みを提供することができ、宿主を伴うゲノム外の要素（例えばプラスミド）を配することができる；しかし、これは無傷の細胞を必要とし、その結果、ゲノムの不均等なコンパクション又はＤＮＡ結合タンパク質との結合までもが原因で、近接データ中の群集成分の不均等な表示が生じかねない。

微生物群集は頻繁に、非常に不均等な存在量で、数十、数百、又は数千もの認識可能な操作的分類単位（ＯＴＵ）で構成され、各々が様々な量の歪み変化を持つ。この問題が更に悪化すると、微生物は頻繁に、接合交換（ｃｏｎｊｕｇａｌｅｘｃｈａｎｇｅ）の様々な手段を通じて遺伝物質を交換し、遺伝物質のこのようなセグメントは、それらの宿主の染色体へと組み込むことができ、その結果、細菌群集内の激しい水平方向の遺伝子移入が生じる。故に、微生物のゲノムは頻繁に、広く存在する遺伝子、及び特定の株に存在する又は存在しない場合もある他のもののコアゲノムに関して述べられる。ヒトの腸のマイクロバイオームなどの、複雑な微生物群集からの構成分子ゲノム、及び複雑な微生物群集の動力学についての説明は、重要且つ困難な問題である。

ｄｅｎｏｖｏメタゲノムのアセンブリが困難であったため、様々なより単純な方法が開発され、それらの成分を調べ且つ説明するために広く採用されてきた。例えば、１６ＳＲＮＡ増幅及び配列決定は、群集の組成を評価するための共通の方法である。この方法は、様々な刺激又は処理の前後に微生物の群集の動力学を述べるために相対的なフレームワークで使用され得るが、それらの１６Ｓ領域の外側の実際のゲノムについては何も学習されないため、実際の群集の組成についての非常に狭い見解をもたらす。ビニング方法も、ショットガンリード又はそれらからアセンブルされたコンティグを分類するのに役立つと証明されている。これらの方法は、ＯＴＵに対する分離されたゲノム断片の暫定的な割り当てを得るのに役立つ。しかし、前記方法は実質的に仮説を生み出すものであり、これらの断片を順序付けて配向し、又はＯＴＵ内で株に断片を割り当てるほどの力はない。重要なことに、前記方法は、現行の連鎖ではなく由来となるＯＴＵを検出するため、水平に移動された配列を識別するのには不適当である。この観点から、ｋ－量体の発生、配列決定の深さ、及び他の特徴に基づくこのようなビニング方法は、高度に隣接するアセンブリが信頼できて高速の経済的に合理的な方法ではこれまで可能ではなかったため、単離されたメタゲノミクス成分を理解するための一時しのぎの方法である。

本明細書に開示される技術は、既存の技術よりも様々な重要な利点をもたらす。先ず、我々の「シカゴ」ライブラリーは、広範囲のゲノム連鎖情報を提供することができ、迅速且つ確実に作成され得る。本明細書に記載されるように、プロトコルは、メタゲノムの群集に由来したＤＮＡの特殊な特徴に対処することができる。配列決定ライブラリーは、２日未満で配列決定する準備ができた状態で生成され得る。加えて、完全にインビトロのプロトコルでこれらのライブラリーを生成することができるため、何れも培養は不必要となり得る。その後、原則としてこれらの技術は、ＤＮＡが回収され得る任意のマイクロバイオーム群集のメンバーをアセンブルすることができる。第３に、この方法は、ｄｅｎｏｖｏアセンブリ及び足場組みのための他の方法よりも単純で、速く、且つ完全である。

本明細書には、研究所環境において培養することができず且つ様々な環境に存在する微生物など、メタゲノムサンプル中の生物の遺伝子解析のための方法及びツールが開示される。本開示は、結合性のデータを含む複合メタゲノミクスデータセットからのリードデータのｄｅｎｏｖｏゲノムアセンブリの方法を提供する。本明細書で開示される方法及び組成物は、メタゲノミクスサンプルにおいて複合種を均一且つ完全に表わす足場組みのデータを生成する。

図１２Ａは、近接ライゲーションのための手順の概要を示す。高分子量ＤＮＡなどのＤＮＡ（１２０１）は、ヒストン（１２０２）でインキュベートされ、次に、（例えばホルムアルデヒドで）架橋されて（１２０３）、クロマチン集合体（１２０４）を形成する。これは、更なる操作及び解析のために足場へとＤＮＡ分子をロックする。その後、ＤＮＡは消化され（１２０５）、消化された末端は、ビオチンなどのマーカーで充填される（１２０６）。その後、印を付けた末端を互いに無作為に連結し（１２０７）、次に連結された集合体は、例えばタンパク質消化により遊離される（１２０８）。その後、マーカーを使用して、ストレプトアビジン－ビオチン結合などを通じてライゲーション結合（１２０９）を含むＤＮＡ分子を選択することができる。その後、これらの分子を配列決定することができ、各リード対におけるリードはソース分子の２つの異なる領域に由来し、幾つかの挿入物により入力ＤＮＡの大きさにまで分離される。

図１２Ｂは、別々に又は一緒に利用され得る、メタゲノム解析のためのサンプル調製のための２つのパイプラインを示す。単一のＤＮＡ調製物（１２１０）（例えば排泄物サンプル由来）がプロセスに入力される。排泄物サンプルの場合、集めたＤＮＡは、Ｑｉａｇｅｎの排泄物ＤＮＡキットを使用した調製などに由来する、およそ５０キロベースの断片であり得る。このＤＮＡから、インビトロでのクロマチンアセンブリ（１２１１）（例えば「Ｃｈｉｃａｇｏ」）及びショットガン（１２１２）ライブラリーの調製物を作ることができる。クロマチンアセンブリライブラリー（１２１３）及びショットガンライブラリー（１２１４）は、互いに異なるバーコード（１２１５）及び（１２１６）を使用することができる。その後、これら２つのライブラリーは配列決定のためにプールすることができる（１２１７）。そのようなプロトコルを使用すると、単一のＤＮＡ調製物は、２つの配列決定ライブラリーであるショットガン及びインビトロでのクロマチンアセンブリのための入力として機能し得る。１μｇ未満の入力ＤＮＡは、両方のライブラリーを生成することを要求され、これらのライブラリーは、配列決定中にプールするために個々にバーコードを付けることができる。その後、これらのデータは、最初にコンティグへとアセンブルされ、次にインビトロでのクロマチンアセンブリライブラリーからの長い範囲の連鎖情報を使用して足場組みされ得る。これらのデータは、１メガベースより大きな多くの足場を生成し、現在利用可能なものよりも微生物のゲノム構造及び動力学の包括的な観点を可能にする。サンプルから高度に隣接するアセンブリまで進む処理時間は１週未満であり得る。

図１２Ｃは、本開示の手順で利用され得る足場組み技術の典型的な概要を示す。インビトロでのクロマチンアセンブリのリード対を使用し、コンティグの全域木（図示せず）を生成して、どのコンティグ（色つきの矢印）が正確なアセンブリにおいて互いに近接するのかを判定することができる。その後、ローカルウィンドウ（例えば（１２２０））内で、全ての起こり得る順序付け及び配向を、インビトロでのクロマチンアセンブリデータに対して試験することができる。図１Ｃに示されるように、緑のコンティグ（１２２１）の２つの起こり得る配向において、インビトロでのクロマチンアセンブリ対（１２２２）は、短距離（上部）又は更に長い距離（底部）にまたがる。各々の尤度は、各ライブラリーのために訓練されたインビトロでのクロマチンアセンブリの距離のモデルと比較することができる。近接ライゲーション中に、２つのセグメントを連結する可能性は、２つのセグメントがＤＮＡの線状重合体に沿っている距離がどのくらい離れているかに関するゆっくりと減少する関数により、説明することができる。故に、同じ単一のライブラリーからの短い、中度の、及び長い距離全てをまたぐ対が、回収される。特定の距離の可能性は、減少する指数法則関数により十分にモデル化され得る。即ち、一層長くなる距離にまたがるリード対を観察することは、ますます起こりそうにない。本明細書に開示されるアセンブリ技術（例えば「ＨｉＲｉｓｅ」）は、足場へとコンティグを正確に順序付け且つ配向するためにデータのこのファセットを開発することができる。

対象の方法の幾つか実施形態は、近接ライゲーション、及びインビトロでアセンブルされたクロマチン集合体の配列決定を含み、該集合体は、メタゲノムＤＮＡサンプル、又は、例えば生物医学又は生物学的サンプル、生態学又は環境的サンプル、又は食物サンプルなどのサンプルから直接得られる培養されない微生物由来のＤＮＡサンプルを含む。互換的な実施形態において、核酸は、複合体へとアセンブルされ、結合され、内部の二本鎖切断をさらすために切断され、単離及に切断の結合促すように標識され、再び連結することで、配列決定されるペアエンドを生成する。幾つかのそのようなペアエンド配列において、ペアエンドのリードの両末端は、対となったリードの配列が別個のコンティグにマッピングされる場合でさえ、共通の核酸分子にマッピングされると推測される。

同様の好ましい実施形態において、結合した複合体のさらされた末端は、核酸バーコードなどの識別子を使用してタグ付けされ、それにより複合体がタグ又はバーコードを付けられ、結果としてタグに隣接した配列は単一の核酸から恐らく生じると推測される。再び、共通してバーコードを付けた配列は、多数のコンティグにマッピングされ得るが、その後、コンティグは共通の核酸分子にマッピングされると推測される。

同様の好ましい実施形態において、複合体は、核タンパク質、トランスポサーゼ、転写因子、トポイソメラーゼ、特異的又は非特異的な二本鎖ＤＮＡ結合タンパク質、又は他の適切なタンパク質などの、ヒストン以外の核酸結合タンパク質の追加を通じてアセンブルされる。代替的に又は組み合わせで、複合体は、ヒストン又は他の核酸結合タンパク質ではなくナノ粒子を使用してアセンブルされる。

同様の好ましい実施形態において、自然に生じる複合体は、核酸複合体の連鎖情報を保存することに依存する。幾つかのそのような場合、核酸は、自然にアセンブルされた複合体を保存するように単離され、又は、処置或いは単離の前に固定剤などの安定剤で処理される。

任意のアセンブルされた又は単離された複合体において、架橋は、幾つかの場合に核酸複合体形成を安定させることに依存し得るが、他の場合、核酸結合部分の相互作用は、架橋が無い状態で複合体の完全性を維持するのに十分なものである。

本明細書中の方法と組成物は、単独で、又はショットガン配列決定データなどの、独立して得られた又は生成された配列データと組み合わせて、異種の核酸サンプルにおいてゲノム、染色体、又は独立した核酸分子に関するゲノム情報のアセンブリを生成することができる。ゲノムは、ヒトの口又は腸のマイクロバイオームなどの、及び培養中に増殖しない生物を含む、広範囲のメタゲノミクス群集における豊富な又は稀な生物といった、培養可能又は培養不能な生物を表わしてアセンブルされ得る。生物はまた、多数の異なるヒト個体からの細胞又は核酸を含有するサンプルなどの、他の個体の混合群又は集団からの遺伝物質を持つサンプルにおける個体であり得る。本開示の方法は、場合によっては広く利用可能なハイスループット配列決定技術を使用して、ゲノムのハイスループットの培養の無い（ｃｕｌｔｕｒｅ－ｆｒｅｅ）アセンブリに、迅速かつ単純な方法を提供する。

標的に依存しない微生物検出の適用
生物学又は生医学的なサンプル、生態学又は環境的なサンプル、工業用微生物サンプル、及び食物サンプルの微生物含有量は、培養に依存した方法により頻繁に同定又は定量化される。微生物の培養は、ｐＨ、温度、湿度、及び栄養素を含むがこれらに限定されない様々な要因に依存し得る。未知の又は以前に培養されていない生物のための培養条件を決定することは、頻繁に時間を消耗し且つ困難なプロセスである。

多くの微生物は現在、研究所で培養することができない。かなりの量の微生物の生物多様性が、培養に基づく方法により見落とされてしまう。本開示の方法及び組成物は、研究所環境において培養することができず且つ様々な環境に存在する微生物又はウイルスなど、メタゲノムサンプル中の生物の遺伝子解析に適用され得る。メタゲノムのサンプルの制限されない例は、組織、尿、汗、唾液、痰、及び糞便を含む生物サンプル；空気及び大気；池、湖、海、海洋などの水域から水サンプル；土壌及び泥などの生態学的サンプル；及び食品を含む。様々なメタゲノムサンプル中の微生物含有量の解析は、医学、科学捜査、環境モニタリング、及び食品科学を含むがこれらに限定されない用途に役立つ。

微生物のパネルを含む、個々の微生物又は「微生物シグネチャ（ｍｉｃｒｏｂｉａｌｓｉｇｎａｔｕｒｅ）」又は「微生物フィンガープリント」は、は、被験体、例えばヒト又は他の動物などの哺乳動物被験体から得られた生物学又は生医学的なサンプルにおいて同定される。幾つかの態様において、そのような情報は医療の用途又は目的のために使用される。幾つかの態様において、同定は、微生物の属又は種、或いはバクテリア菌株に対する抗生物質抵抗を与えることができる突然変異などの、以前に同定されていない又は共通でない遺伝子突然変異を持つ微生物の属又は種の存在又は不在を判定することを含む。幾つかの態様において、同定は、１つ以上の微生物の種又は１つ以上の微生物の属から微生物ＤＮＡのレベルを判定することを含む。場合によっては、微生物シグネチャ又はフィンガープリントは、サンプル中の異なる属又は種からの微生物ＤＮＡのレベルと比較して増大した或いは著しく高い、特定の属又は種の微生物ＤＮＡのレベルを示す。幾つかの態様において、サンプルの微生物シグネチャ又はフィンガープリントは、サンプル中の他の属又は種からの微生物ＤＮＡのレベルと比較して減少した或いは著しく低い、特定の属又は種の微生物ＤＮＡのレベルを示す。幾つかの態様において、サンプルの微生物シグネチャ又はフィンガープリントは、サンプル中に存在する様々な型の微生物（例えば、異なる属又は種）の微生物ＤＮＡのレベルを定量化することにより判定される。幾つかの態様において、サンプル中に存在する様々な属又は種の微生物ＤＮＡのレベルが判定され、対照サンプル又は標準のものと比較される。

幾つかの態様において、病気を患う疑いのある被験体の微生物の属又は種の存在は、微生物の属又は種により引き起こされている病気を患うと確信を持って診断される。場合によっては、この情報を使用して、微生物の属又は種が例えば接触又は接近により他の個体に伝染可能であると疑われる場合、他の個体から個体を隔離する。場合によっては、サンプルに存在する微生物又は微生物種に関する情報を使用し、特定の医療処置を決定して、被験体の微生物を排除し、且つ例えば細菌感染を処置する。

幾つかの態様において、サンプル中の特定の属又は種の微生物ＤＮＡのレベルが減少する、又は対照サンプル或いは標準よりも著しく低い場合、サンプルを採取された被験体は、例えば癌（例えば乳癌）などの疾患に悩んでいると診断される。幾つかの態様において、サンプル中に存在する様々な属又は種の微生物ＤＮＡのレベルが判定され、サンプル中に存在する他の様々な属又は種の間で比較される。幾つかの態様において、サンプル中の特定の属又は種の微生物ＤＮＡのレベルが減少する、又はサンプル中で検出される他の微生物の属又は種の微生物ＤＮＡよりも著しく低い場合、ＤＮＡを採取された被験体はおそらく、例えば癌などの疾患に悩んでいる。

微生物のパネルを含む個々の微生物又は「微生物シグネチャ」又は「微生物フィンガープリント」は、環境又は生態学的なサンプル、例えば空気サンプル、水サンプル、及び土壌或いは泥サンプルにおいて同定される。幾つかの態様において、微生物の同定、及び環境又は生態学的サンプル中の微生物の多様性の解析を使用して、生態系に対する汚染物質の影響をモニタリングし且つ汚染された環境をきれいにするための戦略を改善する。どのようにして微生物群集が汚染物質に対処するかについての理解の向上は、汚染された部位が汚染から回復する可能性の評価を改善し、生物増強又は生物刺激の可能性を増大させる。そのような情報は、環境群集の機能的な生態学に対する有益な見識を提供する。微生物の解析も場合によってはより広範囲に使用して、空気、水、特定の水域、及び土壌と泥のサンプルに存在する種を同定する。これを使用して、例えば侵襲的な種及び絶滅危惧種の範囲を確立し、且つ季節的な集団を追跡することができる。

環境又は生態学的なサンプル中の微生物群集の同定及び解析も、農業の用途に役立つ。微生物のコンソーシアムは、植物の成長に必要な種々様々な生態系の役目を実行し、空中窒素の固定、栄養循環、疾患の抑止、及び鉄や他の金属の隔離を含む。そのような情報は例えば、作物と家畜における疾患検出、及び微生物と植物との関係の利用により作物の健康を改善する増強された農業慣習の順応を改善するのに有用である。

幾つかの実施形態において、微生物のパネルを含む個々の微生物又は「微生物シグネチャ」又は「微生物のフィンガープリント」は、微生物の産業上のサンプル、例えば、精密化学薬品、農薬及び調合薬などの様々な生物学的に活性の化学物質を産生するために使用される微生物群集において同定される。微生物の群集は多くの生物学上活性な化学物質を産生する。

配列解析に基づいた微生物の検出及び同定も、食品安全性、食物確実性、及び不正行為も検出に役立つ。例えば、メタゲノムサンプル中の微生物の検出及び同定は、腐敗又は汚染の疑いのある食物において、細菌、ウイルス、及び寄生虫を含む、培養可能でない且つ以前に知られていない病原体の検出及び同定を可能にする。米国での食品媒介疾患の約８０パーセントが、食中毒を引き起こすとまでは認められない既知の薬剤、食物中にあるが病原性は証明されていない物質、及び未知の薬剤を含む無指定の薬剤により引き起こされるという推定により、全集団の微生物の解析は、食中毒を減らす機会を提供することができる。食物の全体的な供給の認識の増大、及び魚介類と甲殻類などの食物を調達する際の持続可能な慣習の認識の増大により、微生物検出は、食物の確実性を評価するのに、例えば、世界の特定の区域で獲れたものであることを主張する魚が本当にその区域で獲れたものかを判定するのに有用である。

異種のサンプルにおける連鎖測定の適用
本明細書中の方法の適用はまた、異種のサンプル中の既知又は未知の分子のための連鎖測定に関連する。また、本明細書では、新しい生物検出に加えて異種のサンプル中の連鎖情報の測定に関連した適用も熟慮される。幾つかの実施形態において、連鎖情報は、異種の核酸サンプル中の染色体などの核酸について判定される。複数の個体からのＤＮＡを含むサンプルが得られ、犯罪現場、便器又はトイレ、戦場、流し、又はゴミ廃棄物からのサンプルなどがある。核酸配列情報は、例えばショットガン配列決定を介して得られ、連鎖情報が判定される。頻繁に、個体の固有なゲノムの情報は、単一の遺伝子座によっては同定されないが、一塩基多型（ＳＮＰ）、挿入又は欠失（ｉｎ／ｄｅｌ）、又は点突然変異、又は特性の固有或いは実質的に固有の遺伝子の組み合わせを総体的に表わす対立遺伝子などの遺伝子座の組み合わせにより識別される。多くの場合、個体の特性は特定の個体を同定するのに十分ではない。しかし、本明細書中の方法の実行を通じて利用可能となるような連鎖情報を使用すると、異種のサンプルに存在する集合した対立遺伝子だけでなく、当該技術分野で利用可能なショットガン又は代替的なハイスループット配列決定方法も同様に同定するが、サンプル中の特異的な分子に存在する対立遺伝子の特異的な組み合わせも判定する。故に、サンプル中の特定の対立遺伝子だけでなく、ゲノム情報が以前に得られたゲノム配列又は親類から利用可能な配列情報を介して利用可能である特定の個体に、対立遺伝子の組み合わせをマッピングするのに必要な染色体上でこれら対立遺伝子の組み合わせも判定する。連鎖情報はまた、遺伝子が異種のサンプルに存在すると知られている場合には有益であるが、ゲノムのコンテキストは未知である。例えば、場合によっては、個体は抗生物質治療に耐性のある有害な感染症を抱くことが分かっている。ショットガン配列決定はおそらく、抗生物質耐性遺伝子を同定する。しかし、本明細書中の方法の実行を通じて、有益な情報は、抗生物質耐性遺伝子のゲノムのコンテキストに関して獲得される。故に、抗生物質耐性遺伝子だけでなく、それが存在する生物のゲノムも同定することにより、そのゲノム情報の残りに照らして抗生物質耐性遺伝子宿主を標的とするための代替的な処置を同定することができる。例えば、耐性菌には存在せず、又は第２の抗生物質に対し脆弱性の代謝経路が標的とされ、それにより、第１の選択肢の場合に抗生物質に耐性があるにもかかわらず、耐性菌は取り除かれる。代替的に、患者における抗生物質耐性遺伝子の宿主に関する、より完全なゲノムの情報を使用して、耐性遺伝子が「野生の」微生物の生物から生じるかどうか、或いは、研究所から「逃げた」又は故意に放された微生物の研究所株からおそらく発生したかどうかを判定する。

サンプル
微生物が検出されるサンプルは、微生物の集団又は異種の核酸集団を含む任意のサンプルであり得る。例として、ヒト被験体又は動物被験体からの生物学又は生医学的なサンプル；池、湖、海、海洋などからの水サンプルといった土壌及び水のサンプルを含むがこれらに限定されない、環境及び生態学的なサンプル；又は、傷んでいる又は汚染されている疑いのある食物が挙げられる。

生物学的サンプルは生物学的被験体から得ることができる。被験体は、ヒト、ヒト以外の霊長類、げっ歯類、イヌ、ネコ、ブタ、魚類などを含むがこれらに限定されない、任意の動物（例えば哺乳動物）を指し得る。サンプルは、任意の被験体、個体、又は、例えば哺乳動物及び非哺乳動物、脊椎動物及び無脊椎動物を含むヒト又は非ヒト動物を含む生物学的ソースから得ることができる。サンプルは、例えば、皮膚、心臓、肺、腎臓、乳房、膵臓、肝臓、筋肉、平滑筋、膀胱、胆嚢、結腸、腸、脳、前立腺、食道、及び甲状腺を含む組織サンプルなどの、感染又は汚染された組織サンプルを含み得る。サンプルは、例えば血液、尿、脳脊髄液、精液、唾液、痰、便といった、感染又は汚染された生物学的サンプルを含み得る。

場合によっては、異種のサンプルは、少なくとも２以上の個体に由来する核酸を含み、２以上の個体により使用される便器又はトイレ、或いは、戦場又は犯罪現場などの、少なくとも２の個体の血液又は組織が混じった場所から得られたサンプルなどである。

本明細書に開示される方法の実行を通じた、サンプルのための連鎖情報
サンプルを得る方法は、適切なサンプルの型及び所望の用途のために選択され得る。例えば、組織サンプルは、外科的処置の間に生検又は切除により得られ；血液は静脈穿刺により得られ；及び、唾液、痰、及び便は、レセプタクルにおいて個体により自己提供され得る。

幾つかの態様において、便サンプルは、哺乳動物（例えば、ヒト以外の霊長類、ウマ、ウシ、イヌ、ネコ、ブタ、及びヒト）などの動物に由来する。便サンプルは任意の適切な重量であり得る。便サンプルは、少なくとも５０ｇ、６０ｇ、７０ｇ、８０ｇ、９０ｇ、１００ｇ、１１０ｇ、１２０ｇ、１３０ｇ、１４０ｇ、１５０ｇ又はそれ以上であり得る。便サンプルは水を含み得る。幾つかの態様において、便サンプルは、少なくとも６０％、６５％、７０％、７５％、８０％、８５％、９０％、又はそれ以上の水を含み得る。幾つかの態様において、便サンプルは保管される。便サンプルは、２－８℃で数日間（３－５日間）、又は－２０℃の温度で長期間（例えば５日より長く）保管され得る。幾つかの態様において、便サンプルは、個体又は被験体により提供され得る。幾つかの態様において、便サンプルは、便が堆積される場所から集めることができる。幾つかの態様において、便サンプルは、予め定められた期間にわたり１つの個体から集められた複数のサンプルを含み得る。複数の時点での期間にわたり集められた便サンプルを使用して、例えば感染のための処置の経過中に、個体の便における生物多様性をモニタリングすることができる。幾つかの態様において、便サンプルは、様々な個体、例えば、同じ病原体に感染した又は同じ疾患を患った疑いのある様々な個体からのサンプルを含む。

場合によっては、サンプルは、微生物の集団又は群集を含む、環境又は生態学的なサンプルを含む。環境サンプルの限定されない例は、大気又は空気のサンプル、土壌又は泥のサンプル、及び水サンプルを含む。空気サンプルを解析して、空気、例えば健康を脅かすと考えられる微生物、例えば病気を引き起こすウイルスが存在する疑いのある区域の空気の微生物の組成を測定することができる。幾つかの態様において、空気サンプルの微生物の構成の理解は、環境の変化をモニタリングするために使用され得る。

水サンプルは、公共の安全性と環境のモニタリングを含むがこれらに限定されない目的のために解析され得る。水サンプル、例えば飲料水供給リザーバーからのサンプルを解析して、飲料水供給量における微生物の多様性、及びヒトの健康に対する潜在的な影響を測定することができる。水サンプルを解析して、大気中の気体の局所的な温度及び組成における変化から結果として生じる、微生物環境に対する影響を測定することができる。水サンプル、例えば池、湖、海、海洋、又は他の水域の水サンプルは、その年の様々な時点でサンプリングすることができる。幾つかの態様において、複数のサンプルがその年の様々な時点で得られる。水サンプルは、水域の表面から様々な深さで集めることができる。例えば、水サンプルは、水域の表面で、又は水域の表面から少なくとも１メートル（例えば、少なくとも２、３、４、５、６、７、８、９メートル以上）で集めることができる。幾つかの態様において、水サンプルは、水域の底から集めることができる。

土壌及び泥のサンプルをサンプリングして、微生物の多様性を研究することができる。土壌サンプルは、土壌及び水中のウイルス及び細菌の動作に関する情報を提供することができ、且つ生物的環境浄化に有用であり、そこでは、遺伝子工学を適用して、危険な汚染物質を分解することができる土壌微生物を開発することができる。土壌の微生物群集は、例えば１グラムの土壌において推定される２，０００～１８，０００の異なるゲノムに及ぶ、実質的な数の遺伝子情報を含有する、何千もの異なる生物を持つことができる。土壌サンプルは表面から様々な深さで集めることができる。幾つかの態様において、土壌は表面で集められる。幾つかの態様において、土壌は、表面よりも少なくとも１（例えば、少なくとも２、３、４、５、６、７、８、９、１０、又はそれ以上）の深さで集められる。幾つの態様において、土壌は、表面よりも１－１０の間（例えば、２－９、３－８、４－７、又は５－６）の深さで集められる。土壌サンプルは、その年の間の様々な時点で集めることができる。幾つかの態様において、土壌サンプルは、冬、春、夏、又は秋など特定の季節に集められる。幾つかの態様において、土壌サンプルは特定の月に集められる。幾つかの態様において、土壌サンプルは、トルネード、ハリケーン、又は雷雨を含むがこれらに限定されない環境現象の後に集められる。場合によっては、複数の土壌サンプルが、時間的経過にわたる微生物の多様性のモニタリングを可能にするための期間にわたって集められる。土壌サンプルは、農業生態系、森林生態系、及び様々な地理的地域の生態系などの様々な生態系から集めることができる。

食物サンプルは、汚染、腐敗、ヒト病気の原因の疑いがある、或いは、対象の微生物又は核酸を持つ疑いがある食物であり得る。食物サンプルは、１つの工場などにおいて小規模で産生され得る。食物サンプルは、大きな食物生産又は食品加工の工場などにおいて工業規模で産生され得る。限定されない食物サンプルの例は、生又は調理済みの魚介類、甲殻類、生又は調理済みの卵、牛肉、豚肉及び鶏肉を含む加熱が不十分な肉、低温殺菌していない牛乳、低温殺菌していないソフトチーズ、未加工のホットドッグ、及びデリ・ミートを含む動物性食品；生鮮品及びサラダを含む植物製品；生鮮品及びフルーツジュースなど果物製品；及び、自家製の缶詰、大量生産缶詰、及びサンドイッチなどの加工及び／又は調理済み食品を含む。幾つの態様において、解析のための食物サンプル、例えば汚染されている又は傷んでいる疑いがある食物サンプルは、例えば２０℃～２５℃の室温で保管され得る。幾つかの態様において、食物サンプルは、２０℃、１８℃、１６℃、１４℃、１２℃、１０℃、８℃、６℃、４℃、２℃、０℃、－１０℃、－２０℃、－４０℃、－６０℃、又は－８０℃未満の温度など、室温未満の温度で保管された。幾つかの態様において、食物サンプルは、２６℃、２８℃、３０℃、３２℃、３４℃、３６℃、３８℃、４０℃、又は５０℃より上の温度など、室温より上の温度で保管された。幾つかの態様において、食物サンプルは未知の温度で保管された。食物サンプルは、例えば１日、１週、１か月、又は１年など、特定の期間にわたり保管され得る。場合によっては、食物サンプルは、少なくとも１日、１週、１か月、６か月、１年、２年、又はそれ以上にわたり保管された。食物サンプルは腐敗しやすく、保管期間の制限がある。製造工場で産生された食物サンプルは、特定の生産ロット又は生産期間から得ることができる。食物サンプルは、様々な群集における様々な店、及び様々な製造工場から得られる場合もある。

核酸分子
核酸分子（例えばＤＮＡ又はＲＮＡ）は、タンパク質、脂質、及び非鋳型核酸などの、様々な他の成分を含有するメタゲノムサンプルから単離することができる。核酸分子は任意の細胞材料から得られ、動物、植物、細菌、真菌類、又は他の細胞生物から得られ得る。本開示での使用のための生物学的サンプルは、ウイルスの粒子又は調製も含む。核酸分子は、生物から直接、或いは、生物から得た生物学的サンプル、例えば血液、尿、脳脊髄液、精液、唾液、痰、便、及び組織から得られ得る。核酸分子は、生物から直接、或いは、生物から得た環境サンプル、例えば空気サンプル、水サンプル、及び土壌サンプルから得られ得る。核酸鋳型は、傷んでいる又は汚染されている疑いのある食物サンプル、例えば肉サンプル、農産物サンプル、果物サンプル、生食品サンプル、加工食品サンプル、冷凍食品サンプルなどから直接得られ得る。

核酸は、様々な方法を使用して抽出且つ精製される。場合によっては、核酸は、フェノール、フェノール／クロロホルム／イソアミルアルコール、或いはＴＲＩｚｏｌ及びＴｒｉＲｅａｇｅｎｔを含む同様の製剤での有機抽出により精製される。抽出技術の他の限定されない例は、以下を含む：（１）自動核酸抽出器、例えばＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（ＦｏｓｔｅｒＣｉｔｙ，Ｃａｌｉｆ．）から入手可能なＭｏｄｅｌ３４１ＤＮＡＥｘｔｒａｃｔｏｒの使用を伴う又は伴わない、例えばフェノール／クロロホルムの有機試薬（Ａｕｓｕｂｅｌｅｔａｌ．，１９９３）を使用する、エタノール沈殿を伴う有機抽出；（２）固定相吸着法（米国特許第５，２３４，８０９号；Ｗａｌｓｈｅｔａｌ．，１９９１）；及び（３）典型的に「塩析」方法と称される沈澱法などの、塩で誘導された核酸沈澱法（Ｍｉｌｌｅｒｅｔａｌ．，１９８８）。核酸の単離及び／又は精製は、磁性粒子の使用を含み、核酸は特異的又は非特異的にその粒子に結合し、その後磁石を使用してビーズを単離し、洗浄し、ビーズから核酸を溶出することができる（例えば米国特許第５，７０５，６２８号を参照）。幾つかの実施形態において、サンプルから不要なタンパク質を取り除くのに役立つ酵素消化工程、例えばプロテイナーゼＫ又は他のプロテアーゼによる消化の後に、上記の単離法があってもよい。例えば米国特許第７，００１，７２４号を参照のこと。必要に応じて、ＲＮａｓｅ阻害剤を、溶解緩衝液に添加することができる。特定の細胞又はサンプル型について、手順にタンパク質変性／消化工程を加えることができる。精製法は、ＤＮＡ、ＲＮＡ、又はその両方を単離することを目的とされ得る。抽出手順の間又はその後にＤＮＡとＲＮＡの両方が一緒に単離されると、更なるステップを利用して、一方又は両方を他とは別々に精製することができる。例えば、サイズ、配列、又は他の物理的若しくは化学的特性に基づく精製により、抽出した核酸の細画分を生成することもできる。最初の核酸単離工程に加えて、本開示の方法における任意の工程の後に、過剰な又は不要な試薬、反応物、又は産物を除去するなどのために、核酸の精製を実施することができる。場合によっては、ＲＮＡでコードされたゲノムの検出が熟慮されるなどの場合、核酸サンプルは逆転写酵素で処理され、その結果、相補的ＤＮＡ分子の合成のための鋳型として核酸サンプル中のＲＮＡ分子が役立つ。場合によっては、そのような処置は核酸サンプルの下流の解析を容易にする。

核酸の鋳型分子は、２００３年１０月９日に公開された米国特許出願公開第２００２／０，１９０，６６３号Ａ１に記載の通り得ることができる。場合によっては、核酸は、Ｍａｎｉａｔｉｓら、Ｍａｎｉａｔｉｓ，ｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．，ｐｐ．２８０－２８１（１９８２）、及び周知の研究所リソースに対する近年の更新版に記載されるものなど、様々な技術によって生体サンプルから抽出される。核酸は、最初に生体サンプルから抽出され、次いでインビトロで架橋され得る。天然の会合タンパク質（例えばヒストン）を、核酸から更に除去することができる。

本明細書に開示される方法は、例えば、組織、細胞培養、体液、動物組織、植物、細菌、真菌、ウイルスなどから単離されるＤＮＡを含めた、任意の高分子量二本鎖ＤＮＡに容易に適用することができる。

複数の独立したサンプルの各々は、少なくとも約１ｎｇ、２ｎｇ、５ｎｇ、１０ｎｇ、２０ｎｇ、３０ｎｇ、４０ｎｇ、５０ｎｇ、７５ｎｇ、１００ｎｇ、１５０ｎｇ、２００ｎｇ、２５０ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、１μｇ、１．５μｇ、２μｇ、５μｇ、１０μｇ、２０μｇ、５０μｇ、１００μｇ、２００μｇ、５００μｇ、又は１０００μｇ、又はそれ以上の核酸材料を独立して含み得る。場合によっては、複数の独立したサンプルの各々は、約１ｎｇ、２ｎｇ、５ｎｇ、１０ｎｇ、２０ｎｇ、３０ｎｇ、４０ｎｇ、５０ｎｇ、７５ｎｇ、１００ｎｇ、１５０ｎｇ、２００ｎｇ、２５０ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、１μｇ、１．５μｇ、２μｇ、５μｇ、１０μｇ、２０μｇ、５０μｇ、１００μｇ、２００μｇ、５００μｇ、又は１０００μｇ未満又はより多くの核酸を独立して含み得る。

核酸を定量化する様々な方法が利用可能である。核酸を定量化する方法の限定されない例は、分光光度解析、及び、例えば臭化エチジウムなどの、核酸に結合し且つ結合時に蛍光を発する色素の蛍光強度の測定を含む。

核酸複合体
メタゲノム又は他の異種のサンプル（複数可）からのＤＮＡを含む核酸は、場合によっては、核酸複合体を形成するために会合分子又は核酸結合部分に結合される。場合によっては、核酸複合体は、ポリペプチドなどの複数の会合分子又は部分に結合された核酸；非タンパク質有機分子；及びナノ粒子を含む結合剤は、場合によっては接触の複数の点で個々の核酸に結合し、それにより、これら接触の点でのセグメントは、それらの共通のリン酸ジエステル骨格とは独立して一緒に保持される。

場合によっては、核酸の結合は、核酸分子のセグメント間での連鎖、例えば共有結合の形成を含む。連鎖は、核酸分子の離れたセグメント間で形成することができる。場合によっては、核酸複合体を形成するための核酸の結合は、核酸の会合分子又は部分（核酸結合分子又は部分とも称される）への架橋を含む。場合によっては、会合分子は、ペプチド、及びＤＮＡ結合タンパク質などのタンパク質を含むがこれらに限定されない、アミノ酸を含む。典型的なＤＮＡ結合タンパク質は、ヒストン、例えばヒストン２Ａ、２Ｂ、３Ａ、３Ｂ、４Ａ、及び４Ｂなどの天然のクロマチン成分を含む。場合によっては、複数の核酸結合部分は、再構成されたクロマチン又はインビトロでアセンブルされたクロマチンを含む。クロマチンは、長さ約１５０ｋｂｐであるＤＮＡ分子から再構成することができる。場合によっては、クロマチンは、長さが少なくとも５０、１００、１２５、１５０、２００、２５０ｋｂｐ以上のＤＮＡ分子から再構成される。場合によっては、結合タンパク質は転写因子又はトランスポサーゼを含む。非タンパク質有機分子はまた本明細書中の開示に適合し、プロタミン、スペルミン、スペルミジン、又は他の正電荷分子などがある。場合によっては、会合分子は、正電荷の表面を持つナノ粒子などのナノ粒子を含む。多くのナノ粒子組成物が、本明細書中の開示に適合する。幾つかの態様において、ナノ粒子は、負電荷核酸を結合するように正のコーティングで覆われたシリコンなどのシリコンを含む。場合によっては、ナノ粒子は白金ベースのナノ粒子である。ナノ粒子は磁性であり、これにより架橋された配列セグメントの単離が容易になり得る。

核酸は、本明細書中の開示と一致する様々な方法により会合分子に結合される。場合によっては、核酸は会合分子に架橋される。架橋の方法は、紫外線照射、化学的及び物理的（例えば、光学的）な架橋を含む。化学架橋剤の限定されない例は、ホルムアルデヒド及びソラレンを含む（Ｓｏｌｏｍｏｎｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８２：６４７０－６４７４，１９８５；Ｓｏｌｏｍｏｎｅｔａｌ．，Ｃｅｌｌ５３：９３７－９４７，１９８８）。場合によっては、架橋は、核酸分子及びクロマチンタンパク質を含む混合物に約２％のホルムアルデヒドを含む溶液を加えることにより行なわれる。架橋ＤＮＡに使用され得る薬剤の他の限定されない例は、マイトマイシンＣ、ナイトロジェンマスタード、メルファラン、１，３－ブタジエンジエポキシド、シス－ジアミンジクロロ白金（ＩＩ）、及びシクロホスファミドを含むがこれらに限定されない。場合によっては、架橋剤は、約２Å、３Å、４Å、又は５Åなどの比較的短距離で架橋する架橋を形成する。

場合によっては、核酸複合体、例えばインビトロでアセンブルされたクロマチン（本明細書ではクロマチン集合体と称される）に結合した核酸は、ビーズ、例えば磁気ビーズを含むがこれらに限定されない固体支持体に結合される。

幾つかの実施形態において、核酸複合体は、抽出の後又は同時にアセンブルされるのではなく、サンプルに存在する。頻繁に、そのような状況での核酸複合体は、天然のヌクレオソーム、又はサンプルの核酸に複合化される他の天然の核酸結合分子を含む。

天然の又は後に生成される核酸複合体は、場合によっては独立して安定している。場合によっては、天然の又は後に生成される核酸複合体は、架橋剤での処理により安定させられる。

クロマチン再構成
結合部分として再構成されたクロマチンは、多くの方法により遂行される。本明細書で熟慮されるような再構成されたクロマチンは、裸の核酸への幅広い数の結合部分の結合を包含するために広く使用される。結合部分はヒストン及びヌクレオソームを含むが、再構成されたクロマチンの幾つかの解釈は、転写因子、トランスポゾン、又は他のＤＮＡなどの他の核タンパク質、或いは他の核酸結合タンパク質、スペルミン又はスペルミジン、或いは他の非ポリペプチド核酸結合部分、有機又は無機のナノ粒子核酸結合剤などのナノ粒子も含む。

場合によっては、再構成されたクロマチンは、天然の核酸上へのヒストン又はヌクレオソームのリアセンブリなど、裸の核酸上への天然のクロマチン成分又は天然のクロマチン成分の同族体のリアセンブリに関して使用される。

クロマチンを再構成する２つの方法は、（１）ＤＮＡ上へのヒストンのＡＴＰに依存しないランダム沈着、及び（２）周期性ヌクレオソームのＡＴＰ依存性アセンブリを含む。本開示は、本明細書に開示される１つ以上の方法を含む何れかの方法の使用を熟慮する。クロマチンを生成する両方法の例は、全体において引用により本明細書に組み込まれる、Ｌｕｓｓｅｒｅｔａｌ．（“Ｓｔｒａｔｅｇｉｅｓｆｏｒｔｈｅｒｅｃｏｎｓｔｉｔｕｔｉｏｎｏｆｃｈｒｏｍａｔｉｎ，” ＮａｔｕｒｅＭｅｔｈｏｄｓ（２００４），１（１）：１９－２６）に見出すことができる。

クロマチンを再構成する他の方法は、裸の核酸へのヌクレオソーム又はヒストンの追加として厳密に定義されても、又は裸の核酸への任意の部分の追加として広く定義されても、本明細書で考慮され、クロマチンの組成もその再構成に対する方法も、幾つかの実施形態における制限とは考慮されない。場合によっては、「クロマチン再構成」は、天然のクロマチンの生成ではなく、核酸結合又は核酸の結合と架橋を容易にする部分を含む表面を持つナノ粒子などのナノ粒子への結合により安定した核酸を含む複合体といった新たな核酸複合体の生成を指す。

代替的に、場合によっては、再構成は行なわれず、天然の核酸複合体は下流の解析のために核酸を安定させることに依存する。大抵、そのような核酸複合体は天然のヒストンを含むが、他の核タンパク質、ＤＮＡ結合タンパク質、トランスポサーゼ、トポイソメラーゼ、又は他のＤＮＡ結合タンパク質を含む複合体が考慮される。

核酸分子の切断
核酸複合体中のメタゲノムサンプルから結合された核酸分子などの核酸分子を切断して、内部の核酸末端をさらし、且つ二本鎖の破壊をもたらすことができる。場合によっては、核酸複合体中の核酸分子などの核酸分子を切断して、核酸末端をさらし、それらのリン酸ジエステル骨格にて物理的に連結されない少なくとも２つの断片又はセグメントを形成する。様々な方法を使用して、内部の核酸末端を切断し、及び／又は、核酸から得た断片を生成することができ、これには、限定されないが、剪断、超音波処理、非特異的エンドヌクレアーゼ処理、又は特異的のエンドヌクレアーゼ処理などの、機械的、化学的、及び酵素的な方法を含む。代替的な方法は、トポイソメラーゼ、塩基修復酵素、Ｔｎ５などのトランスポサーゼ（ｔｒａｎｓｐｏｓｅ）、又はリン酸ジエステル骨格のニッキング酵素などでの酵素切断を含む。

場合によっては、核酸は消化により切断される。消化は、制限エンドヌクレアーゼと接触させることを含み得る。制限エンドヌクレアーゼは、消化に起因する遊離核酸末端の平均数を調整するための既知のゲノムの配列情報に照らして選択することができる。制限エンドヌクレアーゼは、制限部位として知られている特定の認識ヌクレオチド配列にて、又はその付近で切断し得る。ゲノム全体にわたる、より高い相対存在量を持つ制限部位を有している制限エンドヌクレアーゼを消化中に使用して、より多くの制限部位がより多くの切断された部位に結果として生じる場合があるため、より低い相対存在量を持つ制限部位を有している制限エンドヌクレアーゼと比べて多くの晒された核酸末端を生成することができる。場合によっては、非特異的な制限部位を持つ制限エンドヌクレアーゼ、又は１より多くの制限部位が使用される。非特異的な制限部位の限定されない例はＣＣＴＮＮである。塩基Ａ、Ｃ、Ｇ、及びＴは、ＤＮＡ鎖の４つのヌクレオチド塩基、アデニン、シトシン、グアニン、及びチミンを指す。塩基Ｎは、４つのＤＮＡ塩基、Ａ、Ｃ、Ｇ、及びＴの何れかを表わす。切断のために特異的配列を認識するのではなく、対応する制限部位を持つ酵素は、開裂のために１より多くの配列を認識することができる。例えば、認識される最初の５つの塩基は、ＣＣＴＡＡ、ＣＣＴＡＴ、ＣＣＴＡＧ、ＣＣＴＡＣ、ＣＣＴＴＡ、ＣＣＴＴＴ、ＣＣＴＴＧ、ＣＣＴＴＣ、ＣＣＴＣＡ、ＣＣＴＣＴ、ＣＣＴＣＧ、ＣＣＴＣＣ、ＣＣＴＧＡ、ＣＣＴＧＴ、ＣＣＴＧＧ、又はＣＣＴＧＣ（１６の可能性）であり得る。場合によっては、非特異的な制限部位を持つ酵素の使用の結果、特定の制限部位を持つ酵素と比較してより多くの切断部位が生じる。制限エンドヌクレアーゼは、少なくとも４、５、６、７、８、又はそれよりも長い塩基対の制限認識配列を持つことができる。核酸複合体を消化するための制限酵素は、一本鎖及び／又は二本鎖の核酸を切断することができる。制限エンドヌクレアーゼは、一本鎖の破壊又は二本鎖の破壊をもたらすことができる。制限エンドヌクレアーゼ切断は、平滑末端、３’オーバーハング、又は５’オーバーハングを産生することができる。３’オーバーハングは、長さが少なくとも１、２、３、４、５、６、７、８、又は９、或いはそれ以上の塩基であり得る。５’オーバーハングは、長さが少なくとも１、２、３、４、５、６、７、８、又は９、或いはそれ以上の塩基であり得る。制限酵素の例は、限定されないが、ＡａｔＩＩ、Ａｃｃ６５Ｉ、ＡｃｃＩ、ＡｃｉＩ、ＡｃｌＩ、ＡｃｕＩ、ＡｆｅＩ、ＡｆｌＩＩ、ＡｆｌＩＩＩ、ＡｇｅＩ、ＡｈｄＩ、ＡｌｅＩ、ＡｌｕＩ、ＡｌｗＩ、ＡｌｗＮＩ、ＡｐａＩ、ＡｐａＬＩ、ＡｐｅＫＩ、ＡｐｏＩ、ＡｓｃＩ、ＡｓｅＩ、ＡｓｉＳＩ、ＡｖａＩ、ＡｖａＩＩ、ＡｖｒＩＩ、ＢａｅＧＩ、ＢａｅＩ、ＢａｍＨＩ、ＢａｎＩ、ＢａｎＩＩ、ＢｂｓＩ、ＢｂｖＣＩ、ＢｂｖＩ、ＢｃｃＩ、ＢｃｅＡＩ、ＢｃｇＩ、ＢｃｉＶＩ、ＢｃｌＩ、ＢｆａＩ、ＢｆｕＡＩ、ＢｆｕＣＩ、ＢｇｌＩ、ＢｇｌＩＩ、ＢｌｐＩ、ＢｍｇＢＩ、ＢｍｒＩ、ＢｍｔＩ、ＢｐｍＩ、Ｂｐｕｌ０Ｉ、ＢｐｕＥＩ、ＢｓａＡＩ、ＢｓａＢＩ、ＢｓａＨＩ、ＢｓａＩ、ＢｓａＪＩ、ＢｓａＷＩ、ＢｓａＸＩ、ＢｓｃＲＩ、ＢｓｃＹＩ、ＢｓｇＩ、ＢｓｉＥＩ、ＢｓｉＨＫＡＩ、ＢｓｉＷＩ、ＢｓｌＩ、ＢｓｍＡＩ、ＢｓｍＢＩ、ＢｓｍＦＩ、ＢｓｍＩ、ＢｓｏＢＩ、Ｂｓｐ１２８６Ｉ、ＢｓｐＣＮＩ、ＢｓｐＤＩ、ＢｓｐＥＩ、ＢｓｐＨＩ、ＢｓｐＭＩ、ＢｓｒＢＩ、ＢｓｒＤＩ、ＢｓｒＦＩ、ＢｓｒＧＩ、ＢｓｒＩ、ＢｓｓＨＩＩ、ＢｓｓＫＩ、ＢｓｓＳＩ、ＢｓｔＡＰＩ、ＢｓｔＢＩ、ＢｓｔＥＩＩ、ＢｓｔＮＩ、ＢｓｔＵＩ、ＢｓｔＸＩ、ＢｓｔＹＩ、ＢｓｔＺ１７Ｉ、Ｂｓｕ３６Ｉ、ＢｔｇＩ、ＢｔｇＺＩ、ＢｔｓＣＩ、ＢｔｓＩ、Ｃａｃ８Ｉ、ＣｌａＩ、ＣｓｐＣＩ、ＣｖｉＡＩＩ、ＣｖｉＫＩ－１、ＣｖｉＱＩ、ＤｄｃＩ、ＤｐｎＩ、ＤｐｎＩＩ、ＤｒａＩ、ＤｒａＩＩＩ、ＤｒｄＩ、ＥａｃＩ、ＥａｇＩ、ＥａｒＩ、ＥｃｉＩ、Ｅｃｏ５３ｋＩ、ＥｃｏＮＩ、ＥｃｏＯ１０９Ｉ、ＥｃｏＰ１５Ｉ、ＥｃｏＲＩ、ＥｃｏＲＶ、ＦａｔＩ、ＦａｕＩ、Ｆｎｕ４ＨＩ、ＦｏｋＩ、ＦｓｅＩ、ＦｓｐＩ、ＨａｅＩＩ、ＨａｅＩＩＩ、ＨｇａＩ、ＨｈａＩ、ＨｉｎｃＩＩ、ＨｉｎｄＩＩＩ、ＨｉｎｆＩ、ＨｉｎＰｌＩ、ＨｐａＩ、ＨｐａＩＩ、ＨｐｈＩ、Ｈｐｙ１６６ＩＩ、Ｈｐｙ１８８Ｉ、Ｈｐｙ１８８ＩＩＩ、Ｈｐｙ９９Ｉ、ＨｐｙＡＶ、ＨｐｙＣＨ４ＩＩＩ、ＨｐｙＣＨ４ＩＶ、ＨｐｙＣＨ４Ｖ、ＫａｓＩ、ＫｐｎＩ、ＭｂｏＩ、ＭｂｏＩＩ、ＭｆｅＩ、ＭｌｕＩ、ＭｌｙＩ、ＭｍｅＩ、ＭｎｌＩ、ＭｓｃＩ、ＭｓｅＩ、ＭｓｌＩ、ＭｓｐＡｌＩ、ＭｓｐＩ、ＭｗｏＩ、ＮａｅＩ、ＮａｒＩ、Ｎｂ．ＢｂｖＣＩ、Ｎｂ．ＢｓｍＩ、Ｎｂ．ＢｓｒＤＩ、Ｎｂ．ＢｔｓＩ、ＮｃｉＩ、ＮｃｏＩ、ＮｄｅＩ、ＮｇｏＭＩＶ、ＮｈｅＩ、ＮｌａＩＩＩ、ＮｌａＩＶ、ＮｍｅＡＩＩＩ、ＮｏｔＩ、ＮｒｕＩ、ＮｓｉＩ、ＮｓｐＩ、Ｎｔ．ＡｌｗＩ、Ｎｔ．ＢｂｖＣＩ、Ｎｔ．ＢｓｍＡＩ、Ｎｔ．ＢｓｐＱＩ、Ｎｔ．ＢｓｔＮＢＩ、Ｎｔ．ＣｖｉＰＩＩ、ＰａｃＩ、ＰａｅＲ７Ｉ、ＰｃｉＩ、ＰｆｌＦＩ、ＰｆｌＭＩ、ＰｈｏＩ、ＰｌｅＩ、ＰｍｅＩ、ＰｍｌＩ、ＰｐｕＭＩ、ＰｓｈＡＩ、ＰｓｉＩ、ＰｓｐＧＩ、ＰｓｐＯＭＩ、ＰｓｐＸＩ、ＰｓｔＩ、ＰｖｕＩ、ＰｖｕＩＩ、ＲｓａＩ、ＲｓｒＩＩ、ＳａｃＩ、ＳａｃＩＩ、ＳａｌＩ、ＳａｐＩ、Ｓａｕ３ＡＩ、Ｓａｕ９６Ｉ、ＳｂｆＩ、ＳｃａＩ、ＳｃｒＦＩ、ＳｅｘＡＩ、ＳｆａＮＩ、ＳｆｃＩ、ＳｆｉＩ、ＳｆｏＩ、ＳｇｒＡＩ、ＳｍａＩ、ＳｍｌＩ、ＳｎａＢＩ、ＳｐｅＩ、ＳｐｈＩ、ＳｓｐＩ、ＳｔｕＩ、ＳｔｙＤ４Ｉ、ＳｔｙＩ、ＳｗａＩ、Ｔ、ＴａｑαＩ、ＴｆｉＩ、ＴｌｉＩ、ＴｓｅＩ、Ｔｓｐ４５Ｉ、Ｔｓｐ５０９Ｉ、ＴｓｐＭＩ、ＴｓｐＲＩ、Ｔｔｈ１１１Ｉ、ＸｂａＩ、ＸｃｍＩ、ＸｈｏＩ、ＸｍａＩ、ＸｍｎＩ、及びＺｒａＩを含む。

ライゲーション
切断された核酸分子は、様々な方法を使用して、近接ライゲーションにより連結することができる。切断された核酸分子のライゲーションは、酵素及び非酵素のプロトコルにより遂行することができる。非酵素であるライゲーション反応の例は、米国特許第５，７８０，６１３号と第５，４７６，９３０号に記載される非酵素ライゲーション技術を含み、その各々は全体において引用により本明細書に組み込まれる。酵素ライゲーション反応は、リガーゼ酵素の使用を含むことができる。リガーゼ酵素の限定されない例は、ＡＴＰ依存性の二本鎖ポリヌクレオチドリガーゼである、ＮＡＤ＋依存性ＤＮＡ又はＲＮＡリガーゼ、及び一本鎖ポリヌクレオチドリガーゼである。リガーゼの限定されない例は、大腸菌ＤＮＡリガーゼ、好熱菌ＤＮＡリガーゼ、ＴｔｈＤＮＡリガーゼ、ＴｈｅｒｍｕｓｓｃｏｔｏｄｕｃｔｕｓＤＮＡリガーゼ（ＩとＩＩ）、Ｔ３ＤＮＡリガーゼ、Ｔ４ＤＮＡリガーゼ、Ｔ４ＲＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、Ｔａｑリガーゼ、Ａｍｐｌｉｇａｓｅ（Ｅｐｉｃｅｎｔｒｅ（登録商標）ＴｅｃｈｎｏｌｏｇｉｅｓＣｏｒｐ．）、ＶａｎＣ型リガーゼ、９°ＮＤＮＡリガーゼ、ＴｓｐＤＮＡリガーゼ、ＤＮＡリガーゼＩ、ＤＮＡリガーゼＩＩＩ、ＤＮＡリガーゼＩＶ、Ｓｓｏ７－Ｔ３ＤＮＡリガーゼ、Ｓｓｏ７－Ｔ４ＤＮＡリガーゼ、Ｓｓｏ７－Ｔ７ＤＮＡリガーゼ、Ｓｓｏ７－ＴａｑＤＮＡリガーゼ、Ｓｓｏ７－大腸菌ＤＮＡリガーゼ、Ｓｓｏ７－ＡｍｐｌｉｇａｓｅＤＮＡリガーゼ、及び熱安定性リガーゼである。リガーゼ酵素は、野生型、突然変異体アイソフォーム、及び遺伝的に設計された変異体であり得る。ライゲーション反応は、緩衝液成分、小分子ライゲーションエンハンサー、及び他の反応成分を含有し得る。

配列決定
本明細書に記載される又は当該技術分野で既知の適切な配列決定方法を使用して、核酸分子から配列情報を得ることができる。配列決定は、古典的なサンガー配列決定方法を通じて遂行することができる。配列決定は、ハイスループット配列決定システムを使用しても遂行することができる。次世代配列決定方法の限定されない例は、単一の分子のリアルタイム配列決定、イオン半導体配列決定、パイロ配列決定、合成による配列決定、ライゲーションによる配列決定、及び連鎖停止反応を含む。

微生物
本明細書で検出された微生物は、細菌、ウイルス、真菌、カビ、又は他の微生物、或いはそれらの組み合わせであり得る。

幾つかの態様において、例えば生体液、又は唾液、血液、及び便を含むがこれらに限定されない固体サンプルなどの生医学的サンプルにて検出された微生物は、病気に関連した少なくとも１つの細菌種である。臨床的に関連する細菌の限定されない例は、Ａｃｅｔｏｂａｃｔｅｒａｕｒａｎｔｉｕｓ、Ａｃｉｎｅｔｏｂａｃｔｅｒｂａｕｍａｎｎｉｉ、Ａｃｔｉｎｏｍｙｃｅｓｉｓｒａｅｌｉｉ、Ａｇｒｏｂａｃｔｅｒｉｕｍｒａｄｉｏｂａｃｔｅｒ、Ａｇｒｏｂａｃｔｅｒｉｕｍｔｕｍｅｆａｃｉｅｎｓ、Ａｎａｐｌａｓｍａｐｈａｇｏｃｙｔｏｐｈｉｌｕｍ、Ａｚｏｒｈｉｚｏｂｉｕｍｃａｕｌｉｎｏｄａｎｓ、Ａｚｏｔｏｂａｃｔｅｒｖｉｎｅｌａｎｄｉｉ、Ｂａｃｉｌｌｕｓａｎｔｈｒａｃｉｓ、Ｂａｃｉｌｌｕｓｂｒｅｖｉｓ、Ｂａｃｉｌｌｕｓｃｅｒｅｕｓ、Ｂａｃｉｌｌｕｓｆｕｓｉｆｏｒｍｉｓ、Ｂａｃｉｌｌｕｓｌｉｃｈｅｎｉｆｏｒｍｉｓ、Ｂａｃｉｌｌｕｓｍｅｇａｔｅｒｉｕｍ、Ｂａｃｉｌｌｕｓｍｙｃｏｉｄｅｓ、Ｂａｃｉｌｌｕｓｓｔｅａｒｏｔｈｅｒｍｏｐｈｉｌｕｓ、Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ、Ｂａｃｔｅｒｏｉｄｅｓｆｒａｇｉｌｉｓ、Ｂａｃｔｅｒｏｉｄｅｓｇｉｎｇｉｖａｌｉｓ、Ｂａｃｔｅｒｏｉｄｅｓｍｅｌａｎｉｎｏｇｅｎｉｃｕｓ（現在はＰｒｅｖｏｔｅｌｌａｍｅｌａｎｉｎｏｇｅｎｉｃａとして知られる）、Ｂａｒｔｏｎｅｌｌａｈｅｎｓｅｌａｅ、Ｂａｒｔｏｎｅｌｌａｑｕｉｎｔａｎａ、Ｂｏｒｄｅｔｅｌｌａｂｒｏｎｃｈｉｓｅｐｔｉｃａ、Ｂｏｒｄｅｔｅｌｌａｐｅｒｔｕｓｓｉｓ、Ｂｏｒｒｅｌｉａｂｕｒｇｄｏｒｆｅｒｉ、Ｂｒｕｃｅｌｌａａｂｏｒｔｕｓ、Ｂｒｕｃｅｌｌａｍｅｌｉｔｅｎｓｉｓ、Ｂｒｕｃｅｌｌａｓｕｉｓ、Ｂｕｒｋｈｏｌｄｅｒｉａｍａｌｌｅｉ、Ｂｕｒｋｈｏｌｄｅｒｉａｐｓｅｕｄｏｍａｌｌｅｉ、Ｂｕｒｋｈｏｌｄｅｒｉａｃｅｐａｃｉａ、Ｃａｌｙｍｍａｔｏｂａｃｔｅｒｉｕｍｇｒａｎｕｌｏｍａｔｉｓ、Ｃａｍｐｙｌｏｂａｃｔｅｒｃｏｌｉ、Ｃａｍｐｙｌｏｂａｃｔｅｒｆｅｔｕｓ、Ｃａｍｐｙｌｏｂａｃｔｅｒｊｅｊｕｎｉ、Ｃａｍｐｙｌｏｂａｃｔｅｒｐｙｌｏｒｉ、Ｃｈｌａｍｙｄｉａｔｒａｃｈｏｍａｔｉｓ、Ｃｈｌａｍｙｄｏｐｈｉｌａｐｎｅｕｍｏｎｉａｅ（以前はＣｈｌａｍｙｄｉａｐｎｅｕｍｏｎｉａｅと呼ばれている）、Ｃｈｌａｍｙｄｏｐｈｉｌａｐｓｉｔｔａｃｉ（以前はＣｈｌａｍｙｄｉａｐｓｉｔｔａｃｉと呼ばれている）、Ｃｌｏｓｔｒｉｄｉｕｍｂｏｔｕｌｉｎｕｍ、Ｃｌｏｓｔｒｉｄｉｕｍｄｉｆｆｉｃｉｌｅ、Ｃｌｏｓｔｒｉｄｉｕｍｐｅｒｆｒｉｎｇｅｎｓ（以前はＣｌｏｓｔｒｉｄｉｕｍｗｅｌｃｈｉｉと呼ばれている）、Ｃｌｏｓｔｒｉｄｉｕｍｔｅｔａｎｉ、Ｃｏｒｙｎｅｂａｃｔｅｒｉｕｍｄｉｐｈｔｈｅｒｉａｅ、Ｃｏｒｙｎｅｂａｃｔｅｒｉｕｍｆｕｓｉｆｏｒｍｅ、Ｃｏｘｉｅｌｌａｂｕｒｎｅｔｉｉ、Ｅｈｒｌｉｃｈｉａｃｈａｆｆｅｅｎｓｉｓ、Ｅｎｔｅｒｏｂａｃｔｅｒｃｌｏａｃａｅ、Ｅｎｔｅｒｏｃｏｃｃｕｓａｖｉｕｍ、Ｅｎｔｅｒｏｃｏｃｃｕｓｄｕｒａｎｓ、Ｅｎｔｅｒｏｃｏｃｃｕｓｆａｅｃａｌｉｓ、Ｅｎｔｅｒｏｃｏｃｃｕｓｆａｅｃｉｕｍ、Ｅｎｔｅｒｏｃｏｃｃｕｓｇａｌｌｌｉｎａｒｕｍ、Ｅｎｔｅｒｏｃｏｃｃｕｓｍａｌｏｒａｔｕｓ、Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ、Ｆｒａｎｃｉｓｅｌｌａｔｕｌａｒｅｎｓｉｓ、Ｆｕｓｏｂａｃｔｅｒｉｕｍｎｕｃｌｅａｔｕｍ、Ｇａｒｄｎｅｒｅｌｌａｖａｇｉｎａｌｉｓ、Ｈａｅｍｏｐｈｉｌｕｓｄｕｃｒｅｙｉ、Ｈａｅｍｏｐｈｉｌｕｓｉｎｆｌｕｅｎｚａｅ、Ｈａｅｍｏｐｈｉｌｕｓｐａｒａｉｎｆｌｕｅｎｚａｅ、Ｈａｅｍｏｐｈｉｌｕｓｐｅｒｔｕｓｓｉｓ、Ｈａｅｍｏｐｈｉｌｕｓｖａｇｉｎａｌｉｓ、Ｈｅｌｉｃｏｂａｃｔｅｒｐｙｌｏｒｉ、Ｋｌｅｂｓｉｅｌｌａｐｎｅｕｍｏｎｉａｅ、Ｌａｃｔｏｂａｃｉｌｌｕｓａｃｉｄｏｐｈｉｌｕｓ、Ｌａｃｔｏｂａｃｉｌｌｕｓｂｕｌｇａｒｉｃｕｓ、Ｌａｃｔｏｂａｃｉｌｌｕｓｃａｓｅｉ、Ｌａｃｔｏｃｏｃｃｕｓｌａｃｔｉｓ、Ｌｅｇｉｏｎｅｌｌａｐｎｅｕｍｏｐｈｉｌａ、Ｌｉｓｔｅｒｉａｍｏｎｏｃｙｔｏｇｅｎｅｓ、Ｍｅｔｈａｎｏｂａｃｔｅｒｉｕｍｅｘｔｒｏｑｕｅｎｓ、Ｍｉｃｒｏｂａｃｔｅｒｉｕｍｍｕｌｔｉｆｏｒｍｅ、Ｍｉｃｒｏｃｏｃｃｕｓｌｕｔｅｕｓ、Ｍｏｒａｘｅｌｌａｃａｔａｒｒｈａｌｉｓ、Ｍｙｃｏｂａｃｔｅｒｉｕｍａｖｉｕｍ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｂｏｖｉｓ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｄｉｐｈｔｈｅｒｉａｅ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｉｎｔｒａｃｅｌｌｕｌａｒｅ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｌｅｐｒａｅ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｌｅｐｒａｅｍｕｒｉｕｍ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｐｈｌｅｉ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｓｍｅｇｍａｔｉｓ、Ｍｙｃｏｂａｃｔｅｒｉｕｍｔｕｂｅｒｃｕｌｏｓｉｓ、Ｍｙｃｏｐｌａｓｍａｆｅｒｍｅｎｔａｎｓ、Ｍｙｃｏｐｌａｓｍａｇｅｎｉｔａｌｉｕｍ、Ｍｙｃｏｐｌａｓｍａｈｏｍｉｎｉｓ、Ｍｙｃｏｐｌａｓｍａｐｅｎｅｔｒａｎｓ、Ｍｙｃｏｐｌａｓｍａｐｎｅｕｍｏｎｉａｅ、Ｎｅｉｓｓｅｒｉａｇｏｎｏｒｒｈｏｅａｅ、Ｎｅｉｓｓｅｒｉａｍｅｎｉｎｇｉｔｉｄｉｓ、Ｐａｓｔｅｕｒｅｌｌａｍｕｌｔｏｃｉｄａ、Ｐａｓｔｅｕｒｅｌｌａｔｕｌａｒｅｎｓｉｓ、Ｐｅｐｔｏｓｔｒｅｐｔｏｃｏｃｃｕｓ、Ｐｏｒｐｈｙｒｏｍｏｎａｓｇｉｎｇｉｖａｌｉｓ、Ｐｒｅｖｏｔｅｌｌａｍｅｌａｎｉｎｏｇｅｎｉｃａ（以前はＢａｃｔｅｒｏｉｄｅｓｍｅｌａｎｉｎｏｇｅｎｉｃｕｓと呼ばれている）、Ｐｓｅｕｄｏｍｏｎａｓａｅｒｕｇｉｎｏｓａ、Ｒｈｉｚｏｂｉｕｍｒａｄｉｏｂａｃｔｅｒ、Ｒｉｃｋｅｔｔｓｉａｐｒｏｗａｚｅｋｉｉ、Ｒｉｃｋｅｔｔｓｉａｐｓｉｔｔａｃｉ、Ｒｉｃｋｅｔｔｓｉａｑｕｉｎｔａｎａ、Ｒｉｃｋｅｔｔｓｉａｒｉｃｋｅｔｔｓｉｉ、Ｒｉｃｋｅｔｔｓｉａｔｒａｃｈｏｍａｅ、Ｒｏｃｈａｌｉｍａｅａｈｅｎｓｅｌａｅ、Ｒｏｃｈａｌｉｍａｅａｑｕｉｎｔａｎａ、Ｒｏｔｈｉａｄｅｎｔｏｃａｒｉｏｓａ、Ｓａｌｍｏｎｅｌｌａｅｎｔｅｒｉｔｉｄｉｓ、Ｓａｌｍｏｎｅｌｌａｔｙｐｈｉ、Ｓａｌｍｏｎｅｌｌａｔｙｐｈｉｍｕｒｉｕｍ、Ｓｅｒｒａｔｉａｍａｒｃｅｓｃｅｎｓ、Ｓｈｉｇｅｌｌａｄｙｓｅｎｔｅｒｉａｅ、Ｓｔａｐｈｙｌｏｃｏｃｃｕｓａｕｒｅｕｓ、Ｓｔａｐｈｙｌｏｃｏｃｃｕｓｅｐｉｄｅｒｍｉｄｉｓ、Ｓｔｅｎｏｔｒｏｐｈｏｍｏｎａｓｍａｌｔｏｐｈｉｌｉａ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓａｇａｌａｃｔｉａｅ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓａｖｉｕｍ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｂｏｖｉｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｃｒｉｃｅｔｕｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｆａｃｅｉｕｍ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｆａｅｃａｌｉｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｆｅｒｕｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｇａｌｌｉｎａｒｕｍ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｌａｃｔｉｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｍｉｔｉｏｒ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｍｉｔｉｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｍｕｔａｎｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｏｒａｌｉｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｐｎｅｕｍｏｎｉａｅ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｐｙｏｇｅｎｅｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｒａｔｔｕｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｓａｌｉｖａｒｉｕｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｓａｎｇｕｉｓ、Ｓｔｒｅｐｔｏｃｏｃｃｕｓｓｏｂｒｉｎｕｓ、Ｔｒｅｐｏｎｅｍａｐａｌｌｉｄｕｍ、Ｔｒｅｐｏｎｅｍａｄｅｎｔｉｃｏｌａ、Ｖｉｂｒｉｏｃｈｏｌｅｒａｅ、Ｖｉｂｒｉｏｃｏｍｍａ、Ｖｉｂｒｉｏｐａｒａｈａｅｍｏｌｙｔｉｃｕｓ、Ｖｉｂｒｉｏｖｕｌｎｉｆｉｃｕｓ、Ｗｏｌｂａｃｈｉａ、Ｙｅｒｓｉｎｉａｅｎｔｅｒｏｃｏｌｉｔｉｃａ、Ｙｅｒｓｉｎｉａｐｅｓｔｉｓ、及びＹｅｒｓｉｎｉａｐｓｅｕｄｏｔｕｂｅｒｃｕｌｏｓｉｓを含む。

幾つかの態様において、例えば生体液、又は唾液、血液、及び便を含むがこれらに限定されない固体サンプルなどの生医学的サンプルにて検出された微生物は、病気に関連した少なくとも１つのウイルスである。幾つかの態様において、ウイルスはＤＮＡウイルスである。幾つかの態様において、ウイルスはＲＮＡウイルスである。ヒトウイルス感染は、動物由来感染症、或いは、野生又は家庭の動物に由来し得る。様々な動物由来感染症のウイルスは、動物との接触により直接、又は、感染した動物の尿又は糞若しくは吸血節足動物の咬みつきにさらされることで間接的にヒトに感染する。ウイルスがその新しいヒト宿主に適合且つ増殖（ｒｅｐｌｉｃａｔｅ）することが可能な場合、ヒトとヒトとの感染が生じる場合もある。幾つかの態様において、生医学的サンプルにて検出された微生物は、動物由来感染症に由来するウイルスである。

幾つかの態様において、例えば生体液、又は唾液、血液、及び便を含むがこれらに限定されない固体サンプルなどの生医学的サンプルにて検出された微生物は、病気に関連した少なくとも１つの真菌である。臨床的に関連する真菌属の限定されない例は、Ａｓｐｅｒｇｉｌｌｕｓ、Ｂａｓｉｄｉｏｂｏｌｕｓ、Ｂｌａｓｔｏｍｙｃｅｓ、Ｃａｎｄｉｄａ、Ｃｈｒｙｓｏｓｐｏｒｉｕｍ、Ｃｏｃｃｉｄｉｏｉｄｅｓ、Ｃｏｎｉｄｉｏｂｏｌｕｓ、Ｃｒｙｐｔｏｃｏｃｃｕｓ、Ｅｐｉｄｅｒｍｏｐｈｙｔｏｎ、Ｈｉｓｔｏｐｌａｓｍａ、Ｍｉｃｒｏｓｐｏｒｕｍ、Ｐｎｅｕｍｏｃｙｓｔｉｓ、Ｓｐｏｒｏｔｈｒｉｘ、及びＴｒｉｃｈｏｐｈｙｔｏｎを含む。

幾つかの態様において、病気を引き起こす疑いのある食物サンプルなどの食物サンプルにて検出された微生物は、病原菌、ウイルス、又は寄生虫であり得る。病気を引き起こしかねない病原菌、ウイルス、又は寄生虫の限定されない例は、Ｓ．ｅｎｔｅｒｉｃａ及びＳ．ｂｏｎｇｏｒｉなどのＳａｌｍｏｎｅｌｌａｓｐｅｃｉｅｓ；Ｃ．ｊｅｊｕｎｉ、Ｃ．ｃｏｌｉ、及びＣ．ｆｅｔｕｓなどのＣａｍｐｙｌｏｂａｃｔｅｒｓｐｅｃｉｅｓ；Ｙ．ｅｎｔｅｒｏｃｏｌｉｔｉｃａ及びＹ．ｐｓｅｕｄｏｔｕｂｅｒｃｕｌｏｓｉｓなどのＹｅｒｓｉｎｉａｓｐｅｃｉｅｓ；Ｓ．ｓｏｎｎｅｉ、Ｓ．ｂｏｙｄｉｉ、Ｓ．ｆｌｅｘｎｅｒｉおよびＳ．ｄｙｓｅｎｔｅｒｉａｅなどシゲラ種；Ｖ．ｐａｒａｈａｅｍｏｌｙｔｉｃｕｓ、Ｖｉｂｒｉｏｃｈｏｌｅｒａｅ血清群Ｏ１とＯ１３９、Ｖｉｂｒｉｏｃｈｏｌｅｒａｅ血清群ｎｏｎ－Ｏ１とｎｏｎ－Ｏ１３９、ＶｉｂｒｉｏｖｕｌｎｉｆｉｃｕｓなどのＶｉｂｒｉｏｓｐｅｃｉｅｓ；Ｃ．ｂｕｒｎｅｔｉｉなどのＣｏｘｉｅｌｌａｓｐｅｃｉｅｓ；家畜における結核の原因物質であるがヒトにも感染し得る、Ｍ．ｂｏｖｉｓなどのＭｙｃｏｂａｃｔｅｒｉｕｍｓｐｅｃｉｅｓ；Ｂ．ｍｅｌｉｔｅｎｓｉｓ、Ｂ．ａｂｏｒｔｕｓ、Ｂ．ｓｕｉｓ、Ｂ．ｎｅｏｔｏｍａｅ、Ｂ．ｃａｎｉｓ、及びＢ．ｏｖｉｓなどのＢｒｕｃｅｌｌａｓｐｅｃｉｅｓ；Ｃｒｏｎｏｂａｃｔｅｒｓｐｅｃｉｅｓ（ｆｏｒｍｅｒｙＥｎｔｅｒｏｂａｃｔｅｒｓａｋａｚａｋｉｉ）；Ａ．ｈｙｄｒｏｐｈｉｌａなどのＡｅｒｏｍｏｎａｓｓｐｅｃｉｅｓ；Ｐ．ｓｈｉｇｅｌｌｏｉｄｅｓなどのＰｌｅｓｉｏｍｏｎａｓｓｐｅｃｉｅｓ；Ｆ．ｔｕｌａｒｅｎｓｉｓなどのＦｒａｎｃｉｓｅｌｌａｓｐｅｃｉｅｓ；Ｃ．ｐｅｒｆｒｉｎｇｅｎｓ及びＣ．ｂｏｔｕｌｉｎｕｍなどのＣｌｏｓｔｒｉｄｉｕｍｓｐｅｃｉｅｓ；Ｓ．ａｕｒｅｕｓなどのＳｔａｐｈｙｌｏｃｏｃｃｕｓｓｐｅｃｉｅｓ；Ｂ．ｃｅｒｅｕｓなどのＢａｃｉｌｌｕｓｓｐｅｃｉｅｓ；Ｌ．ｍｏｎｏｃｙｔｏｇｅｎｅｓなどのＬｉｓｔｅｒｉａｓｐｅｃｉｅｓ；群ＡのＳ．ｐｙｏｇｅｎｅｓなどのＳｔｒｅｐｔｏｃｏｃｃｕｓｓｐｅｃｉｅｓ；Ｎｏｒｏｖｉｒｕｓｅｓ（ＮｏＶ、群ＧＩ、ＧＩＩ、ＧＩＩＩ、ＧＩＶ、及びＧＶ）；Ａ型肝炎ウイルス（ＨＡＶ、遺伝子型Ｉ－ＶＩ）；Ｅ型肝炎ウイルス（ＨＥＶ）；ロタウイルスなどのＲｅｏｖｉｒｉｄａｅウイルス；アストロウイルスなどのＡｓｔｒｏｖｉｒｉｄａｅウイルス；サポウイルスなどのＣａｌｃｉｖｉｒｉｄａｅウイルス；腸アデノウイルスなどのＡｄｅｎｏｖｉｒｉｄａｅウイルス；パルボウィルスなどのＰａｒｖｏｖｉｒｉｄａｅウイルス；及びＡｉｃｈｉウイルスなどのＰｉｃｏｒｎａｒｖｉｒｉｄａｅウイルスを含む。

本明細書に開示された方法の利益は、前記方法によりサンプル中の未知の同一性の微生物又は病原体の検出、及び、単独で、又はショットガン配列決定若しくは他の手段により生成される同時生成の配列情報などの追加の配列情報と組み合わせてその未知の微生物又は病原体に関する配列情報の部分的又は完全にアセンブルされたゲノムへのアセンブリを容易にすることである。従って、本明細書に開示された方法は、直ぐ上に列挙された生物の１以上の検出には限定されず；これに反して、本明細書に開示される方法を通じて、上記リスト中の未知の病原体、上記リスト上には無い生物、配列情報が利用可能でない生物、又は当該技術分野で知られていない生物に関する実質的に部分的な又は完全なゲノム情報を同定且つ判定することができる。

本明細書に開示される方法は多くの異種の核酸サンプルに適用可能であり、腸内細菌に関する探索的調査；未知の原因の伝染病に苦しむ集団などの病気にかかった個体又は集団における病原体の検出；既知の個人の連鎖情報特徴を持つ核酸の存在のための異種の核酸サンプルのアッセイ；又は、耐抗生物質性の感染症を示す個体における抗生物質耐性の原因となる微生物（複数可）の検出などがある。これら実施形態の多くの共通の態様は、コンティグ、足場、又は部分的若しくは完全なゲノム配列へのショットガン配列情報のアセンブリに適切といった長い範囲の連鎖情報の生成から利益を得ることである。ショットガン又は他のハイスループット配列情報は、上記に列挙された問題の少なくとも一部に関連するが、実質的な利益は、部分的、実質的に完全、又は完全なゲノムまでのより大きくフェージングされた核酸アセンブリへとショットガン配列をアセンブルするために、本明細書に開示される方法の実施の結果から獲得される。従って、本明細書に開示される方法の使用は、当該技術分野で知られているような異種のサンプル上でのショットガン配列決定のみの、実質的により多くの実施を提供する。

汚染された及び／又は傷んだ食物を摂取した後の直接的な細菌感染により引き起こされた病気に加えて、微生物は、病気を引き起こすエンテロトキシンなどの毒素を産生することができる。幾つかの態様において、食物サンプルにて検出された微生物は、腸を標的とするタンパク質外毒素であるエンテロトキシン、及び、共通してカビとして知られている真菌界の生物により産生された有毒な二次代謝産物であるマイコトキシンなどの毒素を産生することができる。

本開示の利益は、アセンブルされるゲノム（複数可）の以前に又は同時に生成された配列情報に依存することなく、異種のサンプルに関する、長い範囲のゲノム隣接情報を得ることが可能となるということである。サンプル中の生物のゲノム又は染色体を表わす足場は、共通のオリゴタグを共有するリード、又は互いに連結又は融合される対になった末端のリードなどの共通のタグ付けしたリードを使用してアセンブルされ、それにより、共通のタグ付けされた配列情報が共通のゲノム又は染色体の分子から生じることを示す。

従って、足場情報は、以前に生成されたコンティグ又は配列リード情報に依存することなく生成される。ｄｅｎｏｖｏ足場情報の多くの利点がある。例えば、配列のリードは、以前の配列情報が利用可能でなくとも足場に完全に割り当てることができ、それにより、完全に新しいゲノムが以前の配列決定効果に依存することなく足場組みされる。この利益は、異種のサンプルが未知の培養されていない又は培養不能な生物を含む場合に特に有用である。標的とされていない配列のリードの生成に依存する配列決定の計画は、既知のコンティグ配列に割り当てられない配列のリードの集まりを生成し得る一方で、配列のリードが得られない未知の生物の数又は同一性に関する情報はほとんど又は全く存在しない。それらは例えば、１つの個体、ゲノム配列における高度の異種性又は異型接合性を持つ共通の種の個体の集団、密接に関連した種の複合体、又は異なる種の複合体１つの個体を表す。単に配列のリード情報に依存して、前述のシナリオ中では区別されなかった。

しかし、本明細書に開示されるような方法又は組成物を使用して、例えば、共通の遺伝子型又はゲノムのクローン複製を含むサンプル、単一の種の典型の異種の集団を含むサンプル、異なる種の緩く関連した生物を含むサンプル、又はこれらシナリオの組み合わせを区別することができる。独立して足場情報を生成するのではなくコンティグをアセンブルするために配列の類似性に依存して、異型接合性を配列決定の誤差と区別することを要求される。実質的な配列決定の誤差が生じないと更に仮定して、密接に関連したゲノム情報が得られる遺伝子型の数を更に推定することを要求される。例えば、多くの別個の遺伝子座で互いに対してヘテロ接合性である、単一の種の２つの広く異なる典型を含むサンプルを、各々が１つ又はほんのわずかな遺伝子座にて他のものとは異なっている密接に関連した遺伝子型の広範囲の多様性を含むサンプルと区別することはできない。配列のリード情報を単独で使用して、これらシナリオの両方は、実質的な対立遺伝子の多様性を持つ単一のコンティグアセンブリとして現われる。しかし、本明細書に開示された方法と組成物を使用して、対立遺伝子が一定又は未知の配列の相当な領域により分離されたとしても、対立遺伝子が共通の足場へマッピングするという確信をもって判定が可能となる。

本明細書で生成されるこのデータの利益は、ＤＮＡゲノムに基づくウイルスの集団又はレトロウイルス若しくは他のＲＮＡに基づくウイルスの集団などのウイルスの集団を含む異種のサンプルが研究される（ＲＮＡゲノムの逆転写を介して、又は、代替的に又は組み合わせて、サンプル中のＲＮＡ上で複合体をアセンブルすることを介して）と、場合によっては特に役立つ。
ウイルスの集団は頻繁にかなり異種性であるため、集団（少数の非常に異なる集団、又は多くの密接に関連する集団の何れか）内の異種の分布の理解は、処置標的を選択する際に、及び、研究されている異種のサンプル中のウイルスの起源を追跡する際に特に有益である。

このことは、本明細書に開示された組成物及び方法が、コンティグ情報又は同時に生成された配列のリードに適合するということではない。これに反して、本明細書中の方法及び組成物の使用を通じて生成された足場組み情報は特に、足場への改善されたコンティグアセンブリ又はコンティグ配置に適している。実際、同時に生成された配列のリード情報は、本明細書中の開示の幾つかの実施形態においてコンティグへとアセンブルされる。配列のリード情報は、次世代配列決定方法などの従来の配列決定方法を使用して平行に生成される。代替的に又は組み合わせで、対となったリード又はオリゴタグを付けたリード情報は、割り当てられた重複配列を「従来」使用するコンティグを生成するための配列情報そのものとして使用される。この情報を更に使用して、本明細書に開示された組成物及び方法を通じて生成された足場組み情報に照らし、互いに対してコンティグを位置決めする。

本開示の実施形態はまた、以下の番号を付けた実施形態を通じて例示される。

実施形態１は、第１のＤＮＡ分子からタグ付けされた配列を生成する方法を含み、該方法は以下を含む：（ａ）第１の複合体を形成するために複数の会合分子に前記第１のＤＮＡ分子を結合する工程であって、前記第１のＤＮＡ分子は第１のＤＮＡセグメント及び第２のＤＮＡセグメントを含む、工程；（ｂ）前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントにタグを付ける工程であって、それにより少なくとも１つのタグ付けされたＤＮＡセグメントを形成する、工程；（ｃ）複合体を、複合体の成分に直接結合する表面を持つ固体支持体に結合する工程；及び（ｄ）タグに隣接している部分、又はタグを付けた末端とは反対の末端にある部分などの、タグを付けたＤＮＡセグメントの認識可能な部分を配列決定する工程であって、それにより前記タグを付けた配列を得る、工程；ここで、前記複数の会合分子は、工程（ａ）及び（ｂ）の前、又はその間に、アフィニティー標識で共有結合的に修飾されない。実施形態２は実施形態１の方法を含み、ここで、前記会合分子は、ペプチド結合により結合されたアミノ酸を含む。実施形態３は実施形態１－２の何れか１つの方法を含み、ここで、前記会合分子はポリペプチド又はタンパク質を含む。実施形態４は実施形態１－３の何れか１つの方法を含み、ここで、前記会合分子はヒストンタンパク質を含む。実施形態５は実施形態１－３の何れか１つの方法を含み、ここで、前記ヒストンタンパク質は前記第１のＤＮＡ分子とは異なるソースに由来する。実施形態６は実施形態１－３の何れか１つの方法を含み、ここで、前記会合分子はトランスポサーゼを含む。実施形態７は実施形態１－６の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記会合分子の少なくとも１つに非共有結合的に結合される。実施形態８は実施形態１－７の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記会合分子の少なくとも１つに共有結合的に結合される。実施形態９は実施形態１－８の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記会合分子の少なくとも１つに架橋される。実施形態１０は実施形態１－９の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、固定剤を使用して架橋される。実施形態１１は実施形態１－１０の何れか１つの方法を含み、ここで、前記固定剤はホルムアルデヒドを含む。実施形態１２は実施形態１－１１の何れか１つの方法を含み、固体支持体上で前記複数の会合分子を固定する工程を含む。実施形態１３は実施形態１－１２の何れか１つの方法を含み、ここで、前記固体支持体はビーズを含む。実施形態１４は実施形態１－１３の何れか１つの方法を含み、ここで、前記ビーズはポリマーを含む。実施形態１５は実施形態１－１４の何れか１つの方法を含み、ここで、前記ポリマーはポリスチレン又はポリエチレングリコール（ＰＥＧ）である。実施形態１６は実施形態１－１３の何れか１つの方法を含み、ここで、前記ビーズは磁気ビーズである。実施形態１７は実施形態１－１３の何れか１つの方法を含み、ここで、前記ビーズは固相可逆的固定（ＳＰＲＩ）ビーズである。実施形態１８は実施形態１－１３の何れか１つの方法を含み、ここで、前記固体支持体は表面を含み、前記表面は複数のカルボキシル基を含む。実施形態１９は実施形態１－１２の何れか１つの方法を含み、ここで、前記固体支持体はどのポリペプチドにも共有結合されない。実施形態２０は実施形態１－１２の何れか１つの方法を含み、ここで、前記会合分子は、前記固体支持体への固定の前にビオチンに共有結合されない。実施形態２１は実施形態１－２０の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントは、前記第１のＤＮＡ分子を切断することにより生成される。実施形態２２は実施形態１－２１の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記第１のＤＮＡ分子が前記複数の会合分子に結合した後に切断される。実施形態２３は実施形態１－２１の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、ヌクレアーゼ酵素を使用して切断される。実施形態２４は実施形態１－２３の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントはアフィニティー標識を使用して修飾される。実施形態２５は実施形態１－２４の何れか１つの方法を含み、ここで、前記アフィニティー標識はビオチンを含む。実施形態２６は実施形態１－２５の何れか１つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したヌクレオシド三リン酸塩（ｄＮＴＰ）である。実施形態２７は実施形態１－２６の何れか１つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したデオキシリボシトシン三リン酸塩（ｄＣＴＰ）である。実施形態２８は実施形態１－２７の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、第１のタグで少なくとも第１の末端にてタグ付けされ、第２のＤＮＡセグメントは、第２のタグで少なくとも第２の末端にてタグ付けされる。実施形態２９は実施形態１－２８の何れか１つの方法を含み、ここで、前記第１のタグ及び前記第２のタグは同一である。実施形態３０は実施形態１－２８の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントはトランスポサーゼを使用してタグ付けされる。実施形態３１は実施形態１－３０の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは前記第２のＤＮＡセグメントでタグ付けされ、前記第２のＤＮＡセグメントは、前記第１のＤＮＡセグメントを前記第２のＤＮＡセグメントに連結することにより前記第１のＤＮＡセグメントでタグ付けされる。実施形態３２は実施形態１－３１の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、リガーゼを使用して前記第２のＤＮＡセグメントに連結される。実施形態３３は実施形態１－３２の何れか１つの方法を含み、ここで、前記連結されたＤＮＡセグメントは、工程（ｃ）の前に切断される。実施形態３４は実施形態１－２４の何れか１つの方法を含み、ここで、前記連結されたＤＮＡセグメントは、物理的方法を使用して切断される。実施形態３５は実施形態１－３４の何れか１つの方法を含み、前記連結されたＤＮＡセグメントを配列決定アダプターに接続する工程を含む。実施形態３６は実施形態１－３５の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、前記第１のＤＮＡセグメントが前記第２のＤＮＡセグメントに連結される前に１０回未満洗浄される。実施形態３７は実施形態１－３６の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、前記第１のＤＮＡセグメントが前記第２のＤＮＡセグメントに連結される前に６回未満洗浄される。実施形態３８は実施形態１－３７の何れか１つの方法を含み、前記タグを付けた配列を使用して前記第１のＤＮＡ分子の複数のコンティグをアセンブルする工程を含む。実施形態３９は実施形態１－３７の何れか１つの方法を含み、前記タグを付けた配列を使用して前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントをフェージングする工程を含む。実施形態４０は実施形態１－３９の何れか１つの方法を含み、前記方法は長くとも２日で完了する。実施形態４１は実施形態１－４０の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子の結合はインビトロで行われる。実施形態４２は実施形態１－４１の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子の結合はインビボで行われる。実施形態４３は実施形態１－４２の何れか１つの方法を含み、ここで、前記方法は長くとも２日で完了する。実施形態４４は実施形態１－４３の何れか１つの方法を含み、ここで、工程（ａ）－（ｄ）に必要な実施の時間の量は長くとも６時間である。実施形態４５は実施形態１－４４の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記固体支持体に直接結合される。実施形態４６は実施形態１－４６の何れか１つの方法を含み、ここで、透析は工程（ａ）－（ｄ）の間で実行されない。

実施形態４７は、第１のＤＮＡ分子からタグを付けた配列を生成する方法を含み、該方法は以下を含む：（ａ）複数会合分子に前記第１のＤＮＡ分子を連結する工程；（ｂ）固体支持体上で前記第１のＤＮＡ分子を固定する工程；（ｃ）第１のＤＮＡセグメント及び第２のＤＮＡセグメントを生成するために前記の第１のＤＮＡ分子を切断する工程；（ｄ）前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントにタグを付ける工程であって、それにより少なくとも１つのタグを付けたＤＮＡセグメントを形成する、工程；及び（ｅ）前記タグを付けたＤＮＡセグメントを配列決定する工程であって、それにより前記タグを付けた配列を得る、工程；ここで、前記第１のＤＮＡ分子は前記固体支持体に直接結合される。実施形態４８は実施形態４７の方法を含み、ここで、前記会合分子はアミノ酸を含む。実施形態４９は実施形態４７－４８の何れか１つの方法を含み、ここで、前記会合分子はポリペプチド又はタンパク質を含む。実施形態５０は実施形態４７－４９の何れか１つの方法を含み、ここで、前記会合分子はヒストンタンパク質を含む。実施形態５１は実施形態４７－４９の何れか１つの方法を含み、ここで、前記ヒストンタンパク質は前記第１のＤＮＡ分子とは異なるソースに由来する。実施形態５２は実施形態４７－５１の何れか１つの方法を含み、ここで、前記会合分子はトランスポサーゼを含む。実施形態５３は実施形態４７－５２の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記会合分子に非共有結合的に連結される。実施形態５４は実施形態４７－５３の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記会合分子に共有結合される。実施形態５５は実施形態４７－５４の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記会合分子に架橋される。実施形態５６は実施形態４７－５５の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、固定剤を使用して架橋される。実施形態５７は実施形態４７－５７の何れか１つの方法を含み、ここで、前記固定剤はホルムアルデヒドである。実施形態５８は実施形態４７－５７の何れか１つの方法を含み、ここで、前記固体支持体はビーズを含む。実施形態５９は実施形態４７－５８の何れか１つの方法を含み、ここで、前記ビーズはポリマーを含む。実施形態６０は実施形態４７－５９の何れか１つの方法を含み、ここで、前記ポリマーはポリスチレン又はポリエチレングリコール（ＰＥＧ）を含む。実施形態６１は実施形態４７－５８の何れか１つの方法を含み、ここで、前記ビーズは磁気ビーズである。実施形態６２は実施形態４７－５８の何れか１つの方法を含み、ここで、前記ビーズはＳＰＲＩビーズである。実施形態６３は実施形態４７－６２の何れか１つの方法を含み、ここで、前記固体支持体は表面を含み、前記表面は複数のカルボキシル基を含む。実施形態６４は実施形態４７－６３の何れか１つの方法を含み、ここで、前記固体支持体はどのポリペプチドにも共有結合されない。実施形態６５は実施形態４７－６４の何れか１つの方法を含み、ここで、前記会合分子は、前記固体支持体への固定の前にビオチンに共有結合されない。実施形態６６は実施形態４７－６５の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、前記第１のＤＮＡ分子が前記複数の会合分子の少なくとも１つに連結した後に切断される。実施形態６７は実施形態４７－６６の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子は、ヌクレアーゼ酵素を使用して切断される。実施形態６８は実施形態４７－６７の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントはアフィニティー標識を使用して修飾される。実施形態６９は実施形態４７－６８の何れか１つの方法を含み、ここで、前記アフィニティー標識はビオチンを含む。実施形態７０は実施形態４７－６９の何れか１つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したヌクレオシド三リン酸塩（ｄＮＴＰ）である。実施形態７１は実施形態４７－７０の何れか１つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したデオキシリボシトシン三リン酸塩（ｄＣＴＰ）である。実施形態７２は実施形態４７－７１の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、第１のタグで少なくとも第１の末端にてタグ付けされ、第２のＤＮＡセグメントは、第２のタグで少なくとも第２の末端にてタグ付けされる。実施形態７３は実施形態４７－７２の何れか１つの方法を含み、ここで、前記第１のタグ及び前記第２のタグは同一である。実施形態７４は実施形態４７－７２の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントはトランスポサーゼを使用してタグ付けされる。実施形態７５は実施形態４７－７４の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは前記第２のＤＮＡセグメントでタグ付けされ、前記第２のＤＮＡセグメントは、前記第１のＤＮＡセグメントを前記第２のＤＮＡセグメントに連結することにより前記第１のＤＮＡセグメントでタグ付けされる。実施形態７６は実施形態４７－７５の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、リガーゼを使用して前記第２のＤＮＡセグメントに連結される。実施形態７７は実施形態４７－７６の何れか１つの方法を含み、ここで、前記連結されたＤＮＡセグメントは、物理的方法を使用して切断される。実施形態７８は実施形態４７－７７の何れか１つの方法を含み、前記連結されたＤＮＡセグメントを配列決定アダプターに接続する工程を含む。実施形態７９は実施形態４７－７８の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、前記第１のＤＮＡセグメントが前記第２のＤＮＡセグメントに連結される前に１０回未満洗浄される。実施形態８０は実施形態４７－７９の何れか１つの方法を含み、ここで、前記第１のＤＮＡセグメントは、前記第１のＤＮＡセグメントが前記第２のＤＮＡセグメントに連結される前に６回未満洗浄される。実施形態８１は実施形態４７－８０の何れか１つの方法を含み、前記タグを付けた配列を使用して前記第１のＤＮＡ分子の複数のコンティグをアセンブルする工程を含む。実施形態８２は実施形態４７－８０の何れか１つの方法を含み、前記タグを付けた配列を使用して前記第１のＤＮＡセグメント及び前記第２のＤＮＡセグメントをフェージングする工程を含む。実施形態８３は実施形態４７－８２の何れか１つの方法を含み、ここで、タグを付けた配列はリード対を含む。実施形態８４は実施形態４７－８３の何れか１つの方法を含み、前記方法は長くとも２日で完了する。実施形態８５は実施形態４７－８４の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子の結合はインビトロで行われる。実施形態８６は実施形態４７－８５の何れか１つの方法を含み、ここで、前記第１のＤＮＡ分子の結合はインビボで行われる。実施形態８７は実施形態４７－８６の何れか１つの方法を含み、ここで、工程（ａ）－（ｄ）に必要な実施の時間の量は長くとも６時間である。実施形態８８は実施形態４７－８７の何れか１つの方法を含み、ここで、透析は工程（ａ）－（ｄ）の間で実行されない。

実施形態８９は、複数のＤＮＡ分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、（ａ）前記複数のＤＮＡ分子を複数の会合分子に結合する工程；（ｂ）複数のＤＮＡセグメントを生成するために前記複数のＤＮＡ分子を切断する工程；（ｃ）複数のタグ付けされたＤＮＡセグメントを形成するために前記ＤＮＡセグメントの少なくとも一部をタグ付けする工程；および（ｄ）複数のタグ付けされた配列を得るために前記タグ付けされたＤＮＡセグメントを配列決定する工程を含み、ここで前記複数の会合分子は、工程（ａ）および（ｂ）の前に又はそれらの間にアフィニティー標識で共有結合的に修飾されない。実施形態９０は、実施形態８９の方法を含み、ここで前記ＤＮＡ分子からのＤＮＡセグメントの４０％未満は、工程（ｂ）の前に共通のリン酸ジエステル結合を有していない他のＤＮＡセグメントに連結される。実施形態９１は、実施形態８９－９０のいずれか１つの方法を含み、ここで前記ＤＮＡ分子からのＤＮＡセグメントの２０％未満は、工程（ｂ）の前に共通のリン酸ジエステル結合を有していない他のＤＮＡセグメントに連結される。実施形態９２は、実施形態８９－９１のいずれか１つの方法を含み、ここで前記会合分子はアミノ酸を含む。実施形態９３は、実施形態８９－９２のいずれか１つの方法を含み、ここで前記会合分子は、ポリペプチドまたはタンパク質を含む。実施形態９４は、実施形態８９－９３のいずれか１つの方法を含み、ここで前記会合分子はヒストンタンパク質を含む。実施形態９５は、実施形態８９－９４のいずれか１つの方法を含み、ここで前記ヒストンタンパク質は、前記ＤＮＡ分子とは異なるソースからのものである。実施形態９６は、実施形態８９－９５のいずれか１つの方法を含み、ここで前記会合分子はトランスポサーゼを含む。実施形態９７は、実施形態８９－９６のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、前記会合分子に非共有結合される。実施形態９８は、実施形態８９－９７のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、前記会合分子に共有結合される。実施形態９９は、実施形態８９－９８のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は前記会合分子に架橋される。実施形態１００は、実施形態８９－９９のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、固定剤を使用して架橋される。実施形態１０１は、実施形態８９－１００のいずれか１つの方法を含み、ここで前記固定剤はホルムアルデヒドである。実施形態１０２は、実施形態８９－１０１のいずれか１つの方法を含み、方法は、複数の固体支持体上に前記複数の会合分子を固定化する工程を含む。実施形態１０３は、実施形態８９－１０２のいずれか１つの方法を含み、ここで前記固体支持体はビーズである。実施形態１０４は、実施形態８９－１０３のいずれか１つの方法を含み、ここで前記ビーズはポリマーを含む。実施形態１０５は、実施形態８９－１０４のいずれか１つの方法を含み、ここで前記ポリマーは、ポリスチレンまたはポリエチレングリコール（ＰＥＧ）を含む。実施形態１０６は、実施形態８９－１０３のいずれか１つの方法を含み、ここで前記ビーズは磁気ビーズを含む。実施形態１０７は、実施形態８９－１０３のいずれか１つの方法を含み、ここで前記ビーズはＳＰＲＩビーズを含む。実施形態１０８は、実施形態８９－１０２のいずれか１つの方法を含み、ここで前記固体支持体は表面を含み、および前記表面は複数のカルボキシル基を含む。実施形態１０９は、実施形態８９－１０２のいずれか１つの方法を含み、ここで前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態１１０は、実施形態８９－１０９のいずれか１つの方法を含み、ここで前記会合分子は、前記固体支持体への固定化の前にビオチンに共有結合的に連結されない。実施形態１１１は、実施形態８９－１１０のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントの一部は、アフィニティー標識を使用して修飾される。実施形態１１２は、実施形態８９－１１１のいずれか１つの方法を含み、ここで前記アフィニティー標識はビオチンを含む。実施形態１１３は、実施形態８９－１１２のいずれか１つの方法を含み、ここで前記アフィニティー標識は、ビオチンで修飾されたヌクレオシド三リン酸（ｄＮＴＰ）である。実施形態１１４は、実施形態８９－１１３のいずれか１つの方法を含み、ここで前記ビオチンで修飾されたヌクレオシド三リン酸（ｄＮＴＰ）は、ビオチンで修飾されたデオキシリボシトシン三リン酸（ｄＣＴＰ）である。実施形態１１５は、実施形態８９－１１４のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントの一部は、第１のタグを使用して、少なくとも第１の末端でタグ付けされる。実施形態１１６は、実施形態８９－１１５のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントは、トランスポサーゼを使用してタグ付けされる。実施形態１１７は、実施形態８９－１１６のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントの一部は、前記ＤＮＡセグメントを少なくとも１つの他のＤＮＡセグメントに連結することによってタグ付けされる。実施形態１１８は、実施形態８９－１１７のいずれか１つの方法を含み、ここでＤＮＡセグメントの前記一部は、リガーゼを使用して前記他のＤＮＡセグメントに連結される。実施形態１１９は、実施形態８９－１１８のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、ヌクレアーゼ酵素を使用して切断される。実施形態１２０は、実施形態８９－１１９のいずれか１つの方法を含み、ここで前記連結されたＤＮＡセグメントは、工程（ｃ）の前に切断される。実施形態１２１は、実施形態８９－１２０のいずれか１つの方法を含み、ここで前記連結されたＤＮＡセグメントは、物理的方法を使用して切断される。実施形態１２２は、実施形態８９－１２１のいずれか１つの方法を含み、方法は、前記連結されたＤＮＡセグメントを配列決定アダプターに結合する工程を含む。実施形態１２３は、実施形態８９－１２２のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントは、連結されて前記連結されたＤＮＡセグメントを形成する前に、１０回未満洗浄される。実施形態１２４は、実施形態８９－１２３のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントは、連結されて前記連結されたＤＮＡセグメントを形成する前に、６回未満洗浄される。実施形態１２５は、実施形態８９～１２４のいずれか１つのいずれか１つの方法を含み、方法は、前記リード対を使用して前記ＤＮＡ分子の複数のコンティグをアセンブルする工程を含む。実施形態１２６は、実施形態８９～１２４のいずれか１つのいずれか１つの方法を含み、方法は、前記リード対を使用して前記ＤＮＡセグメントをフェージングする工程を含む。実施形態１２７は、実施形態８９～１２６のいずれか１つのいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態１２８は、実施形態８９－１２７のいずれか１つの方法を含み、ここで工程（ａ）－（ｄ）に必要とされる実地時間の期間は、６時間以下である。実施形態１２９は、実施形態８９－１２８のいずれか１つの方法を含み、ここで透析は、工程（ａ）－（ｄ）間で実行されない。実施形態１３０は、実施形態８９－１２９のいずれか１つの方法を含み、ここで方法は２日未満で完了する。実施形態１３１は、実施形態８９－１３０のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子は、約５マイクログラム以下である。実施形態１３２は、実施形態８９－１３１のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の前記結合は、インビトロで行われる。実施形態１３３は、実施形態８９－１３２のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の前記結合は、インビボで行われる。

実施形態１３４は、インビトロでの複合体においてＤＮＡ断片に結合された複数の会合分子を含む組成物を含み、ここで前記インビトロでの複合体は、固体支持体上で固定化され、および前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態１３５は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記固体支持体は、ストレプトアビジンに共有結合的に連結されない。実施形態１３６は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記固体支持体はビーズを含む。実施形態１３７は、実施形態８９－１３６のいずれか１つの組成物を含み、ここで前記ビーズはポリマーを含む。実施形態１３８は、実施形態８９－１３７のいずれか１つの組成物を含み、ここで前記ポリマー、ポリスチレンまたはポリエチレングリコール（ＰＥＧ）を含む。実施形態１３９は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記ビーズはＳＰＲＩビーズである。実施形態１４０は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記固体支持体は、複数のカルボキシル基でコーティングされる。実施形態１４１は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態１４２は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記会合分子はアミノ酸を含む。実施形態１４３は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記会合分子は、ポリペプチドまたはタンパク質を含む。実施形態１４４は、実施形態８９－１４３のいずれか１つの組成物を含み、ここで前記会合分子はヒストンタンパク質を含む。実施形態１４５は、実施形態８９－１４４のいずれか１つの組成物を含み、ここで前記ヒストンタンパク質は、前記ＤＮＡ分子とは異なるソースからのものである。実施形態１４６は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記会合分子はトランスポサーゼを含む。実施形態１４７は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記第１のＤＮＡ分子は、前記会合分子に非共有結合される。実施形態１４８は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記第１のＤＮＡ分子は、前記会合分子に共有結合される。実施形態１４９は、実施形態８９－１４８のいずれか１つの組成物を含み、ここで前記第１のＤＮＡ分子は、前記会合分子に架橋される。実施形態１５０は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記会合分子は、固定剤を用いて前記ＤＮＡ断片に架橋される。実施形態１５１は、実施形態８９－１５０のいずれか１つの組成物を含み、ここで前記固定剤はホルムアルデヒドである。実施形態１５２は、実施形態８９－１３４のいずれか１つの組成物を含み、ここで前記ＤＮＡ断片は、アフィニティー標識で修飾される。実施形態１５３は、実施形態８９－１５２のいずれか１つの組成物を含み、ここで前記アフィニティー標識はビオチンを含む。実施形態１５４は、実施形態８９－１５３のいずれか１つの組成物を含み、ここで前記アフィニティー標識は、ビオチンで修飾されたヌクレオシド三リン酸（ｄＮＴＰ）である。実施形態１５５は、実施形態８９－１５４のいずれか１つの組成物を含み、ここで前記ビオチンで修飾されたヌクレオシド三リン酸（ｄＮＴＰ）は、ビオチンで修飾されたデオキシリボシトシン三リン酸（ｄＣＴＰ）である。実施形態１５６は、実施形態８９－１５５のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の前記結合は、インビトロで行われる。実施形態１５７は、実施形態８９－１５６のいずれか１つの方法を含み、ここで複数のＤＮＡ分子の前記結合は、インビボで行われる。

実施形態１５８は、複数のＤＮＡ分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、（ａ）複数の会合分子に結合された複数のＤＮＡ分子を得る工程；（ｂ）少なくとも複数のＤＮＡセグメントを生成するために前記ＤＮＡ分子を切断する工程；（ｃ）複数のタグ付けされたＤＮＡセグメントを形成するために前記ＤＮＡセグメントの少なくとも一部をタグ付けする工程；および（ｄ）複数のタグ付けされた配列を得るために前記タグ付けされたＤＮＡセグメントを配列決定する工程を含み、ここで前記複数のＤＮＡ分子の合計量は、約５マイクログラム（μｇ）未満である。実施形態１５９は、複数のＤＮＡ分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、（ａ）複数の会合分子に結合された複数のＤＮＡ分子を得る工程；（ｂ）少なくとも複数のＤＮＡセグメントを生成するために前記ＤＮＡ分子を切断する工程；（ｃ）複数のタグ付けされたＤＮＡセグメントを形成するために前記ＤＮＡセグメントの少なくとも一部をタグ付けする工程；および（ｄ）複数のタグ付けされた配列を得るために前記タグ付けされたＤＮＡセグメントを配列決定する工程を含み、ここで透析は、工程（ａ）から工程（ｄ）の間で実行されない。実施形態１６０は、複数のＤＮＡ分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、（ａ）複数の会合分子に結合された複数のＤＮＡ分子を得る工程；（ｂ）少なくとも複数のＤＮＡセグメントを生成するために前記ＤＮＡ分子を切断する工程；（ｃ）複数のタグ付けされたＤＮＡセグメントを形成するために前記ＤＮＡセグメントの少なくとも一部をタグ付けする工程；および（ｄ）複数のタグ付けされた配列を得るために前記タグ付けされたＤＮＡセグメントを配列決定する工程を含み、ここで工程（ａ）－（ｄ）に必要とされる実地時間の期間は、６時間未満である。実施形態１６１は、実施形態１５８、１５９、または１６０のいずれか１つの方法を含み、ここで前記ＤＮＡ分子からのＤＮＡセグメントの４０％未満は、他のＤＮＡ分子からのＤＮＡセグメントに連結される。実施形態１６２は、実施形態１５８－１６１のいずれか１つの方法を含み、ここで前記ＤＮＡ分子からのＤＮＡセグメントの２０％未満は、他のＤＮＡ分子からのＤＮＡセグメントに連結される。実施形態１６３は、実施形態１５８－１６２のいずれか１つの方法を含み、ここで前記会合分子はアミノ酸を含む。実施形態１６４は、実施形態１５８－１６２のいずれか１つの方法を含み、ここで前記会合分子は、ポリペプチドまたはタンパク質である。実施形態１６５は、実施形態１５８－１６４のいずれか１つの方法を含み、ここで前記会合分子はヒストンタンパク質である。実施形態１６６は、実施形態１５８－１６５のいずれか１つの方法を含み、ここで前記ヒストンタンパク質は、前記ＤＮＡ分子とは異なるソースからのものである。実施形態１６７は、実施形態１５８－１６６のいずれか１つの方法を含み、ここで前記会合分子はトランスポサーゼである。実施形態１６８は、実施形態１５８－１６７のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、前記会合分子に非共有結合される。実施形態１６９は、実施形態１５８－１６８のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、前記会合分子に共有結合される。実施形態１７０は、実施形態１５８－１６９のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、前記会合分子に架橋される。実施形態１７１は、実施形態１５８－１７０のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、固定剤を使用して架橋される。実施形態１７２は、実施形態１５８－１７１のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、ホルムアルデヒドを使用して架橋される。実施形態１７３は、実施形態１５８－１７２のいずれか１つの方法を含み、方法は、複数の固体支持体上に前記複数の会合分子を固定化する工程を含む。実施形態１７４は、実施形態１５８－１７３のいずれか１つの方法を含み、ここで前記固体支持体はビーズである。実施形態１７５は、実施形態１５８－１７４のいずれか１つの方法を含み、ここで前記ビーズはポリマーを含む。実施形態１７６は、実施形態１５８－１７５のいずれか１つの方法を含み、ここで前記ポリマーは、ポリスチレンまたはポリエチレングリコール（ＰＥＧ）である。実施形態１７７は、実施形態１５８－１７６のいずれか１つの方法を含み、ここで前記ビーズは磁気ビーズである。実施形態１７８は、実施形態１５８－１７７のいずれか１つの方法を含み、ここで前記ビーズはＳＰＲＩビーズである。実施形態１７９は、実施形態１５８－１７８のいずれか１つの方法を含み、ここで前記固体支持体は表面を含み、および前記表面は複数のカルボキシル基を含む。実施形態１８０は、実施形態１５８－１７９のいずれか１つの方法を含み、ここで前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態１８１は、実施形態１５８－１８０のいずれか１つの方法を含み、ここで前記会合分子は、前記固体支持体への固定化前にビオチンに共有結合的に連結されない。実施形態１８２は、実施形態１５８－１８１のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントの前記一部は、アフィニティー標識で修飾される。実施形態１８３は、実施形態１５８－１８２のいずれか１つの方法を含み、ここで前記アフィニティー標識はビオチンを含む。実施形態１８４は、実施形態１５８－１８３のいずれか１つの方法を含み、ここで前記アフィニティー標識は、ビオチンで修飾されたヌクレオシド三リン酸（ｄＮＴＰ）である。実施形態１８５は、実施形態１５８－１８４のいずれか１つの方法を含み、ここで前記ビオチンで修飾されたヌクレオシド三リン酸（ｄＮＴＰ）は、ビオチンで修飾されたデオキシリボシトシン三リン酸（ｄＣＴＰ）である。実施形態１８６は、実施形態１５８－１８５のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントの一部は、少なくとも第１のタグを用いて第１の末端でタグ付けされる。実施形態１８７は、実施形態１５８－１８６のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントは、トランスポサーゼを使用してタグ付けされる。実施形態１８８は、実施形態１５８－１８７のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントの一部は、前記ＤＮＡセグメントの各々を少なくとも１つの他のＤＮＡセグメントに連結することによってタグ付けされる。実施形態１８９は、実施形態１５８－１８８のいずれか１つの方法を含み、ここでＤＮＡセグメントの前記一部は、リガーゼを使用して前記他のＤＮＡセグメントに連結される。実施形態１９０は、実施形態１５８－１８９のいずれか１つの方法を含み、ここで前記ＤＮＡ分子は、ヌクレアーゼ酵素を使用して切断される。実施形態１９１は、実施形態１５８－１９０のいずれか１つの方法を含み、ここで前記連結されたＤＮＡセグメントは、工程（ｃ）の前に切断される。実施形態１９２は、実施形態１５８－１９１のいずれか１つの方法を含み、ここで前記連結されたＤＮＡセグメントは、物理的方法を使用して切断される。実施形態１９３は、実施形態１５８－１９２のいずれか１つの方法を含み、方法は、前記連結されたＤＮＡセグメントを配列決定アダプターに結合する工程を含む。実施形態１９４は、実施形態１５８－１９３のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントは、連結されて前記連結されたＤＮＡセグメントを形成する前に、約１０回未満洗浄される。実施形態１９５は、実施形態１５８－１９４のいずれか１つの方法を含み、ここで前記ＤＮＡセグメントは、連結されて前記連結されたＤＮＡセグメントを形成する前に、約６回未満洗浄される。実施形態１９６は、実施形態１５８－１９５のいずれか１つの方法を含み、方法は、前記リード対を使用して前記ＤＮＡ分子の複数のコンティグをアセンブルする工程を含む。実施形態１９７は、実施形態１５８－１９６のいずれか１つの方法を含み、方法は、前記リード対を使用して前記ＤＮＡセグメントをフェージングする工程を含む。実施形態１９８は、実施形態１５８－１９７のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態１９９は、実施形態１５８－１９８のいずれか１つの方法を含み、ここで工程（ａ）での前記得る工程は、前記複数のＤＮＡ分子を前記複数の会合分子に結合する工程を含む。実施形態２００は、実施形態１５８－１９９のいずれか１つの方法を含み、ここで工程（ａ）での前記得る工程は、前記複数の会合分子に結合された前記複数のＤＮＡ分子を収集する工程を含む。実施形態２０１は、実施形態１５８－２００のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の合計量は、４μｇ以下である。実施形態２０２は、実施形態１５８－２０１のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の合計量は、３μｇ以下である。実施形態２０３は、実施形態１５８－２０２のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の合計量は、２μｇ以下である。実施形態２０４は、実施形態１５８－２０３のいずれか１つの方法を含み、ここで工程（ａ）－（ｄ）に必要とされる実地時間の期間は、５時間未満であるか５時間を超える。実施形態２０５は、実施形態１５８－２０４のいずれか１つの方法を含み、ここで工程（ａ）－（ｄ）に必要とされる実地時間の合計は、４時間未満であるか４時間を超える。実施形態２０６は、実施形態１５８－２０５のいずれか１つの方法を含み、ここで透析は、工程（ａ）－（ｄ）間で実行されない。実施形態２０７は、実施形態１５８－２０６のいずれか１つの方法を含み、ここで方法は２日未満で完了する。実施形態２０８は、実施形態１５８－２０７のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の前記結合は、インビトロで行われる。実施形態２０９は、実施形態１５８－２０８のいずれか１つの方法を含み、ここで前記複数のＤＮＡ分子の前記結合は、インビボで行われる。

実施形態２１０は、宿主集団の病原体を検出する方法を含み、該方法は、ａ）共通の病原体を持つ疑いのある複数の個体の各々から安定したサンプルを得る工程；ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程；ｃ）露出したＤＮＡ末端を標識する工程；ｄ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程；ｅ）複数のペア配列リードを生成するために標識されたペアエンドにわたって配列決定する工程；ｆ）複数の配列リードのペア配列リードの各半分を共通の由来となる生物に割り当てる工程を含み、ここで共通の病原体を持つ疑いのある個体に共通する由来となる生物は、病原体である。実施形態２１１は、実施形態２１０の方法を含み、ここで由来となる生物の配列リードは、既知の病原体にマッピングされる。実施形態２１２は、実施形態２１０－２１１のいずれか１つの方法を含み、ここで由来となる生物の配列リードは、配列データベース検索において既知の病原体を特定する。実施形態２１３は、実施形態２１０－２１２のいずれか１つの方法を含み、ここで由来となる生物の配列リードは、共通の病原体を持つ疑いのない複数の個体の各々から得られた安定したサンプルから得られた複数のペア配列リードには存在しない。実施形態２１４は、実施形態２１０－２１３のいずれか１つの方法を含み、ここで由来となる生物の配列リードは、配列データベースに表わされない生物を特定する。実施形態２１５は、実施形態２１０－２１４のいずれか１つの方法を含み、ここで安定したサンプルは架橋されている。実施形態２１６は、実施形態２１０－２１５のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態２１７は、実施形態２１０－２１５のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態２１８は、実施形態２１０－２１５のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態２１９は、実施形態２１０－２１８のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態２２０は、実施形態２１０－２１９のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態２２１は、実施形態２１０－２２０のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態２２２は、実施形態２１０－２２１のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態２２３は、実施形態２１０－２２のいずれか１つの方法を含み、ここで露出したＤＮＡ末端を標識する工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態２２４は、実施形態２１０－２２３のいずれか１つの方法を含み、ここでサンプルは、血液、汗、尿、または便に由来する。実施形態２２５は、実施形態２１０－２２４のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態２２６は、実施形態２１０－２２５のいずれか１つの方法を含み、ここで方法を完了するのに必要とされる実地時間の期間は、６時間以下である。実施形態２２７は、実施形態２１０－２２６のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態２２８は、実施形態２１０－２２７のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態２２９は、抗生物質耐性遺伝子の微生物宿主を特定する方法を含み、該方法は、ａ）微生物抗生物質耐性を実証している状態を有している個体から安定したサンプルを得る工程；ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程；ｃ）露出したＤＮＡ末端を標識する工程；ｄ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程；およびｅ）ペア配列を生成するために標識されたペアエンドにわたって配列決定する工程を含み、ここで抗生物質耐性遺伝子配列に隣接している配列は、抗生物質耐性遺伝子の微生物宿主を暗示している。実施形態２３０は、実施形態２２９の方法を含み、ここで安定したサンプルは架橋されている。実施形態２３１は、実施形態２２９－２３０のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態２３２は、実施形態２２９－２３０のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態２３３は、実施形態２２９－２３０のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態２３４は、実施形態２２９－２３３のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態２３５は、実施形態２２９－２３４のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態２３６は、実施形態２２９－２３５のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態２３７は、実施形態２２９－２３６のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態２３８は、実施形態２２９－２３７のいずれか１つの方法を含み、ここで露出したＤＮＡ末端を標識する工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態２３９は、実施形態２２９－２３８のいずれか１つの方法を含み、方法は、ＤＮＡデータベースに対するペア配列を検索する工程を含む。実施形態２４０は、実施形態２２９－２３９のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態２４１は、実施形態２２９－２４０のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態２４２は、実施形態２２９－２４１のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態２４３は、実施形態２２９－２４２のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態２４４は、異種の核酸サンプルに対するゲノム連鎖情報を判定する方法を含み、該方法は、（ａ）安定した異種の核酸サンプルを得る工程；（ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程；（ｃ）露出したＤＮＡ末端を標識する工程；（ｄ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程；（ｅ）複数のペア配列を生成するために標識されたペアエンドにわたって配列決定する工程；（ｆ）複数の配列リードのペア配列の各半分を共通の由来となる核酸分子に割り当てる工程を含む。実施形態２４５は、実施形態２４４の方法を含み、ここで異種の核酸サンプルは、血液、汗、尿または便から得られる。実施形態２４６は、実施形態２４４－２４５のいずれか１つの方法を含み、ここで安定したサンプルは架橋されている。実施形態２４７は、実施形態２４４－２４６のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態２４８は、実施形態２４４－２４６のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態２４９は、実施形態２４４－２４６のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態２５０は、実施形態２４４－２４９のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態２５１は、実施形態２４４－２５０のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態２５２は、実施形態２４４－２５１のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態２５３は、実施形態２４４－２５２のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態２５４は、実施形態２４４－２５３のいずれか１つの方法を含み、ここで露出したＤＮＡ末端を標識する工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態２５５は、実施形態２４４－２５４のいずれか１つの方法を含み、方法は、ＤＮＡデータベースに対するペア配列を検索する工程を含む。実施形態２５６は、実施形態２４４－２５５のいずれか１つの方法を含み、ここで共通の由来となる核酸分子は、単一の個体にマッピングされる。実施形態２５７は、実施形態２４４－２５６のいずれか１つの方法を含み、ここで共通の由来となる核酸分子は、集団のサブセットを特定する。実施形態２５８は、実施形態２４４－２５７のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態２５９は、実施形態２４４－２５８のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態２６０は、実施形態２４４－２５９のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態２６１は、実施形態２４４２６０のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態２６２は、メタゲノミクスアセンブリのための方法を含み、該方法は、（ａ）環境から微生物を収集する工程；（ｂ）微生物から複数のコンティグを得る工程；（ｃ）再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程；および（ｄ）複数のリード対を複数のコンティグにマッピングし、それによってリードマッピングのデータを生成する工程を含み、ここで異なるコンティグにマッピングされるリード対は、異なるコンティグが共通の種由来であることを示している。実施形態２６３は、実施形態２６２のいずれか１つの方法を含み、ここで微生物は、ヒトの腸から収集される。実施形態２６４は、細菌性の感染病原体を検出する方法を含み、（ａ）細菌性の感染病原体から複数のコンティグを得る工程；（ｂ）再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程；（ｃ）複数のリード対を複数のコンティグにマッピングし、それによってリードマッピングのデータを生成する工程；（ｄ）コンティグをゲノムアセンブリへとアセンブルするために、リードマッピングのデータを使用してコンティグを配置する工程；および（ｅ）細菌性の感染病原体の存在を判定するためにゲノムアセンブリを使用する工程を含む。

実施形態２６５は、宿主集団の病原体を検出する方法を含み、該方法は、ａ）共通の病原体を持つ疑いのある複数の個体の各々から安定したサンプルを得る工程；ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程；ｃ）第１のバーコードタグを使用して安定したサンプルの第１の部分の露出したＤＮＡ末端をタグ付けし、第２のバーコードタグを使用して安定したサンプルの第２の部分の露出した末端をタグ付けする工程；ｄ）複数のバーコードタグ付けされた配列リードを生成するためにバーコードタグ付けされた末端にわたって配列決定する工程；およびｅ）複数の配列リードの一般にバーコードタグ付けされた配列リードを共通の由来となる生物に割り当てる工程を含み、ここで共通の病原体を持つ疑いのある個体に共通する由来となる生物は、病原体である。実施形態２６６は、実施形態２６５の方法を含み、ここで由来となる生物の配列リードは、既知の病原体にマッピングされる。実施形態２６７は、実施形態２６５－２６６のいずれか１つの方法を含み、ここで由来となる生物の配列リードは、配列データベース検索において既知の病原体を特定する。実施形態２６８は、実施形態２６５－２６７のいずれか１つの方法を含み、ここで由来となる生物の配列リードは、共通の病原体を持つ疑いのない複数の個体の各々から得られた安定したサンプルから得られた複数のペア配列リードには存在しない。実施形態２６９は、実施形態２６５－２６８のいずれか１つの方法を含み、ここで由来となる生物の配列リードは、配列データベースに表わされない生物を特定する。実施形態２７０は、実施形態２６５－２６９のいずれか１つの方法を含み、ここで安定したサンプルは架橋されている。実施形態２７１は、実施形態２６５－２７０のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態２７２は、実施形態２６５－２７１のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態２７３は、実施形態２６５－２７２のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態２７４は、実施形態２６５－２７３のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態２７５は、実施形態２６５－２７４のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態２７６は、実施形態２６５－２７５のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態２７７は、実施形態２６５－２７６のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態２７８は、実施形態２６５－２７７のいずれか１つの方法を含み、ここで露出したＤＮＡ末端をタグ付けする工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態２７９は、実施形態２６５－２７８のいずれか１つの方法を含み、ここでサンプルは、血液、汗、尿、または便に由来する。実施形態２８０は、実施形態２６５－２７９のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態２８１は、実施形態２６５－２８０のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態２８２は、実施形態２６５－２８１のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態２８３は、実施形態２６５－２８２のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態２８４は、抗生物質耐性遺伝子の微生物宿主を特定する方法を含み、該方法は、ａ）微生物抗生物質耐性を実証している状態を有している個体から安定したサンプルを得る工程；ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程；ｃ）第１のバーコードタグを使用して安定したサンプルの第１の部分の露出したＤＮＡ末端をタグ付けし、第２のバーコードタグを使用して安定したサンプルの第２の部分の露出した末端をタグ付けする工程；ｄ）複数のバーコードタグ付けされた配列リードを生成するためにバーコードタグ付けされた末端にわたって配列決定する工程を含み、ここで抗生物質耐性遺伝子配列のバーコードタグと同一のバーコードタグを有する配列は、抗生物質耐性遺伝子の微生物宿主を暗示している。実施形態２８５は、実施形態２８４の方法を含み、ここで安定したサンプルは架橋されている。実施形態２８６は、実施形態２８４－２８５のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態２８７は、実施形態２８４－２８５のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態２８８は、実施形態２８４－２８５のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態２８９は、実施形態２８４－２８８のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態２９０は、実施形態２８４－２８９のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態２９１は、実施形態２８４－２９０のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態２９２は、実施形態２８４－２９１のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態２９３は、実施形態２８４－２９２のいずれか１つの方法を含み、ここで露出したＤＮＡ末端をタグ付けする工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態２９４は、実施形態２８４－２９３のいずれか１つの方法を含み、方法は、ＤＮＡデータベースに対するペア配列を検索する工程を含む。実施形態２９５は、実施形態２８４－２９４のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態２９６は、実施形態２８４－２９５のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態２９７は、実施形態２８４－２９６のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態２９８は、実施形態２８４－２９７のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態２９９は、異種の核酸サンプルに対するゲノム連鎖情報を判定する方法を含み、該方法は、（ａ）安定した異種の核酸サンプルを得る工程；（ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程；（ｃ）第１のバーコードタグを使用して安定したサンプルの第１の部分の露出したＤＮＡ末端をタグ付けし、第２のバーコードタグを使用して安定したサンプルの第２の部分の露出した末端をタグ付けする工程；（ｄ）複数のバーコードタグ付けされた配列リードを生成するためにバーコードタグ付けされた末端にわたって配列決定する工程；（ｅ）一般にタグ付けされた配列リードを共通の由来となる核酸分子に割り当てる工程を含む。実施形態３００は、実施形態２９９の方法を含み、ここで異種の核酸サンプルは、血液、汗、尿または便から得られる。実施形態３０１は、実施形態２９９－３００のいずれか１つの方法を含み、ここで安定したサンプルは架橋されている。実施形態３０２は、実施形態２９９－３０１のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態３０３は、実施形態２９９－３０１のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態３０４は、実施形態２９９－３０１のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態３０５は、実施形態２９９－３０４のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態３０６は、実施形態２９９－３０５のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態３０７は、実施形態２９９－３０６のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルをヌクレアーゼに接触させる工程を含む。実施形態３０８は、実施形態２９９－３０７のいずれか１つの方法を含み、ここで前記ヌクレアーゼは制限エンドヌクレアーゼである。実施形態３０９は、実施形態２９９－３０８のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態３１０は、実施形態２９９－３０９のいずれか１つの方法を含み、ここで露出したＤＮＡ末端をタグ付けする工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態３１１は、実施形態２９９－３１０のいずれか１つの方法を含み、方法は、ＤＮＡデータベースに対するペア配列を検索する工程を含む。実施形態３１２は、実施形態２９９－３１１のいずれか１つの方法を含み、ここで共通の由来となる核酸分子は、単一の個体にマッピングされる。実施形態３１３は、実施形態２９９－３１２のいずれか１つの方法を含み、ここで共通の由来となる核酸分子は、集団のサブセットを特定する。実施形態３１４は、実施形態２９９－３１３のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも２つの個体にマッピングされる核酸を含む。実施形態３１５は、実施形態２９９－３１４のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも３つの個体にマッピングされる核酸を含む。実施形態３１６は、実施形態２９９－３１５のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも２つの種にマッピングされる核酸を含む。実施形態３１７は、実施形態２９９－３１６のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも３つの種にマッピングされる核酸を含む。実施形態３１８は、実施形態２９９－３１７のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも４つの種にマッピングされる核酸を含む。実施形態３１９は、実施形態２９９－３１８のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも２つの核酸足場へとアセンブルされる。実施形態３２０は、実施形態２９９－３１９のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも３つの核酸足場へとアセンブルされる。実施形態３２１は、実施形態２９９－３２０のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも５０％および第２のゲノムの少なくとも５０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３２２は、実施形態２９９－３２１のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも６０％および第２のゲノムの少なくとも６０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３２３は、実施形態２９９－３２２のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも７０％および第２のゲノムの少なくとも７０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３２４は、実施形態２９９－３２３のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも８０％および第２のゲノムの少なくとも８０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３２５は、実施形態２９９－３２４のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態３２６は、実施形態２９９－３２５のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態３２７は、実施形態２９９－３２６のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態３２８は、実施形態２９９－３２７のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態３２９は、宿主集団の病原体を検出する方法を含み、該方法は、ａ）複数の被験体の各々から安定したサンプルを得る工程；ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理し、それによって、露出したＤＮＡ末端を生成する工程；ｃ）露出したＤＮＡ末端の少なくとも一部を標識する工程；ｄ）標識されたペアエンドを形成するために露出したＤＮＡ末端を連結する工程；ｅ）複数のリード対を生成するために標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程；およびｆ）リード対の各半分を共通の由来となる生物に割り当てる工程を含み、ここで被験体に共通する由来となる生物は、病原体として検出される。実施形態３３０は、実施形態３２９の方法を含み、ここで由来となる生物のリード対は、既知の病原体にマッピングされる。実施形態３３１は、実施形態３２９－３３０のいずれか１つの方法を含み、ここで由来となる生物のリード対は、配列データベース検索において既知の病原体を特定する。実施形態３３２は、実施形態３２９－３３１のいずれか１つの方法を含む、由来となる生物のリード対は、共通の病原体を持たない複数の被験体の各々から得られた安定したサンプルから得られた複数のリード対には存在しない。実施形態３３３は、実施形態３２９－３３２のいずれか１つの方法を含み、ここで由来となる生物のリード対は、配列データベースに表わされない生物を特定する。実施形態３３４は、実施形態３２９－３３３のいずれか１つの方法を含み、ここで安定したサンプルは架橋されている。実施形態３３５は、実施形態３２９－３３４のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態３３６は、実施形態３２９－３３４のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態３３７は、実施形態３２９－３３４のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態３３８は、実施形態３２９－３３７のいずれか１つの方法を含む、安定したサンプルは、サンプルをＤＮＡ結合部分と接触させることによって得られる。実施形態３３９は、実施形態３２９－３３８のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態３４０は、実施形態３２９－３３９のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、制限エンドヌクレアーゼに対する安定したサンプルを接触させる工程を含む。実施形態３４１は、実施形態３２９－３４０のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、安定したサンプルを超音波処理する工程を含む。実施形態３４２は、実施形態３２９－３４１のいずれか１つの方法を含み、ここで露出したＤＮＡ末端を標識する工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態３４３は、実施形態３２９－３４２のいずれか１つの方法を含み、ここで安定したサンプルは、血液、汗、尿、または便に由来する。実施形態３４４は、実施形態３２９－３４３のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態３４５は、実施形態３２９－３４４のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態３４６は、実施形態３２９－３４５のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態３４７は、実施形態３２９－３４６のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態３４８は、抗生物質耐性遺伝子の微生物宿主を特定する方法を含み、該方法は、ａ）微生物抗生物質耐性を実証している状態を有している被験体から安定したサンプルを得る工程；ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理し、それによって、露出したＤＮＡ末端を生成する工程；ｃ）露出したＤＮＡ末端の少なくとも一部を標識する工程；ｄ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程；およびｅ）ペア配列を生成するために連結されたペアエンドの少なくとも認識可能な部分を配列決定する工程を含み、ここで抗生物質耐性遺伝子配列に隣接しているペア配列は、抗生物質耐性遺伝子の微生物宿主を暗示している。実施形態３４９は、実施形態３４８の方法を含み、ここで安定したサンプルは架橋されている。実施形態３５０は、実施形態３４８－３４９のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態３５１は、実施形態３４８－３４９のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態３５２は、実施形態３４８－３４９のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態３５３は、実施形態３４８－３５２のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態３５４は、実施形態３４８－３５３のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態３５５は、実施形態３４８－３５４のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態３５６は、実施形態３４８－３５５のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態３５７は、実施形態３４８－３５６のいずれか１つの方法を含み、ここで露出したＤＮＡ末端を標識する工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態３５８は、実施形態３４８－３５７のいずれか１つの方法を含み、方法は、ＤＮＡデータベースに対するペア配列を検索する工程を含む。実施形態３５９は、実施形態３４８－３５８のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態３６０は、実施形態３４８－３５９のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態３６１は、実施形態３４８－３６０のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態３６２は、実施形態３４８－３６１のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態３６３は、異種の核酸サンプルに対するゲノム連鎖情報を判定する方法を含み、該方法は、（ａ）異種の核酸サンプルを安定させる工程；（ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理し、それによって、露出したＤＮＡ末端を生成する工程；（ｃ）露出したＤＮＡ末端の少なくとも一部を標識する工程；（ｄ）標識されたペアエンドを形成するために標識された露出したＤＮＡ末端を連結する工程；（ｅ）複数のリード対を生成するために標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程；（ｆ）リード対の各半分を共通の由来となる核酸分子に割り当てる工程を含む。実施形態３６４は、実施形態３６３の方法を含み、ここで異種の核酸サンプルは、血液、汗、尿または便から得られる。実施形態３６５は、実施形態３６３－３６４のいずれか１つの方法を含み、ここで安定したサンプルは架橋されている。実施形態３６６は、実施形態３６３－３６５のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態３６７は、実施形態３６３－３６５のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態３６８は、実施形態３６３－３６５のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態３６９は、実施形態３６３－３６８のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態３７０は、実施形態３６３－３６９のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態３７１は、実施形態３６３－３７０のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態３７２は、実施形態３６３－３７１のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態３７３は、実施形態３６３－３７２のいずれか１つの方法を含み、ここで露出したＤＮＡ末端を標識する工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態３７４は、実施形態３６３－３７３のいずれか１つの方法を含み、方法は、ＤＮＡデータベースに対するペア配列を検索する工程を含む。実施形態３７５は、実施形態３６３－３７４のいずれか１つの方法を含み、ここで共通の由来となる核酸分子は、単一の個体にマッピングされる。実施形態３７６は、実施形態３６３－３７５のいずれか１つの方法を含み、ここで共通の由来となる核酸分子は、集団のサブセットを特定する。実施形態３７７は、実施形態３６３－３７６のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも２つの個体にマッピングされる核酸を含む。実施形態３７８は、実施形態３６３－３７７のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも３つの個体にマッピングされる核酸を含む。実施形態３７９は、実施形態３６３－３７８のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも２つの種にマッピングされる核酸を含む。実施形態３８０は、実施形態３６３－３７９のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも３つの種にマッピングされる核酸を含む。実施形態３８１は、実施形態３６３－３８０のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも４つの種にマッピングされる核酸を含む。実施形態３８２は、実施形態３６３－３８１のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも２つの核酸足場へとアセンブルされる。実施形態３８３は、実施形態３６３－３８２のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも３つの核酸足場へとアセンブルされる。実施形態３８４は、実施形態３６３－３８３のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも５０％および第２のゲノムの少なくとも５０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３８５は、実施形態３６３－３８４のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも６０％および第２のゲノムの少なくとも６０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３８６は、実施形態３６３－３８５のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも７０％および第２のゲノムの少なくとも７０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３８７は、実施形態３６３－３８６のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも８０％および第２のゲノムの少なくとも８０％が、前記少なくとも２つの核酸足場で表わされる。実施形態３８８は、実施形態３６３－３８７のいずれか１つの方法を含み、ここで方法は２日以下で完了する。実施形態３８９は、実施形態３６３－３８８のいずれか１つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、６時間以下である。実施形態３９０は、実施形態３６３－３８９のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態３９１は、実施形態３６３－３９０のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態３９２は、メタゲノミクスアセンブリのための方法を含み、該方法は、（ａ）環境から微生物を収集する工程；（ｂ）微生物から複数のコンティグを得る工程；（ｃ）再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程；および（ｄ）複数のリード対を複数のコンティグにマッピングし、それによって、リードマッピングのデータを生成する工程を含み、ここで異なるコンティグにマッピングされるリード対は、異なるコンティグが共通の個体から生じることを示している。実施形態３９３は、実施形態３９２のいずれか１つの方法を含み、ここで微生物は、ヒトの腸から収集される。実施形態３９４は、実施形態３９２の方法を含み、ここで微生物は、ヒトの皮膚から収集される。実施形態３９５は、実施形態３９２－３９４のいずれか１つの方法を含み、ここで微生物は、有毒廃棄物から収集される。実施形態３９６は、実施形態３９２－３９５のいずれか１つの方法を含み、ここで微生物は、木材またはセルロースの分解から収集される。実施形態３９７は、実施形態３９２－３９６のいずれか１つの方法を含み、ここで微生物は、水環境から収集される。実施形態３９８は、実施形態３９２－３９７のいずれか１つの方法を含み、ここで微生物は、海底から収集される。実施形態３９９は、実施形態３９２－３９８のいずれか１つの方法を含み、ここで微生物は、地球環境から収集される。実施形態４００は、実施形態３９２－３９９のいずれか１つの方法を含み、ここで微生物は、生物環境から収集される。実施形態４０１は、実施形態３９２－４００のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも２つの個体にマッピングされる核酸を含む。実施形態４０２は、実施形態３９２－４０１のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも３つの個体にマッピングされる核酸を含む。実施形態４０３は、実施形態３９２－４０２のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも２つの種にマッピングされる核酸を含む。実施形態４０４は、実施形態３９２－４０３のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも３つの種にマッピングされる核酸を含む。実施形態４０５は、実施形態３９２－４０４のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも４つの種にマッピングされる核酸を含む。実施形態４０６は、実施形態３９２－４０５のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも２つの核酸足場へとアセンブルされる。実施形態４０７は、実施形態３９２－４０６のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも３つの核酸足場へとアセンブルされる。実施形態４０８は、実施形態３９２－４０７のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも５０％および第２のゲノムの少なくとも５０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４０９は、実施形態３９２－４０８のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも６０％および第２のゲノムの少なくとも６０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４１０は、実施形態３９２－４０９のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも７０％および第２のゲノムの少なくとも７０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４１１は、実施形態３９２－４１０のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも８０％および第２のゲノムの少なくとも８０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４１２は、実施形態３９２－４１１のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態４１３は、実施形態３９２－４１２のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態４１４は、細菌性の感染病原体を検出する方法を含み、該方法は、（ａ）細菌性の感染病原体から複数のコンティグを得る工程；（ｂ）再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程；（ｃ）複数のリード対を複数のコンティグにマッピングし、それによって、リードマッピングのデータを生成する工程；（ｄ）コンティグをゲノムアセンブリへとアセンブルするために、リードマッピングのデータを使用してコンティグを配置する工程；および（ｅ）細菌性の感染病原体の存在を判定するためにゲノムアセンブリを使用する工程を含む。

実施形態４１５は、生物からゲノム配列情報を得る方法を含み、該方法は、（ａ）前記生物から安定したサンプルを得る工程；（ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理し、それによって、露出したＤＮＡ末端を生成する工程；（ｃ）タグ付けされたＤＮＡセグメントを生成するために露出したＤＮＡ末端の少なくとも一部をタグ付けする工程；（ｄ）タグ付けされたＤＮＡセグメントの少なくとも認識可能な部分を配列決定し、それによって、タグ付けされた配列を得る工程；および（ｅ）前記生物のゲノム配列情報を生成するために前記タグ付けされた配列をマッピングする工程を含み、ここで前記ゲノム配列情報は、前記生物のゲノムの少なくとも７５％をカバーする。実施形態４１６は、実施形態４１５の方法を含み、ここで異種のサンプルは、共通の種の少なくとも２つの個体にマッピングされる核酸を含む。実施形態４１７は、実施形態４１５－４１６のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも３つの個体にマッピングされる核酸を含む。実施形態４１８は、実施形態４１５－４１７のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも２つの種にマッピングされる核酸を含む。実施形態４１９は、実施形態４１５－４１８のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも３つの種にマッピングされる核酸を含む。実施形態４２０は、実施形態４１５－４１９のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも４つの種にマッピングされる核酸を含む。実施形態４２１は、実施形態４１５－４２０のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも２つの核酸足場へとアセンブルされる。実施形態４２２は、実施形態４１５－４２１のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも３つの核酸足場へとアセンブルされる。実施形態４２３は、実施形態４１５－４２２のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも５０％および第２のゲノムの少なくとも５０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４２４は、実施形態４１５－４２３のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも６０％および第２のゲノムの少なくとも６０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４２５は、実施形態４１５－４２４のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも７０％および第２のゲノムの少なくとも７０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４２６は、実施形態４１５－４２５のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも８０％および第２のゲノムの少なくとも８０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４２７は、実施形態４１５－４２６のいずれか１つの方法を含み、ここで前記生物は、異種のサンプルから収集される。実施形態４２８は、実施形態４１５－４２７のいずれか１つの方法を含み、ここで前記異種のサンプルは、各々が異なるゲノムを含む少なくとも１０００の生物を含む。実施形態４２９は、実施形態４１５－４２８のいずれか１つの方法を含み、ここで前記安定したサンプルは、前記生物からのＤＮＡをＤＮＡ結合部分に接触させることによって得られる。実施形態４３０は、実施形態４１５－４２９のいずれか１つの方法を含み、ここで前記ＤＮＡ結合部分はヒストンである。実施形態４３１は、実施形態４１５－４２９のいずれか１つの方法を含み、ここで前記ＤＮＡ結合部分はナノ粒子である。実施形態４３２は、実施形態４１５－４２９のいずれか１つの方法を含み、ここで前記ＤＮＡ結合部分はトランスポサーゼである。実施形態４３３は、実施形態４１５－４３２のいずれか１つの方法を含み、ここで前記露出したＤＮＡ末端は、トランスポサーゼを使用してタグ付けされる。実施形態４３４は、実施形態４１５－４３３のいずれか１つの方法を含み、ここで露出したＤＮＡ末端の部分は、前記露出したＤＮＡ末端を別の露出したＤＮＡ末端に連結することによってタグ付けされる。実施形態４３５は、実施形態４１５－４３４のいずれか１つの方法を含み、ここで露出したＤＮＡ末端の前記部分は、リガーゼを使用して前記他の露出したＤＮＡ末端に連結される。実施形態４３６は、実施形態４１５－４３５のいずれか１つの方法を含み、ここで前記ゲノム配列情報は、前記ゲノムから得られた追加のコンティグ配列を使用することなく生成される。実施形態４３７は、実施形態４１５－４３６のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態４３８は、実施形態４１５－４３７のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

実施形態４３９は、サンプルを分析する方法を含み、該方法は、（ａ）複数の生物から核酸を含む安定したサンプルを得る工程；（ｂ）安定したサンプルにおいて二本鎖ＤＮＡを切断するように安定したサンプルを処理し、それによって、露出したＤＮＡ末端を生成する工程；（ｃ）ペアエンドを形成するために前記露出したＤＮＡ末端を連結する工程；（ｄ）複数のペア配列リードを生成するために前記ペアエンドにわたって配列決定する工程；および（ｅ）前記複数の配列リードのペア配列リードの各半分を共通の由来となる生物に割り当てる工程を含む。実施形態４４０は、実施形態４３９の方法を含み、該方法は、前記連結前に、前記露出したＤＮＡ末端を標識する工程をさらに含む。実施形態４４１は、実施形態４３９－４４０のいずれか１つの方法を含み、ここで由来となる生物の配列リードは、配列データベースに表わされない生物を特定する。実施形態４４２は、実施形態４３９－４４１のいずれか１つの方法を含み、方法は、前記配列リードを配列データベースに表わされない遺伝子配列へとアセンブルする工程をさらに含む。実施形態４４３は、実施形態４３９－４４２のいずれか１つの方法を含み、方法は、前記割り当てに基づいて前記サンプルのシグネチャを生成する工程をさらに含む。実施形態４４４は、実施形態４３９－４４３のいずれか１つの方法を含み、ここで前記シグネチャは、前記サンプルの微生物環境を暗示している。実施形態４４５は、実施形態４３９－４４４のいずれか１つの方法を含み、方法は、前記割り当てに基づいて１つ以上の個体の生物の存在を特定する工程をさらに含む。実施形態４４６は、実施形態４３９－４４５のいずれか１つの方法を含み、ここで前記１つ以上の個体の生物は、ヒトである。実施形態４４７は、実施形態４３９－４４６のいずれか１つの方法を含み、ここで安定したサンプルは架橋されている。実施形態４４８は、実施形態４３９－４４７のいずれか１つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態４４９は、実施形態４３９－４４７のいずれか１つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態４５０は、実施形態４３９－４４７のいずれか１つの方法を含み、ここで安定したサンプルは、ＵＶ放射にさらされている。実施形態４５１は、実施形態４３９－４５０のいずれか１つの方法を含み、ここでサンプルは、ＤＮＡ結合部分に接触させられている。実施形態４５２は、実施形態４３９－４５１のいずれか１つの方法を含み、ここでＤＮＡ結合部分はヒストンを含む。実施形態４５３は、実施形態４３９－４５２のいずれか１つの方法を含み、ここで二本鎖ＤＮＡ切断するように安定したサンプルを処理する工程は、サンプルをヌクレアーゼ酵素に接触させる工程を含む、実施形態４５４は、実施形態４３９－４５３のいずれか１つの方法を含み、ここで前記ヌクレアーゼ酵素はエンドヌクレアーゼである。実施形態４５５は、実施形態４３９－４５４のいずれか１つの方法を含み、ここで前記エンドヌクレアーゼは制限エンドヌクレアーゼである。実施形態４５６は、実施形態４３９－４５５のいずれか１つの方法を含み、ここで前記ヌクレアーゼ酵素は核酸誘導ヌクレアーゼである。実施形態４５７は、実施形態４３９－４５６のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも２つの個体にマッピングされる核酸を含む。実施形態４５８は、実施形態４３９－４５７のいずれか１つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも３つの個体にマッピングされる核酸を含む。実施形態４５９は、実施形態４３９－４５８のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも２つの種にマッピングされる核酸を含む。実施形態４６０は、実施形態４３９－４５９のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも３つの種にマッピングされる核酸を含む。実施形態４６１は、実施形態４３９－４６０のいずれか１つの方法を含み、ここで異種のサンプルは、少なくとも４つの種にマッピングされる核酸を含む。実施形態４６２は、実施形態４３９－４６１のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも２つの核酸足場へとアセンブルされる。実施形態４６３は、実施形態４３９－４６２のいずれか１つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも３つの核酸足場へとアセンブルされる。実施形態４６４は、実施形態４３９－４６３のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも５０％および第２のゲノムの少なくとも５０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４６５は、実施形態４３９－４６４のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも６０％および第２のゲノムの少なくとも６０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４６６は、実施形態４３９－４６５のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも７０％および第２のゲノムの少なくとも７０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４６７は、実施形態４３９－４６６のいずれか１つの方法を含み、ここで配列リードは少なくとも２つの核酸足場へとアセンブルされ、それにより、第１のゲノムの少なくとも８０％および第２のゲノムの少なくとも８０％が、前記少なくとも２つの核酸足場で表わされる。実施形態４６８は、実施形態４３９－４６７のいずれか１つの方法を含み、ここで二本鎖ＤＮＡを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態４６９は、実施形態４３９－－４６８のいずれか１つの方法を含み、ここで露出したＤＮＡ末端を標識する工程は、ビオチン部分を露出したＤＮＡ末端に加える工程を含む。実施形態４７０は、実施形態４３９－４６９のいずれか１つの方法を含み、ここで方法は、ＳＰＲＩビーズを使用する工程を含む。実施形態４７１は、実施形態４３９－４７０のいずれか１つの方法を含み、ここで安定したサンプルは、約５マイクログラム以下のＤＮＡを含む。

以下の実施例は、本発明の様々な実施形態を例示する目的で与えられ、いかなる方法でも本発明を制限するようには意図されていない。本明細書に記載される方法とともに、本実施例は、好ましい実施形態の代表例である且つ典型的なものであり、本発明の範囲を限定するものとして意図されない。請求項の範囲によって定義される本発明の精神内に包含されるその変化および他の使用が、当業者に想定される。

実施例１．インビトロでクロマチンを生成する方法
クロマチンを再構成する２つのアプローチは、特に注目すべきものであり：１つのアプローチは、ＤＮＡ上へのヒストンのＡＴＰ非依存性のランダム沈着を使用することであり、一方でもう１つのアプローチは、周期性ヌクレオソームのＡＴＰ依存性のアセンブリを使用することである。本開示は、いずれかのアプローチと本明細書に開示される１つ以上の方法との使用を可能にする。クロマチンを生成する両方のアプローチの例は、Ｌｕｓｓｅｒｅｔａｌ．（“Ｓｔｒａｔｅｇｉｅｓｆｏｒｔｈｅｒｅｃｏｎｓｔｉｔｕｔｉｏｎｏｆｃｈｒｏｍａｔｉｎ，”ＮａｔｕｒｅＭｅｔｈｏｄｓ（２００４），１（１）：１９－２６）に見られ、これは、ここで引用される参考文献を含む、その全体が引用によって本明細書に組み込まれる。

被験体からのゲノム核酸を含むサンプルを使用して核酸ライブラリーを調製し、ライブラリーを続いて配列決定した。一例として、ゲノム核酸を、ヒトのサンプルから収集した。ヒト被験体からの５０ｋｂのサンプルを、陽性対照として使用した。一般に、複数のサンプルを調整し、同時に複数のライブラリーを生成した。幾つかの場合では、４つのサンプルおよび５０ｋｂのヒト対照を、一度に調製した。幾つかの場合では、９つのサンプルおよび５０ｋｂのヒト対照を、一度に調製した。幾つかの場合では、１２、１５、２０またはそれ以上のサンプルを調製した。

反応パラメーターは以下の通りであった：ＡｃｔｉｖｅＭｏｔｉｆＣｈｒｏｍａｔｉｎのアセンブリキットからのコンポーネントのセットを、氷上でシリコン処理したチューブにおいて混合した。幾つかの場合では、反応物の総量の１．２５倍の混合物を調製した。一般に、約２．１μｌのｈ－Ｎａｐ－１を、約２．７μｌのコアヒストンおよび約１５μｌの高塩濃度緩衝液（ＨｉｇｈＳａｌｔＢｕｆｆｅｒ）に加え、溶液（Ｓｏｌｕｔｉｏｎ）Ａを生成した。溶液Ａの成分を混合し、約１５分間氷上でインキュベートした。１０ＸＡＴＰ再生システム（１０ＸＡＴＰＲｅｇｅｎｅｒａｔｉｏｎＳｙｓｔｅｍ）の混合物を、氷上で混合することによって調製した。簡潔には、約１５μｌの１０ＸＡＴＰＲｅｇｅｎＢｕｆｆｅｒを、約０．４５μｌクレアチンキナーゼに加え、溶液Ｂを生成し、氷上で混合した。

氷上での溶液Ａのインキュベーション後に、約９６．４５μｌの低塩濃度緩衝液（ＬｏｗＳａｌｔＢｕｆｆｅｒ）を加えて約３．７５μｌの溶液Ｂを生成し、約１５μｌの１０ＸＡＴＰＲｅｇｅｎＳｙｓｔｅｍを加えて溶液Ｂを生成した。溶液Ｂを混合し、その約１３５μｌを、約１．５μｇのＤＮＡに分配して、溶液Ｃを生成した。水を溶液４に加えて、約１５０μｌの最終的な量を得た。溶液Ｃを混合し、一晩２７℃でインキュベートした。幾つかの例では、溶液Ｃを混合し、最大でも、少なくとも、または約１２時間、１４時間、１８時間、２０時間、あるいは２４時間２７℃でインキュベートした。他の例では、溶液Ｃを混合し、１日、２日、３日、４日、５日、６日、７日、８日、９日、１０日間またはそれ以上間２７℃でインキュベートした。

およそ１０μｌの溶液Ｃを収集し、一晩２７℃でのインキュベーション後にシリコン処理したチューブに移した。収集した溶液Ｃを、色アセンブリ（ＣｈｒｏｍａｔｉｃＡｓｓｅｍｂｌｙ）の効率を試験するために保管した。典型的に、試験は、ＭｂｏＩ消化中にＭＮａｓｅ消化によって達成される。

実施例２．緩衝液および溶液
本明細書に記載される緩衝液および溶液は、以下のパラメーターによって調製することができる：

ＳＰＲＩ再構成緩衝液：９ｇのＰＥＧ８０００粉末を約１０ｍｌの１ＭＮａＣｌに加えることによって、ＳＰＲＩ再構成緩衝液を通常通り調製した。ある量の水を、５０ｍｌまで混合物を完了させるために加えた。典型的に、ＰＥＧ８０００粉末の作用濃度は約１８％であり、ＮａＣｌは約１Ｍであった。

洗浄緩衝液：約５００μｌの１ＭＴｒｉｓ－ＣｌｐＨ８．０を約５００μｌの５ＭＮａＣｌに加えることによって、洗浄緩衝液を通常通り調製した。ある量の水を、５０ｍｌまで混合物を完了させるために加えた。幾つかの場合では、Ｔｒｉｓ－ＣｌｐＨ８．０の作用濃度は約１０ｍＭであり、ＮａＣｌに関しては約１００ｍＭであった。

ＬＷＢ：約５００μｌの１ＭＴｒｉｓ－ＣｌｐＨ８．０を、約１２．５ｍｌの４ＭＬｉＣｌ、約１００μｌの０．５ＭＥＤＴＡ、および約２００μｌの１０％Ｔｗｅｅｎ２０に加えることによって、ＬＷＢを通常通り調製した。ある量の水を、５０ｍｌまで混合物を完了させるために加えた。特定の場合では、Ｔｒｉｓ－ＣｌｐＨ８．０の作用濃度は１０ｍＭであり、ＬｉＣｌは１Ｍであり、ＥＤＴＡは１ｍＭであり、およびＴｗｅｅｎ２０は０．０５％であった。

ＮＷＢ：約５００μｌの１ＭＴｒｉｓ－ＣｌｐＨ８．０を、約１０ｍｌの５６ＭＮａＣｌ、約１００μｌの０．５ＭＥＤＴＡ、および約２００μｌの１０％Ｔｗｅｅｎ２０に加えることによって、ＮＷＢを通常通り調製した。ある量の水を、５０ｍｌまで混合物を完了させるために加えた。様々な場合では、Ｔｒｉｓ－ＣｌｐＨ８．０の作用濃度は１０ｍＭであり、ＮａＣｌは１Ｍであり、ＥＤＴＡは１ｍＭであり、およびＴｗｅｅｎ２０は０．０５％であった。

実施例３．クロマチン捕捉に基づいてリード対を捕捉する方法
ヒト被験体からのゲノムを、５００ｋｂのサイズを有する偽コンティグ（ｐｓｅｕｄｏ－ｃｏｎｔｉｇｓ）へと断片化した。クロマチン捕捉ベースの方法を使用して、生細胞内の染色体の物理レイアウトを探索することによって、複数のリード対を生成した。Ｌｉｅｂｅｒｍａｎ－Ａｉｄｅｎｅｔａｌ．（“Ｃｏｍｐｒｅｈｅｎｓｉｖｅｍａｐｐｉｎｇｏｆｌｏｎｇｒａｎｇｅｉｎｔｅｒａｃｔｉｏｎｓｒｅｖｅａｌｓｆｏｌｄｉｎｇｐｒｉｎｃｉｐｌｅｓｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅ，”Ｓｃｉｅｎｃｅ（２００９），３２６（５９５０）：２８９－２９３）に提示される方法を含む、任意数のクロマチン捕捉ベースの方法を、リード対を生成するために使用することができ、ここで引用される参考文献を含む、その全体が引用によって本明細書に組み込まれる。

様々な場合では、色アセンブリをホルムアルデヒドで架橋した。一般に、約３７％のホルムアルデヒド約４．０５μｌを、インキュベートした溶液Ｃに加え、その混合物を、約１５分間の室温でインキュベートし、その後、２．５Ｍのグリシン約８．１μｌを加えて、溶液Ｄを生成した。溶液Ｄを混合し、約１０分間の氷上でインキュベートした。

ホルムアルデヒド架橋後、架橋されたクロマチンを含む溶液Ｄを、約１８％のＰＥＧ８０００／１ＭＮａＣｌにおいて再構成された約３３０μｌのＧＥＳＰＲＩビーズに加え、混合し、インキュベーションのために静置させたままにした。上清を除去した。ビーズを、約４００μｌの１Ｘ１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌで少なくとも２回洗浄した。上清を除去し、ビーズを乾燥するまで残しておいた。一例では、ビーズを空気乾燥のために残しておいた。

次に、酵素消化のための溶液を調製した。約１７５μｌの水に、約２０μｌの１０ＸＮＥＢＣｕｔＳｍａｒｔＢｕｆｆｅｒおよび約５μｌのＮＥＢＭｂｏＩを加え、混合して、溶液Ｅを生成した。およそ２００μｌの溶液を、乾燥したビーズに加え、約６０分間３７℃でインキュベートした。幾つかの例では、インキュベーションは、最大でも、少なくとも、または約３０分、６０分、９０分、１２０分、１８０分、あるいは２４０分の間３７℃で生じた。特定の例では、インキュベーションは、最大でも、少なくとも、または約１時間、２時間、６時間、１２時間、１４時間、１６時間、あるいは２４時間の間４℃で生じた。様々な例では、インキュベーションは、最大でも、少なくとも、または約１時間、２時間、６時間、１２時間、１日、２日、５日、あるいは１０日の間４℃で生じた。

酵素消化の後、インキュベートしたビーズを、緩衝液の交換のために処理した。簡潔には、溶液Ｅとビーズを含む混合物上に磁石を置き、上清を廃棄した。沈殿物は、約４００μｌの１Ｘ１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌで少なくとも２回洗浄した。一例では、沈殿物／洗浄したビーズを、空気乾燥するまで残しておいた。

最終充填（Ｅｎｄ－Ｆｉｌｌｉｎｇ）およびビーズへのビオチンの付加のために、溶液を調製した。簡潔には、約１６０μｌの水を、約２０μｌの１０ＸＮＥＢ緩衝液＃２、約１μｌの１０ｍＭｄＡＴＰ、約１μｌの１０ｍＭｄＴＴＰ、約１μｌの１０ｍＭｄＧＴＰ、約８μｌの１０ｍＭビオチン（Ｂｉｏｔｉｎ）－ｄＣＴＰ、および約２．５μｌのＮＥＢＫｌｅｎｏｗ５Ｕ／μｌに加えて、溶液Ｆを生成した。およそ約２００μｌの溶液Ｆをビーズに加え、これをその後、約４０分間２５℃でインキュベートした。一例では、溶液Ｆとビーズを含む混合物を、最大でも、少なくとも、または約３０分、６０分、１２０分、あるいは１８０分の間２５℃でインキュベートした。

その後、ビーズを緩衝液の交換とともに処理した。磁石を、溶液Ｆとビーズの混合物に加え、上清を廃棄した。沈殿物を、約４００μｌの１Ｘ１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌで少なくとも２回洗浄した。一例では、沈殿物／洗浄したビーズを、空気乾燥するまで残しておいた。

その後、サンプルを、凝集体内の（ｉｎｔｒａ－ａｇｇｒｅｇａｔｅ）ＤＮＡ末端ライゲーションのために処理した。簡潔には、約８７０μｌの水を、約１００μｌの１０ＸＴ４リガーゼ緩衝液（ＬｉｇａｓｅＢｕｆｆｅｒ）、約５０μｌのＴｈｅｒｍｏＢＳＡ２０ｍｇ／ｍｌ、約２５μｌの１０％ＴｒｉｔｏｎＸ－１００、および約０．５μｌのＮＥＢＴ４ＤＮＡリガーゼ４００Ｕ／μｌに加えて、溶液Ｇを生成した。洗浄したビーズを、その後、約２００μｌの溶液Ｇとともに加え、約１０００ＲＰＭに設定された撹拌（ＴｈｅｒｍｏＢｌｏｃｋ振盪機）とともに一晩１６℃でインキュベートするまで残しておいた。一例では、洗浄したビーズおよび溶液Ｇを、最大でも、少なくとも、または約１２時間、１４時間、１６時間、２０時間、２４時間、あるいは４８時間の間インキュベートした。

その後、インキュベートしたビーズを、緩衝液の交換のために処理した。磁石を、溶液Ｇとビーズの混合物に加え、上清を廃棄した。沈殿物／ビーズを、その後、約４００μｌの１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌで少なくとも２回洗浄した。一例では、沈殿物／ビーズを、空気乾燥のために残しておいた。

架橋したアセンブリ中のＤＮＡを、逆架橋（ｒｅｖｅｒｓｅｃｒｏｓｓｌｉｎｋｉｎｇ）で処理することによって放出した。混合物を架橋反転のために調製した。例えば、約１７２μｌの水を、約１０μｌの１ＭＴｒｉｓｐＨ８．０、約１０μｌの２０％ＳＤＳ、約０．５μｌの０．１ＭＣａＣｌ_２、および約５μｌのＮＥＢプロテイナーゼ（Ｐｒｏｔｅｉｎａｓｅ）Ｋ２０ｍｇ／ｍｌに加えて、溶液Ｉを生成した。一例では、溶液中の各成分の終濃度は以下の通りであった：約５０ｍＭのＴｒｉｓｐＨ８．約１％の０、２０％ＳＤＳ、約０．２５ｍＭのＣａＣｌ_２および約０．５ｍｇ／ｍｌのＮＥＢプロテイナーゼＫ。およそ約２００μｌの溶液Ｉを、架橋したＤＮＡを含むビーズに加え、その混合物を、約１５分間約５５℃で、その後、約４５分間約６８℃でインキュベートするまで残しておいた。

架橋した貯蔵（ｒｅｓｅｒｖｅｄ）溶液を磁石ビーズにさらし、溶液を清潔な１．５ｍｌのチューブに移した。約４００μｌのＮｏｒｍａｌＳＰＲＩビーズを、架橋した逆溶液（ｒｅｖｅｒｓｅｓｏｌｕｔｉｏｎ）に加え、混合物を約５分間室温でインキュベートした。次に、磁石を混合物に加え、上清を廃棄した。沈殿物／ビーズを、約４００μｌの８０％のエタノールで少なくとも２回洗浄した。上清を廃棄し、沈殿物／ビーズを、約１０－１５分間空気乾燥するまで残しておいた。最終的に、ビーズを、約１００μｌのＴＥで再懸濁し、約２分間インキュベートした。架橋反転からのＤＮＡの量を、キュービット（Ｑｕｂｉｔ）上で検査し、ＤＮＡは、始点と比較して少なくとも約７５％の回収率を有すると予期された。一例では、７５％を超えるＤＮＡは架橋反転から回収した。

ＤＮＡの質およびＤＮＡ架橋反転の効率を定量化するために、ＤＮＡをＴａｐｅＳｔａｔｉｏｎ上で分析した。約２μｌのゲノムＤＮＡサンプル緩衝液を、８チューブＰＣＲストリップにおいて分配した。簡潔には、約２μｌのゲノムＤＮＡ分子量マーカーを、第１のチューブに加えた。約２μｌのＣｈｉｃａｇｏＤＮＡを、以下のチューブに加えた。その後、チューブを閉め、ＴａｐｅＳｔａｔｉｏｎボルテックスにおいてボルテックスした。その後、ゲノムＤＮＡテープを、分析のためにマシンに充填した。

約２００ｎｇのＤＮＡを断片化にさらした。２００ｎｇのＤＮＡを１００μｌの溶液に加えた。ＤＮＡを有する溶液を、少なくとも１０分間氷上で冷やした。ＢｉｏＲｕｐｔｏｒを４℃に設定し、ＤＮＡを有する溶液をＢｉｏＲｕｐｔｏｒ上に置き、１５秒のオン（ＯＮ）／９０秒のオフ（ＯＦＦ）を７サイクル実行した。

断片化したＤＮＡをＴａｐｅＳｔａｔｉｏｎにおいて分析した。約１μｌの断片化したＤＮＡを、約４μｌのＴＥ中に希釈し、２μｌの混合物を、ＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤ１０００チップを使用してテープステーション上に充填した。約３５０ｎｔを中心とした広い分布が予期された。

その後、断片化したＤＮＡを末端修復のために処理した。約６７．８μｌの水を、約２０μｌ１０ＸＮＥＢＴ４リガーゼ緩衝液、約３．２μｌのｄＮＴＰ２５ｍＭ、約１μｌのＫｌｅｎｏｗ、大きな断片（ｌａｒｇｅｆｒａｇ）５Ｕ／μｌ、約３μｌのＴ４ＤＮＡＰｏｌ５Ｕ／μｌ（サーモ（ｔｈｅｒｍｏ））、および約５μｌのＴ４ＰＮＫ１０Ｕ／μｌ（サーモ）に加えることによって、１００μｌの溶液を調製し、溶液Ｊを生成した。約１００μｌの溶液Ｊを、断片ＣｈｉｃａｇｏＤＮＡを有するチューブに加え、約２０分間２０℃でインキュベートして、断片化した末端を修復した。

約１００μｌのＣ１ビーズを収集し、磁石上に置いた。上清を除去し、廃棄した。沈殿物／ビーズを、約４００μｌの１ＸＴＷＢで少なくとも２回洗浄した。上清を除去し、廃棄した。その後、沈殿物／ビーズを、約２００μｌの２ＸＮＴＢ中に再懸濁した。次に、約２００μｌの末端修復反応物をビーズに加え、混合物を、ある時間の間室温でインキュベートし、チューブをヒールにわたってその末端を回転させた（ｔｈｅｔｕｂｅｒｏｔａｔｅｄｅｎｄｏｖｅｒｈｅａｌ）。磁石を溶液上に置き、上清を廃棄した。沈殿物／ビーズを、約４００μｌのＬＷＢで少なくとも１回洗浄し、その後、約４００μｌのＮＷＢで少なくとも２回洗浄し、続いて、約４００μｌの１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌで少なくとも２回洗浄した。

実施例４．クロマチン捕捉方法に基づいてリード対を生成する方法。
沈殿物／ビーズを、その後、アダプターで連結した。約７７．５μｌの水を、約２０μｌの５ＸＱｕｉｃｋＬｉｇａｓｅ、約１μｌのＰ５／Ｐ７アダプター、および約２．５μｌのＮＥＢＴ４ＤＮＡリガーゼ４００Ｕ／μｌに加えることによって、アダプターライゲーション溶液を調製した。沈殿物／ビーズを、約１００μｌのアダプターライゲーション溶液中に再懸濁した。その後、混合物を約３０分間２５℃でインキュベートした。磁石を溶液上に置き、上清を廃棄した。沈殿物／ビーズを、約４００μｌの１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌで少なくとも２回洗浄し、その後、約４００μｌのＴＥで少なくとも２回洗浄した。

約８５．２５μｌの水を、約１０μｌの１０ＸＴｈｅｒｍｏＰｏｌ、約１μｌの２５ｍＭｄＮＴＰ、および約３．７５μｌのＮＥＢＢＳＴＰｏｌ８Ｕ／μｌに加えることによって、アダプター充填のための溶液を調製した。ビーズを、約１００μｌのアダプター充填溶液中に再懸濁し、約２０分間３７℃でインキュベートした。磁石を混合物に加え、上清を廃棄した。沈殿物／ビーズを、約４００μｌの１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌで少なくとも２回洗浄した。

約４８μｌの水を、約２μｌのＩＳＡプライマー（Ｐｒｉｍｅｒ）（１０ｍＭ）および約５０μｌの２ＸＫＡＰＡＭＩＸと混合することによって、インデックス（ｉｎｄｅｘｉｎｇ）ＰＣＲのための溶液を調製した。沈殿物／ビーズを、約９８μｌのインデックスＰＣＲ溶液中に再懸濁した。８本のストリップチューブの各チューブに、約２μｌのインデックスプライマーを加えた。その後、チューブを覆い、以下のパラメーターを用いるＰＣＲ増幅のために送った：１３サイクルの増幅のためのＰＣＲ混合物。各サイクルは、３分間９８℃でのインキュベーションの工程、２０秒間９８℃で変性させる工程、３０秒間６５℃でアニールする工程、３０秒間７２℃での伸長の工程、１分間７２℃で伸長を延長する工程、および最終的に次の工程まで１２℃で保持する工程を含む。一例では、ＰＣＲ産物を、最大でも、少なくとも、または約１時間、２時間、５時間、１０時間、１５時間、２０時間、または２４時間の間１２℃で保持した。一例では、ＰＣＲ産物を、ガラス状態で、液体窒素中に、４℃、－２０℃、－８０℃で保存したか、あるいは室温で乾燥した。

増幅したＤＮＡまたはＰＣＲ産物を精製するために、少なくとも２つのＰＣＲ反応物を、新しい清潔なチューブにおいて組み合わせ、磁石上に置いた。溶液を、清潔な１．５ｍｌのチューブに移し、約２００μｌのＮｏｒｍａｌＳＰＲＩビーズとともに加えた。ビーズを有する混合物を、約５分間室温でインキュベートした。磁石を混合物に加え、上清を廃棄した。沈殿物／ビーズを、約４００μｌの８０％エタノールで少なくとも２回洗浄した。上清を廃棄した。沈殿物／ビーズを、約１０－１５分間空気乾燥のために残しておいた。その後、沈殿物／ビーズを、約２０μｌのＴＥ中に再懸濁し、約２分間インキュベートした。再懸濁したＤＮＡを、例えば広範囲のキュービット上で定量化した。典型的には、濃度は約６０ｎｇ／μｌが予測された。

インデックスＰＣＲのＤＮＡ産物を分析した。まず、約０．５μｌのＰＣＲＤＮＡを約４．５μｌのＴＥに加えることによってＤＮＡを１：１０に希釈した。およそ２μｌの混合物を、ＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤ１０００チップを使用してテープステーション上に充填した。特定の場合では、約５５０ｎｔを中心とした広い分布が予期された。幾つかの例では、ＤＮＡ産物のインデックスＰＣＲを、サイズごとに選択した。簡潔には、ＰＣＲＤＮＡサンプルは、ＴＥを用いて約３０μｌまで完了した（例えば、約１８μｌのＴＥを加える）。約１０μｌの１．５％ＤＦＰｉｐｐｉｎＰｒｅｐサンプル緩衝液を、混合物に加えた。ＰｉｐｐｉｎＰｒｅｐ機器を、製造業者のマニュアルに従った調製した。およそ約４０μｌの調製した混合物をカセットへと加えた。ＤＮＡのサイズを、ＴａｐｅＳｔａｔｉｏｎ分析で観察された分布の中心まわりの広範囲の約３００ｎｔによって選択した。典型的には、ＤＮＡのサイズは、約４００－７００ｎｔである。その後、ＤＮＡを、キュービットの高感度分析（ＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙ）を使用して定量化し、回収量が約５－１０ｎｇ／μｌであると予期した。その後、約０．５μｌを４．５ＴＥに加えることによって、ＤＮＡを１：１０に希釈した。約２μｌの混合物を、テープステーション上のＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤ１０００テープに充填した。その後、濃度をＪＩＲＡに記録した。典型的に、濃度をｐｇ／μｌとモル濃度の両方に記録した。

幾つかの場合では、クロマチンアセンブリの質を、酵素消化を使用して試験した。一例はＭＮａｓｅ消化である。典型的に、使用されるパラメーターは以下のようにリストされる：最初にＭＮａｓｅ５０Ｕ／μｌを水で１：１０に希釈することによって、ＭＮａｓｅ溶液を１：１０００に希釈した。例えば、約１μｌのＭＮａｓｅ５０Ｕ／μｌを、９μｌの水に加えた。１μｌの１：１０ＭＮａｓｅを９９μｌの水に加えることによって、希釈したＭＮａｓｅを、１：１０００にさらに希釈した。

約４８０μｌの水を、約５μｌの１０ＭｍＴｒｉｓ－ＣｌｐＨ８．０、約５μｌの１ｍＭＣａＣｌ、および約１μｌのＭＮａｓｅ５ｍＵに加えることによって、ＭＮａｓｅ消化混合物を、典型的に、溶液、例えば５００μｌの混合物中で調製した。一般に、各成分の保存濃度は、約１ＭＴｒｉｓ－ＣｌｐＨ８．０、０．１ＭＣａＣｌ、および５０ｍＵ／μｌＭＮａｓｅであった。

約３６２．５μｌの水を、約１００μｌの１０ｍＭＥＤＴＡ、約２５μｌの１％ＳＤＳ、および約１２．５μｌの０．５ｍｇ／ｍｌプロテイナーゼＫに加えることによって、停止緩衝液（ＳｔｏｐＢｕｆｆｅｒ）、例えば５００μｌの溶液を調製した。特定の場合では、混合物中の各成分の保存濃度は、約０．５ＭのＥＤＴＡ、約２０％のＳＤＳ、および約２０ｍｇ／ｍｌのプロテイナーゼＫである。

クロマチンアセンブリの質を、ＭＮａｓｅ消化によって試験した。一般に、約４５μｌのＭＮａｓｅ消化混合物を、１．５ｍｌのＥｐｐｅｎｄｏｒｆチューブに分配した。その反応物を、約２分間３７℃で予め温めた。およそ５μｌのアセンブルしたクロマチンを、各チューブに加え、次のサンプルを加える前に約１５秒間インキュベートした。約５分後、約５０μｌの停止緩衝液を、第１のチューブから始めてサンプルに加え、チューブ間で約１５秒間待ち、その結果、すべてのサンプルを典型的に約５分間消化させた。その後、サンプルを、約３０分間３７℃でインキュベートしたままにした。サンプルをＭｉｎｉＥｌｕｔｅＲｅａｃｔｉｏｎＣｌｅａｎｕｐカラムに移す前に、約３００μｌのＱｉａｇｅｎ緩衝液ＥＲＣを、インキュベートしたサンプルに加えた。下記は、典型的に製造を示唆した手順である。典型的に、カラムを約１分間遠心分離にかけ、素通り画分を廃棄した。約７００μｌの緩衝液ＰＥを各カラムに加え、その後、それを約１分間遠心分離にかけ、素通り画分を廃棄した。カラムを、通常、さらに３０秒間または１分間遠心分離にかけ、残りのＰＥ緩衝液を溶出した。約１０μｌのＥＢ緩衝液を、各カラムに加え、通常、約１分間インキュベートした。カラムを遠心分離にかけ、精製したＤＮＡを収集した。ＭＮａｓｅ消化の効率を試験するために、約２μｌの溶出したＤＮＡをＴａｐｅＳｔａｔｉｏｎ上に流した（ｒｕｎ）。

実施例５．リード対を使用するゲノムアセンブリ
リード対をすべての偽コンティグにマッピングし、２つの別々の偽コンティグにマッピングしたこれらの対を、マッピングデータに基づいて隣接行列をアセンブルするために使用した。より長い接触よりも短い接触の経験的に既知のより高い確率を数学的に組み込むように、偽コンティグのエッジまでのリードの距離の関数を採用することによって、リード対の少なくとも約５０％、約６０％、約７０％、約８０％、約９０％、約９５％または約９９％に重みを付けた。その後、各偽コンティグに関して、最も高い合計の重量を有することによって判定された、単一の最良の隣接偽コンティグを見つけることによって偽コンティグを通る経路を判定するために、隣接行列を分析した。これらの方法を実行することによって、すべての偽コンティグの＞９７％がそれらの正しい隣接値（ｎｅｉｂｏｒ）を特定したことが分かった。より短いコンティグおよび代替的な重みおよび経路を発見するスキームの影響を試験するために、追加の実験が行われ得る。

代替的に、クロマチン捕捉データを使用するゲノムアセンブリは、ｄｅｎｏｖｏゲノムアセンブリの超長尺の足場組みのためにクロマチン捕捉データセットにおけるゲノム近接の信号を活用する計算方法を含むことができる。本明細書に開示される方法とともに使用することができる計算方法の例は、Ｂｕｒｔｏｎｅｔａｌ．（ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３１：１１１９－１１２５（２０１３））によって連結用隣接クロマチン方法（ｌｉｇａｔｉｎｇａｄｊａｃｅｎｔｃｈｒｏｍａｔｉｎｍｅｔｈｏｄ）；およびＫａｐｌａｎｅｔａｌ．（ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３１：１１４３－４７（２０１３））によるＤＮＡ三角測量法を含み、これらの参考文献は、それらの全体および本明細書に引用される参考文献が本明細書に組み込まれる。さらに、これらの計算方法は、本明細書に提示される他のゲノムアセンブリ方法を含む、組み合わせで使用することができることが理解されるべきである。

例えば、（ａ）コンティグを染色体群にクラスター化する工程、（ｂ）１つ以上の染色体群内のコンティグを順序付ける工程、およびその後（ｃ）相対的な方向付けを個々のコンティグに割り当てる工程を含む、Ｂｕｒｔｏｎｅｔａｌ．に基づく連結用隣接クロマチン方法は、本明細書に開示される方法とともに使用することができる。工程（ａ）に関して、コンティグは、階層的クラスタリングを使用してグループに入れられる。グラフが構築され、各ノードは１つのコンティグを最初に表わし、ノード間の各エッジは、２つのコンティグを連結するクロマチン捕捉リード対の数に等しい重量を有している。コンティグは、グループの数が別々の染色体の予期される数（１つを超えるコンティグを有するグループのみを数える）まで減少されるまで適用される、平均連鎖法の計量（ａｖｅｒａｇｅ－ｌｉｎｋａｇｅｍｅｔｒｉｃ）を用いる階層的凝集クラスタリングを使用して、一緒に融合される。反復コンティグ（制限断片部位の数によって正規化された、他のコンティグとの平均リンク密度が、２倍を超える平均リンク密度（ｌｉｎｋｄｅｎｓｉｔｙ）であるコンティグ）および制限フラグメント部位が非常に少ないコンティグは、クラスター化されない。しかしながら、クラスター化後に、これらのコンティグの各々は、グループとのその平均リンク密度が任意の他のグループとの４倍を超えるその平均リンク密度である場合に、グループに割り当てられる。工程（ｂ）に関して、クラスター化工程でのように、グラフが構築されるが、ノード間のエッジの重みはコンティグ間のクロマチン捕捉リンクの数の逆数に等しく、１コンティグ当たりの制限フラグメント部位の数によって正規化される。短いコンティグはこのグラフから除外される。このグラフのために、最小全域木が計算される。この木における最長の経路（「幹（ｔｒｕｎｋ）」）が見つけられる。その後、全域木は、合計のエッジの重みをヒューリスティックに低く維持する方法で、幹に隣接しているコンティグを幹に加えることによって幹を延ばすように変更される。延長された幹は、各グループのために見つけられた後、以下のように完全な順序に変換される。幹は、幹にないすべてのコンティグを含有している１セットの「分枝（ｂｒａｎｃｈｅｓ）」を残して、全域木から除去される。これらの分枝は、最長の分枝から幹へと再挿入され、その挿入部位は、順序での隣接したコンティグ間のリンクの数を最大限にするように選ばれる。短い断片は再挿入されず、結果として、クラスター化された多くの小さなコンティグが、最終的なアセンブリから省かれる。工程（ｃ）に関して、その順序内の各コンティグの方向付けは、各コンティグ上のクロマチン捕捉リンク配列（ａｌｉｇｈｎｍｅｎｔｓ）の正確な位置を考慮に入れることによって決定される。クロマチン捕捉リンクがｘのゲノム距離で２つのリードを結合する可能性が、ｘ≧～１００ｋｂに対しておよそ１／ｘであると想定される。重み付き有向非巡回グラフ（ＷＤＡＧ）が構築され、これはコンティグを与えられた順序で方向付けるあらゆる考えられる方法を表わしている。ＷＤＡＧにおける各エッジは、それらの４つの考えられ得る組み合わせた方向付けの１つで１対の隣接したコンティグに対応しており、エッジの重みは、２つのコンティグ間のクロマチン捕捉リンク距離のセットを観察する対数尤度に設定され、これは、それらが与えられた方向付けですぐに隣接することを想定している。各コンティグに関して、その方向付けに対する品質スコアは、以下のように計算される。このコンティグ間のその現在の方向付けにおける観察されたクロマチン捕捉リンクおよびその隣接値のセットの対数尤度が見られる。その後、コンティグははじかれ（ｆｌｉｐｐｅｄ）、対数尤度が再び計算される。方向付けがどのように計算されるかで第１の対数尤度より高くなることが保証される。対数尤度間の差は品質スコアとして得られる。

Ｋａｐｌａｎｅｔａｌ．に類似した代替的なＤＮＡ三角測量法も、コンティグおよびリード対からゲノムをアセンブルするために本明細書に開示される方法において使用することができる。ＤＮＡ三角測量は、ゲノム位置を推測するためにハイスループットのインビボのゲノム全体でのクロマチン相互作用データの使用に基づいている。ＤＮＡ三角測量法に関して、最初に、ゲノムを１００ｋｂのビンへと分割することによって、ＣＴＲパターンが定量化され、その各々は、大きな仮想のコンティグを表わし、各々の入れられたコンティグに関して、各染色体とのその平均相互作用頻度を計算する。長期にわたる局在化を評価するために、コンティグと両側でのその隣接している１ｍｂとの相互作用データは省かれる。平均相互作用頻度は、染色体間相互作用と染色体内相互作用を強く分離し、コンティグがどの染色体に属するのかを高度に予測する。次に、ナイーブなナイーブベイズ分類器である、簡易な多重クラスモデルは、各コンティグの染色体を各染色体とのその平均の相互作用頻度に基づいて予測するように訓練されている。アセンブルされたゲノムの部分は、クロマチン捕捉相互作用頻度とゲノム距離（ＤＤＤパターン）との関連性を記載する確立的な単一パラメーター指数関数的減衰モデルを適合させるために使用される。各使用（ｔｕｒｎ）において、コンティグは、両側上の１ｍｂの隣接領域とともに、染色体から除去される。その後、相互作用プロファイルおよび衰滅モデルに基づいて、各コンティグの最も可能性が高い位置が予測される。予測誤差は、予測位置と実際位置との間の距離の絶対値として定量化される。

ＤＮＡ三角測量法と長いインサート（ｌｏｎｇ－ｉｎｓｅｒｔ）ライブラリーとを組み合わせることによって、各コンティグに対する予測性がさらに改善され得る。各コンティグの染色体の配置および近似位置を知ることによって、各コンティグがその近位のコンティグと対となる必要があるだけであるため、長いインサート足場組みの計算複雑性が著しく低下され得、それによって、曖昧なコンティグ結合を分解し、染色体または異なる染色体の遠隔領域に位置するコンティグが不正確に結合されるアセンブリエラーが減少される。

実施例６．ハプロタイプフェージング方法
本明細書に開示される方法によって生成されたリード対が、一般にイントラ染色体間の接触に由来するため、ヘテロ型接合性の部位を含有しているあらゆるリード対も、それらのフェージングに関する情報を伝える。この情報を使用して、短い、中間の及び長い（メガベースの）距離にわたる信頼できるフェージングが、急速且つ正確に実行され得る。１０００ゲノムトリオ（母／父親／子のゲノムのセット）の１つからのデータをフェージングする（ｐｈａｓｅ）ように設計された実験は、信頼して推測されたフェージングを有する。さらに、Ｓｅｌｖａｒａｊｅｔａｌ．（ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３１：１１１１－１１１８（２０１３））に類似した近接ライゲーションを使用するハプロタイプ再構成も、本明細書に開示されるハプロタイプフェージング方法とともに使用され得る。

例えば、近接ライゲーションベースの方法を使用するハプロタイプ再構成はまた、ゲノムをフェージングする際に本明細書に開示される方法に使用され得る。近接ライゲーションベースの方法を使用するハプロタイプ再構成は、ハプロタイプアセンブリのために近接ライゲーションおよびＤＮＡ配列決定を確率的アルゴリズムと組み合わせる。最初に、クロマチン捕捉プロトコルなどの染色体捕捉プロトコルを使用して、近接ライゲーション配列決定が実行される。これらの方法は、三次元空間で一緒にループした２つの離れたゲノム遺伝子座からＤＮＡ断片を捕捉することができる。結果として生じるＤＮＡライブラリーのショットガンＤＮＡ配列決定後、ペアエンドの配列決定リードは、数百の塩基対から何千万もの塩基対の範囲の「インサートサイズ」を有する。したがって、クロマチン捕捉実験で生成された短いＤＮＡ断片は、小さなハプロタイプブロックをもたらすことができ、長い断片は、最終的にこれらの小さなブロックを一緒に連結することができる。十分な配列決定の適用範囲があることで、このアプローチは、変異体を不連続のブロックに連結し、すべてのそのようなブロックを単一のハプロタイプへとアセンブルする可能性がある。このデータは、その後、ハプロタイプアセンブリのための確率的アルゴリズムと組み合わせられる。確率的アルゴリズムは、ノードがヘテロ接合変異体に対応し、エッジがヘテロ接合変異体に連結し得る重複配列断片に対応するグラフを利用する。このグラフは、配列決定エラーまたはトランス相互作用に起因する偽エッジを含むかもしれない。その後、入力配列決定リードのセットによって提供されるハプロタイプ情報と最大限に一致している簡潔なソリューションを予測するために、最大切断アルゴリズムが使用される。近接ライゲーションが、従来のゲノム配列決定またはメイトペア配列より大きなグラフを生成するため、ハプロタイプが合理的な速度および高精度で予測され得るように、計算時間およびイテレーションの数が変更される。その後、結果として生じるデータは、Ｂｅａｇｌｅソフトウェアおよびゲノムプロジェクトからの配列決定データを使用してローカルフェージングをガイドするために使用され、高解像度および精度で染色体にわたる（ｃｈｒｏｍｏｓｏｍｅ－ｓｐａｎｎｉｎｇ）ハプロタイプを生成することができる。

実施例７：メタゲノムアセンブリの方法
微生物が自然環境から収集され、微生物細胞内の架橋を形成するために、ホルムアルデヒドなどの固定剤で固定される。微生物からの複数のコンティグが、ハイスループット配列決定を使用することによって生成される。複数のリード対が、クロマチン捕捉ベースの技術を使用することによって生成される。異なるコンティグにマッピングされるリード対は、どのコンティグが同じ種からのものであるかを示す。

実施例８：極端に長距離のリード対（ＸＬＲＰ）を生成する方法
市販のキットを使用して、ＤＮＡは、最大１５０ｋｂｐまでの断片サイズに抽出される。ＤＮＡは、ＡｃｔｉｖｅＭｏｔｉｆからの商用のキットを使用して、インビトロでの再構成されたクロマチン構造へとアセンブルされる。クロマチンは、ホルムアルデヒドで固定され、ＳＰＲＩビーズ上に固定化される。ＤＮＡ断片は、制限酵素で消化され、一晩インキュベートされる。結果として生じる付着末端は、アルファ－チオ－ｄＧＴＰおよびビオチン化されたｄＣＴＰで充填され、平滑末端を生成する。平滑末端はＴ４リガーゼで連結される。再構成されたクロマチンは、連結されたＤＮＡを回収するためにプロテイナーゼで消化される。ＤＮＡは、ビーズから抽出され、剪断され、および末端はｄＮＴＰで修復される。断片は，ＳＰＲＩビーズを用いてプルダウンによって精製される。幾つかの場合では、アダプターが連結され、断片は、ハイスループット配列決定のためにＰＣＲ増幅される。

実施例９：高品質のヒトゲノムアセンブリを生成する方法
相当なゲノム距離を及ぶリード対が本開示によって生成され得るという知識とともに、ゲノムアセンブリのためのこの情報の利用が試験され得る。本開示は、潜在的に染色体長の足場に対するｄｅｎｏｖｏアセンブリの連鎖を著しく改善することができる。アセンブリがどれほど完全に生成され得るか、および本開示を使用してどれだけのデータが必要とされるかについての評価が実行され得る。アセンブリに有益なデータを生成する本発明の方法の有効性を評価するために、標準のＩｌｌｕｍｉｎａショットガンライブラリーおよびＸＬＲＰライブラリーがアセンブルされ、配列決定され得る。一場合では、標準のショットガンライブラリーおよびＸＬＲＰライブラリーの各々の１つのＩｌｌｕｍｉｎａＨｉＳｅｑレーンからのデータが使用される。各方法から生成されたデータは、試験され、様々な既存のアセンブラと比較される。随意に、本開示によって生成された固有のデータに具体的に合わせるために、新しいアセンブラも書き込まれる。随意に、本発明の方法によって生成されたアセンブリを、その精度および完全性を評価するべく比較する引用を提供するために、よく特徴づけられたヒトサンプルが使用される。前のプロテオミクス解析において獲得された知識を使用して、ＸＬＲＰおよびショットガンのデータの効率的且つ有効な利用を促進するために、アセンブラが生成される。２００２年１２月のマウスゲノム概要の質を備えるゲノムアセンブリ、またはそれより優れたものが、本明細書に記載される方法を使用して生成される。

この解析に使用することができる１つのサンプルは、ＮＡ１２８７８である。サンプル細胞からのＤＮＡは、ＤＮＡ断片長さを最大限にするように設計された様々な公開された技術を使用して抽出される。標準のＩｌｌｕｍｉｎａＴｒｕＳｅｑショットガンライブラリーおよびＸＬＲＰライブラリーがそれぞれアセンブルされる。２×１５０ｂｐ配列の単一のＨｉＳｅｑレーンが各ライブラリーのために得られ、これは、１つのライブラリー当たりおよそ１億５０００万のリード対を産出する。ショットガンデータは、全体のゲノムアセンブリに対するアルゴリズムを使用して、コンティグへとアセンブルされる。そのようなアルゴリズムの例は次のものを含む：Ｃｈａｐｍａｎｅｔａｌ．（ＰＬＯＳＯＮＥ６（８）：ｅ２３５０（２０１１））に記載されるようなＭｅｒａｃｕｌｏｕｓまたはＳｉｍｐｓｏｎｅｔａｌ．（Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ２２（３）：５４９－５６（２０１２））に記載されるようなＳＧＡ。ＸＬＲＰライブラリーリードは、初期アセンブリによって生成されたコンティグに整列させられる。その整列は、コンティグをさらに連結するために使用される。コンティグを結合するためのＸＬＲＰライブラリーの有効性が確認されると、Ｍｅｒａｃｕｌｏｕｓアセンブリは、ショットガンライブラリーおよびＸＬＲＰライブラリーの両方を同時に単一のアセンブリプロセスへと統合するために伸長される。Ｍｅｒａｃｕｌｏｕｓは、アセンブラのための強固な基礎を提供する。随意に、本開示の特定のニーズに合わせるために、オールインワンのアセンブラが生成される。本開示によってアセンブルされたヒトゲノムは、ゲノムのアセンブリの質を評価するために、あらゆる既知の配列と比較される。

実施例１０：小さなデータセットからの高精度でのヒトサンプルに対するヘテロ接合のＳＮＰのフェージングのための方法
一実験では、試験ヒトサンプルのデータセットにおけるヘテロ接合変異体のおよそ４４％が、フェージングされる。制限部位の１つのリード長の距離内にすべて又はほぼすべてのフェージングする変異体が捕捉される。コンピューターによる解析（ｉｎｓｉｌｉｃｏａｎａｌｙｓｉｓ）を使用することによって、フェージングのためのより多くの変異体が、より長いリード長を使用することによって、および消化のための制限酵素の１つ以上の組み合わせを使用することによって捕捉され得る。制限酵素と異なる制限部位との組み合わせを使用することによって、各リード対に参加する２つの制限部位の１つの範囲内にあるゲノム（及びそれ故ヘテロ接合部位）の割合が増大する。コンピューターによる解析は、本開示の方法が、２つの制限酵素の様々な組み合わせを使用して既知のヘテロ接合位置の９５％を超える位置をフェージングすることができることを示している。追加の酵素およびより大きなリード長は、完全な適用範囲およびフェージングまで、観察される且つフェージングされるヘテロ接合部位の分画をさらに増加させる。

２つの制限酵素の様々な組み合わせで達成可能なヘテロ接合部位の適用範囲が計算される。上位の３つの組み合わせは、リードの近位のヘテロ接合部位に関連して、プロトコルを用いて試験される。これらの組み合わせの各々に関して、ＸＬＲＰライブラリーが生成され、配列決定される。結果として生じるリードは、ヒト参照ゲノムに整列させられ、プロトコルの精度を判定するためにサンプルの既知のハプロタイプと比較される。ヒトサンプルのためのヘテロ接合ＳＮＰの９０％まで又はそれ以上が、ＩｌｌｕｍｉｎａＨｉＳｅｑデータの１レーンのみを使用して９９％以上の精度でフェージングされる。加えて、リード長を３００ｂｐに増大させることによって、さらなる変異体が捕捉される。観察可能な制限部位のまわりリード領域は有効に２倍にされる。追加の制限酵素の組み合わせが実装されて、適用範囲および精度が増大される。

実施例１１：高分子量ＤＮＡの抽出および効果：
最大１５０ｋｂｐまでのＤＮＡを、市販のキットで抽出した。図７は、ＸＬＲＰライブラリーが、抽出されたＤＮＡの最大の断片長さまで捕捉リード対から生成され得ることを実証している。したがって、本明細書に開示される方法は、さらにより長く伸びたＤＮＡからリード対を生成することができると予期され得る。高分子量ＤＮＡの回収のための多数の良く発達したプロセスがあり、これらの方法は、本明細書に開示される方法またはプロトコルとともに使用され得る。大きな断片長さのＤＮＡを生成するための抽出法を使用して、ＸＬＲＰライブラリーが、これらの断片から作られ、生成されるリード対は評価され得る。例えば、大きな分子量ＤＮＡは、（１）Ｔｅａｇｕｅｅｔａｌ．（Ｐｒｏｃ．Ｎａｔ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１０７（２４）：１０８４８－５３（２０１０））またはＺｈｏｕｅｔａｌ．（ＰＬＯＳＧｅｎｅｔｉｃｓ，５（１１）：ｅ１０００７１１（２００９）に従う細胞の軽度の溶解；および（２）Ｗｉｎｇｅｔａｌ．（ＴｈｅＰｌａｎｔＪｏｕｒｎａｌ：ｆｏｒＣｅｌｌａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ，４（５）：８９３－８（１９９３））に従うアガロースゲルプラグによって、またはＢｏｒｅａｌＧｅｎｏｍｉｃｓからのＡｕｒｏｒａＳｙｓｔｅｍを使用することによって抽出され得、これらの引用文献は、ここで引用される参考文献を含む、その全体が本明細書に組み込まれる。これらの方法は、次世代配列決定に慣例的に必要とされるものを超えた長いＤＮＡ断片を生成することができるが、当該技術分野に既知の他の適切な方法も、類似した結果を達成するために代わりに用いられ得る。ＡｕｒｏｒａＳｙｓｔｅｍは、非常に優れた結果を提供し、長さがメガベースまでのおよびそれを超える組織または他の調製物からＤＮＡを分離し、濃縮することができる。サンプルレベルで起こり得る差を制御するために単一のＧＭ１２８７８細胞培養物から開始して、これらの方法論の各々を使用して、ＤＮＡ抽出物が調製される。断片のサイズ分布は、Ｈｅｒｓｃｈｌｅｂｅｔａｌ．（ＮａｔｕｒｅＰｒｏｔｏｃｏｌｓ２（３）：６７７－８４（２００７））に従って、パルスフィールドゲル電気泳動によって評価され得る。前述の方法を使用して、ＸＬＲＰライブラリーをアセンブルするために極端に大きく伸びたＤＮＡが抽出され、使用され得る。その後、ＸＬＲＰライブラリーは配列決定され、整列される。結果として生じるリードデータは、リード対間のゲノム距離をゲルから観察された断片サイズと比較することによって解析される。

実施例１２：望ましくないゲノム領域からのリード対の減少
望ましくないゲノム領域に相補的なＲＮＡが、インビトロでの転写によって生成され、架橋前に再構成されたクロマチンに加えられる。補足されたＲＮＡが１つ以上の望ましくないゲノム領域に結合すると、ＲＮＡ結合は、これらの領域で架橋効率を低下させる。それによって、架橋された複合体におけるこれらの領域からのＤＮＡの存在量は減少される。再構成されたクロマチンは固定され、上に記載されるように使用される。幾つかの場合では、ＲＮＡは、ゲノムにおいて反復領域を標的とするように設計されている。

実施例１３：望ましいクロマチン領域からのリード対の増加
望ましいクロマチン部位からのＤＮＡが、遺伝子アセンブリまたはハプロタイプのために二本鎖型で生成される。したがって、望ましくない領域からのＤＮＡの表現は縮小される。望ましいクロマチン領域からの二本鎖ＤＮＡが、複数キロベース間隔でそのような領域でタイルする（ｔｉｌｅ）プライマーによって生成される。方法の他の実装では、タイル間隔は、望ましい反復効率で異なるサイズの望ましい領域に対処するために様々である。望ましい領域にわたるプライマー結合部位は、随意にＤＮＡを融解することによって、プライマーと接触させられる。タイルされたプライマーを使用して、新しいＤＮＡ鎖が合成される。例えば、これらの領域を一本鎖ＤＮＡに特異的なエンドヌクレアーゼで標的とすることによって、望ましくない領域が減少または除去される。残りの望ましい領域は、随意に増幅され得る。調製されたたサンプルは、本明細書に別記されるような配列決定ライブラリー調製方法にさらされる。幾つかの実装では、各々の望ましいクロマチン領域の長さまでの距離に及ぶリード対が、各々のそのような望ましいクロマチン領域から生成される。

実施例１４：急速なＣｈｉｃａｇｏライブラリー調製プロトコル
このプロトコルは、たったの２日間にわたって実行され、核酸サンプルにおいて隣接情報を判定するための高品質ライブラリーを生成する。

１日目に下記の工程が実行される。

クロマチンアセンブリ。ＡｃｔｉｖｅＭｏｔｉｆキットコンポーネントを氷上で解凍する。一方で、キュービット（広範囲（ＢｒｏａｄＲａｎｇｅ））は、アセンブルされる１μｌのｇＤＮＡを定量化し、精度のためのサイズ標準を含む。一様な再懸濁を確かなものとするために、ピペット操作前に、特に高い分子量／粘性のサンプルを加熱する。

シリコン処理したチューブにおいて、氷上で順番に以下のＡｃｔｉｖｅＭｏｔｉｆＣｈｒｏｍａｔｉｎアセンブリキットコンポーネントを一緒に混合する（追加の０．２５Ｘでマスター混合物（ｍａｓｔｅｒｍｉｘ）を作る）：
ｈ－ＮＡＰ－１０．７μｌ
ＨｅＬａコアヒストン０．９μｌ
高塩濃度緩衝液５μｌ
氷上で１５分間インキュベートする。
一方で、氷上で混合することによって１０ＸＡＴＰ再生システムを調製する：
１０ＸＡＴＰ再生システム５μｌ
クレアチンキナーゼ０．１５μｌ
氷上でのインキュベーション後、以下を順番にヒストン混合物に加える：
低塩濃度緩衝液３２．１５μｌ
ＡＣＦ１．２５μｌ
１０ｘＡＴＰＲｅｇｅｎＳｙｓｔｅｍ５μｌ
４５μｌのマスター混合物を以下に分配する：
ＤＮＡ０．５μｇ
Ｈ_２ＯＤＮＡ＋Ｈ_２Ｏの最終的な量は５μｌである
２７℃で１時間インキュベートする。

ＡＣＦ／１０ｘＡＴＰＲｅｇｅｎＳｙｓｔｅｍが加えられるヒストン混合物におけるＤＮＡ濃度は、幾つかの場合において少なくとも１００ｎｇ／μｌであるはずである。しかしながら、その方法は、１０μｌのＤＮＡサンプルに加えて４５μｌのマスター混合物を加えることによって、５０ｎｇ／μｌもの少ないＤＮＡを使用して、成功したＣｈｉｃａｇｏライブラリーを与えたクロマチンのアセンブリの実行に成功する。総量のこの１０％の増加は、アセンブルされたクロマチンの全体的な質に影響を与えない。

随意に、ＭＮａｓｅ消化（以下のＤｐｎＩＩ消化の間）によってクロマチンアセンブリを試験するために、５μｌがシリコン処理したチューブに保管される。

ホルムアルデヒド架橋。３７％のホルムアルデヒドチューブ（ＷｈｉｔｅＣａｐ２ｍｌのチューブ＠Ｒ／Ｔ）１．３５μｌを加える。軽く混合し（Ｆｌｉｃｋｍｉｘ）、遠心沈殿する。室温（ＲＴ）１５分間インキュベートする。２．５ＭのＧｌｙｃｉｎｅチューブ（ＧｒｅｅｎＣａｐ２ｍｌのチューブ＠Ｒ／Ｔ）２．７μｌを加える。氷上で１０分間インキュベートする。

クロマチンをＳＰＲＩビーズに結合する。１００μｌのＳＰＲＩビーズを加え、ピペット操作によって～１０回混合する。ＲＴで５分間インキュベートする。５分間磁石上のチューブを浄化し、その後、上清（ＳＮ）を廃棄する。２５０μｌの洗浄緩衝液（１０ｍＭＴｒｉｓ／５０ｍＭＮａＣｌ）で２Ｘ洗浄する。

消化用（ｄｉｇｅｓｔｉｏｎ）マスター混合物（以下）は、これらのインキュベーション中に調製され得る。

ＤｐｎＩＩ消化。ＳＰＲＩビーズに結合する前に、ＤｐｎＩＩＤｉｇｅｓｔ混合物の１本のチューブ（紫色のキャップ（Ｐｕｒｐｌｅｃａｐ）２ｍｌのチューブ＠－３０℃）を氷上で解凍する。洗浄液（ｗａｓｈ）を除去した後に、５０ｕｌのＤｐｎＩＩＤｉｇｅｓｔ混合物でビーズを再懸濁する。混合物の残りを廃棄する。３７℃で１時間＞１０００ｒｐｍでサーモミキサー中で消化する。

緩衝液の交換。サンプルを磁石上に置いて、上清を分離し、廃棄する。２５０μｌの洗浄緩衝液で１Ｘ洗浄する。

マスター混合物（以下）は、これらのインキュベーション中に調製され得る。

末端注入（ＥｎｄＦｉｌｌ－Ｉｎ）。ＤｐｎＩＩ消化が終了する１５分前に、ＥｎｄＦｉｌｌ－ＩｎＭｉｘの１本のチューブ（緑色のキャップ（Ｇｒｅｅｎｃａｐ）２ｍｌのチューブ＠－３０℃）を氷上で解凍する。洗浄液を除去した後に、５０ｕｌのＥｎｄＦｉｌｌ－ＩｎＭｉｘでビーズを再懸濁する。混合物の残りを廃棄する。

２５℃で３０分間＞１０００ｒｐｍでサーモミキサー中でインキュベートする。

凝集体内のＤＮＡ末端ライゲーション。ＥｎｄＦｉｌｌ－Ｉｎ反応が完了する３０分前に、凝集体内のライゲーション混合物（Ｉｎｔｒａ－ＡｇｇｒｅｇａｔｅＬｉｇａｔｉｏｎＭｉｘ）の１本のチューブ（上げ底３ｍｌのチューブ＠－３０℃）を氷上で解凍する。洗浄液を除去した後に、２５０ｕｌの凝集体内の連結混合物でビーズを再懸濁する。混合物の残りを廃棄する。

１６℃で少なくとも１時間＞１０００ｒｐｍでサーモミキサー中でインキュベートする。

末端ヌクレオチドの交換。凝集体内のライゲーション（Ｉｎｔｒａ－ＡｇｇｒｅｇａｔｅＬｉｇａｔｉｏｎ）反応が完了する５分前に、末端ヌクレオチドの交換混合物（ＴｅｒｍｉｎａｌＮｕｃｌｅｏｔｉｄｅＥｘｃｈａｎｇｅＭｉｘ）の１本のチューブ（黄色のキャップ（Ｙｅｌｌｏｗｃａｐ）２ｍｌのチューブ＠－３０℃）を氷上で解凍する。５ｕｌの末端ヌクレオチドの交換混合物を直接反応物に加える。混合物の残りを廃棄する。

１６℃で１５分間＞１０００ｒｐｍでサーモミキサー中でインキュベートする。

緩衝液の交換。
サンプルを磁石上に置いて、上清を分離し、廃棄する。２５０μｌの洗浄緩衝液で１Ｘ洗浄する。

架橋反転。
末端ヌクレオチドの交換（ＴｅｒｍｉｎａｌＮｕｃｌｅｏｔｉｄｅＥｘｃｈａｎｇｅ）反応が完了する５分前に、１１μｌのＮＥＢプロテイナーゼＫ（２０ｍｇ／ｍｌの＠－３０℃）を１つの完全な架橋反転緩衝（ＣｒｏｓｓｌｉｎｋＲｅｖｅｒｓａｌＢｕｆｆｅｒ）チューブ（赤色のキャップ（ＲｅｄＣａｐ）２ｍｌのチューブ＠Ｒ／Ｔ）に加える。上澄みを除去した後に、５０ｕｌの架橋反転／プロテイナーゼＫの混合物でビーズを再懸濁する。混合物の残りを廃棄する。

５５℃で１５分間＞１０００ｒｐｍでサーモミキサー中でインキュベートする。

６８℃で４５分間＞１０００ｒｐｍでサーモミキサー中でインキュベートする。

ＳＰＲＩ上でＤＮＡを精製する。架橋反転反応物を磁石上に置き、上清を分離する。上清（ＳＵＰＥＲＮＡＴＡＮＴ）を清潔な１．５ｍｌのチューブに移す。１００μｌのＳＰＲＩビーズを加える；ピペット操作によって～１０回混合する。ＲＴで５分間インキュベートする。サンプルを５分間磁石上に置き、その後、引き出し、上清を廃棄する。

新鮮な８０％のＥｔＯＨ２５０μｌで３ｘ洗浄する。乾燥し過ぎないように注意しながら、５分間空気乾燥する。７８μｌのＴＥでビーズを再懸濁し、２分間待つ。磁石上に置き、７５μｌの上清をＢｉｏｒｕｐｔｏｒ０．６５ｍｌのチューブに移す。１ｕｌのＤＮＡをキュービットＨＳでる定量化し、予期された回収率は入力の３０％－７５％である。

２日目に、以下の工程が実行される。

断片化。Ｂｉｏｒｕｐｔｏｒは、４℃まで冷却される。ＤＮＡは最小で１０分間氷上で冷やされる。ボルテックスし、サンプルを遠心沈殿する。ＤＮＡをまき散らさないように注意して、Ｂｉｏｒｕｐｔｏｒカルーセル（ｃａｒｒｏｕｓｅｌ）にチューブを入れる。１５秒のオン／９０秒のオフを４サイクル実行する。カルーセルから除去する。ボルテックスし、チューブを遠心沈殿する。１５秒のオン／９０秒のオフを３サイクル実行する。カルーセルから除去する。ボルテックスし、チューブを遠心沈殿する。

ＣｈｉｃａｇｏＤＮＡをＴａｐｅＳｔａｔｉｏｎ上で解析する。ＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤ１０００テープを使用してＴａｐｅＳｔａｔｉｏｎ上に２ｕｌの断片化されたＤＮＡを充填する。～３５０ｎｔを中心とした広い分布を予期する。

末端修復。５５．５μｌの断片化されたＤＮＡを、以下のＮＥＢＮｅｘｔＵｌｔｒａ試薬（ＧｒｅｅｎＣａｐ）を含有しているＰＣＲチューブに移す：末端調製酵素混合物（ＥｎｄＰｒｅｐＥｎｚｙｍｅＭｉｘ）３．０μｌ、末端修復反応緩衝液（ＥｎｄＲｅｐａｉｒＲｅａｃｔｉｏｎＢｕｆｆｅｒ）６．５μｌ。ＮＥＢ－ＥＮＤプロトコルを使用して、ＰＣＲマシン中でインキュベートする：２０℃で３０分間、６５℃で３０分間、４℃で維持する。

アダプターライゲーション。以下のＮＥＢＮｅｘｔＵｌｔｒａ試薬（ＲｅｄＣａｐ）を反応物に加える：平滑／ＴＡリガーゼマスター混合物（ＬｉｇａｓｅＭａｓｔｅｒＭｉｘ）１５μｌ、ライゲーションエンハンサー（ＬｉｇａｔｉｏｎＥｎｈａｎｃｅｒ）１．０μｌ、ホームメイドのＹアダプター（ＨｏｍｅＭａｄｅＹ－Ａｄａｐｔｅｒ）１５μＭ２．５μｌ。

ＮＥＢ－Ｌｉｇａｔｅプロトコルを使用して、ＰＣＲマシン中でインキュベートする：
２０℃で１５分間。
ライゲーション事象の捕捉。各々のＣｈｉｃａｇｏ反応のために２５μｌのＣ１ビーズのマスター混合物を調製する。サンプルを磁石上に置いて、上清を分離し、廃棄する。２５０μｌの１ＸＴＷＢで２回洗浄する（緩衝液レシピのページを参照）。２ＸＮＴＢのシカゴ反応の数の倍（ｔｉｍｅｓ）８５μｌにおいてビーズを再懸濁する。２ＸＮＴＢ中の８５μｌのビーズを１セットの清潔な１．５μｌのチューブに分配する。８５μｌの末端修復反応物をビーズに移す。ＬａｂＱｕａｋｅローテータ上で３０分間ＲＴでインキュベートする。

サンプルを磁石上に置いて、上清を分離し、廃棄する。２５０μｌのＬＷＢで１Ｘ洗浄する。２５０μｌのＮＷＢで２Ｘ洗浄する。２５０μｌの洗浄緩衝液で２Ｘ洗浄する。

インデックスＰＣＲ。以下の４９μｌの混合物－（マスター混合物＋０．２５％のＲｘ）中でビーズを再懸濁する：Ｈ_２Ｏ２３μｌ；ＩＳ４プライマー（１０ｕＭ）１．０μｌ；２ＸＫＡＰＡ混合物ＭＩＸ２５μｌ。

ＰＣＲストリップチューブに移す。各チューブに、１０μＭのインデックスプライマー１μｌを加え、各サンプルに対してインデックスＩＤを確実に記録する。

これらの工程を１３サイクル増幅する：３分間＠９８℃；２０秒間＠９８℃；３０秒間＠６５℃；３０秒間＠７２℃；工程２からさらに１２回繰り返す；１分間＠７２℃；＠１２℃を維持する。

ＳＰＲＩ上で増幅されたＤＮＡを精製する。磁石上にサンプルを置いて、上清を分離する。上清を清潔な１．５ｍｌのチューブに移す。１００μｌのＳＰＲＩビーズを加える；ピペット操作によって～１０回混合する。ＲＴで５分間インキュベートする。磁石上にサンプルを置いて、５分間上清を分離する；上清を廃棄する。２５０μｌの新鮮な８０％のＥｔＯＨで２ｘ洗浄する。乾燥し過ぎないように注意しながら、５分間空気乾燥する。３２μｌのＴＥでビーズを再懸濁し、２分間待つ。磁石上で濃縮する。溶出されたＤＮＡを新しい１．５ｍｌのチューブに移す。広範囲のキュービット上でＤＮＡを定量化する；予期された濃度は～３０ｎｇ／ｕｌである。

ＴａｐｅＳｔａｔｉｏｎ上でインデックスＰＣＲＤＮＡを解析する。０．５ｕｌの精製されたＰＣＲを４．５μｌのＴＥに加えることによって、１：１０に希釈する。ＴａｐｅＳｔａｔｉｏｎＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤ１０００テープ上に２μｌを充填する。～５５０ｎｔを中心とした広い分布を予期する。

ＰｉｐｐｉｎＰｒｅｐ上でインデックスＰＣＲＤＮＡをサイズ選択する。１．５％のＤＦＰｉｐｐｉｎＰｒｅｐサンプル緩衝液（マーカーＫ）１０μｌを加える。製造業者のプロトコルに従って機器およびゲルを調製する。ＴａｐｅＳｔａｔｉｏｎ解析で観察された分布の中心あたりの３００ｎｔの広範囲ウィンドウを使用してサイズ選択する；通常４００－７００ｎｔ。キュービットのＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙを使用してＤＮＡを定量化する；回復はおよそ５－１０ｎｇ／ｕｌであるはずである。

ＴａｐｅＳｔａｔｉｏｎ上でサイズ選択されたＤＮＡを解析する。１ｕｌを４ｕｌのＴＥに加えることによって、１：５に希釈する。ＴａｐｅＳｔａｔｉｏｎＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤ１０００テープ上に２ｕｌを充填する。濃度（ｐｇ／ｕｌおよびモル濃度の両方）をＪＩＲＡへと記録する。

実施例１５
Ｃｈｉｃａｇｏライブラリーの生成に従って、クロマチンアセンブリを試験するために、小球菌ヌクレアーゼ（ＭＮａｓｅ）の消化が実行される。

マスター混合物の調製物。消化および停止マスター（Ｓｔｏｐｍａｓｔｅｒ）の混合物は、室温で調製され、ＭＮａｓｅを以下のように１：１０００に希釈する：Ｈ_２Ｏ中で１：１０の希釈液を作る（１μｌのＭＮａｓｅ５０Ｕ／μｌ＋９μｌのＨ_２Ｏ）；Ｈ２Ｏ中で１：１０００の希釈液を作る（１μｌの１：１０希釈＋９９μｌのＨ_２Ｏ）；１μｌのＭＮａｓｅ１：１０００をＭＮａｓｅ消化用緩衝液（ＭＮａｓｅＤｉｇｅｓｔｉｏｎＢｕｆｆｅｒ）（黄色のキャップのチューブ（ＹｅｌｌｏｗＣａｐＴｕｂｅｓ）＠Ｒ／Ｔ）の１本のチューブに加えることによって、ＭＮａｓｅ消化用混合物（ＭＮａｓｅＤｉｇｅｓｔｉｏｎＭｉｘ）を調製する；１１μｌのＮＥＢプロテイナーゼＫ２０ｍｇ／ｍｌを停止緩衝液（青色のキャップのチューブ（ＢｌｕｅＣａｐＴｕｂｅｓ）＠Ｒ／Ｔ）の１本の完全なチューブに加えることによって、停止緩衝液混合物を調製する。

ＭＮａｓｅ消化。２分間３７℃でＭＮａｓｅ消化用混合物を予め温める。１本のチューブ当たりのアセンブルされた５μｌのクロマチンに４５ｕｌを加え、各サンプル間で３０秒間待つ。第１のサンプルの追加でタイマーをスタートさせ、サンプルを順序通りに保管する。５分後、第１のチューブから始めて、５０μｌの停止緩衝液混合物を加える。再び、各サンプルが正確に５分間消化されるように、各チューブ間で３０秒間待つ。３７℃でさらに３０分間インキュベートする。

ＱｉａｇｅｎＭｉｎＥｌｕｔｅキットを使用して精製する：３００ｕｌのＱｉａｇｅｎ緩衝液ＥＲＣを加えて、よく混合する；ＭｉｎＥｌｕｔｅＲｅａｃｔｉｏｎＣｌｅａｎｕｐカラムに移す；１分間遠心分離にかけて、素通り画分を廃棄する；７００μｌの緩衝液ＰＥを加える（エタノールが加えられたことを確かめる）；１分間遠心分離にかけて、素通り画分を廃棄する；１分間遠心分離にかけて、ＰＥ緩衝液が残っていないことを確かめる；カラムを１．５ｍｌのチューブに移す；１０ｕｌのＥＢ緩衝液を加えて、１分間待つ；１分間遠心分離にかけて、ＤＮＡを回収する。

２ｕｌのＭＮａｓｅ消化したサンプルをＨＳＤＮＡ１００ＴａｐｅＳｔａｔｉｏｎテープ上に流す。

実施例１６．
アニーリングによる増幅アダプター調製。１５μＭの部分的に二本鎖の増幅アダプターの作成は、以下の通りに達成される。１．５ｍｌのチューブにおいて一緒に混合する：ＴＥ＋５０ｍＭのＮａＣｌ中の３７．５μｌの２００μＭＰ５＿ｆｕｌｌ＿Ａ（オリゴ（ｏｌｉｇｏ）＃１１１）；ＴＥ＋５０ｍＭのＮａＣｌ中の３７．５μｌの２００μＭＰ７＿Ｙ＿Ｒｅｖ（オリゴ＃１３２）；４２０μｌのＴＥ；５μｌのＮａＣｌ５Ｍ。サーモサイクラーにおける２本のＰＣＲチューブを等分し、アニールプログラムを実行する：
９５℃ ２分；０．１℃／秒で２５℃まで低下させる。

増幅アダプターに適したオリゴは、以下に示される（＊はホスホロチオエート結合である）。

実施例１７
ＳＰＲＩビーズの作成。５０ｍｌのチューブへの測定：ＰＥＧ－８０００粉末９ｇ。

その後、以下を加える：
保存濃度終濃度
１ＭＴｒｉｓ－ＣｌｐＨ８．０５００μｌ１０ｍＭ
０．５ＭのＥＤＴＡ１００μｌ１ｍＭ
ＮａＣｌ１Ｍ
Ｈ_２Ｏ～４８ｍＬまで

振盪させて、ＰＥＧを溶解する。その後、Ｔｗｅｅｎを加えて、そっと混合する：１０％のＴｗｅｅｎ２０２５０μｌ０．０５％。

一方で、Ｓｅｒａ－Ｍａｇビーズを再懸濁する。１．５ｍｌのチューブに１ｍｌを移す。磁石上のチューブを浄化し、その後、上清（ＳＮ）を廃棄する。１ｍｌのＴＥでビーズを４Ｘ洗浄する。１ｍｌのＴＥ中で再懸濁する。すべてをＰＥＧ溶液に移し、反転によって混合する。Ｈ_２Ｏで合計で５０ｍｌｓにする（Ｂｒｉｎｇｕｐｔｏ）。４℃で保存する。各バッチを様々な比率で５０ｂｐのラダー（例えば、ＧｅｎｅＲｕｌｅｒまたはＨｙｐｅｒｌａｄｄｅｒ）を用いて較正する。

実施例１８：糞便サンプルにおいて核酸に由来するインビトロでアセンブルされたクロマチン凝集体から生成された配列リードを使用するヒト糞便のメタゲノムアセンブリ
糞便メタゲノムアセンブリに対するＤＮＡを、ＭｏＢｉｏＰｏｗｅｒｆｅｃａｌキットで調製した。糞便サブサンプル（単一の時間点で単一の個体からの収集されたサンプルのサブサンプル）を、キットに提供されるＤＮＡ単離のためにプロトコルに従って調製した。～２５０ｍｇの４つのサブサンプルを調製した。各サンプル間のＤＮＡ収率は以下の通りであった：（１）４．２８μｇ；（２）７．２８μｇ；（３）６．４８μｇ；および（４）５．５６μｇ。

４つのサブサンプルの中で最も高いＤＮＡ収率があったため、サンプル（２）をさらなる処理のために選択した。ＴａｐｅＳｔａｔｉｏｎ（Ａｇｉｌｅｎｔ）を使用して、サンプル（２）におけるＤＮＡ断片のサイズを解析した。図１３Ａに示されるように、サンプルの平均断片サイズはおよそ２２ｋｂであり、小断片は存在しなかった。メタゲノムアセンブリのために２つのライブラリーを調製した。第１のライブラリーをインビトロでアセンブルされたクロマチン凝集体および近接ライゲーションを使用して調製し、第２のライブラリーをショットガン配列決定のために調製した。

図１３Ｂに示されるように、サンプル（２）からの５００ｎｇのＤＮＡおよびインビトロでアセンブルされたクロマチンを使用して、第１のライブラリーを調製した。クロマチンを、サンプル（２）からの裸のＤＮＡ１３０１上でインビトロ１３０２で再構成した。クロマチンを、その後、１３０３に示されるようにホルムアルデヒドで固定し、クロマチン凝集体を形成した。固定したクロマチンを、１３０４に示されるように制限酵素で消化し、遊離付着末端を生成した。遊離末端に、１３０５に示されるようにビオチン化した（円形）およびチオール化した（正方形）ヌクレオチドを充填した。遊離平滑末端を、１３０６に示されるように連結した（ライゲーションはアスタリスクによって示される）。１３０７に示されるように、架橋を反転し、クロマチン関連タンパク質を除去して、ライブラリー断片を得た。ライブラリーをＭｉＳｅｑ（Ｉｌｌｕｍｉｎａ、２ｘ７５ｂｐ）上で配列決定した。５，０２６，９３４のリード対を生成した。

ショットガン配列決定のために、第２のライブラリーを調製した。第２のライブラリーは、ライブラリー調製キットを使用して２μｇのサンプル（２）から調製したＴｒｕｅＳｅｑＰＣＲのない（－ｆｒｅｅ）ライブラリーであった。ショットガンライブラリーを、ＭｉＳｅｑ（Ｉｌｌｕｍｉｎａ、２ｘ１５０ｂｐ）上で配列決定した。Ｏｍｅｇａ（重複グラフメタゲノムアセンブラ、Ｈａｉｄｅｒｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ（２０１４）ｄｏｉ：１０．１０９３／ｂｉｏｉｎｆｏｒｍａｔｉｃｓ／ｂｔｕ３９）を使用してメタゲノムアセンブリを生成する前に、ＳｅｑＰｒｅｐを使用して、リードを刈り込み、融合した。１５，７５８，６３５のリード対があり、リード対の１，８１０，８７７を単一のリードへと融合した。

図１４に示されるようにインサート長の分布および適用範囲を評価するために、ショットガンリードをアセンブリにマッピングした。図１４では、Ｘ軸はｂｐでのインサート長を示し、Ｙ軸はリード対の数を示す。融合したリード対は破線で示され、融合していないリード対は実線で示される。

インビトロでのクロマチン凝集体で調製したライブラリーからのリードを、インサート長の分布を評価するためにアセンブリにマッピングした。８１９，５６６のリード対を同じ足場にマッピングした。マッピング位置間のインサート分布は図１５に示される。図１５では、Ｘ軸はｋｂでのインサートサイズを示し、Ｙ軸はリード対の数を示す。同じ鎖のリード対は短い破線で示される。２つのリード対のカテゴリーも示される。「内側（ｉｎｎｉｅｓ）」は長い破線で示され、「外側（ｏｕｔｔｉｅｓ）」は実線で示される。リード対のうち、１，３５８，７７０は異なる足場にマッピングした。残りの対はマッピングしなかったか、一意にマッピングしなかった。

図１６および図１７は、調製のライブラリーの２つの方法を使用するヒット範囲の比較を示す。図１６は、インビトロでアセンブルされたクロマチン凝集体（「Ｃｈｉｃａｇｏ」）を使用して調製したライブラリーに対するショットガンを配列決定のために調製したライブラリーからのヒットの散布図を示す。図１７は、コンティグ長ごとの１コンティグ当たりのショットガンヒット／インビトロでアセンブルされたクロマチンヒット（「Ｃｈｉｃａｇｏ」）の散布図を示す。足場をアセンブルするための尤度モデルを適用する及びまた不正確に見える入力足場を壊すＨｉＲｉｓｅソフトウェアを用いて、リードを解析した。最終的な足場Ｎ５０は、Ｏｍｅｇａ出力での１５．７ｋｂと比較して、約５３．４ｋｂである。

実施例１９：ヒト集団における未知の病原体の検出および配列決定
被験体の未知の病原体を特定するために、糞便サンプルからリードデータのｄｅｎｏｖｏゲノムアセンブリが使用される。国際保健が改善されるにつれ、原因や病原体源が知られていない疾患の発症（ｏｕｔｂｒｅａｋｓ）を見つけることはますます一般的になっている。病原体は単離または培養することが難しいため、病原体を単離する試みは、しばしば時間を要し、困難である。

糞便検体及び／又は尿検体は、未知の疾患を患っている疑いのある又は患っていると確証された患者から収集される。糞便のメタゲノムのアセンブリのためのＤＮＡは、ＭｅｔａＨＩＴ（ヒト腸管のメタゲノミクス）方法またはＨＭＰ（ヒトマイクロバイオームプロジェクト）方法などの、糞便のＤＮＡ抽出法、ＭＯＢＩＯからのＭｏＢｉｏＰｏｗｅｒｆｅｃａｌキット、ＱｉａｇｅｎからのＱＩＡｍｐＤＮＡＳｔｏｏｌＭｉｎｉキット、またはＺｙｍｏＲｅｓｅａｒｃｈからのＺＲＦｅｃａｌＤＮＡＭｉｎｉＰｒｅｐキットなどの、糞便のＤＮＡ抽出キットで調製される。尿からのＤＮＡは、ＤＮＡ抽出法、あるいはＱｉａｇｅｎからのＱＩＡａｍｐＤＮＡＭｉｃｒｏキット；ＩｎｔｒｏｎＢｉｏｔｅｃｈｎｏｌｏｇｙからのｉ－ｇｅｎｏｍｉｃＵｒｉｎｅＤＮＡＥｘｔｒａｃｔｉｏｎＭｉｎｉキット；ＺｙｍｏＲｅｓｅａｒｃｈからのＺＲＵｒｉｎｅＤＮＡＩｓｏｌａｔｉｏｎキット；ＮｏｒｇｅｎＢｉｏｔｅｋからのＮｏｒｇｅｎＲＮＡ／ＤＮＡ／ＰｒｏｔｅｉｎＰｕｒｉｆｉｃａｔｉｏｎキット；およびＡｂｃａｍからのＡｂｃａｍＵｒｉｎｅＩｓｏｌａｔｉｏｎキットなどの、ＤＮＡ抽出物キットで抽出される。

ライブラリーが、インビトロでアセンブルされたクロマチン凝集体および糞便ＤＮＡサンプルまたは尿ＤＮＡからの５００ｎｇのＤＮＡで調製される。クロマチンが、糞便または尿のサンプルからの裸のＤＮＡ上でインビトロで再構成され、クロマチンおよびＤＮＡはホルムアルデヒドで固定され、クロマチン凝集体が形成される。固定されたクロマチンは制限酵素で消化され、遊離付着末端が生成される。遊離末端に、ビオチン化された及びチオール化されたヌクレオチドが充填され、その後、遊離平滑末端は連結される。架橋は反転され、クロマチン関連タンパク質は除去されて、ライブラリー断片が得られる。ライブラリーは配列決定され、リード対がアセンブルされる。

その後、被験体集団において病気の又は疾患を患う個体に対応する核酸分子を特定するために、糞便サンプルからのリードデータのｄｅｎｏｖｏゲノムアセンブリが使用される。配列情報が染色体またはゲノムサイズのユニットへとグループ化されるように、核酸情報はゲノムサイズのコンティグへとアセンブルされる。

健康な個体に存在する傾向にある生物に対応するゲノムは、解析においてあまり重視されない。障害の症状を実証している個体において日和見的により豊富である生物に対応するゲノムも、解析においてあまり重視されない。

事前に特徴づけられていない生物に対応するゲノムは特定される。ゲノムは、そこにコードされた代謝経路を判定するために解析され、培養レジメンは、ゲノムを有する微生物の宿主非依存性の培養を促進するように設計されている。代謝経路の解析は、微生物の複製を選択的に阻止する潜在的な薬物標的を特定するために継続される。薬物標的は、そこに生成されたゲノム情報に関連して生成された微生物培養物上で試験され、複製を阻止することが示されている。薬物は、発症の症状を実証している個体に投与され、薬物療法は，症状を緩和することが実証されている。

実施例２０：ショットガン配列決定を使用するヒト集団における未知の病原体の検出および配列決定
被験体の未知の病原体のゲノム配列を特定するために、糞便サンプルからのリードデータのｄｅｎｏｖｏショットガン配列決定が使用される。上記の例でのように、核酸は単離され、ショットガン配列決定のみにさらされる。

既知および未知の微生物に対応する配列決定リードが特定される。未知の生物または生物が疾患を患う個体に存在することが判定された。しかしながら、代謝経路情報は判定することができず、ショットガン配列情報は、微生物がどのように培養され得るか、あるいはどの薬物がヒト宿主において微生物の成長または増殖を阻止するのに有用であり得るかに関しての洞察を提供していない。処置レジメンは結果から示唆されていない。

実施例２１：患者における抗生物質耐性遺伝子の検出
患者は、抗生物質治療に耐性のある感染を患っている。患者から糞便サンプルが得られ、核酸はサンプルから抽出される。

核酸はショットガン配列の解析にさらされ、多くの配列リードが生成される。幾つかの個々の配列リードは、推定上の宿主生物に確信をもってマッピングされることを可能にするほど十分に長い。幾つかのリードは、推定上の抗生物質耐性の遺伝子座にマッピングし、抗生物質耐性を伝達する遺伝子産物をコードする核酸が患者に存在すると考えられる。

配列情報は、どの抗生物質耐性の遺伝子座がどの宿主の微生物にマッピングされるかの判定を可能にするほど十分ではない。

実施例２２：患者における抗生物質耐性の遺伝子宿主の検出
患者は、複数の抗生物質治療に耐性のある感染を患っている。患者から糞便サンプルが得られ、核酸はサンプルから抽出される。

核酸は、本明細書に開示されるような解析にさらされる。抗生物質耐性遺伝子に対する共通の核酸分子から生じる核酸配列が判定されるように、連鎖情報が判定される。ショットガン配列情報は、微生物のゲノムに対応するコンティグへとアセンブルされる。

複数の抗生物質耐性遺伝子が単一の微生物宿主にマッピングされることが判定された。また、抗生物質耐性遺伝子の微生物宿主が、アセンブルされた微生物のゲノムから存在する又は存在しない代謝経路の解析に基づいて、前に投与されていない抗生物質に脆弱性である傾向があると判定された。

患者は、前に投与されていない抗生物質を投与され、感染症状が緩和される。

実施例２３：患者における抗生物質耐性の遺伝子宿主の検出
患者は、連続して投与された複数の抗生物質の処置に耐性のある感染を患っている。患者から糞便サンプルが得られ、核酸はサンプルから抽出される。

核酸はショットガン配列解析にさらされ、多くの配列リードが生成される。幾つかの個々の配列リードは、推定上の宿主生物に確信をもってマッピングされることを可能にするほど十分に長い。幾つかのリードは、推定上の抗生物質耐性の遺伝子座にマッピングし、抗生物質耐性を伝達する遺伝子産物をコードする核酸が患者に存在すると考えられる。

複数の抗生物質耐性遺伝子が複数の微生物宿主をマッピングし、微生物宿主が１つを超える微生物耐性遺伝子を所有しないと判定された。

患者は前に投与された抗生物質治療を受けるが、抗生物質は連続ではなくむしろ平行して投与される。すなわち、一度に投与されたときに効果がないと前に分かった抗生物質は同時に投与され、感染症状が緩和される。

実施例２４：異種のサンプルにおける個体の配列の検出
対象の個体が見つけられる。個体のゲノム情報は、個体の親によって提供される核酸サンプルから合理的に推測される。個体において予期されたＳＮＰ（一塩基多型）パターンが判定される。与えられた染色体上のＳＮＰパターンは、個々に一般的であるが、まとめて、単一の個体において組み合わせで生じそうにない多くのＳＮＰを含む。

個体は１つの位置で存在していると考えられる。その位置は調査され、異種のＤＮＡサンプルがその位置から得られる。ＤＮＡはショットガン配列決定にさらされ、数多くのリードが判定される。対象のゲノムの個体に存在すると予期された各ＳＮＰが特定される。しかしながら、ＳＮＰ間の連鎖情報は利用不可能であり、研究者は、検出されたＳＮＰが単一の個体から生じるか、または単一の核酸分子に対応するかどうかを判断することができない。

実施例２５：異種のサンプルにおける個体のゲノムシグネチャの検出
上記の実施例２４におけるように、対象の個体が見つけられる。ＤＮＡはショットガン配列決定にさらされ、数多くのリードが判定される。対象のゲノムの個体に存在すると予期された各ＳＮＰが特定される。

部位から得られた異種のＤＮＡの第２のサンプルは、本明細書に開示されるような解析にさらされる。対象のＳＮＰに及ぶ配列リードが特定され、共通のタグ情報を共有する他のリードとともに特定の核酸分子にマッピングされる。ＳＮＰのための位相情報が判定され、対象の個体に対する予測されたＳＮＰパターンを有する個体が、最近調査された位置にいたことが判定される。

同時に、その位置での他の個体に対するＳＮＰパターンは、部位から得られた異種のＤＮＡサンプルに由来するショットガンおよび連鎖の情報に基づいて判定される。

実施例２６：新規の生物アッセイ
対象の腸バイオームを持つと知られるシロアリが、配列決定に選択される。シロアリは、木材の分解に必要な酵素をコードする遺伝子を欠くと知られている。シロアリの腸が、セルロースを代謝するのに必要な酵素を単独で又は組み合わせてコードする微生物を持つと考えられる。

核酸は、シロアリの集団から得られ、ショットガン配列決定にさらされる。単離されたリードが得られ、これはセルロースを代謝する能力を暗示している。しかしながら、配列リードは、シロアリの腸に住む生物の数または同一性を特定するように高次の足場へとアセンブルすることはできない。

実施例２７：新種の生物の発見
対象の腸バイオームを持つと知られるシロアリが、配列決定に選択される。シロアリは、木材の分解に必要な酵素をコードする遺伝子を欠くと知られている。シロアリの腸が、セルロースを代謝するのに必要な酵素を単独で又は組み合わせてコードする微生物を持つと考えられる。

実施例１６でのように、核酸がシロアリの集団から得られ、ショットガン配列決定にさらされ、一方で本明細書に開示される方法を使用して、同じ核酸の第２のサンプルが解析にさらされる。ショットガン配列リードは、嫌気性細菌および新規のアルベオラータ種を含む、多くの別々の生物の実質的に完全なゲノムに対応する別々のクラスターにマッピングされる。

ここで生成されたゲノムの解析は、ゲノムの少なくともいくつかが、生物が好気的に又は腸ミクロフロラの他のメンバーによって産生された複合代謝産物の組み合わせの不存在下で培養される必要のある生合成経路を欠くことを示している。したがって、これまで知られていない及び標準アプローチを使用して培養可能ではなさそうな生物に対するゲノムが判定される。

実施例２８：糞便のメタゲノミクスアセンブリにおけるスパイクイン実験
複合メタゲノミクス群集からのゲノムのｄｅｎｏｖｏアセンブリは、特別な困難を示す。単一の生物の典型的なｄｅｎｏｖｏアセンブリプロジェクトとは異なり、インプットＤＮＡは、何百または何千までの又はそれ以上の非常に様々な存在量の無関係な生物に由来する。さらに、個々の種が、小さな又は大きな対立遺伝子変異を有する異なる株に表わされ得る。近接ライゲーションによって利用可能な長距離の接触情報を利用する全ゲノムのメタゲノミクスアセンブリに対する新しいアプローチを記載する。ゲノムがよく特徴づけられている細菌種（Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒ）であるが、糞便サンプルが不在である細菌種からのＤＮＡを加える、１セットの対照実験を実行する。２つのライブラリーを調製する：標準の、短いインサートのショットガンライブラリー、および近接ライゲーションのライブラリーおよび配列の両方。これらのデータを使用して、Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒの既知のゲノムの完全なアセンブリを生成することが可能であることを示す。したがって、このアプローチを使用して、複合メタゲノミクスサンプルから微生物のゲノムを正確に再構成することが可能である。

ＤＮＡ収集：ＭｏＢｉｏＰｏｗｅｒＦｅｃａｌ収集キットを使用して、プロトコルに従い、２５０ｍｇの糞便サンプルから２マイクログラムのＤＮＡを収集した。ＡＴＣＣからＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒからのゲノムＤＮＡｐｒｅｐを注文した。ＰｏｗｅｒＦｅｃａｌ精製後にＤＮＡ断片のサイズ分布を模倣するために、ＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒＤＮＡをＰｏｗｅｒＦｅｃａｌキットに供給されたスピンカラムにかけた。ＴａｐｅＳｔａｔｉｏｎトレースにおいて図１８に示されるように、糞便のＤＮＡ調製物における断片のサイズ分布（１８０１、青色、ｘ軸上の１００ｂｐおよび１５０００ｂｐでのｙ軸の上部近くの急上昇）およびＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒＤＮＡにおける断片のサイズ分布（１８０２、緑色、１５０００ｂｐで１００のサンプル強度での急上昇）は、類似した長さのものであった。ｘ軸は、ｂｐでのサイズを示し、左から右に、１００、２５０、４００、６００、９００、１２００、１５００、２０００、２５００、３０００、４０００、７０００、１５０００、および４８５００が記されている。ｙ軸は蛍光単位（ＦＵ）でのサンプル強度を示す。

配列決定ライブラリーの調製：糞便ＤＮＡと合計の１％、５％、および１０％に加えられたＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒとの３つの混合物を調製した。これは、合計のメタゲノミクスサンプルの１％、５％、および１０％を含むときにゲノムを正確にアセンブルする困難性に近似する（ａｐｐｒｏｘｉｍａｔｅ）ことを意図している。各混合物に関して、以前に記載したように、インビトロで再構成されたクロマチンを使用してＩｌｌｕｍｉｎａショットガンライブラリーおよび近接ライゲーションライブラリーを調製した（Ｐｕｔｎａｍｅｔａｌ．ＧｅｎｏｍｅＲｅｓｅａｒｃｈ，２０１６）。その後、ＩｌｌｕｍｉｎａＭｙＳｅｑシーケンサー上でこれらのライブラリーを配列決定した。

ショットガンリードおよびコンティグアセンブリの解析：ショットガンリードをＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒ（ＧｅｎＢａｎｋＩＤ：ＮＣ＿００３８８８．３）の既知のゲノム配列に整列させることによってショットガンデータにおけるＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノムの適用範囲を評価した。図１９には、スパイクインのＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒＤＮＡの各レベルに対するこれらのショットガンデータにおける倍率カバレージの分布が示される。ｘ軸は倍率カバレージを示し、Ｙ軸はＳ．ｃｏｅｌｉｃｏｌｏｒ上の位置の数を示す。示されるように、１％のスパイクイン（左端のピーク）実験（中間に１３倍の中央値（ｍｅｄｉａｎ））の倍のゲノム適用範囲は、典型的に少なくとも３０倍のゲノム適用範囲を必要とする正確なコンティグアセンブリを支持するほど十分には高くない。一方で、５％（中間のピーク）および１０％（右端のピーク）のスパイクイン実験は、コンティグアセンブリに対する適用範囲が限定されていないようである。

各データセットに対するコンティグをアセンブルするためにＯｍｅｇａ（Ｈａｉｄｅｒｅｔａｌ，２０１４Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ）を使用した。その後、これらのデータにおけるアセンブリの完全性および断片化を評価するために、Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒの既知のゲノム配列にこれらのコンティグをマッピングした。図２０には、１％（赤、左）、５％（緑、中心）および１０％（青、右）のショットガンデータセットに対するコンティグとして存在するＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノムの合計量が示される。その各々を囲む外側の黒丸は、Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒの全ゲノムサイズに比例している。予測通り、１％のスパイクイン実験はコンティグの多くをゲノムへとアセンブルすることに失敗したが、５％および１０％の実験はゲノムのほとんどをコンティグへとアセンブルした。各実験に対するコンティグの総数は表２に与えられる。

これらの結果は、メタゲノミクスからのｄｅｎｏｖｏアセンブリに対する幾つかのアプローチにとって典型的なものであり、構成ゲノムのほとんどは、小さなコンティグへとアセンブルされ得る。典型的な場合では、当業者は、例えば、１０％のスパイクイン実験における１，５２４のコンティグがすべてＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒからのものであることを知らないであろう。

近接ライゲーションライブラリーの連鎖情報の評価：近接ライゲーションライブラリーが、これらのコンティグの足場を正確に組むのに有用な情報を含むかどうかを判定するために、リード対をこれらのライブラリーからＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒの既知のゲノム配列にマッピングした。図２１を参照すると、各リード対によって及ぶ距離が示され、ここでｘ軸はキロベース（ｋｂ）単位で及ぶ距離を示し、Ｙ軸はすべてのリード対にわたる累積分布である。近接ライゲーションライブラリーにとって典型的であるように、リード対によって及ぶ距離は、ライブラリーを生成するために使用されるインプットＤＮＡ断片のサイズまでのすべての距離をカバーする。これは、インビトロでの近接ライゲーションライブラリー調製が、これらの細菌ＤＮＡｐｒｅｐに対しても働き、ゲノムの足場組みおよびアセンブリに有用な情報を含有していることを示している。

ゲノム足場組み：すべてのコンティグの足場を組むために近接ライゲーションライブラリーのデータを使用した。その後、Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノムのほとんどを表わすコンティグがある、５％および１０％の実験におけるＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒに対応するゲノム足場を特定することによって、足場組みの精度および完全性を評価した。１％の実験においてＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒの足場を組むことが、足場を組まれるコンティグの適用範囲があまりにも小さいため、この実験に選択されたパラメーター下では不可能であることに留意されたい。代替的なパラメーターは別の結果をもたらし得る。また、これらの実験のいずれかに対するショットガンデータをより多く生成することが、Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒを含む、存在するすべてのゲノムに対するコンティグの適用範囲を増大させる傾向にあることにも留意されたい。

図２２Ａおよび図２２Ｂには、５％および１０％の実験においてＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒを表わす足場が示される。図２２Ａは、５％の実験においてここで記載されるような生成された３つの足場に対する既知のＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノム（ｘ軸）のドットプロットを描写する。５％の実験において、Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒは、近接ライゲーションのデータで足場を組む前に、２，６４７のコンティグに対する３つの大きな足場に存在する。図２２Ｂは、１０％の実験においてここで記載されるような生成された１つの足場に対する既知のＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノム（ｘ軸）のドットプロットを描写する。１０％の実験において、Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒゲノムは、１つの大きな足場に存在する。

実施例２９：ヒトの糞便ＤＮＡ
上に記載されるｄｅｎｏｖｏメタゲノム配列決定およびアセンブリに対するアプローチを評価するために、一連の実験を行った。ショットガンおよび「Ｃｈｉｃａｇｏ」のインビトロでの近接ライゲーションライブラリーを、ヒトの糞便ＤＮＡ抽出物から生成し、「ＨｉＲｉｓｅ」ｄｅｎｏｖｏコンティグのアセンブリおよび足場組みを実行した。これらの概念実証実験を、以下を判定するように設計した：（１）糞便サンプルから高分子量ＤＮＡを迅速に且つ確実に抽出する方法；（２）主として原核生物からのものである、糞便サンプルから回収されたＤＮＡからインビトロでのクロマチン近接ライゲーションライブラリーを生成するために、Ｃｈｉｃａｇｏの研究室プロトコルを使用する方法；（３）Ｃｈｉｃａｇｏのデータが、同じＤＮＡｐｒｅｐからメタゲノミクスコンティグの足場を有効に組むために使用され得るかどうか；（４）ＤＮＡがメタゲノミクスサンプルへとスパイクされ（ｓｐｉｋｅｄ）、それ故、同じ方法で処理される、既知のゲノムが、確実にアセンブルされ得るかどうか；および（５）どの方法でＨｉＲｉｓｅゲノムのアセンブリ戦略が、メタゲノミクスアセンブリの特別な困難性に適合され得るかどうか。

幾つかの市販のキットを、糞便ＤＮＡからのＤＮＡ抽出に関して試験した。Ｑｉａｇｅｎ糞便ＤＮＡキットは３０－４０キロベースのＤＮＡを絶えず産出し、これは、試験済みのキットの中では最長であり、短い断片はほとんどなかった（図２３Ａを参照すると、健康なドナーからＤＮＡを収集するために使用されるＱｉａｇｅｎＦｅｃａｌｐｒｅｐキットからのＤＮＡ断片サイズが、単一モードの分布となることが示され、ほとんどの断片が３０～４０ｋｂの間であった）。（下に記載される）アセンブリ後に、最大のアセンブリ足場の幾つかに対するリードをマッピングし、近接ライゲーション事象間の推測された距離の分布を測定することによって、近接ライゲーションライブラリーを評価した（図２３Ｂを参照すると、アセンブリおよび足場組み後に、このライブラリーからのＣｈｉｃａｇｏ対（実験２、破線で示される）が、足場にマッピングされた）。典型的なＣｈｉｃａｇｏライブラリーでは、リード対は、インプットＤＮＡのサイズまでの距離に及ぶことができる。この解析は、パイプラインにおける「Ｃｈｉｃａｇｏ」ライブラリーのための標準の品質管理手順の一部であり得、標準のＣｈｉｃａｇｏライブラリーにおける近接ライゲーション産物の分布の有効な評価を提供することができる。この解析が、リードがマッピングされ得ることに対するゲノムアセンブリを必要とし得ることに留意されたい。この解析に関して、これらのデータの足場を組むためにＨｉＲｉｓｅのメタゲノムバージョンを使用し、以下に記載されるようにメタゲノミクスデータのために修正した。この解析から、Ｃｈｉｃａｇｏ手順が、糞便サンプルにおけるＤＮＡの少なくとも幾つかの分画に対して予測される通りに実行されることが示され得る。

また、少ない存在量で存在する、混合物の既知の要素であるときの原核生物のゲノムを正確にアセンブルする能力を試験した。この実験では、完全なゲノムが知られている、ＳｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒからのＤＮＡを使用した。Ｓ．ｃｏｅｌｉｃｏｌｏｒからのＤＮＡを、糞便ＤＮＡｐｒｅｐに加え、その結果、それは合計のＤＮＡ集団の１％であった。重要なことに、インプットＳ．ｃｏｅｌｉｃｏｌｏｒＤＮＡを、糞便ｐｒｅｐに使用されるＱｉａｇｅｎカラムにかけることによって、糞便ＤＮＡに匹敵するサイズに断片化した。この実験では、８．６７ｍｂのＳ．ｃｏｅｌｉｃｏｌｏｒゲノムの８９％を含む、７．６８ｍｂの単一の足場を回収した。この単一の足場（図２４を参照）は、既知のゲノムに対する大きな構造上の差がない。Ｓ．ｃｏｅｌｉｃｏｌｏｒゲノムはＸ軸の上にあり、ここで生成された足場はＹ軸に沿っている。新しい足場が参照配列と同じ開始点で始まらないため、ドットプロットはワードラップする（ｗｒａｐｓ）。アセンブリに誤結合がなく、ほぼ完璧であることに留意されたい。「欠けている（ｍｉｓｓｉｎｇ）」セグメントは、別の大きな足場としてそれ自体がほぼ完全にアセンブルされる単一の領域であり、２つの足場は、Ｓ．ｃｏｅｌｉｃｏｌｏｒのほぼ完全なアセンブリを提供する。この解析から、このアセンブリ戦略が、既知のゲノムを、それが全体の群集の微量成分（この試験の場合では１％）であるときでさえも、正確にその足場を組むことができることが示される。

スパイクインの正しく且つほぼ完全なアセンブリを考慮して、次に、足場組み前後のアセンブリの隣接性を評価した。コンティグアセンブリの工程に関して、Ｍｅｒａｃｕｌｏｕｓアセンブラのバージョンを使用し、メタゲノムデータにおいて予期されるように広範囲の適用範囲を可能にするために修正した。他のメタゲノムアセンブラの使用にも成功した（図示せず）。その後、標準のＨｉＲｉｓｅアプローチで作られた足場にわたる適用範囲の均一性に関する仮定を緩和するＨｉＲｉｓｅ（メタ－ＨｉＲｉｓｅ）のメタゲノミクスバージョンを使用して、コンティグの足場を組んだ。

この解析に関して、ＭｅｔａｇｅｎｏｍｉｃｓＣｏｍｍｕｎｉｔｙＮ５０（ＭＧＣＮ５０）と呼ばれる計量が利用され、これは（１）最大のものから最小のものまで足場を順序付ける、および（２）ショットガンリードをすべての足場にマッピングすることによって計算される。ＭＧＣＮ５０は、すべてのショットガンリードの累積カウントが合計の５０％に達する足場のサイズである。ショットガンリードが各ＯＴＵの群集の存在量の全数調査（ｃｅｎｓｕｓ）を表わすという仮定の下で、この計量は、サンプルに存在するＯＴＵの存在量に関連するため、メタゲノムアセンブリの全体的な隣接性について記載している。リードの５０％未満がアセンブリに確実にマッピングされ得る場合、ＭＧＣＮ５０が未定義であることに留意されたい。ここで収集されたデータを用いて、１．５－２５倍の範囲のＭＧＣＮ５０の改善を達成した。さらに、各実験において、幾つかの複数メガベースの足場を生成した。

これらの結果は、長距離の隣接情報を効率的に生成するために本明細書に開示されるインビトロでのクロマチンアセンブリのフレームワークが、メタゲノム関連で適用可能であることを示す。この手順は、約１マイクログラムの高分子量ＤＮＡを必要とし得る。この量は、標準の、商用の糞便ＤＮＡｐｒｅｐキットを使用して、正常な糞便サンプルから確実に抽出され得る。このＤＮＡは、本明細書で利用されるインビトロでのクロマチンアセンブリ方法に適している。生成された近接ライゲーションライブラリーは、Ｓ．ｃｏｅｌｉｃｏｌｏｒを用いるスパイクイン陽性対照実験から示されるようにメタゲノムサンプルにおいてゲノムの足場を正確に組むために使用され得る。

実施例３０：表現バイアスの最小化
本明細書で開示されるように、Ｃｈｉｃａｇｏプロトコルがインプットとして糞便サンプルからのＤＮＡとともに使用され得ることが示されている。プロトコルから発展させる典型的なアプローチが本明細書に議論される。

Ｃｈｉｃａｇｏプロトコルは、切断部位がＧＡＴＣである特定の制限酵素、ＭｂｏＩでのインビトロでのクロマチン凝集体の消化に依存し得る。プロトコルは、ＭｂｏＩのメチル化非感受性イソ制限酵素（例えばＤｐｎＩＩ）などの他の制限酵素を使用するために修正され得る。メタゲノムの群集メンバーの塩基組成を変えることは、結果として不均等な切断につながり、それ故、アセンブリライブラリーの不均等な表現につながり得る。図２５は、スパイクイン実験におけるショットガンデータに対するＣｈｉｃａｇｏアセンブリデータにおけるリード適用範囲の比率の典型的なプロットを示す。図２５に示されるように、足場の１塩基対当たりのショットガン適用範囲は、サンプルにおける存在量に比例すると解釈される。ショットガン適用範囲のＣｈｉｃａｇｏ適用範囲に対する比率は、約１桁を超えて変動する。この比率が低いときでさえ、多くの場合大きな足場が生成される。この比率は、ほとんどの足場長さに対して１０倍を超える範囲である。中間のＧＣの分画を有する足場が、ＯＴＵ基準につきＣｈｉｃａｇｏライブラリー効率の因子である塩基組成と一致して、Ｃｈｉｃａｇｏ適用範囲の中間レベルを有していることに留意されたい。このバイアスを縮小するために、様々な戦略が利用され得る。

制限酵素の組み合わせの使用を試験する：極端に高いＡ／Ｔ含量を用いるプロジェクトに関して、制限部位がよりＡ／Ｔ豊富なそのＭｂｏＩ（ＧＡＴＣ）である、代替的な制限酵素が使用され得る。メタゲノム群集は、種々様々のＧ／Ｃ含量を有するゲノムを有し、したがって、すべての群集ＯＴＵのために効率的なＣｈｉｃａｇｏライブラリー生成をもたらすのに、単一の制限酵素は理想的ではないかもしれない。酵素の組み合わせが、多様な糞便サンプルを有するＣｈｉｃａｇｏライブラリーｐｒｅｐに利用され得る。

制限酵素のないプロトコルをメタゲノミクスの使用に適合させる：制限酵素のないプロトコルはまた、Ｃｈｉｃａｇｏライブラリーに利用され得る。そのような方法は、配列非依存性の方法でＤＮＡを切断するヌクレアーゼを利用することができる。平滑末端を架橋し、連結された領域をマークするために、例えば、ビオチン化されたアダプターがその後使用される。

実施例３１：メタゲノムアセンブリのソフトウェアプラットホーム
データを解析するために２工程のプロセスを使用した。第１の、ペアエンド断片のショットガンデータを、Ｍｅｒａｃｕｌｏｕｓに対する臨機応変な変更を使用して足場へとアセンブルした。同じサンプルからのＣｈｉｃａｇｏデータを加えて、これらのアセンブルされた配列を、ＨｉＲｉｓｅに対するインプットとして使用した。これらの実験のために、ＭｅｒａｃｕｌｏｕｓおよびＨｉＲｉｓｅの両方を、臨機応変に変更し、（１）は異なる種を表わす足場における配列適用範囲（即ち存在量）の変更、および（２）種内の系統間多型を可能にした。他のメタゲノムアセンブラ（例えば、ＯｍｅｇａおよびｍｅｔａＳｐａｄｅｓ）での実験は、第一段階に対する変更されたＭｅｒａｃｕｌｏｕｓ（図示せず）に比べて大きな改善をもたらさなかった。ＨｉＲｉｓｅは、元来二倍性ゲノムアセンブリのために開発され、したがって均一のＣｈｉｃａｇｏおよびショットガンの適用範囲を想定している。この特徴を、足場工程におけるメタゲノムのために変更した。顕著な足場サイズは、このアセンブリ方法論によってＣｈｉｃａｇｏデータを用いて達成可能であった。これらの２工程はまた、分岐系統の改善されたアセンブリおよび個別アセンブリのために統合され得る。

多型部位の改善されたアセンブリ：スパイクイン対照実験では、多くの他のＯＴＵが、糞便サンプルにおいてより高い存在量で存在したという事実にもかかわらず、最長の足場は、Ｓ．ｃｏｅｌｉｃｏｌｏｒからのものであった（１％のスパイクイン）。重要なことに、（クローン）スパイクイン対照が、系統変動がなかったという点で他のＯＴＵとは分類上異なっていたことに留意する。したがって、系統変動を介して検出およびアセンブルする有効な方法は、種レベルの隣接性を改善することができる。

元のＭｅｒａｃｕｌｏｕｓアルゴリズムを、二倍性ゲノムのアセンブリ用に設計した。その設定では、多型は等しい頻度の２つの対立遺伝子変異体として現われ、その結果、それらの合計はニ倍性ゲノムの適用範囲の（均一な）深さである。これらの対立遺伝子変異体は、低レベルで生じる（例えば、Ｉｌｌｕｍｉｎａデータで＜１％）、配列決定エラーとは容易に差別化され得る。対照的に、メタゲノムにおいて、（１）ハプロタイプが系統存在量に依存して異なる頻度で生じることができ；（２）系統のすべてのハプロタイプにわたる合計深さは、種の存在量を表わし、これは種間（及びそれ故足場間）で異なり；および（３）非常に豊富な種において、低エラー率であっても、真実の変異体の容易に混同され得る繰り返し起こるエラーを引き起こし得る。

したがって、メタゲノムに関して、Ｍｅｒａｃｕｌｏｕｓは、（１）（ｄｅＢｒｕｉｊｎグラフ中のフォークとして現われる）頻度が異なるハプロタイプを可能にする、（２）深さが全体的制約よりもむしろ局所的制約となることを可能にし、（３）全体的カットオフよりもむしろ局所的深さに対するエラーをフィルタ処理するように適合され得る。これらの変化は、オープンソースのＭｅｒａｃｕｌｏｕｓコードに対して行われ、２つ以上の密に関連する系統のスパイクインで生成された試験データで経験的に確証され得る。局所的深さ（各種の存在量）がデータから学習され得るため、Ｍｅｒａｃｕｌｏｕｓへのこれらの調節に対する自己一貫性の要素がある。これらのアプローチは、様々な糞便サンプルに対して試験され得、我々のアルゴリズムが強固なものであることを確かなもととしている。

図１５Ａおよび図１５Ｂに示されるように、予備アセンブリは、Ｃｈｉｃａｇｏデータがさらなる足場組みのために残りの利用されていない情報を含むことを示している。例えば、現在のアセンブリ戦略は、広く異なるＧＣ含量または深さを有する足場よりも同じ種からの足場を表わす傾向にある、類似した適用範囲のＧＣ含量および深さを有する多くの連結されていない足場を生成することができる。臨機応変な方法でこれらの足場をグループ化することは、元のビニング戦略の基礎であり、これは、さらなる連鎖のための仮説と見なされ得る。

Ｃｈｉｃａｇｏデータが、これらの仮説の非依存性の実験的確証を提供することができたかどうかについて、さらなる調査を実行した。図２６Ａおよび図２６Ｂは、Ｃｈｉｃａｇｏリード対によって高度に結合されるショットガン足場が、適用範囲のＧＣ含量および深さにおいて類似する可能性がかなりあることを示している。図２６Ａは、スパイクイン実験におけるすべての足場のための適用範囲の深さ（ｙ軸）およびＧＣ含量（カラースケール）を示す；恐らく同じＯＴＵからのものである類似した適用範囲およびＧＣ含量での足場の線条。図２６Ｂは、すべてのＣｈｉｃａｇｏリンクの分画としてのｘ軸上の各足場の、その１番目から４番目の最も結合された足場に対するＣｈｉｃａｇｏ結合性を示し、ｙ軸は、ＧＣ＋足場ペア間の倍率カバレージ空間におけるユークリッド距離を示し、Ｃｈｉｃａｇｏ連鎖と高度に結合される足場ペアは、ＧＣ含量および倍率カバレージに類似する傾向がある。分離菌株の既知のゲノムとの比較は、これらが、Ｃｈｉｃａｇｏリード対によって支持されるが、現在のＨｉＲｉｓｅアルゴリズムによって作られない結合部（ｊｏｉｎｓ）であることを更に支持している。これを修正する際に複数の方法が利用され得る。第１に、ＨｉＲｉｓｅによってこれらの作られていない結合部に与えられる内部重量が解析され、スパイクインのグラウンドトルースまたは既知のゲノムからの外部サポートのいずれかによってガイドされる、改善されたヒューリスティックスが利用され得る。第２に、ＧＣ含量および深さを明確に考慮に入れるヒューリスティックスが利用され得る。

ＧＣ含量および深さは、足場を仮定された連鎖群へと分割する方法である。元のＴｙｓｏｎレポート以来、より精巧な方法が開発され、足場特徴（例えば四量体頻度）の異なる統計的特徴に基づいたこの問題に対する複数のアプローチがある。完全な連鎖情報も、Ｃｈｉｃａｇｏデータから抽出され得る。

系統を別々にアセンブルする目的を達成するために、以下の反復手段を実施するソフトウェアモジュールが利用され得る：（１）すべてのリードをマッピングして、初期のＭｅｒａｃｕｌｏｕｓ／ＨｉＲｉｓｅアセンブリに戻す。ＢＷＡ－ＭＥＭは、系統変動に対して予測された通りに、３－４％まで分岐する配列を容易に整列させることができる汎用アライナ（ａｌｉｇｎｅｒ）である；（２）これらの整列における可変位置を特定し、それらを「フェージングして」、ハプロタイプを抽出する。ＧＡＴＫおよびＨａｐＣｕｔを含む既存の方法は、メタゲノムとの使用に適し、２つを超えるハプロタイプおよび不平等な頻度の可能性を顕著に予想し得る。フェージングが複数の変異体上にマッピングされるリード／リード対を必要とするため、ショットガン配列からのハプロタイプの特定は、リード長によって制限され得る；および（３）最終的に、ハプロタイプが適切に多形な部位においてを特定されて、これらのハプロタイプに一致するＣｈｉｃａｇｏリードが特定され、Ｃｈｉｃａｇｏ対を用いて、は系統特異的な足場が生成され得る。異なる系統が構造的変異をしばしば示すため、系統認識のアセンブリはアセンブリ品質を劇的に改善することができ、複数のそのような系統が１つの「コンセンサス（ｃｏｎｓｅｎｓｕｓ）」種のアセンブリに崩壊される場合、足場組みは構造上の差で終端となる（図２７を参照）。図２７は、足場組みのパフォーマンスに対する系統変動の効果のグラフを示し、各足場の長さは、系統変動（代替的なベース）の証拠を示す部位のその分画に対して示され、最も変異な足場が上部で特定される。

本開示の好ましい実施形態が、本明細書に示され、記載されているが、このような実施形態がほんの一例として提供されることは、当業者に明白となる。多数の変形、変更、および置換が、本開示から逸脱することなく、当業者によって想到される。本明細書に記載される本開示の実施形態の様々な代案が、本開示の実施において利用され得ることを理解されたい。以下の請求項が本開示の範囲を定義するものであり、これらの請求項の範囲内の方法および構造並びにそれらの同等物が、それによって包含されるものであることが意図されている。

Claims

少なくとも２つの種を含む、異種のサンプル中の核酸の分子の多様性を分析する方法であって、
ａ）少なくとも２つの種からの安定化させた多様な複数の核酸のうちの少なくとも第１のメンバーが、第１の結合部分に連結された第１の核酸セグメントおよび第２の核酸セグメントを含むように、前記少なくとも２つの種からの安定化させた多様な複数の核酸を含む安定化させた核酸サンプルを得る工程であって、第１のリン酸ジエステル骨格が前記第１の核酸セグメントと前記第２の核酸セグメントとの間で切断され、前記少なくとも２つの種からの安定化させた多様な複数の核酸のうちの第２のメンバーが、第２の結合部分に連結された第３の核酸セグメントおよび第４の核酸セグメントを含み、第２のリン酸ジエステル結合は、前記第３の核酸セグメントと前記第４の核酸セグメントとの間で切断される、工程と、
ｂ）前記第１の核酸セグメントおよび前記第２の核酸セグメントが、前記少なくとも２つの種からの安定化させた多様な複数の核酸の共通の核酸から生じたものとして同定可能であるように、前記第１の核酸セグメントを第１のタグでタグ付けし、前記第２の核酸セグメントを第２のタグでタグ付けし、そして前記第３の核酸セグメントおよび前記第４の核酸セグメントが、前記少なくとも２つの種からの安定化させた多様な複数の核酸の共通の核酸から生じたものとして同定可能であるように、前記第３の核酸セグメントを第３のタグでタグ付けし、前記第４の核酸セグメントを第４のタグでタグ付けする工程と、
ｃ）前記第１の核酸セグメントの少なくとも同定可能な部分と前記第１のタグ、および、前記第２の核酸セグメントの同定可能な部分と前記第２のタグを含む第１の配列、ならびに前記第３の核酸セグメントの少なくとも同定可能な部分と前記第３のタグ、および、前記第４の核酸セグメントの同定可能な部分と前記第４のタグを含む第２の配列を得る工程と、
ｄ）前記少なくとも２つの種からの安定化させた多様な複数の核酸の複数の配列のセグメントが少なくとも１つの足場に割り当てられるように、前記第１の配列を含む少なくとも第１の配列足場、および前記第２の配列を含む少なくとも第２の配列足場を少なくとも構築する工程であって、前記少なくとも２つの種からの安定化させた多様な複数の核酸の共通な核酸から生じたものとして同定可能であるようにタグ付けされた核酸セグメントは、共通な足場に割り当てられる、工程と、
ｅ）構築された複数の配列足場の数をカウントする工程と、を含み、
生成された足場の数は前記異種のサンプルに存在する種の数に対応する、方法。
前記第１の核酸セグメントと前記第２の核酸セグメントとをタグ付けする工程は、第１の核酸セグメントに第１のオリゴヌクレオチドを加え、第２の核酸セグメントに第２のオリゴヌクレオチドを加える工程を含み、前記第１のオリゴヌクレオチドと前記第２のオリゴヌクレオチドは第１の配列を含む、請求項１に記載の方法。
第１の配列を有する核酸セグメントは、第１の足場に割り当てられる、請求項２に記載の方法。
前記第１の核酸セグメントの前記同定可能な部分をコンティグデータセットにマッピングする工程と、前記コンティグデータセットの任意の一致するコンティグを前記共通の足場へ含める工程を含む、請求項３に記載の方法。
コンティグデータセットは同時に生成される、請求項４に記載の方法。
コンティグデータセットはデータベースから得られる、請求項４に記載の方法。
前記第１の核酸セグメントと前記第２の核酸セグメントとをタグ付けする工程は、前記第１の核酸セグメントを前記第２の核酸セグメントへ連結する工程を含み、ここで、前記第１の核酸セグメントと前記第２の核酸セグメントは共通の足場に割り当てられる、請求項１に記載の方法。
前記第１の核酸セグメントの前記同定可能な部分をコンティグデータセットにマッピングする工程と、前記コンティグデータセットの任意の一致するコンティグを前記共通の足場へ含める工程を含む、請求項７に記載の方法。
コンティグデータセットは同時に生成される、請求項８に記載の方法。
コンティグデータセットはデータベースから得られる、請求項８に記載の方法。
異種のサンプルは複数の対立遺伝子変異体を含む、請求項１に記載の方法。
対立遺伝子変異体の数は足場の数よりも多い、請求項１１に記載の方法。
対立遺伝子変異体の数は生成された足場の数と等しい、請求項１１に記載の方法。
前記リン酸ジエステル骨格は、安定化させたサンプルを得る工程の後に切断される、請求項１－１３のいずれか１つに記載の方法。
前記安定化させたサンプルは架橋剤に接触させられる、請求項１－１３のいずれか１つに記載の方法。
前記安定化させたサンプルはホルマリン固定パラフィン包埋（ＦＦＰＥ）サンプルである、請求項１－１３のいずれか１つに記載の方法。
逆転写酵素に、前記異種のサンプルを接触させる工程を含む、請求項１－１３のいずれか１つに記載の方法。
核酸配列データベースに対して、前記足場の少なくとも１つを探す工程を含む、請求項１に記載の方法。
前記足場へ一意的にマッピングされる核酸配列が前記データベースにない場合に、前記足場を新規なものとして分類する工程を含む、請求項１８に記載の方法。
異種のサンプルは、共通の種の少なくとも２つの個体へマッピングされる核酸を含む、請求項１－１３のいずれか１つに記載の方法。
異種のサンプルは、共通の種の少なくとも３つの個体へマッピングされる核酸を含む、請求項１－１３のいずれか１つに記載の方法。
異種のサンプルは、少なくとも２つの種へマッピングされる核酸を含む、請求項１－１３のいずれか１つに記載の方法。
異種のサンプルは、少なくとも３つの種へマッピングされる核酸を含む、請求項１－１３のいずれか１つに記載の方法。
異種のサンプルは、少なくとも４つの種へマッピングされる核酸を含む、請求項１－１３のいずれか１つに記載の方法。
配列リードは、外因性配列情報に関係のない少なくとも２つの核酸足場へアセンブルされる、請求項１－１３のいずれか１つに記載の方法。
配列リードは、外因性配列情報に関係のない少なくとも３つの核酸足場へアセンブルされる、請求項１－１３のいずれか１つに記載の方法。
第１のゲノムの少なくとも５０％と第２のゲノムの少なくとも５０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる、請求項１－１３のいずれか１つに記載の方法。
第１のゲノムの少なくとも６０％と第２のゲノムの少なくとも６０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる、請求項１－１３のいずれか１つに記載の方法。
第１のゲノムの少なくとも７０％と第２のゲノムの少なくとも７０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる、請求項１－１３のいずれか１つに記載の方法。
第１のゲノムの少なくとも８０％と第２のゲノムの少なくとも８０％が少なくとも２つの核酸足場で表されるように、配列リードは少なくとも２つの核酸足場へアセンブルされる、請求項１－１３のいずれか１つに記載の方法。
固相可逆的固定化（ＳＰＲＩ）ビーズを使用する工程を含む、請求項１－１３のいずれか１つに記載の方法。
安定化させたサンプルは約５マイクログラムを超えないＤＮＡを含む、請求項１－１３のいずれか１つに記載の方法。