JP6017458B2

JP6017458B2 - 大量並列連続性マッピング

Info

Publication number: JP6017458B2
Application number: JP2013552641A
Authority: JP
Inventors: ジェイアショクシェンデュア; ジェロッドジョセフシュウォーツ; アンドリューコリンエイディ; チョリリー; ジョセフブライアンハイアット; ジェイコブオットーキッツマン; アカシュクマル
Original assignee: ユニヴァーシティ・オブ・ワシントン・スルー・イッツ・センター・フォー・コマーシャリゼーション
Priority date: 2011-02-02
Filing date: 2012-02-02
Publication date: 2016-11-02
Anticipated expiration: 2032-02-02
Also published as: JP2014506788A; CN103443338A; EP2670894A4; US11999951B2; CA2826131A1; US11299730B2; CN103443338B; AU2012212148A1; EP2670894A2; WO2012106546A2; EP2670894B1; US20220315918A1; AU2012212148B2; US20130203605A1; US20200216839A1; CA2826131C; WO2012106546A3; AU2012212148B8; US10457936B2

Description

（優先権の主張）
本願は、２０１１年２月２に出願された米国特許仮出願第６１／４３８，９３５号及び２０１１年４月７日に出願された米国特許仮出願第６１／４７３，０８３号に対する優先権を主張するものであり、両出願の発明の内容は、全体が本明細書に記載された場合と同様に参照により本明細書に組み込まれる。

（政府支援に関する記述）
本発明は、米国国立衛生研究所により授与された助成金番号３Ｕ５４ＡＩ０５７１４１−０６Ｓ１８８０５０９及び１Ｒ０１ＨＧ００６２８３−０１の下、政府の支援を受けて為されたものである。政府は本発明に対して一定の権利を有する。

この数年の間に、大量並列配列決定プラットフォームによりＤＮＡ配列決定の１塩基当たりのコストが数桁削減されている（Ｓｈｅｎｄｕｒｅ及びＪｉ，２００８）。市販の「次世代」技術は、そのほとんどすべてが配列決定対象の高密度アレイの生化学反応と画像化のサイクルを繰り返して比較的短いリードを得る方法、すなわち「サイクリックアレイ（ｃｙｃｌｉｃ−ａｒｒａｙ）」法によるものである（Ｓｈｅｎｄｕｒｅら，２００５；Ｍａｒｇｕｌｉｅｓら，２００５；Ｄｒｍａｎａｃら，２００９；Ｂｒａｓｌａｖｓｋｙら，２００３；Ｂｅｎｔｌｅｙら，２００８）。このようなプラットフォームが広く普及したのは、電気泳動を用いる配列決定に代わる実行可能な代替手段を開発する数十年もの努力の結果である（Ｓｈｅｎｄｕｒｅら，２００４）。

このような成功と照らし合わせれば、数多くの開発中の技術には、現在すでに実行可能な技術の技術的性能を向上させる可能性がある。サイクリックアレイ（ｃｙｃｌｉｃ−ａｒｒａｙ）法を更に発展させることにより、あるいはナノポアシーケンシング（Ｂｒａｎｔｏｎら，２００８）、ＤＮＡ合成のリアルタイム監視（Ｅｉｄら，２００９）及び電子顕微鏡による配列決定などの他の有望な戦略を成熟させることにより、このような向上が達成されるであろう。また、再配列決定、ｄｅｎｏｖｏアセンブリ、エクソーム配列決定法（Ｎｇら，２００９）、ＲＮＡ−Ｓｅｑ（Ｍｏｒｔａｚａｖｉら，２００８）、ＣｈＩＰ−Ｓｅｑ（Ｊｏｈｎｓｏｎら，２００７）及び全ゲノムでのクロマチン相互作用のマッピング（Ｌｉｅｂｅｒｍａｎ−Ａｉｄｅｎら，２００９；Ｄｕａｎら，２０１０）を含めたいくつかの種類の配列決定法の応用が、大量並列配列決定プラットフォームから生み出されている。

ＤＮＡ配列決定技術のプラットフォームは急速に進歩しているが、ＤＮＡ配列決定のコストは、目的によっては依然として非常に高額である。したがって、既存の技術及び開発中の技術の適用性を向上させるとともにコストも削減するＤＮＡ配列決定技術関連の方法を作出することが望まれている。

ショートリード配列決定法では、ゲノムのセグメント重複及び構造の複雑な領域の再配列決定、ハプロタイプ情報の分解ならびに哺乳動物サイズのゲノムｄｅｎｏｖｏアセンブリに制限がある。更に、配列決定の１塩基当たりのコストを更に削減しても、上に挙げた制限に対処するのにほとんど効果がない。ＤＮＡ配列決定の新たな方法が成熟し現在の技術を上回っても、技術は、そこから得られる連続性情報という点で制限を受け続けるものと思われる。したがって、さまざまなスケールで連続性情報を得る低コストな方法が本明細書に提供される。

いくつかの実施形態では、連続性情報を捕捉する方法が本明細書に提供される。この方法は、標的ＤＮＡ配列をトランスポザーゼで処理して、１つ以上の断片化又は挿入事象を生じさせることと、続く増幅の間（ｉｉ）のトランスポザーゼ処理の間（ｉ）に、標的ＤＮＡ配列に１つ以上の認識配列を付加又は挿入することと、処理されたＤＮＡを配列決定することと、共通の特性をもつ標的ＤＮＡ配列又は認識配列を同定することにより連続性情報を捕捉することとを含み得る。

一実施形態では、１つ以上の断片化又は挿入事象により、標的ＤＮＡに由来する標的核酸分子のライブラリーが作製される。このような方法では、１つ以上の認識配列は、各断片化又は挿入事象に隣接する配列に対称的にタグ付けされた１つ以上のバーコードであり、１つ以上のバーコードの共通の特性は、同一の又は相補的なバーコード配列である。

別の実施形態では、標的ＤＮＡ配列は標的ＤＮＡフラグメントのセットを含む。このような実施形態は、トランスポザーゼによる処理の前又は後にエマルジョン（emulsion）又は希釈剤(dilution)で標的ＤＮＡフラグメントを区画化して（compartmentalize）、標的ＤＮＡフラグメントの区画を２つ以上生じさせることを更に含み得る。この実施形態では、１つ以上の認識配列は１つ以上の区画特異的バーコードであり、各区画特異的バーコードは区画化段階で生じた１つ以上の区画に対応するものであり、１つ以上のプライマー配列の共通の特性は、同一の区画特異的バーコードである。

別の実施形態では、１つ以上の認識配列は、標的ＤＮＡ配列又は標的ＤＮＡ配列内のインサートの末端を修飾する１つ以上のアダプター配列である。このような実施形態では、１つ以上のアダプター配列は１つ以上の表面結合プライマーに相補的であり得る。いくつかの態様では、トランスポザーゼは第二の表面結合プライマーに相補的な核酸と結合している。更にこのような方法は、１つ以上のアダプター配列を１つ以上の表面結合プライマーとハイブリダイズさせることを含み得る。いくつかの実施形態では、共通の特性はフローセル上のｘ、ｙ座標により表すことができる拘束された物理的位置であり、またトランスポザーゼは表面結合認識配列と結合して、表面結合トランスポザーゼ複合体を形成する。いくつかの実施形態では、標的ＤＮＡ配列の処理は、複数の表面結合トランスポザーゼ複合体を標的ＤＮＡ配列に曝すことを含む。

いくつかの実施形態では、ビサルファイト（bisulfite）配列決定法が提供される。このような方法は、それぞれが二本鎖ＤＮＡトランスポザーゼ認識配列と、メチル化シトシン（Ｃ）残基を有する一本鎖ＤＮＡアダプターオーバーハングとを含むトランスポザーゼ複合体を用いて、標的ＤＮＡ分子内へのｉｎｖｉｔｒｏ転移(transpose)を実施することと、転移を行った標的ＤＮＡ分子にビサルファイト処理を施すことと、核酸増幅を実施することと、得られた核酸ライブラリーを配列決定することとを含み得る。

他の実施形態では、染色体立体配座を推定する方法が提供される。このような方法は、細胞内のＤＮＡに架橋を施すことと、架橋ＤＮＡを細胞から単離することと、架橋ＤＮＡを断片化することと、断片化された架橋ＤＮＡ分子を、第一の表面結合プライマーに相補的であるか、又は第一の表面結合プライマーに対応するアダプターで末端修飾することと、ｅ）断片化し末端修飾した標的ＤＮＡ分子の末端を第一の表面結合プライマーとハイブリダイズさせることと、ｆ）それぞれがＤＮＡトランスポザーゼと第二の表面結合プライマーに対応する１つ以上の配列とを含む非表面結合トランスポザーゼ複合体を用いて転移を実施することと、ｇ）クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製することと、ｈ）クローン化により生じた核酸を配列決定することと、ｉ）隣接するクラスター同士を対にすることにより、染色体上の位置間の物理的相互作用を決定することとを含み得る。

不連続なオリゴヌクレオチドの高密度でランダムなｉｎｖｉｔｒｏ転移がゲノムＤＮＡのアダプター隣接ショットガンフラグメントへの高効率な変換を可能にすることを示す図である。薄灰色の部分（１）＝トランスポザーゼ；濃灰色のバー（２）＝モザイク末端（ＭＥ）；黄色及び赤色（３ａ、３ｂ）＝非対称な５’オーバーハング；青色（４）＝ゲノムＤＮＡ。標準的な方法（「超音波処理」）及びトランスポソーム法（「トランスポザーゼ」）により作製した男性ヒト由来のライブラリーの全ゲノム配列決定に関するカバレッジ倍数のヒストグラム（ｘ軸＝カバレッジ倍数；ｙ軸＝ゲノムの％）であり、常染色体（「Ａｕｔ．」）及び性染色体（「Ｓｅｘ」）を別個にプロットしたものである。合成の不連続なトランスポゾンによる高密度なｉｎｖｉｔｒｏ断片化で得られたフラグメントサイズのヒストグラム（ｘ軸＝塩基対；ｙ軸＝カウント数）である。挿入図は、約３５ｂｐにおける急激な減少の立体障害モデルと一致するトランスポソーム占有のモデルを示している。縮重一本鎖「バブル」（Ａ／Ｂ）を有するトランスポソームをゲノムＤＮＡ（濃灰色、（１））にｉｎｖｉｔｒｏで高密度に挿入した後、全ゲノム増幅（ＷＧＡ）を行って、縮重ストレッチの各鎖を（Ａ／Ａ又はＢ／Ｂに）分解することを示す図である。ニッキング（中央部の灰色の部位、（２））及び鎖置換重合により断片化が完了すると同時に、同じバーコード（Ａ／Ａ（図中）又はＢ／Ｂ）で対称的にタグ付けされた接合部が残る。トランスポザーゼに基づくショットガンライブラリーの限定的な配列決定に由来する独立したリードが９ｂｐ間隔でのマッピングに富むことを示す図である。この現象は、低投入量（５０ｎｇ、矢印なし）より超低投入量（１０ｐｇ、矢印）の方ではるかに顕著にみられ、このことは、少数の別個の断片化事象をサンプリングすることが多いことを反映している。実際のデータで観察された例に基づく概略図であり、隣接する位置にマッピングされ９ｂｐの重複を有するリードペアは、隣接する断片化事象に由来する可能性がある。「超低投入量」サンプル由来のライブラリーに基づく複雑度が制限されたデータでは、合計で約１Ｋｂ〜約２Ｋｂにおよぶ、４〜６の局所的に由来するリードペアの鎖が同定され得る。個々の「連結」を同定する効率（ｘ軸、百分率；９９％の地点からスケールが変わることに注意）の関数として表した、同じゲノムＤＮＡ分子に沿った一連の断片化事象から生じたものとして同定されるリードペアの鎖の合計長の予想されるＮ１０、Ｎ５０、Ｎ９０の長さ（ｙ軸）を示すグラフである。縮重領域（Ａ）に隣接する共通領域（（１）、（２））からなる鋳型のエマルジョンＰＣＲにより、クローン的にバーコード付けされたビーズが得られることを示す概略図である。ビーズ繋留鎖（２）の共通３’末端自体が、続くエマルジョンＰＣＲ反応においてプライマーとして働き得る。相補的配列（茶色）のハイブリダイゼーションにより連結されるアダプター（（１）、（２））を有するトランスポソームによるｉｎｖｉｔｒｏ断片化を施したＨＭＷゲノムＤＮＡ分子（青色）を示す概略図である。次いで、これらの連結したアダプターが密に散在するＤＮＡをマイクロ流体により乳化し、滴特異的バーコード（Ａ）を有するプライマーを用いるエマルジョンＰＣＲに供する。ＨＭＷゲノムＤＮＡフラグメント由来の配列リードを最終ライブラリー内の同じバーコードに関連付けることができる。ＨＭＷＤＮＡ（１）の等温性クローン化多重置換増幅を補助するのに使用し得るエマルジョンを示す概略図である。これを、トランスポソーム断片化及び液滴特異的バーコードを含むプライマー用いるエマルジョンＰＣＲの両方のための試薬を含有する液滴と融合する（配色は図８及び９と同じである）。実験的に相化したアセンブリのさまざまなＬＤ値を、同じ個人のＨａｐＭａｐによる集団ベースのＨａｐＭａｐ予測と比較したものを示すグラフである。ＨａｐＭａｐ推定とは異なり、実験的に相化したハプロタイプはＬＤに依存しない方法により得られるため、不一致が推定に基づくハプロタイプにおけるエラーを優勢に反映する。光学的配列決定に関連する方法を容易にするためのｉｎｓｉｔｕ転移の使用を図示したものである。（Ａ）単一の鋳型をフローセル上で伸展させ、断片化して、そのゲノム上の距離に比例する物理的距離で空間的に分離されたクラスターを作製する。（Ｂ）ランダムコイル状のＤＮＡをその末端で断片化して、コイルの真下の領域に空間的に閉じ込められたクラスターを作製する。２つの異なる配列決定プライマーを使用することにより、どちらかの末端に由来するリードをデコンボリューションすることができる。配列決定４サイクルにわたる「クラスターペア」の生の画像に関する空間的に分離された「クラスターペア」の代表的な画像（Ａ）及び２つの鋳型の４サイクルにわたる生のベースコーリング強度の総和（Ｂ）を示す図である。修飾Ｉｌｌｕｍｉｎａフローセルに繋留し、１５Ｖ／ｃｍの電場で伸展させた４８．５Ｋｂのラムダゲノム（Ａ）及び（Ａ）のように伸展させ、トランスポソームにより５５℃で５分間処理し、再び画像化したＤＮＡ（Ｂ）の代表的な画像を示したものである。画像化はＩｌｌｕｍｉｎａＧＡ２ｘで実施した。スケールバー＝２０μｍ。断片化を行わずにライブラリーにフローセル適応性アダプターを挿入する前処理により、伸展した分子の軸に沿って複数のリードペアを作製することが可能であることを示す概略図である。一本鎖バブルを含む合成トランスポゾンのゲノムＤＮＡへの高密度の挿入を示す図である。レーン１＝ラダー（ｋｂ）；レーン２＝未断片化ゲノムＤＮＡ；レーン３＝挿入後、ＰＣＲ後の材料。対称的にタグ付けされ５’−５’連結したトランスポゾン試薬の構築を示す図である。対称的にタグ付けされた５’−５’アダプターの予想サイズ（１９４ｂｐ）と一致する種（ａ）を示す図であり、転移後、ＰＣＲ後のフラグメントアンプリコンのサイズ分布は、約１００〜２００ｂｐのゲノムＤＮＡ及び約２００ｂｐのアダプター／バーコードの合計（ｂ）と一致する。途中に操作を加えない単一反応体積での転移及びポリメラーゼ伸長を示す図である。トランスポザーゼが断片化を進める。ポリメラーゼがニックトランスレーションによるギャップ閉合及び限られたサイクルのプライマー伸長を進めて、アダプターを有するバーコード（Ａ）を付加する。途中に操作を加えない単一反応体積での転移及びポリメラーゼ伸長によって、カラムクリーンアップ後にＰＣＲにより回収可能な生成物が得られることを示す図である。ＰＣＲで使用するプライマーは、伸長段階の間に付加された配列に対応する。レーン１＝１００ｂｐラダー；レーン２＝ゲノムＤＮＡ（ｇＤＮＡ）を含まない対照；レーン３＝５０ｇＤＮＡ投入。フローセル配列に対応する適切なアダプター及び３’ｓｓＤＮＡテールを用いてショットガンＨＭＷゲノムＤＮＡフラグメントを作製する２通りの方法を示す図である。ｉｎｓｉｔｕ転移法に由来するリードによる大腸菌（Ｅ．ｃｏｌｉ）ゲノムのカバレッジを示す図である。Ｘ軸＝ゲノムの座標。Ｙ軸＝リード数（１０Ｋｂ区間）。いくつかの実施形態によるライブラリー調製のためのＹアダプター法を示す図である。多重置換分岐化ローリングサークル増幅法及びポロニー（すなわち、ポリメラーゼコロニー）形成が生じることを示す図である。いくつかの実施形態によるフローセルプライマーを含むトランスポゾンバブルの直接的な配列決定法を示す図である。いくつかの実施形態による、生じた「バブル」構造を維持するために２つの同じアダプターを逆方向に使用し、次いで乳化及び増幅を行う、トランスポゾン挿入法を示す図である。いくつかの実施形態による、反復領域内に固有のバーコード又は挿入部位を使用することにより配列決定する、トランスポゾンで改変したフォスミドライブラリープールによる方法を示す図である。フローセルでクラスターを作製する方法を示す図である：４本の腕を任意に組み合わせてフローセルとハイブリダイズさせ、ライブラリーを作製することが可能である。この場合、２本の腕だけでそれが行われる。「インフィニペア（ｉｎｆｉｎｉｐａｉｒ）」を用いて転写因子結合部位間の相互作用を同定する方法を示す図である。細胞をホルムアルデヒドで架橋してＣｈＩＰに供し、ＤＮＡ：タンパク質複合体をプルダウンし得る。修飾された配列決定アダプターを複合体に連結して、インフィニペア（ｉｎｆｉｎｉｐａｉｒ）クラスターの作製に使用し得る。インフィニペア（ｉｎｆｉｎｉｐａｉｒ）技術を用いてリードをクラスター化して、クラスターをマッチさせるのに使用し得る。新たなシス及びトランス相互作用の同定は、すでに記載されている方法（１６）を用いて行い得る。インフィニペア（ｉｎｆｉｎｉｐａｉｒ）を用いて少数の細胞で染色体立体配座をモデル化する方法を示す図である。ｉｎｓｉｔｕライブラリー構築のためのサンプル調製を示す図である。ａ）サイズ選択したＨＭＷゲノムＤＮＡを末端修復した後、ループ領域付近にウラシルヌクレオチドを含むヘアピンアダプターと連結する。青色及び赤色は異なるプライミング配列を表し、各鋳型分子が２つの異なるプライマー配列と連結する可能性は５０％である。連結産物をエキソヌクレアーゼＩＩＩ及びＶＩＩで処理することにより、３’又は５’末端が露出した未連結ＤＮＡ分子が除去される。ウラシルに特異的な切出し試薬（ＵＳＥＲ（商標））による処理でウラシル塩基が切り出されてヘアピンが開環し、一本鎖３’テールを有するフローセルの準備ができたライブラリーが生成される。ｂ）ライブラリーを標準的なＩｌｌｕｍｉｎａフローセルに負荷し、両端をハイブリダイズさせる。高活性トランスポザーゼを用いて、ランダムに断片化し、共通のフローセルアダプターをＨＭＷがハイブリダイズしたライブラリー中に挿入して、ＬＭＷのクラスターの準備ができた鋳型を作製する。クラスター作製後、２つの異なる配列決定プライマー（赤色及び青色で示されている）を用いて、どちらがの末端に由来するリードをデコンボリューションすることができる。互いに１．５μｍ以内にあった最近接ペアを示す図であり、ａ）リード１対リード１、ｂ）リード２対リード２、ｃ）リード１対リード２及びｄ）リード２対リード１を比較することにより、４，０００ｂｐのマッピング距離を特定したものである。３種類の色は３つの異なるサイズのライブラリーを表している：青＝１ｋｂ、緑＝２ｋｂ、赤＝３ｋｂ。クラスターペアの累積数は、各ペアの数値で分類したマッピング距離に対してプロットされている。異なる最近接検索での１、２及び３ｋｂのライブラリーの最近接クラスターペアのデータを示す図である。白いバーは、物理的間隔が１．５μｍ未満でマッピング間隔が４０００ｂｐ未満のクラスターペアの総数である。灰色のバーは、そのライブラリーサイズの標的サイズ範囲内（それぞれ８００〜１２００ｂｐ、１５００〜２３００ｂｐ及び２５００〜３５００ｂｐ）にあるペア数である。着色されたバーは、標的サイズ範囲内にあり、反対側の鎖に反対方向のリードを有するペアである。一実施形態によるリード１及び２のクラスター間隔を示す一連のデータである。ａ）最近接が１．５μｍ以内でマッピング距離が４，０００ｂｐのあらゆるクラスターが、３つのライブラリーのリード１内で同定された（青＝１ｋｂ、緑＝２ｋｂ、赤＝３ｋｂ）。マッピング距離は、クラスターの分離距離に対してプロットされており、ヒストグラムが各軸に沿って示されている。そのままのＩｌｌｕｍｉｎａ画像処理ソフトウェアでは、約０．９μｍ未満の距離にある２つのクラスターの境界が定められないことに留意されたい。ｂ）リード１におけるあらゆるクラスターの最近接がリード２において同定され、上のようにプロットした。一実施形態による伸展したＤＮＡの画像の例を示す図である。（ａ）４８．５ｋｂのラムダゲノムをＪＯＪＯ−１で染色し、修飾Ｉｌｌｕｍｉｎａフローセルに繋留し、１５Ｖ／ｃｍの電場により伸展させた。ＩｌｌｕｍｉｎａＧＡ２ｘで画像化を実施した。（ｂ）次いで、伸展したＤＮＡを５５℃で５分間、トランスポソームで処理した。スケールバー＝２０μｍ。一実施形態によるｔｎ５ｍＣ−ｓｅｑ法及び得られたメチル化プロファイルを示す図である。（ａ）タグメンテーションに基づくＤＮＡ−ｓｅｑライブラリー構築。１段階で断片化及びアダプター組込みが可能な、合成の不連続なオリゴ（黄色、紫色）を負荷したトランスポザーゼホモ二量体によりゲノムＤＮＡを攻撃する。次いで、ＰＣＲにより外側フローセル適合性プライマー（桃色、緑色）が付加される。（ｂ）ｔｎ５ｍＣ−ｓｅｑライブラリー構築。負荷済みのトランスポザーゼが単一のメチル化アダプター（黄色）を有するゲノムＤＮＡを攻撃する。オリゴ置換法により第二のメチル化アダプター（紫色）とアニールさせ、次いで、これにギャップ修復を施す。次いで、ビサルファイト処理により非メチル化シトシンをウラシル（オレンジ色）に変換した後、ＰＣＲにより外側フローセル適合性プライマー（桃色、緑色）を付加する。メチル化は黒のロリポップで表されている。（ｃ）全ゲノムでのシトシン位置のカバレッジ。３つすべての関連におけるＣｓの９６％超が、少なくとも１回でカバーされている。ＣｐＧカバレッジがわずかに減少しているのは、高密度のメチル化を有する領域におけるリードアライメント能の低下によるものである。（ｄ）染色体１２全体にわたる１０ｋｂのウィンドウで総シトシン位置に対して正規化したメチル化シトシン（最大を１．０に設定）であり、黒四角はセントロメアを表している。（ｅ）注釈付きの遺伝子座において総ＣｐＧ残基に対して正規化したメチル化ＣｐＧ。プロモーターはＴＳＳの上流２ｋｂの領域と定義される。（ｆ）遺伝子間領域と比較した遺伝子本体（イントロン、エキソン）におけるＣｐＧメチル化レベルの上昇。３ｋｂのライブラリーにおけるすべての未マッピングリード１（ａ）ならびに１つの大腸菌（Ｅ．ｃｏｌｉ）及び未マップリードからなるすべての最近接（ＮＮ）ペアの生の品質スコアの平均の分布を示す図であり、未マップリードの生の品質スコアの平均がヒストグラムで示されている。３ｋｂのライブラリーにおけるリード１（Ａ）及びリード２（Ｂ）の全塩基にわたる生の品質スコアの平均を示す図である。リードは、大腸菌（Ｅ．ｃｏｌｉ）に対してマッピングされた最近接ペアでみられ、１．５μｍ未満の間隔で、２５００〜３５００ｂｐの間でマッピングされたものである。表面に繋留したＤＮＡの末端間ベクトルγ（右矢印）のｘ、ｙ及びｚ成分に対するＧ_surfのプロットを示す図である（ａ、ｂ）。（ｃ）は、クラスター形成時に起こり得ることを図解で示したものである。２つのシード鋳型が近接した位置にある場合、クラスターの増幅が進行するにつれて利用可能な表面プライマーの局所的な欠乏が生じる。このことがクラスター同士を互いに離れて形成させる。ベースコーリング時、クラスターの中心は、元のシードとなる鋳型と一致しないｘ−ｙ位置でコールされる。本明細書に記載されているｉｎｓｉｔｕ伸長工程の模式図である。ＨＭＷ分子の一端を電場印加の前に表面とハイブリダイズさせた。電場を印加している間、遊離末端を有する分子が電流の方向に伸長される。次いで、遊離末端がハイブリダイズ可能になり、従来通りに配列決定が進行する。（ｂ）は、参照としての正極（ｒ）から最も離れたクラスターを選択することにより決定されるクラスター間の角度を示している。次いで、他のクラスター（ｏｃ）に対する角度を計算した。外部電場を印加しない３ｋｂの大腸菌（Ｅ．ｃｏｌｉ）ライブラリーのマッピング距離対物理的間隔を示す１組の散布図である（ａ）。囲みの中に示される点については、ペア間の相対角度（ラジアン）のヒストグラムが右側に示されている。（ｂ）は、２８Ｖ／ｃｍの電場の存在下でハイブリダイゼーションを実施した、（ａ）と同様のプロットを示している。少なくとも４．５ピクセルで分離されたクラスターペアは、フローセルの軸に沿って電場と平行にアラインされているように思われる（右下）。

（詳細な説明）
連続性情報を捕捉する方法が本明細書に提供される。連続性情報及びその情報を受け取る実施形態を、任意の適切な従来型又は第二世代のＤＮＡ配列決定技術とともに用いて、その技術とそれに関連する用途及び応用の効率及び精度を向上させ、かつその費用対効果を高めることができる。本明細書に記載の方法に従って使用することができる適切なＤＮＡ配列決定技術としては、特に限定されないが、「サイクリックアレイ（ｃｙｃｌｉｃ−ａｒｒａｙ）」法（例えば、４５４パイロシーケンシング、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒ、ＡＢＳＯＬｉＤ及びＨｅｌｉＳｃｏｐｅ）、ナノポアシーケンシング法、ＤＮＡ合成のリアルタイム監視、電子顕微鏡による配列決定、ジデオキシ停止／電気泳動法、微小電気泳動法、ハイブリダイゼーションによる配列決定ならびに質量分光測定法が挙げられる。

上に挙げた配列決定法の多くには、長鎖ＤＮＡの配列（すなわち「標的ＤＮＡ配列」）を決定するための共通する手順上の概念がいくつか含まれている。まず、標的ＤＮＡ配列を多数の短い配列フラグメント（すなわち「ＤＮＡフラグメント」）に分割する。これは標的ＤＮＡをトランスポザーゼで処理することにより行うことができる。いくつかの例では、多数のＤＮＡフラグメントをＤＮＡフラグメントライブラリー（すなわち「ショットガンライブラリー」）と見なすことができる。次に、ＤＮＡフラグメントを増幅又はクローン化して、クローンのコピー又はクラスターを作製することができる。次いで、クローンのコピー又はクラスターを上記のような配列決定プラットフォームにより配列決定する。配列決定後、配列決定されたＤＮＡフラグメントを再アセンブルして元の配列を再構成するか、又は参照ゲノムにマップして、配列変異を同定することができる。

連続性情報の捕捉
上述のように、標的ＤＮＡ配列をトランスポザーゼで処理すると、標的ＤＮＡは、トランスポザーゼ処理前（すなわち、断片化前）には１つ以上の空間的関係により関連していた２つ以上のＤＮＡフラグメントに分割され得る。一実施形態では、空間的関係は隣接関係であり、この関係では、ＤＮＡフラグメントが互いに直接隣接していた（すなわち、１つのＤＮＡフラグメントの末端が第二のＤＮＡフラグメントの末端と連結していた）。別の実施形態では、空間的関係は区画的関係であり得、この関係では、標的ＤＮＡが、区画として分けられた２つ以上の配列セグメントを含む。このような実施形態では、トランスポザーゼによる断片化前のＤＮＡフラグメントは、標的ＤＮＡの同じセグメント内に存在していたが、必ずしも互いに隣接していなかったものであり得る。別の実施形態では、空間的関係は離れた関係であり、この関係では、ＤＮＡフラグメント同士は断片化前に連続しても隣接してもいなかったが、特定の距離又は配列長を間にして互いに関連し合っている。上に挙げた空間的関係は、本明細書に記載の方法を用いて連続性情報を捕捉することにより決定され得る。

連続性情報は、共通の情報に基づく２つ以上のＤＮＡフラグメント間の空間的関係を指す。情報の共通の側面は、隣接する空間的関係、区画的な空間的関係及び離れた空間的関係に関するものであり得る。そして、上記関係に関する情報は、ＤＮＡフラグメントから得られた配列リードの階層的なアセンブリ又はマッピングを容易にする。個々の配列リードの相対的なゲノム上の起源又は座標は、それが得られた２つ以上のＤＮＡフラグメントの間の空間的関係に関連するものであるが、従来のショットガン配列決定法とともに用いられる従来のアセンブリ又はマッピングの方法ではそれを考慮に入れないため、この連続性情報は、上記のようなアセンブリ又はマッピングの効率及び精度を向上させるものである。したがって、本明細書に記載の実施形態では、連続性情報を捕捉する方法は、隣接する空間的関係を決定する短距離連続性の方法、区画的な空間的関係を決定する中距離連続性の方法又は離れた空間的関係を決定する長距離連続性の方法により行うことができる。これらの方法は、ＤＮＡ配列のアセンブリ又はマッピングの精度及び品質を高め、かつ上記のような任意の配列決定法とともに使用し得るものである。

本明細書に記載の実施形態では、連続性情報を捕捉する方法は、標的ＤＮＡ配列をトランスポザーゼで処理して、１つ以上の断片化又は挿入事象を生じさせることを含み得る。いくつかの実施形態では、この段階により、標的ＤＮＡ配列に由来するショットガン核酸分子のライブラリーが作製される。別の実施形態では、断片化又は挿入事象を後に記載するＹアダプター法により行ってもよい。１つ以上のトランスポザーゼ分子は、可溶性の遊離トランスポザーゼであっても、表面結合認識配列と結合したものであってもよい。

標的ＤＮＡは、トランスポザーゼによる処理後に、２つ以上のＤＮＡフラグメント又は多数のＤＮＡフラグメントを含むもの（「断片化標的ＤＮＡ」とも呼ぶ）であっても、挿入配列を含むもの（「挿入標的ＤＮＡ」）であってもよい。

いくつかの実施形態では、連続性情報を捕捉する方法は、ＤＮＡ又はショットガンライブラリーを増幅して、リードのクローンのコピー又はクラスターを作製する段階を含み得る。増幅段階は、特に限定されないが、ポロニー法、エマルジョンＰＣＲ法、ブリッジＰＣＲ法などの任意の適切な増幅法を含み得る。

いくつかの実施形態では、トランスポザーゼによる処理後又はそれに続く増幅後、断片化標的ＤＮＡ又は挿入標的ＤＮＡ内に１つ以上の認識配列が付加又は挿入されていてもよい。１つ以上の認識配列としては、特に限定されないが、隣接する空間的関係、区画的空間的関係又は離れた空間的関係に固有なものとしてＤＮＡフラグメントにタグ付けをする、断片化部位又は挿入部位のバーコード配列、プライマー配列又はアダプターＤＮＡ配列が挙げられる。

ショットガン核酸分子をタグ付けした後、上記の配列決定法プラットフォームを用いてその配列決定を行うことができ、共通の特性をもつ認識配列を同定することにより連続性情報が捕捉される。いくつかの実施形態では、共通の特性は同一の又は相補的なバーコード配列である。例えば、隣接する起源のリード配列を共通のバーコード配列により同定することができ、あるいは同じ標的ＤＮＡセグメントに由来する共通の区画特異的バーコードに基づき、リードを区画により定めることができる。他の実施形態では、共通の特性は、フローセル上の１つ以上のｘ、ｙ座標により表し得る共通の又は拘束された物理的位置である。「拘束された」物理的位置は、接近した物理的位置、同じ物理的位置もしくはほぼ同じ物理的位置を指すか、又は相対的な物理座標と、ＤＮＡフラグメントが由来する標的ＤＮＡ配列上の相対的な配列座標とが相関する、２つ以上の物理的位置のセットを指す場合がある。例えば、長距離連続性に関する方法では、アダプター配列を用いて配列決定フローセル表面の伸展したＨＭＷゲノムＤＮＡ内へのｉｎｓｉｔｕ転移を実施して、アダプター配列、ハイブリダイズしたＤＮＡフラグメント又はその組合せの拘束された物理的位置（すなわち、物理的に連結された配列決定鋳型が固定化されている相対的な座標）を同定することにより、離れた空間的関係を得る。短距離、中距離及び長距離の連続性の捕捉に関する他の実施形態及び詳細を以下に更に記載する。

短距離連続性
短距離連続性に関する情報を捕捉するために、独立し元は隣接していたリードのペア間でのｉｎｓｉｌｉｃｏ「結合」を後で指定することができるようにｖｉｔｒｏ転移の改変スキームを提供し、このスキームでは、任意の断片化事象の各隣接部分に由来するショットガンライブラリー分子を対称的にかつ固有にタグ付けする方法において合成トランスポゾン内の縮重バーコードを使用する。ショットガンライブラリー及び対応するバーコードの配列決定後、隣接する断片化事象を共通のバーコード配列により同定することができる。この戦略により、一次配列の内容とはほぼ完全に独立して局所的な連続性の決定が可能であるという点が重要である。

中距離連続性
長い高精度のＳａｎｇｅｒリードを用いても、特にセグメントが重複し構造が複雑な領域においては、高品質なヒトゲノムの参照アセンブリを得るためには、ＢＡＣクローンを配列決定する階層的な方法が重要であった（Ｌａｎｄｅｒら，２００１；Ｗａｔｅｒｓｔｏｎら，２００３；Ｗａｔｅｒｓｔｏｎら，２００２）。したがって、いくつかの実施形態では、ゲノムの同じフォスミド／ＢＡＣスケール領域に由来するショート（すなわち「ショットガン」）リード（例えば、２０〜２００Ｋｂ）のグループ分けにより、中距離の適合性に関する情報を捕捉することが可能な方法が提供される。この方法については実施例２で詳細に述べる。

下及びＫｉｔｚｍａｎら（Ｋｉｔｚｍａｎら，２０１１）に記載されているように、このクラスの情報は、個人のヒトゲノム配列の広範囲なハプロタイプ分解には十分である。この中距離連続性情報はほかにも、ｄｅｎｏｖｏゲノムアセンブリを容易にする。例えば、Ｇｎｅｒｒｅら（Ｇｎｅｒｒｅら，２０１０）は近年、ショートリード配列データのみを用いた、かなり高品質なヒト及びマウスゲノムのｄｅｎｏｖｏアセンブリについて記載している。この結果は、Ｋｉｔｚｍａｎら（Ｋｉｔｚｍａｎら，２０１１）により得られたハプロタイプの連続性の場合と同様に、ゲノムを約４０Ｋｂのセグメントに分割するためにフォスミドライブラリー構築を用いる必要があった。上に挙げた方法では、エマルジョンを用いて高分子量（ＨＭＷ）のゲノムＤＮＡフラグメントを区画化した後、液滴特異的バーコードを有するプライマーを用いてエマルジョンＰＣＲを行う。回収時に、ショットガンリードのグループを定めるバーコードでアンプリコンをタグ付けし、各グループは同じ２０〜２００Ｋｂの領域に由来するものである。フォスミドクローンの混在するプールに由来するショットガンライブラリーに依存する準備作業において、このクラスの情報が次世代配列決定法による個人のヒトゲノムの広範囲なハプロタイプ分解に十分であることをのちに示す。

近年報告されている「サブアセンブリ」戦略（Ｈｉａｔｔら，２０１０）と同様に、長いフラグメントライブラリーを入れ子状になったサブライブラリーの集団に変換し、同じ長いフラグメントに由来するショートリードのｉｎｓｉｌｉｃｏでのグループ化をタグ配列により指令して、長いフラグメント配列の局所的なアセンブリ、すなわち「サブアセンブルされた」リードが可能になる。サブアセンブリはショートリード配列決定法プラットフォームの有用性を、通常はロングリードを必要とするか、又はロングリードが有用な応用、例えば、メタゲノミクス及びｄｅｎｏｖｏゲノムアセンブリまで拡張する。しかし、本明細書に記載の実施形態による方法は、すでに述べたように、１Ｋｂ前後の領域ではなく２０〜２００Ｋｂ超の領域のサブアセンブリが可能なものである。

長距離連続性
大量並列のショートリード配列決定技術を含めたハイスループットな方法には本質的に、ヒトゲノムのセグメント重複及び構造が複雑な領域の再配列決定、二倍体及び倍数体ゲノムのハプロタイプ情報の分解ならびに複雑なゲノムのｄｅｎｏｖｏアセンブリを含めたいくつかの重要な目的に関して制限がある。配列決定の１塩基当たりのコストを更に削減しても、このような目的をほとんど前進させることはない。必要とされるのはむしろ、さまざまなスケールで連続性情報を得る等しく並列的な方法である。例えば、最初のヒト及びマウスゲノムのｄｅｎｏｖｏアセンブリが、ショートリードのみに基づく低品質なアセンブリより配列のカバレッジが一桁少ないにもかかわらず、高品質を達成したということ（Ｌａｎｄｅｒら，２００１；ＭＳＧＣ２００２）は主として、（ａ）長い最初のリード長、（ｂ）プラスミド、フォスミド及びＢＡＣ由来のメイトペアリード、（ｃ）階層的なクローンバイクローン配列決定法ならびに（ｄ）遺伝子地図を含めた、連続性情報の広範囲にわたる補完的な入手源を採り入れた結果である。

ＤＮＡの配列を決定する新規な方法が成熟し続け、現在の技術より優れたものとなるかもしれないが、最もコスト効率の良い（１塩基当たりのコストに基づくもの）技術でもリード長が制限され続ける可能性がある。したがって、以下に記載する他の技術により得られる連続性情報で低コストのショートリード配列を補うことにより、連続性情報を得ることができる。この方法で連続性情報を得る方法の例としては、以下のものが挙げられる：１）長距離「メイトペア」プロトコルでは、制御された距離によって分離されたリードペアを得ることが可能である。しかし、現在のいずれのｉｎｖｉｔｒｏプロトコルも環状化の段階を用いるため、この方法は、数キロベースを分離することにおいてのみ有効である；２）クローン希釈プール（又はそのｉｎｖｉｔｒｏ同等物）のバーコード付け及び配列決定では、全ゲノム規模のハプロタイプ情報を得ることができる。しかし、この方法の分解能は、効率的に処理することができるフラグメントのタイプ（例えば、フォスミド）及びプールの数に制限される；３）制限酵素を用いる光学マッピングでゲノムアセンブリのための長距離連続性マップを作製することに成功している（Ｓｃｈｗａｒｔｚら，１９９３；Ｚｈｏｕら，２００７；Ｚｈｏｕら，２００９）。しかし、この方法は、スター活性及び非効率的な切断に起因する偽陽性及び陰性の切断部位によって制限を受けるものであり、コンセンサスマップを作製するのに同じ領域から複数の光学マップを必要とする。更に、制限酵素認識部位の不均一な分布により、反復領域又は複雑度の低い領域に由来する有用な情報の量が制限される可能性がある；４）伸展した単一ＤＮＡ分子（断片化されていない）の光学的配列決定により、同じ分子に沿った複数の位置から最大３ｂｐの連続配列情報が得られている（Ｒａｍａｎａｔｈａｎら，２００４）。単一分子から直接リードが作製されるため、試料の量及びＰＣＲバイアスの問題が大幅に回避される。

下の実施例３に記載するように、次世代配列決定機器のフローセル内でのｉｎｓｉｔｕライブラリー構築及び光学的配列決定は、さまざまなスケールで連続性情報及び一次配列を同時に捕捉する単一技術への向上した効率的な道を示すものである。その基礎となる前提は、ＤＮＡの物理的特性（高分子量（ＨＭＷ）ＤＮＡのランダムコイル化又は伸展による）、ｉｎｓｉｔｕライブラリー構築（フローセル内のＨＭＷＤＮＡへのアダプターのｉｎｖｉｔｒｏ転移による）及び実用化された次世代配列決定機器の十分に開発された側面（ポロニー増幅、合成による配列決定（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）、画像化及びデータ処理）を利用すること、物理的分離が既知であるか、又は由来するフローセル上の相対的座標から推定可能な、空間的に関係し合った複数のリードを作製することである。ある方法では、ＤＮＡが溶液中でとるランダムコイル構造を利用して両端を空間的に限定し、限定された表面領域内で２つのリードを作製する。これに関連する方法では、そのままのフローセル内で伸展したＤＮＡ分子の光学的配列決定を実施してもよい。

上に挙げた方法は、以下に述べられ、いくつかの実施形態に従って、環状化の段階に全く依存しないｉｎｖｉｔｒｏでの長距離のメイトペアリングの方法を説明するものである。伸展していない２．７Ｋｂ分子からペアエンドリードを得ることに成功したものを図１２ｂに示す。簡潔に述べれば、フローセルに適合するアダプター（ＦＣＡ１）を直鎖状の二本鎖ｐｕｃ１９の末端に連結した。この鋳型をフローセル（Ｉｌｌｕｍｉｎａ）に導入し、一本鎖の末端をプライマーでコートした表面とハイブリダイズさせた。次いで、ＦＣＡ２アダプターを予め負荷したトランスポザーゼにより鋳型をｉｎｓｉｔｕで処理した。次に、標準的なクラスターＰＣＲの後、合成による配列決定（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）を実施した。使用したプライマー及び既知のｐＵＣ１９の配列に基づき、リードが分子のいずれの末端から生じたかによって、最初の４ｂｐがＡＧＣＴかＣＧＡＧのいずれかであると考えられた。図１３Ａ（上）は、最初の４サイクルの空間的に分離された「クラスターペア」の代表的な画像を示すものであり、また両鋳型の生のベースコール強度の総和を図１３Ｂ（下）に示す。他のまばらな領域の中にこのような接近した位置にあるペアが観察されることは、同じ２．７Ｋｂ分子の末端の共通の起源と一致している。鋳型を更に希釈してもなお、クラスターペアが得られ、このことは、これらが近くで偶然ハイブリダイズした２つの異なる鋳型に由来するものではないことを強く示唆するものである。また、わずか２０％前後の鋳型が、明白な物理的クラスター分離（図１３に示すような）を示したのに対し、ペアエンドの残り８０％は共存下にあり、混在したリードを生じた。しかし、２つの異なる配列決定プライマーを用いるという提案された方法により、このような接近して共存するクラスターペア由来の混在するリードを２つの別々のリードにデコンボリューションすることが可能となる。

他の実施形態では、直鎖状に伸展した４８．５ＫｂのＤＮＡ分子のｉｎｓｉｔｕ断片化も示される。簡潔に述べれば、フローセルをＰｉｒａｎｈａ溶液を用いて洗浄し、２％の３−アミノプロピルトリエトキシシラン（ＡＰＴＥＳ）で処理し、ＪＯＪＯ−１染色したラムダＤＮＡを負荷した。次いで、フローセルに６ＭＫＣｌを負荷し、入力ポート及び出力ポートに１５Ｖ／ｃｍの電場を９０秒間印加した。表面をＩｌｌｕｍｉｎａＧＡ２シーケンサーで直接画像化して（図１４Ａ）、単一の４８．５Ｋｂ分子の末端が約３０ピクセルにわたって物理的に伸展され得ることを示した。次いで、表面をトランスポソームによりｉｎｓｉｔｕで処理し、再び画像化した（図１４Ｂ）。個々の分子が複数の位置で断片化されたが、このことは、表面に固定化された鋳型上でも酵素が高い活性を維持することが可能であることを示している。また、上に挙げた方法を用いて、クラスターが長い鋳型の末端で生じるように、断片化の前に「ロックダウン」ブリッジに流すことを組み込んでもよい。

本明細書に記載されている短距離、中距離及び長距離の連続性の実施形態の方法に基づき、連続性を捕捉する他の実施形態を以下に提供する。

いくつかの実施形態により、連続性情報を捕捉する方法が提供される。一実施形態では、このような方法は、各断片化又は挿入事象に隣接する配列をバーコードで対称的にタグ付けする、標的ＤＮＡ由来のショットガン核酸分子のライブラリー構築と、ショットガンライブラリー分子及び対応するバーコードの配列決定と、共通のバーコード配列による隣接する起源の同定とを含み得る。

別の実施形態では、連続性情報を捕捉する方法は、エマルジョン又は希釈剤により標的ＤＮＡフラグメントを区画化することと、区画化の前又は後に、標的ＤＮＡフラグメントをトランスポザーゼにより改変しプライマー配列を挿入することと、区画特異的バーコードを有するプライマーを用いて核酸増幅を実施することと、得られた標的ＤＮＡ由来のショットガン核酸分子のライブラリー及び対応するバーコードを配列決定して、ショットガン配列リードのグループを定めることとを含み得る。一態様では、バーコードを共有するリードのグループは、同じ高分子量ゲノムＤＮＡフラグメントに由来する。

さらなる態様では、連続性情報を捕捉する方法は、標的ＤＮＡ分子を１つの表面結合プライマーに対応するアダプターで末端修飾することと、末端修飾した標的ＤＮＡ分子の両端を、伸展を行って又は伸展を行わずに表面結合プライマーとハイブリダイズさせることと、ＤＮＡトランスポザーゼと第二の表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体を用いて転移を実施することと、クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製することと、クローン化により生じた核酸のクラスターを配列決定することと、重複する又は接近した位置にあるクラスターが同じ標的ＤＮＡ分子の末端に由来するか否かを決定することとを含み得る。一態様では、このような方法は、高分子量ＤＮＡ分子を１つのフローセルプライマーに対応するアダプターで末端修飾することと、末端修飾した高分子量ＤＮＡ分子の両端を、伸展を行って又は伸展を行わずにフローセルとハイブリダイズさせることと、第二のフローセルプライマーに対応するアダプターを負荷したトランスポザーゼを用いてｉｎｓｉｔｕ転移を実施することと、クラスターＰＣＲを実施して、明白に重複する又は接近した位置にあるクラスターを作製することと、重複する又は接近した位置にあるクラスターが同じ高分子量ＤＮＡ分子の末端に由来するか否かを決定することとを含み得る。

別の実施形態では、連続性情報を捕捉する方法は、標的ＤＮＡ分子をトランスポザーゼにより改変して、１つ又は複数の表面結合プライマーに対応する核酸配列を挿入することと、内部が改変された標的ＤＮＡ分子を、伸展を行って又は伸展を行わずに表面結合プライマーとハイブリダイズさせることと、クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製することと、クローン化により生じた核酸のクラスターを配列決定することと、重複する又は接近した位置にあるクラスターが同じ標的ＤＮＡ分子に由来するか否かを決定することとを含み得る。一態様では、このような方法は、図２５のように、高分子量ゲノムＤＮＡをトランスポザーゼにより改変して、１つ又は２つのフローセルプライマーに対応するプライマー配列を挿入することと、内部が修飾された高分子量ＤＮＡ分子を、伸展を行って又は伸展を行わずにフローセルとハイブリダイズさせることと、クラスターＰＣＲを実施して、明らかに重複する又は接近した位置にあるクラスターを作製することと、重複する又は接近した位置にあるクラスターが同じ高分子量ＤＮＡ分子に由来するか否かを決定することとを含む。

別の実施形態では、連続性情報を捕捉する方法は、（ａ）ＤＮＡトランスポザーゼの認識配列に対応する二本鎖ＤＮＡ配列を含む核酸配列が結合した表面を作製する段階と、（ｂ）表面結合認識配列と結合したＤＮＡトランスポザーゼを含む複合体を組み立てる段階と、（ｃ）標的ＤＮＡの伸展を行って又は伸展を行わずに、複合体を標的ＤＮＡに曝し、表面結合トランスポザーゼ複合体により標的ＤＮＡの内部を改変する段階と、（ｄ）クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製する段階と、（ｅ）クローン化により生じた核酸のクラスターを配列決定する段階と、（ｆ）重複する又は接近した位置にあるクラスターが同じ標的ＤＮＡ分子に由来するか否かを決定する段階とを含む。一態様では、段階（ｃ）の前の任意の時点に、ＤＮＡトランスポザーゼと表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体への曝露により標的ＤＮＡを修飾する追加の段階を含み得る。別の態様では、段階（ｃ）の後、段階（ｄ）の前に、ＤＮＡトランスポザーゼと表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体への曝露により標的ＤＮＡを更に修飾する追加の段階を含み得る。

配列決定技術の応用
本明細書に記載されている連続性情報を捕捉する方法は、上記配列決定技術の使用及び応用を向上させるのに有用である。本明細書に記載の方法に従って使用し得るＤＮＡ配列決定技術の適切な応用としては、特に限定されないが、ＤＮＡメチル化を決定するビサルファイト配列決定法、再配列決定、ｄｅｎｏｖｏアセンブリ、エクソーム配列決定法、ＲＮＡ−Ｓｅｑ、ＣｈＩＰ−Ｓｅｑ、染色体立体配座の推定及び全ゲノムでのクロマチン相互作用マッピングが挙げられる。いくつかの実施形態では、連続性情報を捕捉する方法を、下の実施例に詳述するように、再配列決定、ｄｅｎｏｖｏアセンブリ又はその両方などの応用に「サイクリックアレイ（ｃｙｃｌｉｃ−ａｒｒａｙ）」法とともに使用し得る。

再配列決定
ヒトゲノムの再配列決定は比較的単純なものになっている。例えば、Ｂｅｎｔｌｅｙら（２００８）は、ＩｌｌｕｍｉｎａＧＡプラットフォーム（Ｂｒａｎｔｏｎら，２００８）、すなわち、無秩序なＰＣＲコロニーの高密度アレイ上での大量並列的な合成による配列決定（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）法でヨルバ族の男性のゲノムを約４０倍のカバレッジまで配列決定し、約４００万のＳＮＰを同定した。現在、ＩｌｌｕｍｉｎａＨｉＳｅｑプラットフォームでは、それぞれから約１００万のマッピング可能なペアエンドの１００ｂｐリード（ＰＥ１００）が得られる７つの配列決定レーン全体で、同じ量のデータ（１３５ギガバイト（Ｇｂ））を８日で作成することができる。例えば、１レーン当たり３，７００ドルとすると、約４０倍のヒトゲノム再配列決定の推定コストは２５，０００ドル余りである。

更に、短いリード長及び適度な生の精度は、約９４％という高精度でのヒトゲノム再配列決定に適合するが、上に挙げた技術は依然として少なくとも２つの重要な点で不十分なものである。第一に、ヒトゲノムの約６％は、再配列が頻発しやすい、遺伝子に富むセグメント重複又は構造的に複雑な領域からなる。このスペース内で短い配列決定リードを固有にマッピングすることは不可能であり、複雑な構造変異を解読することはきわめて困難であると考えられる。第二に、現在のゲノム再配列決定技術では、ハプロタイプ、すなわち単一の染色体上で多型が生じる相がほぼ全く検出できない。ハプロタイプ情報は、遺伝子と疾患の関連性の研究及び集団遺伝学解析にきわめて有用である。この２つの欠点はともに、この技術で更に配列決定を行っても解消されるわけではない。こうした欠点はむしろ、ショートリード配列決定法の限界を反映するものである。

ｄｅｎｏｖｏアセンブリ
再配列決定法とは対照的に、この技術を用いて高品質な哺乳動物ゲノムのｄｅｎｏｖｏアセンブリを作製するまでにはまだ長い道のりがある。２０Ｇｂ、すなわち２００２年に２．５Ｇｂのマウスゲノムを組み立てるのに使用された約８倍のカバレッジ（Ｓａｎｇｅｒ）（Ｗａｔｅｒｓｔｏｎら，２００２）の作製が、現在ではＩｌｌｕｍｉｎａＨｉＳｅｑの１レーンで可能である（ＰＥ１００、３，７００ドル）。しかし、同様に複雑なヒトゲノムに約９０倍のカバレッジで最高の「次世代」ｄｅｎｏｖｏアセンブリを行っても、Ｎ５０コンティグ長が７．４Ｋｂ、Ｎ５０スキャフォールド長が７．４Ｋｂ、シーケンスカバレッジがゲノムのわずか８７％である（Ｌｉら，２０１０）。ショートリードデータでカバレッジを更に増加させたとしても、アセンブリの品質質がわずかに向上するだけであろう（Ｌｉら，２０１０）。それに比べて、一桁以上少ないデータに基づくマウスゲノムの最初のアセンブリでは、Ｎ５０コンティグ長が２５．９Ｋｂ、Ｎ５０スキャフォールド長が１８．６メガベース（Ｍｂ）、シーケンスカバレッジがゲノムの９５％であった（Ｗａｔｅｒｓｔｏｎら，２００２）。

ビサルファイト配列決定法
ＤＮＡメチル化を測定するビサルファイト配列決定の方法が本明細書に提供される。ＤＮＡメチル化は、広く存在し多様な生物体のゲノムの調節にきわめて重要な役割を果たしているエピジェネティックな修飾である。最もよくみられ広く研究されている哺乳動物ゲノムにおけるＤＮＡメチル化の形態は、通常はＣｐＧジヌクレオチドとの関連でシトシン残基の５炭素位に生じるものである。マイクロアレイ及びごく最近では大量並列配列決定法により、全ゲノムスケールでシトシンメチル化（５ｍＣ）を調べることが可能になった（Ｚｉｌｂｅｒｍａｎ及びＨｅｎｉｋｏｆｆ，２００７）。しかし、例えば、特定の細胞型又は解剖学的構造におけるＤＮＡメチル化その他のエピジェネティックな目印のｉｎｖｉｖｏ研究は、最新のプロトコルで必要とされる投入材料の量が比較的多いことにより大幅に制限されている。

ゲノム規模でメチル化パターンを調べる方法には、定めされたゲノムのサブセットの濃縮を先に行ういくつかの方法（Ｍｅｉｓｓｎｅｒら，２００５；Ｄｏｗｎら，２００８；Ｄｅｎｇら，２００９）、例えば、簡約表示ビサルファイト配列決定法（ＲＲＢＳ）（Ｍｅｉｓｓｎｅｒら，２００５）及び抗メチルシトシンＤＮＡ免疫沈降とそれに続く配列決定（ＭｅＤＩＰ−ｓｅｑ）（Ｄｏｗｎら，２００８）がある。このような方法の利点は、わずかな量の開始ＤＮＡで実施することができることである（Ｇｕら，２０１１）。しかし、このような方法は、真に包括的ではないという点で制約されたものである。例えば、消化に基づくＲＲＢＳ法で参照されるのは、主としてＣｐＧアイランド内にあるＣｐＧｓのわずか１２％前後であり（Ｈａｒｒｉｓら，２０１０）、遺伝子本体（Ｂａｌｌら，２００９）その他の箇所のメチル化のカバレッジが不十分である。更にＲＲＢＳは、哺乳動物発生の初期段階でメチル化のレベルが上昇することが示されているＣＨＧ又はＣＨＨ（Ｈ＝Ａ、Ｃ、Ｔ）と関連するシトシンを対象とするものではない（Ｌｉｓｔｅｒら，２００９）。

５ｍＣを検出する最も包括的で分解能の高い方法は、全ゲノムビサルファイト配列決定法（ＷＧＢＳ）である（Ｃｏｋｕｓら，２００８；Ｌｉｓｔｅｒら，２００９；Ｈａｒｒｉｓら，２０１０）。ＤＮＡを亜硫酸水素ナトリウムで処理することにより、シトシンが５ｍＣよりもはるかに速い速度で化学的に脱アミノ化されて、優先的にウラシルに変換される（Ｃｌａｒｋら，１９９４）。大量並列配列決定法を用いて、それを全ゲノム規模で、単一塩基対の分解能で検出することができる。この方法により、特にＣＨＧ及びＣＨＨとの関連において、複雑かつ予想外のメチル化のパターン及び変異が明らかにされてきた。更に、大量並列配列決定法のコストが下がり続ければ、全ゲノムビサルファイト配列決定法が一層安価になっていく。しかし、現在のプロトコルでは投入時に必要なゲノムＤＮＡは５マイクログラムであり、この量はｖｉｖｏで得られる多くの試料で賄えるものではなく、ＷＧＢＳはこの点で制約を受けている（Ｃｏｋｕｓら，２００８；Ｌｉｓｔｅｒら，２００９；Ｌｉら，２０１０）。

いくつかの実施形態では、下に記載するように、全ゲノムビサルファイト配列決定のためのトランスポザーゼに基づくｉｎｖｉｔｒｏショットガンライブラリー構築（「タグメンテーション」）を採用する。本明細書でｔｎ５ｍＣ−ｓｅｑと呼ぶこの方法では、出発物質を従来のプロトコルに比べ１００倍超削減することができるため、わずか１０ナノグラムの投入ＤＮＡからきわめて複雑なビサルファイト配列決定ライブラリーが作製され、また１ナノグラムの投入ＤＮＡから有用な配列が十分に作製される。ｔｎ５ｍＣ−ｓｅｑは、ヒトリンパ芽球様細胞株のメチロームを約８．６倍の高品質な各鎖のカバレッジまで配列決定することにより実証される。

更に、Ｔｎ５認識配列の二本鎖ＤＮＡ部分及びアダプター配列１又は２を含む一本鎖ＤＮＡオーバーハングを使用し、不連続な合成トランスポゾンをメチル化する方法が提供され、ここでは、シチジン又はシトシン残基がすべてメチル化される。一実施形態では、ニックトランスレーション段階を実施する。ニックトランスレーション後、生じた転移により、アダプターが隣接し一方がメチル化された両アダプターを各鎖が有する、ＤＮＡフラグメントが得られる。次いで、ニックトランスレーションを施した材料に対して、ニックトランスレーションで生じたアダプターの非メチル化鎖のＰＣＲを、許容される低効率で実施する。

別の実施形態では、ニックトランスレーション段階を実施せず、下に記載するように、後で第二のアダプターを付加する。次いで、フラグメントライブラリーにビサルファイト処理を施して、非メチル化シチジンをすべてウラシル残基に変換する。次いで、第二のアダプターを次に挙げる２つの方法の１つで付加する：（１）Ａテールを付加し、次いで、ポリＴを含むプライマー及びアダプターオーバーハングを用いる方法、又は（２）３’ブロックしたＮ６を含み（ビサルファイト処理されたヌクレオチドの比で）、５’アダプターオーバーハングを有する、フラグメントの３’末端から伸長する鋳型を伸長させる方法。第二のアダプターを付加した後、ＰＣＲ及び配列決定を実施する。この方法の利点の１つは、ｇＤＮＡをアダプターで修飾されたフラグメントへ高い効率で変換することにより、ビサルファイト処理を施すライブラリーの構築に使用するＤＮＡを大幅に減らすことが可能になることである。

手順を簡潔に述べれば以下の通りである。まず、ｄｓＤＮＡトランスポザーゼ認識配列を含むアダプターを有するトランスポザーゼに、全シトシン（Ｃ）残基がメチル化されているｓｓＤＮＡアダプターオーバーハングを負荷する。次に、ゲノムＤＮＡ内への転移を実施し、ＤＮＡを断片化し、メチル化Ｃ、５’オーバーハングアダプターを付加する。ニックトランスレーションを実施する場合、アダプターが分子の両端まで伸長するが、３’アダプターはメチル化されない。次いで、ライブラリーにビサルファイト処理を施して、非メチル化Ｃ残基をすべてＵ残基に変換する。前段階でニックトランスレーションを実施しなかった場合、第二の３’アダプターを次に挙げる２つの方法の１つで付加し得る：（ｉ）ＤＮＡフラグメントにＡテールを付加し、３’ポリＴ５’アダプタープライマーを用いて３’アダプターをフラグメントに付加する；又は（ｉｉ）３’ブロックしたＮ６（相補的なビサルファイト処理されたヌクレオチド組成で）と５’アダプターオーバーハングとからなるオリゴ上でＤＮＡフラグメントを伸長させる。最後にＰＣＲ、次いで配列決定を実施する。

他の実施形態では、ビサルファイト配列決定の方法は、（ａ）メチル化シトシン残基を有する一本鎖ＤＮＡアダプターオーバーハングを有する二本鎖ＤＮＡトランスポザーゼ認識配列を含むトランスポザーゼ複合体を用いて、標的ＤＮＡ分子内へのｖｉｔｒｏ転移を実施する段階と、（ｂ）改変された標的ＤＮＡ分子にビサルファイト処理を施す段階と、（ｃ）核酸増幅を実施して核酸ライブラリーを作製する段階と、（ｄ）得られた核酸ライブラリーを配列決定する段階とを含み得る。いくつかの態様では、段階（ｃ）の核酸増幅を容易にするよう設計されている、標的ＤＮＡ由来の核酸フラグメントに対する第二のアダプターを、段階（ａ）の後、段階（ｂ）の前に組み込んでもよい。他の態様では、段階（ｃ）の核酸増幅を容易にするよう設計されている、標的ＤＮＡ由来の核酸フラグメントに対する第二のアダプターを、段階（ｂ）の後、段階（ｃ）の前に組み込んでもよい。

他の実施形態では、ビサルファイトの方法は、（ａ）二本鎖ＤＮＡ（ｄｓＤＮＡ）トランスポザーゼ認識配列を、メチル化シトシン残基を有する一本鎖ＤＮＡ（ｓｓＤＮＡ）アダプターオーバーハングで修飾する段階と、（ｂ）修飾されたｄｓＤＮＡトランスポザーゼ認識配列を含むアダプターを負荷したトランスポザーゼを用いてｉｎｖｉｔｒｏ転移を実施して、ＤＮＡフラグメントのライブラリーを作製する段階と、（ｃ）ＤＮＡフラグメントのライブラリーにビサルファイト処理を施す段階と、（ｄ）ＰＣＲ法を実施して標的を増幅する段階と、（ｃ）標的を配列決定する段階とを含む。いくつかの実施形態では、段階（ｂ）の後、段階（ｃ）の前に追加のニックトランスレーション段階を実施してもよい。他の実施形態では、ニックトランスレーションを実施しない。この場合、段階（ｃ）の後、段階（ｄ）の前に第二のアダプターを付加する。第二のアダプターは、（ｉ）アデノシン（Ａ）テールをＤＮＡフラグメントに付加し、３’ポリＴ５’アダプタープライマーを用いて、フラグメントに３’アダプターを付加することにより、又は（ｉｉ）３’ブロックしたＮ６と５’アダプターオーバーハングとを含むオリゴヌクレオチド上でＤＮＡフラグメントを伸長させることにより、付加することができる。

染色体立体配座の推定
いくつかの実施形態により、染色体立体配座を推定する方法が提供される。この方法は、細胞内のＤＮＡを架橋すること、クロマチン繊維を単離すること、クロマチンフラグメントを取り出し消化すること、クロマチンＤＮＡフラグメントを精製すること、アダプターをクロマチンＤＮＡフラグメントに連結させてクロマチンＤＮＡフラグメント複合体を形成すること、及び隣接するクロマチンＤＮＡフラグメント複合体のクラスター同士を対にすることにより三次元モデルを作製することを含み得る。一実施形態では、この方法は、（ａ）細胞内のＤＮＡを架橋する段階と、（ｂ）架橋ＤＮＡを細胞から単離する段階と、（ｃ）架橋ＤＮＡを断片化する段階と、（ｄ）断片化した架橋ＤＮＡ分子の末端を表面結合プライマーに対応するアダプターで修飾する段階と、（ｅ）断片化し末端修飾した標的ＤＮＡ分子の末端を表面結合プライマーとハイブリダイズさせる段階と、（ｆ）ＤＮＡトランスポザーゼと第二の表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体を用いて転移を実施する段階と、（ｇ）クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製する段階と、（ｈ）クローン化により生じた核酸のクラスターを配列決定する段階と、（ｉ）隣接するクラスター同士を対にすることにより、染色体上の位置間の物理的相互作用を明らかにする段階とを含み得る。いくつかの態様では、単離された架橋ＤＮＡは、架橋ＤＮＡ−タンパク質複合体の一部であり得る。この場合、染色体の詳細な立体配座を推定する方法は、段階（ｃ）の後、段階（ｄ）の前に、１つ以上の特定の架橋ＤＮＡ−タンパク質複合体を免疫沈降により濃縮する段階を更に含み得る。

他の実施形態では、転写因子結合部位間の相互作用を同定する方法が提供される。このような方法は、ホルモンにより細胞集団を誘導すること、細胞を免疫沈降させてクロマチン繊維を単離すること、細胞を架橋し、クロマチン繊維を破壊することによりクロマチンフラグメントを作製すること、クロマチンフラグメントの末端同士を対にし、アダプターと連結して、クロマチン複合体を生じさせること、クロマチン複合体に対応するクラスターを作製すること、及び隣接するクラスター同士を対にすることにより、染色体上の位置間の相互作用を明らかにすることを含み得る。

以下の実施例は、本発明のさまざまな実施形態を説明することを意図するものである。したがって、記載されている特定の実施形態は本発明の範囲を限定するものではないと解釈されるべきである。本発明の範囲を逸脱することなくさまざまな同等物、改変及び修正を施し得ることは当業者に明らかであり、またこのような同等の実施形態が本明細書に含まれ得ることが理解される。更に、本開示で引用される参考文献はすべて、その全体が本明細書に記載された場合と同様に、その内容全体が参照により本明細書に組み込まれるものとする。

ｉｎｖｉｔｒｏ転移のいくつかの特性を利用して、さまざまな規模で連続性情報を捕捉する超低コストな大量並列配列決定法を開発することができる。第一に、共通配列の挿入を触媒する反応において、改変Ｔｎ５トランスポソームがＤＮＡをｉｎｖｉｔｒｏで高効率かつ高密度に攻撃し、断片化が生じるか否かは、合成トランスポゾンが連続性であるか不連続性であるかによって決まる。第二に、トランスポソームによる攻撃のパターンは、配列内容に関して比較的ランダムである。第三に、共通のアダプター配列に加えて、縮重配列が合成トランスポゾン内に容易に含まれ得る。第四に、ｉｎｖｉｔｒｏ転移は単一体積の水相の酵素反応として安価である。実施例１〜３は、ｖｉｔｒｏ転移を利用してそれぞれ短距離、中距離及び長距離の連続性の情報を得る大量並列的方法の開発に関するものである。実施例４は、ｉｎｖｉｔｒｏメチル化転移を利用して連続性情報を捕捉する方法の開発に関するものである。実施例５は、インフィニペア（ｉｎｆｉｎｉｐａｉｒ）技術を利用して、免疫沈降し架橋されているＤＮＡの複数のフラグメントを直接配列決定する、比較的小さい細胞集団内でのＤＮＡ−ＤＮＡ及びＤＮＡ−タンパク質相互作用を測定するための方法の開発に関するものである。実施例６は、上に挙げた方法を統合して高品質なｄｅｎｏｖｏゲノムアセンブリ及びハプロタイプ分解的ゲノム再配列決定法を実証することに関するものである。

概略的な方法
連続性情報が主要な目的である
下に記載されている実施例の方法は、次世代配列決定法の分野における「盲点」に対処するものである。具体的には、この方法は、より大きい規模で連続性情報を明らかにする超低コストな方法が存在しないことに対処するものである。

これらの方法とそれに伴うコストは統合される配列決定技術に左右されるが、それはこれらが連続性情報と連動する一次配列を解読する方法だからである。下の方法は、市販のサイクリックアレイ（ｃｙｃｌｉｃ−ａｒｒａｙ）プラットフォーム（例えば、ＩｌｌｕｍｉｎａＧＡ２ｘ又はＨｉＳｅｑ）を用いて実施するものである。しかし、本明細書に記載の方法を、ＤＮＡ配列決定を行う他の方法、例えば、ナノポアシーケンシング、他のサイクリックアレイ（ｃｙｃｌｉｃ−ａｒｒａｙ）プラットフォームと統合してもよい。適合性が広いため、これらの方法を、１塩基当たりのコストという点で最良のものとして出現するどの技術とも組み合わせることができる。

材料及び方法
連続性情報を捕捉するためのｉｎｖｉｔｒｏ転移
実施例１〜６は技術的に多様であるが、その共通点は、さまざまな規模での連続性情報の回収を容易にする独創的な方法でゲノムＤＮＡを物理的に粉砕する新規な手段である高密度でランダムなｉｎｖｉｔｒｏ転移に依存していることである。この技術に対する最初の関心は、低コスト、低投入量、ショットガンライブラリーのｉｎｖｉｔｒｏ調製に対するその潜在的有用性に基づくものであった。図１に示すように、改変Ｔｎ５トランスポザーゼが断片化及びアダプター組込みを５分間の１段階で触媒する。従来のｉｎｖｉｔｒｏ転移では、トランスポゾンＤＮＡに隣接する逆方向の１９ｂｐモザイク末端（ＭＥ）配列がトランスポザーゼに認識されて、溶液中で安定なホモ二量体の対合複合体を形成する。この「トランスポソーム」が標的ＤＮＡ内にトランスポゾンを挿入する。ライブラリー調製に適用する場合、トランスポソームは代わりに、酵素とアダプターオーバーハングを有する遊離のＭＥ配列とで構成されるものとなる。不連続なトランスポゾンが挿入されると、非対称な５’アダプターオーバーハングを有するＭＥ配列の対称的な挿入を介して断片化が生じる。アダプターに相補的なプライマーを用いたＰＣＲ増幅により、ショットガンフラグメントライブラリーが得られる。

挿入バイアス及びライブラリーの複雑度への懸念に対処するために、従来のｉｎｖｉｔｒｏショットガンライブラリー構築の方法を用いて、広範囲にわたる比較が実施された（Ａｄｅｙら，２０１０）。分析の結果、トランスポソームに基づく方法による断片化部位での配列内容に関するバイアスがわずかに大きいことが明らかになった。しかし、これが全ヒトゲノム再配列決定の際のカバレッジ分布に与える影響はわずかなものであり（図２）、これらの方法は等しいＧ＋Ｃバイアスを示した。重要なことに、わずか４００ナノグラムから作製されるトランスポソームライブラリーの複雑度は、投入ＤＮＡ量がはるかに多い標準的なライブラリーの複雑度と同等かそれ以上であることがわかった。

断片化事象が任意の一続きのゲノムＤＮＡに沿ってほぼ同時に生じて、数１００塩基対の配列決定適合フラグメントが生じ得るため、この方法で観察されるライブラリーの複雑度は、ゲノムＤＮＡのアダプター隣接ライブラリーへの大量変換効率が高いことを示唆するものである。実際、この方法で得られたフラグメント長の分布を解析すると、隣接し攻撃するトランスポソームによる立体障害により起こると思われる３５ｂｐ付近での急激な減少が観察される（図３）。ＰＣＲを実施しないバージョンのプロトコル（フラグメントサイズ分布の歪みを避けるため）でも、データは、隣接するトランスポソーム反応の大部分（９５％超）が３５〜６００ｂｐごとに分離されていることを示唆している。原則的に、大量変換の効率がこのように高いことは、必要な投入量が少なくて済むと解釈されるべきである。そのことと一致するように、わずか１００ピコグラムの投入（ヒトゲノムの一倍体３０個に相当）でも、複雑なライブラリーを得ることができる。１０ピコグラム（一倍体３個に相当）で複雑度のボトルネックが始まるが、それでも数１００万もの固有にマッピングするリードペアが観察され得る。

実施例１：短距離連続性
１．Ａ．対称的かつ固有にタグ付けする断片化事象
ゲノムＤＮＡを断片化すると、それが機械的方法によるものでも酵素的方法によるものでも、任意の１つの「切れ目」のどちらかの端に由来する分子の対形成に関する情報が完全に失われる。この情報を保存するために、ｖｉｔｒｏ転移により導入された各切れ目に由来するフラグメントの両端に固有のバーコードを付加する方法を考案した（図４）。簡潔に述べれば、トランスポザーゼを用いて、きわめて少量のゲノムＤＮＡ内、すなわち、５個未満の一倍体ヒトゲノム相当物内への、切断制限酵素部位が隣接する縮重一本鎖「バブル」を含む合成トランスポゾンのｉｎｖｉｔｒｏ挿入を触媒することができる。図１に記載されている方法とは対照的に、合成トランスポゾンは連続性であり、２５ｂｐの縮重配列に隣接する２つのエンドヌクレアーゼ切断部位とともに１９ｂｐのＭＥ配列を含んでいる。上の鎖と下の鎖との間で縮重領域が相補的でないため、一本鎖バブルが存在して柔軟性が増加し、２つのトランスポザーゼ単量体との対合複合体の形成を助ける。これらの合成トランスポゾンを高密度（３５〜６００ｂｐごと）になるよう挿入した後、転移機序により生じた９ｂｐの損傷部位をギャップフィル／連結反応により修復する。

次いで、この構築物にプライマーゼに基づく全ゲノム増幅（ｐＷＧＡ）を施して、縮重領域にあるバブルを解消するとともに比較的均一な増幅をもたらす（Ｌｉら，２００８）。次いで、この材料を２つの切断エンドヌクレアーゼにより最後まで消化して、反対側の鎖の縮重領域の隣にニックを導入する。最後に、鎖置換ポリメラーゼを用いた伸長により標的ＤＮＡを断片化し、同一のバーコード配列で終わる分子を得る（すなわち、対称的なタグ付け）。この時点で、大量並列型の合成による配列決定（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）に適合させるために標準的なプロトコル（Ａテール付加、アダプター連結、ＰＣＲ）を適用することができる。個々のリードを用いて、各ライブラリー分子の各末端のバーコード及び一次配列にアクセスすることができる。

本明細書で使用するバーコードは、２５ｂｐの縮重ストレッチに由来するものであり、ｉｎｓｉｌｉｃｏで使用して、隣接するトランスポソームインサートに由来する一連のリードペア同士を連続して繋ぐことができるため、各断片化事象に固有であるべきである。このような「連結」はバーコードのみに基づくものであるため、一次配列内容から完全に独立している。

この方法の実現可能性を検証するために、２つのプライマーに対応する固定された非相補的な配列を有する一本鎖バブルを含む合成トランスポゾンを設計した（図４の第一段階に示す通りであるが、縮重配列ではなくＡ及びＢに対する固定された非相補的な配列を用いた）。これらの合成トランスポゾンをＥＺ−Ｔｎ５トランスポザーゼに負荷し、適切な条件下でゲノムＤＮＡと反応させた。転移事象により生じた予想される９塩基対の損傷部分にギャップフィル及び修復を行った後、非相補的な合成バブル配列を用いたＰＣＲにより、約０．５〜約３Ｋｂにわたる広いサイズ分布のアンプリコンを得た（図１６）。この実験により、一本鎖バブルを含む合成の近接するトランスポゾンを妥当な効率で挿入することが可能であることが確認される。挿入部位の更に高密度な分布を達成するためには、この方法を最適化するべきである。具体的には、トランスポザーゼに合成トランスポゾンを負荷する効率を向上させ得る。隣接し攻撃するトランスポザーゼ複合体による立体障害が挿入密度の上限を定めているため（図３）、過剰量の適切に負荷されたトランスポソーム複合体により、更に高密度な挿入分布が達成されるであろう。

１．Ｂ．隣接する事象が検出可能である証拠
隣接する断片化事象が配列決定により検出される可能性があるか否かを評価するために、１０ピコグラムのヒトゲノムＤＮＡ（一倍体３個に相当）に由来するトランスポソーム断片化ショットガンライブラリーの配列決定から、約２００万の固有にマッピングするリードペアを抽出した。各断片化事象の各末端で９ｂｐの複製が生じるため、各事象のどちらかの末端に由来する分子を、９ｂｐの重複をもたせてゲノムにマッピングするべきである。その結果、他のリードペアの「リード１」の開始部位から９ｂｐのところで「リード２」のマッピング位置の明らかな増加がみられた（図５）。この超低投入量のライブラリーにおけるこの特徴は、これよりも多量の出発物質から作製されたライブラリーよりはるかに顕著なものであった。この９ｂｐの重複を同じ切断点に由来するフラグメントの証拠として用いて、連続して隣接するフラグメントに由来する４〜６個のリードペアからなり、合計で約１Ｋｂ〜約２Ｋｂにわたる鎖が同定された（図６）。

１．Ｃ．方法の開発及び性能パラメータ
上記戦略（１．Ａを参照）は、（１）断片化事象の対称的で固有なタグ付けを達成し、（２）分析時に、上記タグを利用して、隣接するトランスポソームインサートに由来する一連の配列リードペア同士を連続して繋ぐために考案した複数の関連する方法のうちの１つである。対称的なタグ付けの別のアプローチも開発されており、この方法では、タグ付けと断片化の両方が一段階でできるように、個々のトランスポザーゼに対称的にタグ付けされているが正式には不連続なオリゴヌクレオチド（すなわち、「オリゴ」）を負荷する。

この別のアプローチに基づく方法は、対称的にタグ付けされ５’−５’連結したトランスポゾン試薬を構築するために考案したものである（図１７）。この試薬を作製するために、一方が５’−５’逆方向アデニンＲＮＡ部分と３’リン酸をブロックする基とを含む２つのプライマーを連結した。Ｔ４ＲＮＡリガーゼを用いて、末端ＲＮＡ塩基と他方のオリゴヌクレオチドの５’リン酸ＤＮＡ塩基との間で一本鎖連結を行う。次いで、５’−５’連結したプライマーを、適切な両プライマーに相補的な配列と、タグとして働く縮重ストレッチ（例えば、２０個のランダムヌクレオチド―図１７で黒く示されている）と、トランスポゾンにより認識される１９ｂｐのモザイク末端（ＭＥ）配列とを含むオリゴヌクレオチドとハイブリダイズさせる。５’−５’ペアの第一のプライマーが伸長するのに対し、他方の末端は３’リン酸によりブロックされている。次に、Ｔ４ポリヌクレオチドキナーゼ（Ｔ４ＰＮＫ）を用いて、３’をブロックしているリン酸を除去し、第二のプライマーを鎖置換ポリメラーゼにより伸長させる。得られた種の各分子は、縮重ストレッチ全体と一致しそれぞれが１９ｂｐのモザイク末端（ＭＥ）配列で終わる、逆方向アデニン部分により５’−５’連結した２つのオリゴヌクレオチドを含む。ゲル系の精製を用いて伸長副生成物を除去し、次いで、適切なオリゴヌクレオチドをハイブリダイズさせてＭＥサブ配列の各末端を二本鎖にする。得られた種はともに単一分子レベルで対称的にタグ付けされており、Ｔｎ５トランスポザーゼに容易に負荷することができる。

５’−５’連結し対称的にタグ付けされたトランスポゾン種を記載の通りに構築した。ゲル精製して伸長副生成物を除去する前の前記トランスポゾンの完全長生成物（１９４ｂｐ）を図１８ａに示し、前記トランスポゾンによるゲノムＤＮＡの断片化に成功したものを図１８ｂに示す。

この方法が成功するか否かは、次の挙げる少なくとも２つのパラメータによって決まる。（１）ライブラリーの複雑度の維持：リードペアを繋ぐ作業は、配列決定で鎖のどちらかの末端にある隣接するフラグメントが検出できなくなったときに終了する。例えば、極端な場合、合成転移に由来するフラグメントの１００％について、対応するタグとともに配列決定が成功すれば、全染色体の末端から末端まで繋ぐことが原理的には可能である。（２）表示の均一性：断片化事象の大型のフラグメントの両端からタグ及び一次配列を抽出するのに必要な配列決定の程度は、ライブラリーの均一性に大きく依存する。相対的表示の大きな歪みを克服するにためは、それに応じた大量の配列決定が必要となり得る。したがって、歪みを最小限に抑えることが重要である。

模擬実験では、トランスポソームによる断片化の実験によるサイズ分布に基づき（図３、上）、配列決定が成功したトランスポザーゼ由来のフラグメントの割合の関数（そして、配列決定深度の関数及び上記性能パラメータである）として、長さがＮ１０、Ｎ５０及びＮ９０の繋がったリードペアが決定された。図７に示すように、効率が９０％を超えたところで連続性が急激に上昇している。９５％の効率では、Ｎ５０が１．４Ｋｂであり、Ｎ１０が４．７Ｋｂである。９９％の効率では、Ｎ５０が８Ｋｂ、Ｎ１０が２４Ｋｂである。９９．９％の効率では、Ｎ５０が７１Ｋｂ、Ｎ１０が２３７Ｋｂである。

この技術の重要な側面は、独立したリードペア間でのｉｎｓｉｌｉｃｏ「連結」が、一次配列内容からほぼ完全に独立しているという点にある（従来のｄｅｎｏｖｏアセンブリではよくみられるように、密接に関連している配列の遍在性による混同がない場合）。むしろ、連結は、対称的なタグ断片化事象で使用する合成トランスポゾンにより生じた共通のバーコード配列に基づくものである。何１００万もの独立したタグを配列決定し、妥当な編集距離を許容しても、２５ｂｐのバーコード（ＰＥ１００の実行に比べて配列決定の量を２５％増加させるだけでよい）が偶然に一致する可能性はほとんどないことに留意されたい。更に、予想される一次配列間の９ｂｐの重複は、正しい連結の「検証キー」として役立ち得る。したがって、偶然の一致又はエラーにより誤った連結を生じる可能性はきわめて低い。

この方法は、ショートリード技術を使用しながら、「ストローブリード（ｓｔｒｏｂｅｒｅａｄ）」（すなわち、単一の長い近接フラグメント由来の複数のサブリード（Ｒｉｔｚら，２０１０））の同等物を可能にし得る。鎖に沿った任意のゲノムフラグメントが長すぎてシングルエンド又はペアエンドの配列決定が及ばない場合、ギャップが生じる。ギャップの頻度及び長さの分布は、この方法と統合されるショートリード技術のリード長の関数になる。例えば、１）ゲノムフラグメントを１００ｂｐリード（ＰＥ１００）のペアエンドにより調べると仮定すれば、２）同じフラグメントをどちらかの末端から配列決定するリードペア同士を１つにするのに末端の重複が２０ｂｐで十分であり、３）図３に示す断片化のサイズ分布を適用すれば、模擬実験で１Ｋｂ当たり平均０．７のギャップが示され、ギャップサイズは平均５３±４８ｂｐ（全スキャフォールド長の５％未満）となる。

１．Ｄ．トランスポザーゼによるＬｏｘＰ挿入及びそれに続くＣｒｅ組換え
別の実施形態では、細菌トランスポザーゼＴｎ５を用いて、逆方向のモザイク末端（ＭＥ）配列が隣接した３４ｂｐの方向性のあるＬｏｘＰ部位ならびに内部ビオチン化及び代替となる可能性のある配列決定プライマーを含むトランスポゾンを挿入し得る。目標挿入密度は、ほぼ１０キロベースごとに１つの挿入である。

得られた分子集団は、同じ順序又は逆の順序で挿入事象を有する。Ｃｒｅリコンビナーゼによる組換えにより、２つのＬｏｘＰ部位が同じ方向で直列に挿入された１０ｋｂの一続きの環状ＤＮＡが切り出される。直列したＬｏｘＰ部位が逆方向になっている場合には、１０ｋｂ領域が逆方向になるが、ＤＮＡは直鎖状のままである。最後に、鎖間のＬｏｘＰ部位で鎖の組換え及び交換が起こり、ここでも直鎖状ＤＮＡが生じる。

次いで、プラスミドセーフエキソヌクレアーゼを用いて直鎖状分子を消化し、同じ方向で直列する２つのＬｏｘＰ部位間の組換えで生じた環状ＤＮＡを残し得る。

次いで、環状ＤＮＡを任意の方法でライブラリー調製に使用してもよく、またＬｏｘＰトランスポゾンに隣接するＤＮＡをストレプトアビジンビーズプルダウンにより濃縮することができる。ＬｏｘＰ部位内から、又は分子の終端からＰＣＲ、次いで配列決定を行って、約１０ｋｂのメイトペアリードが得られる。

１．Ｅ．Ｙトランスポゾン
別の実施形態では、ライブラリー調製の方法として、従来のトランスポザーゼ触媒によるアダプター挿入の代わりにＹアダプター法（図２３）を用いてもよく、この方法で得られる種はＡ−Ｂ（５０％）、Ａ−Ａ（２５％）又はＢ−Ｂ（２５％）であり、ここでＡ及びＢは２つの異なるアダプターであり、分子の５０％のみ配列決定の実行が可能である。

この場合、融解温度を高くするための相補性の拡張とともに１９ｂｐのモザイク末端認識配列に相補的なオリゴヌクレオチドを、次いでＡ及びＢ’の非相補的な一本鎖ＤＮＡ（ｓｓＤＮＡ）アダプターオーバーハングをＴｎ５に負荷し得る。転移により、一方のアダプター（３’末端のＭＥ）が、ハイブリダイゼーションを介して結合した他方の残りのアダプターと直接連結される。

置換を行わない重合及びニック修復では、各挿入事象により実行可能な配列決定アンプリコンが生じ得る分子が生じ得る。

別の実施形態は、図２３のように、Ｙアダプターの末端を連結して他方の鎖が融解により失われるのを防ぐＵ（又は他のリンカー又は分解もしくはポリメラーゼ中断の標的化が可能な部位）を含むヘアピントランスポゾンを含む。

１．Ｆ．ダブルバブルバーコードトランスポゾン
別の実施形態では、以下の例に示すような、２つの縮重バーコード（各鎖に）及び２組のプライマー部位ならびにいくつかの制限部位を含む合成トランスポゾンを高頻度でゲノムＤＮＡ内に挿入することができる：
ＥＳ−ＳｂｆＩ／ＡｓｉＳＩ−Ｎ１／Ｎ２−バーコード−Ｘ／Ｙ−ＮｏｔＩ−Ｘ／Ｙ−バーコード−Ｎ１／Ｎ２−ＳｂｆＩ／ＡｓｉＳＩ−ＥＳ。

生じた転移及びギャップ修復後の全ゲノム増幅（ＷＧＡ）により縮重領域が分解される。最も外側の制限部位（上の例ではＳｂｆＩ、ＡｓｉＳＩ）を用いた消化の後、Ｎ１／Ｎ２及びオーバーハングするフローセルプライマーを用いるＰＣＲよって配列決定を実行し、各挿入トランスポゾン内の２つの縮重バーコードを関連付けることが可能となる。

トランスポゾン中央部での他の消化（上の例ではＮｏｔＩ）ならびにＸ／Ｙ及びＮ１／Ｎ２からの増幅及び配列決定により、外側のバーコード配列及び介在するゲノムＤＮＡが得られる。

１．Ｇ．トランスポザーゼで挿入したバーコードによるサブアセンブリ
別の実施形態では、各負荷ＤＮＡ配列が外側のフローセルプライマーと、縮重バーコードと、内側のシーケンシングプライマーと、二本鎖のトランスポザーゼ認識配列とからなる不連続なトランスポゾンを挿入し得る。目標挿入密度は１〜２ｋｂごとであり得る。

転移後、希釈した鋳型、又は可能性が高い方としてエマルジョンの条件下で、配列決定又はフローセルプライマーオーバーハングを有する縮重配列プライマーを用いて、分子に沿って停止トランスポザーゼ付加配列の方に遡って伸長しながら、さまざまな位置とアニールすることができる。

配列決定により、バーコードを長い分子全体で生じた縮重プライマー伸長に由来するあらゆるリードと関連付けることができる。

１．Ｈ．メイトペア（ｓｓＤＮＡ環状化）トランスポザーゼに基づくライブラリー調製物
別の実施形態では、サイズ選択が必要とされ得る、フラグメントサイズが約１〜２ｋｂの標準的なバーコード付加トランスポザーゼに基づくライブラリー調製物を用いて、メイトペアライブラリーを形成し得る。

バーコード付加トランスポザーゼに基づく大きいフラグメントのライブラリーの調製物を、内部ビオチン及び５’末端付近のウラシルも有する５’リン酸化フローセル（最も外側）プライマーを用いるＰＣＲに供する。

得られたＰＣＲ生成物を環状化した後、機械的剪断を施す。次いで、断片化したＤＮＡを変性させ、一本鎖で環状化する。最初の環状化の末端を含むフラグメントを、ストレプトアビジンコートしたビーズを使用するために選別する。次いで、環をウラシルの位置で消化して直鎖状にし、分子を反転させる。配列決定により、バーコードを保存すると同時に元のライブラリーの末端からのメイトペアリードが可能となる。

１．Ｉ．トランスポゾンで改変したフォスミド又はプラスミドライブラリープールの配列決定
別の実施形態では、連続する合成トランスポゾンをゲノムＤＮＡ（ｇＤＮＡ）内に挿入した後、ギャップ修復を行い得る。次いで、ＤＮＡを４０ｋｂ（又は約５ｋｂ）に剪断して使用し、それぞれ複雑なフォスミド（又はプラスミド）ライブラリーを作製する。これにより、固有のバーコードを有するか又は反復領域内への固有の挿入部位により同定されるゲノムの反復領域を、トランスポゾンにより分断することができる（図２７）。

簡潔に述べれば、連続する合成トランスポゾンを、転移法を用いて１００〜１０００塩基対（ｂｐ）の密度になるようにゲノムＤＮＡ又は高分子量ＤＮＡ内に挿入する。トランスポゾンはすべて同じものであるか、又は固有のバーコードを含んでいる。次いで、転移機序により生じた長さ９ｂｐの損傷部位を修復する。次に、ＤＮＡを約４０ｋｂ（又は約５ｋｂ）に剪断し、サイズ選別を実施した後、末端修復を行う。次に、修飾し、剪断及び修復したＤＮＡを用いて、複雑なフォスミド（又はプラスミド）ライブラリーを作製する。最後に、フォスミド（又はプラスミド）ライブラリープールの配列決定を行って、相化の情報及びトランスポゾン挿入に関する情報を得、この情報により、固有のバーコード及び／又は固有のトランスポゾン挿入部位を用いて、ゲノムの類似した領域を識別することが可能となる。

実施例２：中距離連続性
２．Ａ．液滴特異的バーコードを用いるエマルジョンＰＣＲ法
エマルジョンＰＣＲ法は十分に確立された方法であるが、以下の方法は、液滴特異的バーコードを有するプライマーを含む試薬を含有する液滴を必要とするものである。上記試薬は、縮重配列に隣接する共通配列のエマルジョンＰＣＲを行って、生成物をミクロン規模のビーズに回収することにより作製することができる（図８）（Ｄｒｅｓｓｍａｎら，２００３）。具体的には、限界希釈を用いたエマルジョンＰＣＲ、次いでハイブリダイゼーションによる「増幅した」ビーズの濃縮により、多数のクローン的に増幅したビーズ（各ビーズは推定上固有のバーコードを有する）を作製し得る（Ｓｈｅｎｄｕｒｅら，２００５）。このビーズを以下の方法で使用するために再び乳化することができる。クローン的に増幅したビーズを液滴１個当たり１つ含ませるとともに、共通配列及びエマルジョンＰＣＲプライマーを適切に設計すれば、バーコード付加したアンプリコンがビーズ自体に捕捉されて回収が簡便になる。

２．Ｂ．「予め転移を施した」ＨＭＷゲノムＤＮＡのバーコード付加
一実施形態では（図９）、相補的な末端を有する２つの異なるサブ配列の５’ｓｓＤＮＡ伸長を有するトランスポザーゼ認識配列を含むアダプターをトランスポソームに負荷する。これにより、関連するアダプター配列が密に散在するＨＭＷゲノムＤＮＡが得られる。次いで、この「予め転移を施した」分子を、液滴生成のハイスループット性を維持しつつ、剪断を最小限に抑えサイズを制御するマイクロ流体を用いて、限界希釈法でエマルジョンに区画化する（Ｚｅｎｇら，２０１０）。液滴特異的バーコードを有するプライマーを用いたエマルジョンＰＣＲ法（上記２．Ａ）により、同じＨＭＷ分子に由来する多数のフラグメントが各液滴内で増幅される。同じ液滴に由来する配列リードが最終ライブラリー内の同じバーコードと関連付けられて、２０〜２００Ｋｂの各前駆体分子のｉｎｓｉｌｉｃｏグループ分け及び局所的なアセンブリが可能になる。

２．Ｃ．「予め増幅した」ＨＭＷゲノムＤＮＡのバーコード付加
別の実施形態では（図１０）、同様に剪断を最小限に抑えるマイクロ流体を、液滴内でのクローン化による等温での多重置換増幅（ＭＤＡ）を補助する試薬とともに用いて、ＨＭＷＤＮＡを直接エマルジョンに区画化する（Ｍａｚｕｔｉｓら，２００９）。次いで、液滴特異的バーコードを有するプライマーを用いて、この液滴を標準的なトランスポソーム及びエマルジョンＰＣＲ用の試薬を含有する液滴と融合させる（比較的簡単で費用対効果の高いマイクロ流体装置を用いる）（上記２．Ａ）。上にすでに記載した実施形態と同様に、得られたライブラリーの回収及び配列決定により、同じバーコードを共有するリードが同じ２０〜２００Ｋｂの前駆体分子に由来することを見込んで、各分子上のショットガン一次配列及びバーコード配列の両方を調べることができる。

この方法をトランスポソームによる断片化、それに続く単一液滴内でのＰＣＲで使用し得る。「１段階」の方法を用いて細菌コロニーから配列決定ライブラリーを作製する場合、転移を実施し、次いでクリーンアップを行わないＰＣＲを実施し得る。いくつかの態様では、トランスポソーム反応物をＰＣＲ試薬の添加により希釈する（Ａｄｅｙら，２０１０）。この方法では、ニックトランスレーションによる転移で生じた９ｂｐの損傷部分の修復を促進するのはＰＣＲポリメラーゼであることに注目するべきである。これらのデータは少なくとも、ＭＤＡ液滴をトランスポソーム反応を補助する液滴と融合させることが可能であることを例証するものであり、次いで、この液滴をＰＣＲ試薬とバーコード付加したプライマーとを含有する更に大きい液滴と融合させることも可能である。

同じ有効な最終結果をｉｎｖｉｔｒｏの方法だけで達成することができる。本明細書に記載の各方法（２．Ｂ、２．Ｃ）は、各エマルジョン液滴内で、トランスポソームによる断片化の生成物を固有のバーコードを付加したビーズに捕捉することに依存するものである。これらの方法のうちの１つ（例えば、２．Ｃ；「「予め増幅した」ＨＭＷゲノムＤＮＡバーコード付加」に記載の方法）を成功させるためには、トランスポザーゼによる断片化とポリメラーゼによる伸長がともに同じエマルジョン区画内、すなわち同じ緩衝液内で生じなければならない。初期の実験はこの特定の段階に焦点が当てられてきたものであり、エマルジョンではない反応体積中で行って最適化を促進するものである（図１９の模式図）。最近、選択された緩衝液中でのこの適合性が示された。簡潔に述べれば、ＮｅｘｔｅｒａＨＭＷ緩衝液中のゲノムＤＮＡ５０ｎｇ、ｄＮＴＰ、アダプター１及び２、負荷したトランスポザーゼならびにＰＣＲポリメラーゼを含有する反応体積を調製した。アダプター１及び２は、合成トランスポゾンに相補的な配列と５’末端の固有の配列の両方を含むように設計されたものである（Ｐ１及びＰ２）。トランスポザーゼ＋伸長反応を５５℃で５時間行って転移を促進し、その直後に温度サイクリングを１ラウンド行って、ニックトランスレーションを促進しアダプター１及び２を付加した（７２℃で１０時間、９５℃で３０分、６２℃で３０分、７２℃で１０時間）。反応物にカラムによるクリーンアップを施した後、外側プライマーＰ１／Ｐ２を用いるＰＣＲの鋳型として使用した。得られたアンプリコンサイズの分布（図２０）は、挿入密度が不十分ではあるが、同じ緩衝液中で生じるトランスポザーゼによる断片化及びポリメラーゼによる伸長と一致していた。この反応は、油中水型エマルジョンとの関連における伸長生成物又はバーコード付加オリゴヌクレオチドが負荷されたビーズの捕捉を実証するものであると思われる。

中距離連続性情報は、個人のヒトゲノムの再配列決定におけるハプロタイプ分解を広範囲で補助するのに十分であると考えられる。このことを検証するために、大きいインサート（フォスミド）のクローンの複雑なプールをバーコード付加及び配列決定することにより、簡便な「簡略」スキームを実施した。具体的には、ランダムに剪断したヒトゲノムＤＮＡ（約３５Ｋｂ）を１個人からクローン化して、複雑なフォスミドライブラリー（２×１０⁶超のクローン）を得た。次いで、このライブラリーを培養大腸菌（Ｅ．ｃｏｌｉ）に形質転換した。得られた形質転換大腸菌（Ｅ．Ｃｏｌｉ）の培養物を１１５区画に分割し、形質転換体を選別した。最初の形質転換は、１プール当たり約５，０００クローンを生じるまで増加させた。インサートのサイズが一様に約３５Ｋｂであると仮定すると、これは１プール当たり二倍体ヒトゲノムの約３％の物理的カバレッジに相当する。次いで、トランスポソームによる断片化を実施して、１１５のプールそれぞれからバーコード付加ライブラリーを作製した。このライブラリーを計１２０Ｇｂの配列（ＰＥ７６又はＰＥ１０１＋バーコード）について、ＩｌｌｕｍｉｎａＧＡ２ｘで１８レーンにわたり配列決定した。また、これと同じ個人由来のショットガンライブラリーも計８６Ｇｂの配列（ＰＥ５０）、すなわち一倍体ゲノムの２８倍のカバレッジについて、ＩｌｌｕｍｉｎａＨｉＳｅｑで７レーンにわたり配列決定した。後者のデータだけで３６０万のＳＮＰ及びインデルのコールが得られたが、これまでの個人のヒトゲノム配列決定の例にもれず、これらのコールではハプロタイプを検出することができない。

バーコード及びマッピングリードをデコンボリューション後、各プール内の個々のクローンのおよその境界がリード深度によって容易に確認された。二倍体ゲノムの約３倍の物理的カバレッジに対して計５３８，００９クローン（１プール当たり４６７８±１２２９）が確認された。ゲノムの９８．６％が１＋クローンでカバーされ、９３．６％が３＋クローンでカバーされた。クローンプールの長期間の増殖を避けて、表示に対する増殖効果の影響を最小限に抑えた。これは成功し、１プール当たり平均８２％のクローンが１桁以内のリード深度であった。各プールはゲノム全体を単にまばらに抽出するものであるため、任意のプール内の重複、すなわち「クローンの衝突」の割合が低い。したがって、各プールに由来するショートリードは、任意の位置における２つの相同染色体のうちの一方だけの対立遺伝子を圧倒的に示す。節約−最大化法（ｐａｒｓｉｍｏｎｙ−ｍａｘｉｍｉｚａｔｉｏｎａｐｐｒｏａｃｈ）（Ｂａｎｓａｌ及びＢａｆｎａ，２００８）を用いて、クローン由来の一倍体遺伝子型のコールを全プールにわたってアセンブルした。得られたハプロタイプアセンブリは、確認されたヘテロ接合ＳＮＰの９３％をカバーするものであり、Ｎ５０は３８６Ｋｂであった。全ＲｅｆＳｅｑ遺伝子のうち、６３％が単相のハプロタイプ区画に完全に含まれ、７５％が単一の区画に少なくとも半分含まれていた。

この相化されたアセンブリをこの同じ個人のＨａｐＭａｐ予測と比較した（図１１）。ＬＤが例外的に高い領域（Ｄ’＞０．９０）内では、ＨａｐＭａｐ予測とのほぼ完全な一致がみられた（９９．５％超の一致）。選択した試料がトリオの一部ではなかったため、ＨａｐＭａｐ予測は遺伝子型コールからの相を予測するのに対立遺伝子間のＬＤに依存するものである。それに応じて、組換え産物が比較的高い領域では一致が約７１％に減少し（Ｄ’＜０．１０）、これにはペアワイズＳＮＰ組換えの大部分（６６％）が含まれる。このゲノムのハプロタイプ分解的再配列決定は直接的で実験的なものであるため、ＬＤ及び対立遺伝子頻度などの集団ベースの測定に完全に直行するものである。したがって、この傾向はＨａｐＭａｐ相化の側のエラーを反映している可能性がある（Ｌｅｃｙら，２００７）。

集団ベースの推定法とは対照的に、直接的なハプロタイピングでは、複雑な重複遺伝子座におけるものを含めた、まれな対立遺伝子及び構造的変異の相化が可能である（Ｋｉｄｄら，２００８）。例えば、これらのデータでは、染色体７ｑ１１上に共通の逆位多型を含むクローンのほか、染色体１ｐ３６上にまれな欠失多型を含むクローンがみられた。同様の方法を用いて、本明細書に記載の方法による２０〜２００Ｋｂ領域への短い配列リードの一義的な割り当てを活用し得る。中距離連続性情報は、クローンに依存するものであっても、完全にｉｎｖｉｔｒｏのものであっても、個人のヒトゲノムの長距離のハプロタイプ分解を容易にする。更に中距離連続性情報は、大型で複雑なゲノムのｄｅｎｏｖｏアセンブリも容易にし得る。

２．Ｄ．ビーズ固定化トランスポソームを用いるエマルジョン転移
別の実施形態では、二本鎖ＤＮＡ（ｄｓＤＮＡ）トランスポザーゼ認識配列で終わりフローセルプライマーで始まる、プライマーが隣接する縮重単クローンバーコードオリゴヌクレオチド（すなわち「オリゴ」）でコートしたビーズを、高分子量ゲノムＤＮＡ及び遊離のトランスポザーゼを用いて乳化し得る。エマルジョン内でビーズ固定化オリゴ及び攻撃ゲノムＤＮＡにトランスポザーゼを負荷し得る。得られたフラグメントはＰＣＲの準備ができた状態であり、そのバーコードとともに配列決定することができる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けすることができる。

この方法にはいくつかのバリエーションがある。例えば、モザイク末端配列（ＭＥ）で終わるバーコード付加オリゴの多数のクローンコピーを、その５’末端で各ビーズ上に固定化する。このビーズを５’−ビオチン化プライマー及び縮重領域を用いるエマルジョンＰＣＲにより作製してもよく、あるいはこれより小型のバーコード付加オリゴのセットを合成して、ビーズに固定化してもよい。ＭＥの逆相補体（ＭＥ’）を含む短いオリゴがエマルジョン混合物中に存在してトランスポザーゼ負荷を補助する。あるいは、ＭＥ’を乳化前にトランスポザーゼにアニールさせて負荷してもよい。ビーズ結合オリゴを酵素切断が可能な部分を用いて設計し、負荷したトランスポソームを液滴内に拡散させ得る。

２．Ｅ．エマルジョン転移及びビーズ捕捉
別の実施形態では、内側に逆方向塩基を有し、したがって３’末端を２つ有するオリゴでビーズをコートする。ビーズから離れた方の逆方向塩基の３’側には、プライマー部位に隣接する縮重単クローンバーコード及び固定化アダプター配列（「Ｎ１プライム」）が存在する。これらを基質（例えば、ＨＭＷｇＤＮＡ）及び予めオリゴ５’−Ｎ１−ＭＥを負荷したトランスポザーゼとともに乳化する。次いで、各液滴内で転移が進行し、５’−Ｎ１−ＭＥ配列と共有結合したフラグメントが生じる。次いで、この混合物を加熱して、トランスポザーゼ酵素を不活性化し、断片化した基質を変性させる。徐冷後、転移により生じた５’−Ｎ１に隣接するフラグメントを、ビーズ結合オリゴの遊離末端にアニールさせる。次いで、各液滴内に存在する間又はエマルジョン破壊後に、耐熱性ポリメラーゼを用いてビーズ結合オリゴを伸長させる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けする。

別の方法では、ビーズをプライマーが隣接する縮重単クローンバーコードオリゴでコートする。次いで、各ビーズ固定化オリゴの３’末端に、３’−ブロッキング部分を有するランダムヘキサマー（ＤＮＡ又はＬＮＡ）のプールをｓｓＤＮＡ又はＲＮＡリガーゼにより付加する。次いで、ビーズ、基質（例えば、ＨＭＷｇＤＮＡ）及び予め付加したトランスポソームを乳化する。転移により、共有結合した５’リンカーを有するフラグメントが生じる。このフラグメントを変性させて、ビーズ結合オリゴのランダムな３’部分にアニールさせる。次いで、ハイブリダイズしたフラグメントを、各液滴内に存在するポリメラーゼにより、又はエマルジョンを破壊しポリメラーゼを加えることにより、バーコードに伸長させる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けする。

２．Ｆ．トランスポザーゼ及び乳化を用いる長い分子の末端捕捉
別の実施形態では、末端に連結したアダプターＢ’を有する長いゲノムＤＮＡ分子に、逆方向アダプターＡ配列がトランスポゾン認識配列の隣接したバブルを形成するバブルトランスポゾンのトランスポゾン挿入を施し得る。次いで、この分子を乳化することができ、この乳化では、微量反応物の一部が大型の分子、アダプターＢで終わる単クローン縮重バーコードでコートしたビーズ及びアダプターＡを含有する。次いで、ＰＣＲを実施することにより、連結したＢアダプターを有する最も外側の末端がビーズ上で増幅され、固有のバーコードが付加される。

次いで洗浄したビーズを用いるＰＣＲを実施した後、ライブラリーを配列決定し、バーコードを用いて、元の長い分子の各末端に由来する２つの末端配列を関連付け、元の長い分子のジャンピングライブラリーをその元の長さに関係なく効率的に作製し得る。

２．Ｇ．トランスポザーゼによるＴ７プロモーター挿入
別の実施形態では、一方の側にＴ７ターミネーターが隣接し、他方の側にＴ７プロモーターが隣接するバブル構造をトランスポソームに負荷する。この構造をバルク転移により基質（例えば、ＨＭＷｇＤＮＡ）内に１キロベース当たり少なくとも１か所の組込みという密度で組み込む。次いで、得られた材料を、Ｔ７ＲＮＡポリメラーゼと、プライミング部位が隣接しＴ７ターミネーターより前で、組み込まれたバブル構造の一部分に相補的な配列（Ｘ）で終わる単クローン縮重バーコードを含むビーズとともに乳化する。各液滴内でｉｎｖｉｔｒｏ転写を行い、Ｘ’で終わる得られたＲＮＡ分子をビーズに結合したその相補的な配列とハイブリダイズさせる。次いで、各液滴内で、又はエマルジョン破壊後に、逆転写を行ってビーズ結合オリゴを伸長させる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けする。

２．Ｈ．サブアセンブリを可能にするアダプターバブルを挿入した高分子量フラグメントのエマルジョンＰＣＲの拡張
別の実施形態では、「バブル」を形成するトランスポゾンを挿入してもよく、ここでは、トランスポゾン内のバブルが２つの同じアダプターを逆方向に含んでいる。逆方向の同じアダプターを使用することにより「バブル」構造を維持する。約１，０００ｂｐの頻度でバブルを挿入し得る。

図２６に示すように、次いで大きいフラグメントを乳化するが、この乳化では、微量反応物の一部が、単一の長いＤＮＡフラグメント、ビオチンを介して５’末端で結合し外側プライマーからなるプライマーでコートした単一のビーズ、縮重バーコード（各ビーズに対して単クローンである）及び転移により挿入されたアダプターに対する相補体を含有する。次いで、多重置換ＰＣＲ（ＭＤＰＣＲ）により、各アダプター挿入部位から伸長する多数のコピーが生じる。

次いで、エマルジョンを破壊してビーズを取り出す。不連続なトランスポゾン上の第二のアダプターによる転移が、増幅フラグメントの各コピーのビーズからランダムな距離で起こる。ビーズと結合していない生成物を除去し、増幅を行うと、大きいフラグメント由来のアンプリコンをすべて互いに関連付けることが可能なライブラリーが得られる。またこのライブラリーは、元のバーコードアダプター由来のゲノムＤＮＡの配列決定により得られた配列を、リードを関連付けるアンカーとして用いる能力を保持しており、この場合、局所的に関連するリードはすべて、異なる二次的な（エマルジョンＰＣＲ後の）転移事象から生じたものであるため、そのペアリードをサブアセンブリに使用することができる。

２．Ｉ．クローン的にバーコードでテール付しランダムにプライムするナノリットルリアクター内での増幅
別の実施形態では、各ビーズに対して単クローンの縮重バーコード及びクローンでない完全な縮重短ｋ−ｍｅｒ（ｋ＝５〜９）を有するプライマー配列又はその鋳型でビーズをコートする。このプライマーは、ビーズからの固定化ＤＮＡオリゴの切出しにより、あるいは固定化ＤＮＡオリゴのＲＮＡプライマーへのｉｎｖｉｔｒｏ転写により放出される。ビーズ上に固定するオリゴは、得られるＤＮＡ又はＲＮＡプライマーが次のような構造になるように設計する：
５’−［共通１］−［クローンバーコード］−［共通２］−［ランダム＿ｋ−ｍｅｒ］−３’ＯＨ。

ビーズ固定化オリゴは、その全配列を直接固定化する（例えば、９６の異なるバーコードからなる組で）ことにより調製しても、エマルジョンＰＣＲにより調製してもよい。

このように構築されたビーズを、（ｉ）液滴１個当たり基質フラグメント１つの目標濃度の基質ＤＮＡ（例えば、高分子量ゲノムＤＮＡ）、（ｉｉ）特に限定されないがＴ７ＲＮＡＰ及びＮＴＰ、任意の適切な制限酵素、又はウラシルＮ−グリコシラーゼ及びＤＮＡグリコシラーゼ−リアーゼを含めたプライマー放出／合成のための試薬ならびに（ｉｉｉ）切断／合成されたプライマーからのＤＮＡ重合を補助する試薬（例えば、ｐｈｉ２９又はＢｓｔＤＮＡポリメラーゼ、ｄＮＴＰ）とともに乳化する。

プライマーの放出また合成の後、プライマーは、ランダムプライミングにより基質分子全体の部位とアニールする。アニールしたプライマーは、含まれるＤＮＡポリメラーゼにより鋳型に沿って伸長し、所与の液滴に対して単クローンのタグを５’末端に、また基質に沿ったさまざまな地点に由来する配列を３’末端に含む、ランダムな間隔で配置されたｄｓＤＮＡフラグメントを複数生じる。一態様では、ＤＮＡポリメラーゼは強い鎖置換活性を有する（例えば、ｐｈｉ２９ＤＮＡＰ）。

このＤＮＡ重合の後にエマルジョンを破壊する。ＲＮＡプライマーを用いる場合、各プライマーにコードされるバーコードを当該技術分野で公知の方法によりＤＮＡに逆転写する。最後に、得られたフラグメントを標準的なライブラリー構築技術（トランスポザーゼに基づく技術又はその他の技術）に供し、共通１からなる左側プライマー及び転移又は連結により付加されたアダプターに対応する右側プライマーを用いて増幅する。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けすることができる。

実施例３：長距離連続性
配列決定フローセル表面でのきわめて高分子量（ＨＭＷ）のゲノムＤＮＡへのｉｎｓｉｔｕ転移による長距離連続性（例えば、１００Ｋｂ〜１０Ｍｂ）のための方法は、上記のように連続性情報をバーコードに捕捉するのではなく、空間的情報（すなわち、物理的に関連する配列決定鋳型が固定化されている相対的座標）を用いて開発される。

このような方法は、（１）ｉｎｓｉｔｕ転移を利用して任意に大きい単一のＤＮＡ分子からペアエンドリードを得ること、及び（２）任意に大きい単一のＤＮＡ分子の全長にわたって複数のリードが得られる関連する方法を開発することにより遂行される。

１つの方法では（図１２ｂ）、ＨＭＷＤＮＡ分子をアダプター（ＦＣＡ１）で末端修飾し得るが、次いで、伸展を行わずにフローセルとハイブリダイズさせる。長いＤＮＡ分子は通常、溶液中でランダムコイル構造をとる。一端がハイブリダイズするのに対し、他端は鋳型の輪郭長の平方根に比例する領域内に空間的に閉じ込められている。これにより、他端も、接近した又はほぼ同じ物理的位置（すなわち、「拘束された」物理的位置）でハイブリダイズする確率が増す。次いで、固定化された鋳型に第二のフローセルプライマーに対応するハイブリッドアダプター（ＦＣＡ２）が負荷され、可能性のある２つの配列決定プライマー（ｐ１又はｐ２）のうちの１つに対応する配列も含むトランスポソームによるｉｎｓｉｔｕ転移を施す。クラスターＰＣＲの後、元の鋳型の約５０％から明らかに重複する又は接近した位置にあるクラスターが２つ生じることが予想され、そのクラスターは、それぞれがｐ１又はｐ２に隣接するきわめて高分子量（ＨＭＷ）の分子の一端又は他端に由来するショットガン配列を含むものである。物理的座標が同じ又は接近した位置にあるｐ１／ｐ２に由来するリードは、同一のきわめて高分子量（ＨＭＷ）の分子の末端に由来するものである可能性が高い。

この方法では（図１２ｂ）、分子は、フローセル配列（すなわち、クラスターＰＣＲプライマー）の１つに相補的な３’一本鎖テールを有するべきである。これを達成するために、フローセルアダプターＡ（又はＢ）を溶液中でＨＭＷＤＮＡ分子の末端に付加し、次いでアダプターＢ（又はＡ）をｉｎｓｉｔｕ転移により挿入し得る。実際には、上に挙げた段階の１つで２つの異なる種のアダプター、すなわちＡ１及びＡ２（又はＢ１及びＢ２）が必要である。その理由は、任意のＨＭＷＤＮＡ分子のどちらかの末端のフラグメントに由来するクラスターは近接した位置にあり、異なる配列決定プライマーを使用しなければ他方の配列決定に干渉する可能性があるからである。これは、ともにフローセルアダプター配列（Ａ（又はＢ））を含むが、３’末端にクロスハイブリダイズしない異なる配列決定プライマーの設計を容易にする固有の配列も含む２つの異なるアダプター（すなわち、Ａ１及びＡ２（又はＢ１及びＢ２））を使用することにより達成することができる。一実施形態では、Ａ１及びＡ２を溶液中でＨＭＷＤＮＡの末端に、Ｂを転移により付加した。このスキームは、転移の接合部（Ｂに隣接する）ではなくＨＭＷ分子の末端（Ａ１及びＡ２に隣接する）の配列決定を可能にするものである。転移の接合部は１９ｂｐのモザイク末端（ＭＥ）配列を必ず含み、このことが異なる特異性を有する２つの配列決定プライマーの設計を複雑にしている。しかし、後者の方法（１９ｂｐＭＥによる配列決定）も必要以上に無駄というわけではないであろう。

長さ１Ｍｂ程度の分子を分析するのに光学マッピングが日常的に使用されることが留意される。本明細書に記載されているシステムは、これとほぼ同じ長さの分子に適用することができる。

別の方法では、伸展した単一ＤＮＡ分子の光学的配列決定により、同じ分子に沿った複数の位置に由来する最大３ｂｐの近接する配列の情報を得ることが可能であることが示されている（Ｒａｍａｎａｔｈａｎら，２００４）。リードが単一分子から直接生じるため、試料の量及びＰＣＲバイアスの問題が大幅に回避される。しかし、この方法を実際に使用してｄｅｎｏｖｏゲノムアセンブリを容易にするためには、リード長を大幅に改善しなければならない。

ここでは、既存の次世代シーケンシングのハードウェア、ソフトウェア及び試薬でｉｎｓｉｔｕ転移を用いて、光学的配列決定に関連する方法を容易にし得る。１つの方法では（図１２ａ）、きわめて高分子量（ＨＭＷ）のＤＮＡ分子（１０⁵〜１０⁷ｂｐ）のライブラリーをアダプター（ＦＣＡ１）で末端修飾し、プライマーでコートしたフローセルの表面とハイブリダイズさせ、電場を用いて物理的に伸展させる。電場をまだ印加している間に、第二のアダプターをフローセル内に流してハイブリダイズさせる（（Ｇｅｉｓｓら，２００８）と同様に）。これにより、あらゆる鋳型の遊離末端がロックダウンされ、伸展された位置に保持される。次いで、第二のフローセル適合性アダプター（ＦＣＡ２）を予め負荷したトランスポソームを導入し、同時にこれらのアダプターを挿入しながら、伸展した分子をランダムに断片化することができる。大部分のフラグメントは、ＦＣＡ１とＦＣＡ２をともに有する末端以外は、２つのＦＣＡ２アダプターを受け取る。これらのアダプターを介したクラスターＰＣＲでは、伸展した分子の末端のクラスターのみが得られる。このようにして、同じ親分子に由来することがわかっており、クラスター間の物理的距離により関連している、空間的に共線的なクラスターが得られる。

３．Ａ．光学的配列決定及びｉｎｓｉｔｕライブラリー構築
制限酵素を用いる光学マッピングにより、ゲノムアセンブリのための長距離連続性マップを作製することに成功している（Ｚｈｏｕら，２００９；Ｚｈｏｕら，２００７；Ｌｉｎら，１９９９；Ｌｉｍら，２００１；Ｌａｉら，１９９９；Ｓｃｈｗａｒｔｚら，１９９３）。しかし、この方法は、スター活性及び非効率的な切断に起因する偽陽性及び陰性の切断部位によって制限を受けるものであり、コンセンサスマップを作製するのに同じ領域から複数の光学マップを必要とする。また、制限酵素認識部位の不均一な分布により、反復領域又は複雑度の低い領域に由来する有用な情報の量が制限される可能性もある。

上述のように、最も費用対効果の高いＤＮＡ配列決定技術により得られる比較的短いリード長には、ｄｅｎｏｖｏゲノムアセンブリ及びヒトゲノム配列決定の質及び完全性に限界がある。現時点では、現在の大量並列配列決定法の規模に相応のスループットで中距離及び長距離の連続性情報を捕捉する強力な方法はほとんど又は全く存在しない。この限界に対処するために、現時点で入手可能な次世代配列決定プラットフォームのフローセル上でｉｎｓｉｔｕライブラリーを構築し、光学的配列決定を実施した。このようにして、標準的なＩｌｌｕｍｉｎａフローセル上でのｉｎｓｉｔｕライブラリー構築を使用して１、２又は３ｋｂずつ分離された３０，０００超の大腸菌（Ｅ．ｃｏｌｉ）ペアエンドリードを作製することにより連続性情報と一次配列の両方を単一の技術で捕捉する効率的な方法が生まれた。

表面を介したブリッジＰＣＲは１ｋｂ以上のインサートでの性能が低く、このことが、Ｉｌｌｕｍｉｎａプラットフォームが高分子量（ＨＭＷ）ＤＮＡから本来の長さのペアエンドリードを作製する能力を制限している。これを回避するために、特定のサイズ範囲に拘束されているＨＭＷＤＮＡ分子を、それぞれが２つの可能なプライミング配列決定プライマー（ｐ１又はｐ２）のうちの１つを含む２つのフローセル適合性のアダプター配列（ＦＣＡ１及びＦＣＡ２）で末端修飾する。次いで、鋳型を定常流下でフローセル表面とハイブリダイズさせるが、その間、鋳型は通常、ランダムコイル構造をとる。一方の鋳型末端がハイブリダイズすると他方の鋳型末端が空間的に制限され、これによりその末端も物理的に近接した位置でハイブリダイズする確率が高まる。次いで、固定化された鋳型に、第二のフローセルアダプター（ＦＣＢ１）に対応するハイブリッド鋳型を負荷したトランスポソームによるｉｎｓｉｔｕ転移を施す。転移事象が生じなければ、各鋳型分子はクラスターが生じるのに必要な２つのフローセルアダプターのうちの一方だけを含むことになる。転移が生じた鋳型では、この過程で、ともにクラスター形成が可能であり、近接して表面とハイブリダイズした低分子量（ＬＭＷ）鋳型が２つ生じる。ブリッジＰＣＲ増幅後、鋳型の５０％から、それぞれがＨＭＷ分子の一方又は他方に由来するショットガン配列を含む、重複する又は接近した位置にあるクラスターが２つ生じるはずである。次いで順次、ｐ１を用いて鋳型の一端を配列決定し、ｐ２を用いて鋳型の他端を配列決定し、接近した物理的座標に由来するリードは、同じＨＭＷ親分子の末端に由来するものである可能性が高い。このようにして、クラスターが生じる空間的座標により、長距離連続性を推定するための情報が得られる。同様にして、一端で繋留し、流れ又は電場を用いて伸展させたＨＭＷＤＮＡ分子に、適切なアダプターを用いてｉｎｓｉｔｕで転移を施して、同じ親分子に由来する複数の共線的なクラスターを作製する。

材料及び方法
ライブラリー合成
大腸菌（Ｅｓｃｈｅｒｉｃｉａｃｏｌｉ）Ｂ型細胞のゲノムＤＮＡをＵＳＢ（Ｐａｒｔ＃１４３８０）から入手し、Ｂｉｏｒｕｐｔｏｒ（Ｄｉａｇｅｎｏｄｅ）で３０秒間、物理的に剪断した。次いで、ＤＮＡを１００Ｖで２時間実施する１％アガロースゲルでサイズ選択し、精製し（ＱｉａｇｅｎＱＩＡｑｕｉｃｋＧｅｌＥｘｔｒａｃｔｉｏｎＫｉｔ）、末端修復した（Ｅｎｄ−Ｉｔ、Ｅｐｉｃｅｎｔｒｅ）。ヘアピンアダプターを自己アニールさせ、次いで、Ｆａｓｔ−ＬｉｎｋＬｉｇａｓｅ（Ｅｐｉｃｅｎｔｒｅ）を用いて一晩、平滑末端連結した。エキソヌクレアーゼＩＩＩ（ＮＥＢ）及びＶＩＩ（Ｅｐｉｃｅｎｔｒｅ）による処理を施して、連結されていないゲノムＤＮＡ及びアダプターを除去した。次いで、分子をウラシルに特異的な切出し試薬（ＵＳＥＲ（商標））（ＮＥＢ）で処理して、一本鎖のフローセルに相補的な３’テールを得た。

トランスポソーム負荷
トランスポザーゼモザイク、プライマー部位及びフローセルアダプター配列を含む合成ＤＮＡオリゴヌクレオチドをＩＤＴ社から入手した。室温で２０分間、混合及びインキュベートすることにより、アダプターをアニールさせ、トランスポザーゼ（Ｔｎ５、Ｅｐｉｃｅｎｔｒｅ）に負荷した。

ｉｎｓｉｔｕフローセルライブラリー構築及び配列決定
特注のクラスター作製プロトコルを作製して、標準的なＩｌｌｕｍｉｎａＣｌｕｓｔｅｒＳｔａｔｉｏｎに負荷する鋳型及びトランスポソームを適合させた。最初にフローセルをハイブリダイゼーション緩衝液でプライムし、次いで、１℃／秒の速度で９６℃に加熱した。９６℃で、標準的なＩｌｌｕｍｉｎａ配列決定ライブラリーを対照として単独の１つのレーンに負荷し、他の７つのレーンにはハイブリダイゼーション緩衝液を加えた。２分間のインキュベーション後、温度を０．０５℃／秒で６５℃に下げて、対照ライブラリーとハイブリダイズさせた。この時点で、フローセルの入力側と出力側両方にあるマニフォールドの管を取り外した。大腸菌（Ｅ．ｃｏｌｉ）ライブラリーを１５μＬ／分で２．５分間、各レーンに加えた後、フローセルを０．０２℃／秒で４０℃に徐冷した。５分間のインキュベーション後、フローセルを１℃／秒で５５℃に加熱した。次いで、負荷されたトランスポソームを、大腸菌（Ｅ．ｃｏｌｉ）を含むレーンに１５μＬ／分加えた。フローセルを５５℃で５分間インキュベートして転移を生じさせた後、４０℃に冷却した。次いで、新しいマニフォールドをクラスターステーションに取り付け、Ｉｌｌｕｍｉｎａ洗浄／増幅緩衝液をフローセル全体に行きわたるように注入した。ライブラリー特異的ＤＮＡポリメラーゼを用いて、最初の鎖合成を６５℃で５分間、７４℃で５分間実施した。次いで、製造者のプロトコルに従って標準ヒト対照ライブラリーを各大腸菌（Ｅ．ｃｏｌｉ）のレーンとハイブリダイズさせた。３５サイクルのブリッジ増幅でクラスターを作製した。製造者のプロトコルに従って、ＲＴＡ１．８及びＳＢＳｖ５を備えたＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒＩｉｘにより、別個の単一末端の３６ｂｐ（ＳＥ３６）のリードが２つ得られた。

データの収集及び解析
特注のＰｅｒｌスクリプトを用いて、ｆａｓｔｑファイルからリード１及びリード２由来の各クラスターのＸ−Ｙ座標を抽出した。このデータを使用して、ＭＡＴＬＡＢのｎｏｒｍｘｃｏｒｒ２機能を用いて画像オフセットを計算し、それに基づきリード２のＸ−Ｙ座標を補正した。次いで、Ｂｕｒｒｏｗｓ−ＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）を用いてリードを個別に大腸菌（Ｅ．ｃｏｌｉ）ゲノムにマッピングし、特注のＰｅｒｌスクリプトを用いてリード１とリード２の間で隣接するクラスターの同一性を決定した。

結果
ｉｎｖｉｔｒｏ及びｉｎｓｉｔｕライブラリー構築及び配列決定
一本鎖のフローセル適合性３’テールを含むＨＭＷＤＮＡライブラリーを作製する効率的な方法を本明細書に記載する。簡潔に述べれば、大腸菌（Ｅｓｃｈｅｒｉｃｉａｃｏｌｉ）のゲノムＤＮＡを物理的に剪断し、１、２又は３ｋｂのサイズの分子をサイズ選択し、精製し、末端対形成させた。ヘアピンのループ付近にウラシル塩基を３個含むヘアピンアダプター（図３１ａ）を自己アニールさせた後、サイズ選択ライブラリーに平滑末端結合させた。エキソヌクレアーゼＩＩＩ及びＶＩＩによる処理を行って、結合しなかったゲノムＤＮＡ及びアダプターを除去し、両端にヘアピンアダプターを有する分子の濃縮された集団を得た。次いで、分子をＵＳＥＲ（商標）で処理して、ヘアピンループを開き、一本鎖のフローセルに相補的な３’テールを解放した。次いで、わずかに修正したサーマルサイクリングプロトコルを用いて、分子の両端を標準的なＩｌｌｕｍｉｎａフローセル表面とハイブリダイズさせた。フローセルにフローセル適合性アダプターを負荷したＴｎ５トランスポザーゼを加えて、ランダムな断片化及びＨＭＷ分子へのアダプター付加を行うことにより、ＬＭＷ配列決定の準備ができている鋳型を作製した（図３１ｂ）。ＩｌｌｕｍｉｎａＧＡＩＩｘで、各大腸菌（Ｅ．ｃｏｌｉ）ライブラリーをヒト対照ライブラリーとともに単独のレーンにプールし、別個のシングルエンドの３６ｂｐリード（ＳＥ３６）を２つ得た。

連続性情報の再構成
上記のように構築した１、２及び３ｋｂのライブラリーのマッピングリードの分布を下の表１に示す。

３つの各レーンから、大腸菌（Ｅ．ｃｏｌｉ）にマッピングする平均３．５Ｍのリードが得られた（表１）。全タイルのクラスターのＸ−Ｙ座標を用いて、リード１とリード２のＸ−Ｙ座標間の空間的オフセットを計算した。リード１及びリード２において大腸菌（Ｅ．ｃｏｌｉ）にマッピングされた各クラスターについて、１．５μｍ以内に近接する最も近い物理的大腸菌（Ｅ．ｃｏｌｉ）マッピングを同じリード内で同定し、全ペアのマッピング距離を数値の順に並べた（図３２ａ及び３２ｂ）。最も近い近接クラスターペアのデータを下の表２に示す。

大腸菌（Ｅ．ｃｏｌｉ）リードと大腸菌（Ｅ．ｃｏｌｉ）リードとを比較したときの１、２及び３ｋｂのライブラリーの最も近い近接クラスターペアのデータ。予想サイズ範囲はそれぞれ、８００〜１２００ｂｐ、１５００〜２３００ｂｐ及び２５００〜３５００ｂｐに設定した。

予想マッピング距離を有する７６６〜３，４０２のクラスターペアが各ライブラリーでみられた（図３２ａ及びｂ）。クラスターが表面で物理的に重複する場合が多く、Ｉｌｌｕｍｉｎａの画像解析ソフトウェアがそれを識別することができないため、単一リード内でみられるクラスターペア数は少なかった。マッピング距離を物理的間隔の関数としてプロットすることにより（図３４ａ）、単一リードにおける２つのクラスター間のデフォルトの分解下限が約０．９４μｍであることが明らかになった。

リード１とリード２の間で１．５μｍ未満のクラスターペアを探すことにより、最近接探索を繰り返した。予想されるマッピング間隔の範囲内で最大３７，９１６の異なるクラスターペアが確認された（表２；図３３ならびに図３２ｃ及び３２ｄ）。このうち９９％超が、反対方向に進む反対側の鋳型鎖上のリードが得られたクラスターペアであったが、これはｉｎｓｉｔｕライブラリー調製物の設計に基づいて予想された方向である。連続的にペアリードを得るこの方法により、ほぼ完全に重複している一部のものを含め、０．９４μｍより近いクラスターペアが明確に区別された（図３４ｂ）。１、２及び３ｋｂのライブラリーのクラスターペアライブラリーの平均マッピング間隔は、それぞれ９４６ｂｐ、１，７７０ｂｐ及び２，９９５ｂｐであった（図３４ｂ、上のヒストグラム）。２ｋｂのライブラリーはサイズ選択の幅が広かったため、やや低くなったと思われる。

表面に繋留したＤＮＡの自由連結鎖モデルに基づき分離距離を計算した。自由連結鎖モデルを用いて、ＤＮＡ分子の末端間ベクトルの自由空間の分布関数はガウス分布関数である。これは方程式：
により表され、上式中、Ｌは輪郭長、ｂはＫｕｈｎ長（持続長の２倍）、Ｃ₀は規格化定数である。表面がｚ＝０で、分子が［０，０，ｚ₀］から始まる場合、分布関数は
となり、上式中、Ｃ₀’は新たな規格化定数であり、２項目は表面からのエントロピー斥力を表す。ｚ₀→０のとき、その差は式
で表される導関数となり、上式中、Ｃ₀’’は規格化定数である。
のｘ、ｙ及びｚ成分に対するＧ_surfのプロットを図３９ａ及び３９ｂに示す。

物理的なクラスター間隔の最頻値は、１ｋｂのペアでは０．４４μｍ、２ｋｂ及び３ｋｂのペアでは０．６７μｍであり、分布の端部は１．０μｍ超で分離された一部のクラスターペアを示している。インフィニペア（Ｉｎｆｉｎｉｐａｉｒ）リード間でみられるこれらの物理的間隔距離は、予想より著しく大きいものであった（３〜４倍）（図３９ａ）。例えば、３ｋｂのクラスターペア間の平均物理的距離は約１０００ｎｍであり、これはほぼ分子の輪郭長に相当する。この不一致に対する説明が少なくとも２つの考えられた：１）画像オフセットがわずかにずれることにより真の物理的距離の過大評価が生じる、又は２）大きい間隔距離がクラスター形成時のアーチファクトとして生じる。オフセットを検証するために、あらゆるクラスターペア間の角度の分布を示すヒストグラムを作成し、全ペアの累積方向ベクトルを計算した。画像が適切に整列していれば、ペア間の角度のランダムな分布が予想され、正味のベクトルの和がゼロであること、所与のタイル内の角度のサブセットへの偏りがみられること、又はベクトルの和がゼロでないことは、オフセットがわずかにずれていることを示唆するものである。これは誤差の重要な原因ではないと思われた。したがって、上に挙げた大きい間隔距離は、クラスター形成時のアーチファクトとして生じるものである。したがって、ここでみられる不一致は、クラスターがフローセル上で形成される方法が原因で生じる（図３９ｃ）。クラスター形成が可能な２つの分子が互いに５０〜１００ｎｍ以内でハイブリダイズする場合、ブリッジＰＣＲの初回サイクルの間に、鋳型間で利用可能なアダプターのきわめて局所的な欠乏が生じるであろう。このことが事実上、クラスターを互いに離れて形成させることになる。その結果、各クラスターのＸ−Ｙ座標が最初のシード鋳型のＸ−Ｙ座標を正確に反映しなくなる。

リード１を参照として用い、最も接近した最近接をリード１及びリード２からスクリーニングした（図３３）。予想マッピング距離内にあり、正しい方向にあるペアでは、１％未満が合わせたデータセットにおいて異なる最近接を有し、この観察結果はリード２を参照として用いた場合でも変わらなかった。相互排他性を必要とする更に制限の強いフィルターを適用すると（すなわち、クラスターＡの最近接がＢであり、クラスターＢの最近接がＡである）、候補ペアの数が最大１０％だけ減少するが、感度の大幅な増加は得られなかった。また、ライブラリーのサイズが増加するにつれて、目標サイズ範囲内のペアを生じリードが正しい方向にある総クラスターペアの割合が高くなることも留意される。これは、大型の分子が大量のコピーを生じることにより、他の分子が付近の表面とハイブリダイズするのを妨げる立体効果に起因するものであり得る。

示される関連するクラスターペアの数は、大腸菌（Ｅ．ｃｏｌｉ）にマッピングされた全リードのわずか１％程度を占めるにすぎないが、それはｉｎｓｉｔｕ転移及びライブラリー調製が技術的に実行可能であること示すものであった。次の少なくとも２つの要因が、効率が低いことの一因となっている可能性がある：１）ＤＮＡが、両端が表面とアニールするのに有利に働く適切なコンホメーションをとる確率が低いこと、及び２）連結したアダプター配列に近接した位置でのトランスポゾン挿入。一端が表面に繋留されているＤＮＡ分子の末端間ベクトルの３Ｄ確率分布は、遊離末端が表面から遠く離れている確率の方が、表面に接近している確率よりはるかに高いことを示している。この問題は、ＤＮＡの長さが長くなると悪化する。一端のみがハイブリダイズして分子が転移を受けると、単独のリードが生じ、関連する最近接を有さない。更に、要因（２）は、リード１が大腸菌（Ｅ．ｃｏｌｉ）にマッピングされた、リード１がトランスポザーゼモザイク及び／又はフローセルアダプター配列にマッピングされた９，２９４の最近接クラスターペアがみられたことにより明らかである。トランスポザーゼ濃度及びインキュベーション時間の微調整によりこのことが改善されるかもしれないが、完全に排除することは困難であろう。

驚くべきことに、３つの全ライブラリーの大部分のリードがヒト、大腸菌（Ｅ．ｃｏｌｉ）又はアダプター配列にマッピングされなかった（表１）。未マッピングリードの平均品質スコアは一般に低く、生の品質スコアの平均が３０を上回ったのはわずか８％であり、６９％が可能な最低限の生の平均品質スコア２であった（図３７ａ）。最近接の近接性に関して大腸菌（Ｅ．ｃｏｌｉ）にマッピングされたものだけでなく、全リードを考慮に入れると、最近接ペアの１５．７％が大腸菌（Ｅ．ｃｏｌｉ）にマッピングされたリード１つと未マッピングリード１つを有し、６．８％が両方とも大腸菌（Ｅ．ｃｏｌｉ）にマッピングされていた。未マッピングリードを１つ有するペアでは、そのわずか６％が生の品質スコアの平均が３０超の未マッピングリードを有し、７８％が可能な最低限の生の品質スコアの平均を有するものであった（図３７ｂ）。これらの未マッピングリードの源は明らかではないが、主として品質スコアのみに基づきフィルターで除外される可能性がある。

ＨＭＷ分子のｉｎｓｉｔｕ伸展及びタグ付け
この配列決定のハイブリダイゼーション効率を向上させ、パラダイムの応用を更に探究する努力において、ｉｎｓｉｔｕでの伸展及びＨＭＷ分子の断片化をＩｌｌｕｍｉｎａフローセル内で成功させた。簡潔に述べれば、Ｐｉｒａｎｈａ溶液を用いてフローセルを洗浄し、２％の３−アミノプロピルトリエトキシシラン（ＡＰＴＥＳ）で処理し、ＪＯＪＯ−１染色したラムダＤＮＡを負荷した。次いで、フローセルに６ＭＫＣｌを負荷し、１５Ｖ／ｃｍの電場を入力及び出力ポートに９０秒間印加した。表面をＩｌｌｕｍｉｎａＧＡ２シーケンサーで直接画像化して（図３５ａ）、単一の４８．５Ｋｂ分子の末端が画像化スペースの約４０ピクセルにわたって物理的に伸展され得ることを示した。次いで、表面をトランスポソームによりｉｎｓｉｔｕで処理し、再び画像化した（図３５ｂ）。個々の分子が複数の位置で明らかに断片化されていたが、このことは、表面に固定化された鋳型上でも酵素が高い活性レベルを維持することが可能であることを示している。上に挙げた方法を基礎にして、クラスターが長い鋳型の末端で生じるように、そのままのフローセルでの断片化の前に「ロックダウン」ブリッジに流すことを組み込むことは容易であるはずである。

上記の３ｋｂの大腸菌（Ｅ．ｃｏｌｉ）ライブラリーを用いて、Ｉｌｌｕｍｉｎａフローセル内でのｉｎｓｉｔｕでの伸展及び伸展した分子の末端の配列決定にも成功した（図４０ａ）。鋳型ライブラリーを７５℃でフローセル内に負荷し、チャンバを０．１℃／秒で５５℃に徐冷した。次に、５×ＳＳＣと２００ｍＭＫＣｌとを含有するハイブリダイゼーション緩衝液をチャンバ内に流し、２８Ｖ／ｃｍの電場を０秒又は２秒間印加した。次いで、ｉｎｓｉｔｕ転移及び配列決定の前に洗浄緩衝液をチャンバ内に流した。印加電場の非存在下では、ペア内のクラスター間の角度はランダムに分布し、クラスター間の距離との相関関係はみられなかった。少なくとも４．５ピクセル（約１．６μｍ）で分離されたクラスターペアでは、４６％がチャンバ内の電流の軸に対して−π／４〜π／４の角度（図４０ｂ）を有していた（図４１ａ）。しかし、電場の存在下では、４．５ピクセル超で分離されたクラスターペアの７８％がこの範囲内の角度を有していた（図４１ｂ）。このことは、これらのペアが電場を印加した時点でハイブリダイズした分子の少なくとも一端を有し、また電場を印加した時点で、表面とハイブリダイズする前に他端が電場により伸展したことを強く示している。以上の結果は、ＨＭＷＤＮＡのｉｎｓｉｔｕ伸展及び配列決定をそのままのフローセル内で遂行し得ることを示している。

考察
現在、光学マッピング（Ｓｃｈｗａｒｔｚら，１９９３）、ナノチャネル内での単一分子の伸展（Ｒｉｅｈｎら，２００５７）、単一染色体のソーティング（Ｆａｎら，２０１１）、ロングリード単一分子配列決定法（Ｅｉｄら，２００９）、大型インサートのクローン化（Ｋｉｔｚｍａｎら，２０１１）及び透過型電子顕微鏡法を含めた、さまざまな長さの規模で連続性情報を明らかにする多様な技術が存在する。しかし、上に挙げた技術はすべて、資本設備のコストがかかることや、実施にあたり専門知識が必要とされることから、大規模で使用するのは難しい。上記の実験では、ＨＭＷＤＮＡ分子のｉｎｓｉｔｕライブラリー調製により既存の配列決定法プラットフォーム上で最大３ｋｂ離れた長距離の配列情報を捕捉することが可能になることを成功裏に示した。本明細書に記載の方法は、既存の配列決定ハードウェア及び一段階の酵素ベースのｉｎｓｉｔｕライブラリー調製を利用することによって、上に挙げた制限を克服し得るものである。更に、本明細書に記載の方法は、環状化を行わずにペアエンド配列決定を遂行し得ることを示した。

関連する最近接クラスターの生成に影響を及ぼす要因には、少なくとも次の４つのものがある：１）均一な一本鎖のフローセル適合性３’アダプターを有するＨＭＷライブラリーの作製、２）両端とフローセル表面とのハイブリダイゼーション、３）ブリッジされた分子の均一で非破壊的なｉｎｓｉｔｕ転移、及び４）大部分が重複しているクラスターの作製。対照実験は、ヘアピンアダプター、次いでＥｘｏＩＩＩ／ＶＩＩ処理を用いる上述の方法が、ヘアピンアダプターを２つ有さないライブラリー分子を除去するのにきわめて有効であることを示唆している。ほかの対照実験では、ＵＳＥＲ（商標）処理もアダプターを一本鎖にするウラシル切出しにきわめて有効であることが示されており、このことは、最初のライブラリー構築物が堅固なものであることを示唆している。分子の両端が表面付近にあるのはエントロピー的根拠から不利であるという議論があるかもしれないが、各末端が多数あるフローセルアダプターのいずれの１つともハイブリダイズし得ることから、同じ長さの単一分子の環状化よりは有利である。また、繋留した磁気ビーズ又は電場を使用する方法など、両端を表面近くに位置させてハイブリダイゼーション効率を向上させる方法も存在するであろう。ｉｎｓｉｔｕ転移段階に関しては、さまざまなトランスポザーゼ濃度とインキュベーション時間を用いて、ともにクラスター作製の失敗を招く低すぎる活性と高すぎる活性との間の最適なバランスを特定した。

大部分が重複しているクラスターを意図的に作製することが配列の品質に与える影響を調べるのは難しい。例えば、従来のバルク溶液ＰＣＲ時によくみられるように、表面でハイブリダイズしクラスターの準備ができた鋳型が２つ近接して存在し、その一方がブリッジ増幅時に他方と競合して勝つということがあり得る。これは配列組成、融解温度、長さ及びポリメラーゼ結合事象の確率性の差に起因するものであり得る。本明細書に記載の方法では、隣接した関連する鋳型の最終的な長さの制御が転移後に制限された（一方が２００ｂｐ、他方が８００ｂｐになり得た）。クラスター同士が接近しすぎているという懸念も否定できないが、この場合、これは当てはまらないと思われる。このような場合、いずれかのクラスター内の分子数が少ないこと及び／又はリードが混在する可能性により、品質スコアが最近接クラスター距離とともに低下するであろう。しかしここでは、リード２の品質スコアは概してリード１より優れており、平均品質スコアと最近接クラスター距離との間に相関関係はないと思われる（図３８）。

現在のところ、この方法はバックグラウンドが高く、ｄｅｎｏｖｏアセンブリで実際に使用するのは不可能であるが、ライブラリー調製及びｉｎｓｉｔｕ転移の方法を更に改良すれば、同時にシグナル対ノイズが改善されるであろう。最終的には、以下に記載するように、ｉｎｓｉｔｕライブラリー調製法は、フローセル上での相互の物理的関係とゲノム上での距離に相関関係があるリードの作製を可能にし、数多くの単一ＨＭＷ分子に由来する複数の整列したリードの日常的な光学的配列決定を可能にし得る。

３．Ｂ．単一ＤＮＡ分子からの複数のｉｎｓｉｔｕリードの入手
ｉｎｓｉｔｕ転移の前に伸展を行えば、ランダムコイル法より優れた多くの利点が得られる。第一に、伸展を行うと、共線的なクラスター間の物理的距離が平方根に比例するのではなく、リード間の距離に直接比例することにより、分解能が高くなることが期待される。第二に、伸展は、完全長の任意の長さの単一ＤＮＡ分子に沿って多数の独立したリードを作製するというこの目的の第二の目標に対応させるのが容易である。図１５に図示されている１つのスキームでは、伸展した単一分子に、一本鎖バブルを含む配列により連結された１９ｂｐのＭＥ配列を含む合成の連続性トランスポゾンによるｉｎｖｉｔｒｏ転移を施す。これは、縮重配列ではなくバブルの各腕が、フローセルをコートするプライマーの順方向又は逆方向の配列と連結されていることを除けば、図４の戦略の第一段階とほぼ同じものである。この合成の連続性トランスポゾンが高密度（３５〜６００ｂｐごと）で挿入されると、高度に分散した単一分子が電流によりフローセル上で伸展される（９ｂｐの損傷部位を修復する必要がないように、トランスポソーム複合体を除去することなく）。各バブルからのハイブリダイゼーション及びクラスターＰＣＲ開始が中程度であると仮定すれば、これにより、伸展した各分子の全長にわたって複数の配列決定リードが得られる可能性がある。

上記の長距離連続性の方法に従って使用するフローセルの各レーンの全領域は、流れる方向の寸法が２４５，７６０ピクセル（２．５ｃＭ）、直交する寸法が３，７７６ピクセルである。ラムダＤＮＡ（４８．５Ｋｂ）を約３０ピクセルまで伸展させるとすれば、４００×１Ｍｂ分もの分子が全レーンに沿って末端から末端まで伸展し得る。約１／２０の密度であれば、単一のレーンが二倍体ヒトゲノムの１４倍の物理的カバレッジを支持するのに十分であろう。データ解析には、公開されている光学マッピングのアルゴリズム（Ｚｈｏｕら，２００９；Ｚｈｏｕら，２００７；Ｌｉｎら，１９９９；Ｌｉｍら，２００１；Ｌａｉら，１９９９；Ｓｃｈｗａｒｔｚら，１９９３）及び配列決定アプリケーションの画像解析でのこれまでの経験（Ｓｈｅｎｄｕｒｅら，２００５；Ｍｉｔｒａら，２００３）を用いることができる。このような解析は、画像から直接実施しても、あるいはプラットフォームで作製した元の位置に関する情報の注釈付きの配列リードから実施してもよい。位置情報を共線的な又は重複するクラスターから作成された配列データに関連付けることができる。

得られたデータは光学マップにより作成されたデータとほぼ同じであるはずであるが、次のような利点を有する：
１）配列リードは、情報量がｄｅｎｏｖｏアセンブリ及びハプロタイプ分解の両方の制限酵素部位よりはるかに多いデータポイントを表す；
２）この方法では、制限酵素のスター活性及び不完全な消化など、光学マッピングに影響を及ぼす問題が生じない；
３）伸展したＤＮＡ分子の全長に沿ったデータポイントの位置が制限酵素切断部位の分布に依存するものではなく、ランダムなものである。

伸展した又はコイル状の鋳型の付近でハイブリダイズする余分な鋳型の作用（物理的座標の解釈に混乱をもたらし得る）は、単一ＤＮＡ分子の集団のサイズを制限することにより、及び／又は鋳型濃度を調節することにより軽減することができる。しかし、同じプラットフォームで行った場合の通常の密度と同じ密度になるはずであるため、これらの方法は、クラスター密度をそれほど犠牲にすることなく実施することができる。

各末端に付加されたＡ１及びＡ２に対応する一本鎖テールを有するＨＭＷＤＮＡを作製するために、２つの戦略を実行する。第一に（図２１、左側）、ゲノムＤＮＡを物理的に剪断し（例えば、ＨｙｄｒｏＳｈｅａｒを用いて）、次いで、修復、Ａテール付加を施し、Ａ１及びＡ２に対応するアダプター配列と連結する。次いで、チミン塩基をすべてウラシルに置き換えたＡ１及びＡ２に対応するプライマーを用いて、ライブラリーをＰＣＲで増幅する。ＰＣＲ後のＵＳＥＲ（商標）処理により、二本鎖ＨＭＷＤＮＡ分子に隣接する所望の３’一本鎖のフローセル適合性テールが得られることが期待される。この方法の利点の１つが、末端配列の自己相補性がＡ１−Ａ１及びＡ２−Ａ２生成物の蓄積を制限することが期待されることであるのに対し、この方法の欠点は、ほとんどがＰＣＲに適合しないＨＭＷフラグメントサイズ、すなわち１０Ｋｂ超のサイズに対しては実用的でないことである。別の方法として、一本鎖のフローセル適合性テールを含むＡ１及びＡ２アダプターを、平滑末端化又は制限消化したＨＭＷゲノムＤＮＡに直接連結させるライブラリーを作製した（図２１、右側）。この方法の利点は、それがＨＭＷ分子の長さに無関係であることである。しかし、Ａ１−Ａ２で隣接するのは生成物の５０％のみである（残りはＡ１−Ａ１又はＡ２−Ａ２である）。

図２１に示すライブラリー調製法をともに用いて、アダプターＡ（Ａ１／Ａ２）が隣接するショットガンＨＭＷ分子を大腸菌（Ｅ．ｃｏｌｉ）ゲノムＤＮＡから作製した。次いで、フローセル表面でのｉｎｓｉｔｕ断片化（すなわち、図１２ｂに示す方法）のためのアダプターＢを含む合成トランスポゾンを負荷したトランスポザーゼを使用した。

結果は、ｉｎｓｉｔｕ転移が成功して、アダプターＢが、フローセルと予めハイブリダイズした、ショットガンのＡ１／Ａ２アダプターが隣接するＨＭＷゲノムＤＮＡ分子内に導入され得ることを示していた。これは、単一のｐｕｃ１９フラグメントのみを用いる上記及び図１３の実験における改善である。代表的な実験の大腸菌（Ｅ．ｃｏｌｉ）ゲノム全体にわたるマッピング密度を図２２に示す。分布はほぼ均一であり、このことは、ｉｎｓｉｔｕ転移によるクラスターＰＣＲ適合性アダプターの導入により、ゲノム表示に明らかなバイアスが生じないことを示している。

更に、ライブラリー分子の有用な配列決定鋳型への変換は現在のところ、きわめて非効率的である。図２２に示すデータは、通常の鋳型の１０倍の量を負荷した単一のＩｌｌｕｍｉｎａＧＡ２ｘレーンのものであるが、このレーンでは予想より１００倍少ないクラスターが生じた。この非効率性を説明すると思われるいくつかの理由として、次のものが挙げられる：（ａ）適切にテール付加された分子の生成が非効率的である：これらの方法（図２１）は、標的材料を適切に適合した分子に変換する効率が１００％を著しく下回り、さらなる最適化が必要であると思われる；（ｂ）３’テール付加されたｄｓＤＮＡ分子のフローセルプライマーへの捕捉が非効率的であること：クラスターＰＣＲの前にフローセルに対する操作を追加すること（例えば、トランスポザーゼ反応；ＳＤＳを含む洗浄によりトランスポザーゼを除去することなど）により、ライブラリー分子の断片化がかなり除去される可能性がある。（ｃ）フローセルでの最初の鎖合成に失敗したこと：Ｉｌｌｕｍｉｎａプラットフォームでの最初の鎖合成で通常使用されるＰｈｕｓｉｏｎＤＮＡポリメラーゼは、鎖置換活性がきわめて低い。この最初のサイクルでの鎖置換は、この方法では必要であるが、このプラットフォームで行う従来の配列決定法では不要である。別の方法では、例えば、フローセルでの最初の鎖合成にＢｓｔポリメラーゼをＰｈｕｓｉｏｎの代わりに使用し得ることが示されている。（ｄ）トランスポザーゼ負荷及び／又はｉｎｓｉｔｕ転移が非効率的である：分子が適切にハイブリダイズし、最初の鎖合成が成功しても、比較的末端に近いところでトランスポザーゼ挿入が少なくとも１つ生じなければ、クラスターペアが形成されない。

最後に、図２２に示すデータは、単一レーンから得られた２００，０００を超えるリードを示しているが、そのうち隣接するクラスターの「ペアリード」を有するクラスターに由来するリードはごく一部である（図１３）。この問題は、クラスター形成密度が予想より低かったことに関連があるのかもしれない（すなわち、両端に適切なテールを有する分子の非効率的な生成、非効率的なｉｎｓｉｔｕ転移）。あるいはこれは、二本鎖ＤＮＡが比較的柔軟性に欠けることにより、一本鎖テールを有する分子の両端が表面とハイブリダイズすることが制限された結果であるのかもしれない。

３．Ｃ．トランスポザーゼとそれに続くｓｓＤＮＡ環状化及び多重置換分岐化ＲＣＡ
別の実施形態では、図２４に示すように、トランスポザーゼに５’リン酸化Ａ’で終わる不連続なオリゴ、次いでＢ及びｄｓＤＮＡトランスポザーゼ認識配列を負荷し得る。転移後の変性により、５’リン酸で終わるｓｓＤＮＡ、Ａ’、Ｂ、ＭＥ、次いでゲノムＤＮＡが生じる。次にｓｓＤＮＡ環状化を実施し、次いで、フローセルに結合したＡ及びＢプライマーを用いるローリングサークル増幅法（ＲＣＡ）により、多重置換分岐化ローリングサークル増幅法及びポロニー（すなわち、ポリメラーゼコロニー）形成が生じる。

別の実施形態では、ｓｓＤＮＡの代わりにフォスミドを使用してもよく、これにより長距離の増幅が生じ、４０ｋｂのメイトペアライブラリーの生成が可能になり得る。

３．Ｄ．ＤＮＡナノボール形成又はバーコード結合に長いｓｓＤＮＡ骨格を用いる、順序化された転移
別の実施形態では、環状化したｓｓＤＮＡ鋳型を、約１００ｂｐのフィラーＤＮＡ配列を散在させた４つのプライマー（Ａ、Ｂ、Ｃ及びＤ）を用いて調製し、環状化し得る（ｄｓＤＮＡ付着末端環状化の後、一方の鎖の選択的消化）。次いで、ローリングサークル増幅法（ＲＣＡ）により、フィラーＤＮＡ配列が散在し、Ａ、Ｂ、Ｃ及びＤプライマー部位が反復する長いｓｓＤＮＡ分子が得られる。

次に、１つがＡ配列に対する相補性を有し、かつ中央切断部位を含み、他の３つがＢ、Ｃ及びＤ配列に相補的である４つの異なる負荷済みのトランスポザーゼ複合体のセットをプールし得る。ゲノムＤＮＡ内への転移により、部分的な又は完全な挿入をＡ、Ｂ、Ｃ及びＤの順序で生じさせることが可能である。ギャップ修復後、Ａ制限部位を消化し、分子を環状化し得るが、これにより、Ａ、ｇＤＮＡ、Ｂ、ｇＤＮＡ、Ｃ、ｇＤＮＡ、Ｄ、ｇＤＮＡの環状化分子が生じる。次いで、この分子をＲＣＡの鋳型として用いて、４つのアダプター部位を含むＤＮＡナノボールを作製する。

別の実施形態では、元の骨格鋳型は、約１００ｂｐのフィラー配列を有しアダプターが隣接する縮重バーコードであってよく、これを環状化し、変性させ、ＲＣＡに供する。得られた骨格には、反復する元の鋳型が連続して多数含まれる。トランスポザーゼ複合体に、バーコードに隣接するアダプターに相補的な配列で終わるオリゴを負荷し、ここでは、トランスポザーゼアダプターが南京錠型にアニールする。縮重領域のギャップ修復により、任意の骨格と結合した各トランスポソームが同じバーコードを有するようになる。転移により、おそらく同じバーコードのトランスポソームから起こる隣接する転移事象が生じて、多数のリードが１つの大きい元の前駆体分子と結合する。

３．Ｅ．フローセルプライマーを含むトランスポゾンバブルの直接的な配列決定
別の実施形態では、上記のトランスポゾンなどの「バブル」を形成するトランスポゾンを挿入してもよく、ここでは、トランスポゾン内のバブルは、バブルアダプターとしてフローセル結合プライマーに相補的なプライマーを含む。

挿入とそれに続くギャップ修復の後、伸展を行って又は伸展を行わずに、これらの長い分子をフローセルと直接ハイブリダイズさせることができる。直列型のトランスポゾンの一部は、標準的なブリッジＰＣＲ法によりクラスターを形成することが可能なＡとＢ’又はＡ’とＢになる。これにより、互いに隣接する位置に由来するクラスターが、同じ高分子量の分子から生じたと考えられる。

あるいは、既知の（距離の予想が可能になる）又は未知の長さの長い分子が、一方のフローセルプライマーに相補的な５’オーバーハングを含む両端に連結されたアダプターを有していてもよい。他方のフローセルプライマーを含むバブルトランスポゾンの転移の後にギャップ修復を行うと、一方のフローセルプライマーの相補体で終わり、他方が散在した分子が生じる。伸展を行って又は伸展を行わずにフローセルとハイブリダイズさせることにより、分子の両端がアニールする。最初の置換伸長で、トランスポゾンを挿入した第二のアダプター全体がコピーされ、逆方向の相補体が生じる。次いで、標準的なブリッジＰＣＲを実施することができ、配列決定後、隣接するクラスターの一部分が元の長い分子の終端から生じたことになる。

３．Ｆ．フローセルでアセンブルするトランスポソーム
別の実施形態では、フローセルを再プログラムして、（１）トランスポザーゼ認識配列で終わるオリゴ又は（２）トランスポザーゼ認識配列で終わるハイブリダイズしたブリッジオリゴを含ませる。次いで、トランスポザーゼを負荷緩衝液に加え、フローセル結合オリゴに負荷させる。

次いで、ゲノムＤＮＡをトランスポザーゼ反応緩衝液に加えると、分子がフローセルと接触する場所では必ず、固定化されたトランスポザーゼがその全長にわたって複数の位置を攻撃する。最初の伸長後、得られたフラグメントでブリッジＰＣＲを実施し得る。配列決定により、同じ大きい前駆体分子から生じた一部の隣接するクラスターが得られる。

別の実施形態では、フローセルに固定化されたトランスポソームの一部ではないプライマー配列の１つを含むアダプターが連結された長い分子を付加してもよい。転移後、一方の鎖を変性させて除去すると、他方がクラスターを形成することが可能になる。得られた隣接するクラスターの一部は、同じ大きい前駆体分子に由来するものである。

実施例４：ビサルファイト配列決定法のための低投入量のトランスポザーゼライブラリー調製
上記のように、トランスポザーゼに基づくｉｎｖｉｔｒｏショットガンライブラリー構築法（「タグメンテーション」）は、大幅に量を削減したＤＮＡからの配列決定ライブラリーの構築を可能にするものである（図３６ａ）（Ａｄｅｙら，２０１０）。簡潔に述べれば、この方法では、不連続な合成オリゴヌクレオチドを負荷したＴｎ５トランスポザーゼの高活性な誘導体を用いて、ゲノムＤＮＡの断片化とアダプター付加を同時に行う。得られた生成物をＰＣＲ増幅、次いでハイスループットな配列決定に供する。ゲノムＤＮＡから実行可能なアンプリコンへの変換効率の上昇及び段階数の大幅な減少により、５０ナノグラム未満のゲノムＤＮＡから低バイアスできわめて複雑なライブラリーを構築することが可能となる。

全ゲノムのビサルファイト配列決定法との関連でトランスポザーゼに基づくライブラリー調製の利点を保持し、本明細書でｔｎ５ｍＣ−ｓｅｑと呼ばれる方法を本明細書に記載する。転移反応の標的が二本鎖ＤＮＡであるのに対し、ビサルファイト処理では一本鎖ＤＮＡが生じるため、タグメンテーション反応がビサルファイト処理の前に生じるように、この方法を大幅に修正した（図３６ｂ）。第一に、ビサルファイト処理の間にシトシン性が維持されるように、組み込むアダプターのシトシン残基を、１９塩基対のトランスポザーゼ認識配列を除きすべてメチル化した（トランスポソーム組立て時に異なる結合を最小限に抑えるため）。第二に、オリゴヌクレオチド置換スキーム（Ｇｒｕｎｅｎｗａｌｄら，２０１１）を用いて、各鎖が分子の両端と共有結合したアダプターを有するようにした。具体的には、これには二本鎖のトランスポザーゼ認識配列が１６塩基対（Ｔｍ＝３６℃）に短縮されている単一のアダプターによる最初の転移が伴い、これにより組込み後の変性による除去が容易になる。次いで、第二のアダプターがアニールし、ギャップが修復され、３’及び５’両方のアダプターが共有結合により隣接する各鎖が得られる。次いで、断片化されアダプター付加された二本鎖ゲノムＤＮＡに標準的なビサルファイト処理を施して、非メチル化シトシンをウラシルに変換する。これにより一本鎖の変換ＤＮＡが得られ、これをＰＣＲで増幅し、配列決定する。

材料及び方法
ｔｎ５ｍＣ−ｓｅｑライブラリー構築及び配列決定
１０μＭのｔｎ５ｍＣ−Ａ１（ｔｎ５ｍＣ−Ａ１ｔｏｐ：５’−ＧＡＴ［５ｍＣ］ＴＡ［５ｍＣ］Ａ［５ｍＣ］Ｇ［５ｍＣ］［５ｍＣ］Ｔ［５ｍＣ］［５ｍＣ］［５ｍＣ］Ｔ［５ｍＣ］Ｇ［５ｍＣ］Ｇ［５ｍＣ］［５ｍＣ］ＡＴ［５ｍＣ］ＡＧＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ−３’、ＩＤＴ（配列番号１）と、ｔｎ５ｍＣ−Ａ１ｂｏｔ：５’−［Ｐｈｏｓ］−ＣＴＧＴＣＴＣＴＴＡＴＡＣＡＣＡ−３’、ＩＤＴ（配列番号２）を、１００μＭの各オリゴ１０μｌとＥＢ（ＱＩＡＧｅｎ）８０μｌを９５℃で２分間インキュベートした後、０．１℃／秒でＲＴに冷却することにより、アニールさせたもの）２．５μｌを、１００％グリセロール２．５μｌ及びＥｚ−Ｔｎ５トランスポザーゼ（Ｅｐｉｃｅｎｔｒｅ−Ｉｌｌｕｍｉｎａ）５μｌとともにＲＴで２０分間インキュベートすることにより、トランスポソーム複合体を作製した。

ＮＡ２０８４７細胞系から調製したゲノムＤＮＡを各投入量でＮｅｘｔｅｒａ（登録商標）ＨＭＷ緩衝液（Ｅｐｉｃｅｎｔｒｅ−Ｉｌｌｕｍｉｎａ）４μｌ、無ヌクレアーゼ水（Ａｍｂｉｏｎ）とともに、調製済みのｔｎ５ｍＣトランスポソーム１７．５μｌ及び２．５μｌ（使用したＤＮＡの量に関係なく）に対して使用した。反応物を５５℃で８分間、サーモサイクラーでインキュベートした後、ビーズ３６μｌ及び推奨プロトコルを使用し無ヌクレアーゼ水（Ａｍｂｉｏｎ）１４μｌで溶離するＳＰＲＩビーズクリーンアップ（ＡＭＰｕｒｅ）を行った。次いで、１０×ＡｍｐｌｉｇａｓｅＲｅａｃｔｉｏｎＢｕｆｆｅｒ（Ｅｐｉｃｅｎｔｒｅ−Ｉｌｌｕｍｉｎａ）２μｌ、１０×ｄＮＴＰ（それぞれ２．５ｍＭ、Ｉｎｖｉｔｒｏｇｅｎ）２μｌ及び１０μＭのｔｎ５ｍＣ−Ａ２ｔｏｐ（ＩＤＴ）２μｌを各反応物に添加し、５０℃で２分間、次いで４５℃で１０分間インキュベートし、０．１℃／秒で３７℃に冷却した後、１０分間インキュベートすることにより、アダプター２のアニーリングを行った。次いで、５Ｕ／μｌのＡｍｐｌｉｇａｓｅ（Ｅｐｉｃｅｎｔｒｅ−Ｉｌｌｕｍｉｎａ）３μｌとＴ４ＤＮＡポリメラーゼ（ｔｎ５ｍＣライブラリーＡ〜Ｇ、ＮＥＢ）又はスルホロブス（Ｓｕｌｆｏｌｏｂｕｓ）ＤＮＡポリメラーゼＩＶ（ｔｎ５ｍＣライブラリーＨ〜Ｊ、ＮＥＢ）１μｌとを添加し、更に３７℃で３０分間インキュベートすることにより、ギャップ修復を実施した。次いで、ビーズ３６μｌ及び無ヌクレアーゼ水（Ａｍｂｉｏｎ）５０μｌを用いる推奨プロトコルに従い、ＳＰＲＩビーズ（ＡＭＰｕｒｅ）を用いて反応物をクリーンアップした。

推奨プロトコルに従いＥＺＤＮＡＭｅｔｈｙｌａｔｉｏｎ（商標）キット（Ｚｙｍｏ）を用いて、５０℃で１４時間のインキュベーション及び１０μｌの溶離を行って、ビサルファイト処理を実施した。次いで、溶出物を、Ｋａｐａ２ＧＲｏｂｕｓｔＨｏｔＳｔａｒｔＲｅａｄｙＭｉｘ（ＫａｐａＢｉｏｓｙｓｔｅｍｓ）１２．５μｌ、１０μＭのｔｎ５ｍＣ−Ｐ１（５’−［Ｐｈｏｓ］−ＣＴＧＴＣＴＣＴＴＡＴＡＣＡＣＡＴＣＴＣＴＧＡＧ［５ｍＣ］ＧＧＧ［５ｍＣ］ＴＧＧ［５ｍＣ］ＡＡＧＧ［５ｍＣ］ＡＧＡ［５ｍＣ］［５ｍＣ］ＧＡＴ［５ｍＣ］−３’、ＩＤＴ）（配列番号３）１μｌ、１０μＭのバーコード付けしたＰ２（Ａｄｅｙら（２０１０）による）１μｌ、１００×ＳＹＢＲＧｒｅｅｎ（Ｉｎｖｉｔｒｏｇｅｎ）０．１５μｌ及び無ヌクレアーゼ水（Ａｍｂｉｏｎ）０．３５μｌを用いるＰＣＲの鋳型として使用した。ＢｉｏＲａｄＯｐｔｉｃｏｎＭｉｎｉリアルタイム機器で、次のパラメータを用いて温度サイクリングを行った：９５℃で５時間；（９５℃で１５分；６２℃で１５分；７２℃で４０分；プレート読取り；７２℃で１０分）×９９。反応物をモニターし、プラトーに達したところで直ちにサーモサイクラーから取り出した（１２〜１５サイクル）。

特注の配列決定プライマー：リード１：ｔｎ５ｍＣ−Ｒ１（５’−ＧＣＣＴＣＣＣＴＣＧＣＧＣＣＡＴＣＡＧＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＴＡＧ−３’、ＩＤＴ）（配列番号４）、インデックスリード：ｔｎ５ｍＣ−Ｉｘ（５’−ＴＴＧＴＴＴＴＴＴＡＴＡＴＡＴＡＴＴＴＣＴＧＡＧＣＧＧＧＣＴＧＧＣＡＡＧＧＣ−３’、ＩＤＴ）（配列番号５）、リード２：ｔｎ５ｍＣ−Ｒ２（５’−ＧＣＣＴＴＧＣＣＡＧＣＣＣＧＣＴＣＡＧＡＡＡＴＡＴＡＴＡＴＡＡＡＡＡＡＣＡＡ−３’、ＩＤＴ）（配列番号６）を使用し、ＩｌｌｕｍｉｎａＨｉＳｅｑ２０００の全レーン又は一部のレーンを用いて配列決定を行った。リード長は、インデックス９ｂｐの３６ｂｐシングルリード（ＳＥ３６、ライブラリーＡ及びＢ、表には不掲載）又はインデックスが９ｂｐの１０１ｂｐペアエンド（ＰＥ１０１、ライブラリーＣ〜Ｊ）であった。配列決定プライマー間の類似性により、予防措置として、Ｎｅｘｔｅｒａ（登録商標）ライブラリーを含むレーンを有さない実行でのみライブラリーを配列決定した。

リードアライメント
最初に、ｈｇ１９参照ゲノムの上側（ＣをＴに変換、Ｃ２Ｔ）及び下側（ＧをＡに変換、Ｇ２Ａ）の鎖をともにｉｎｓｉｌｉｃｏでビサルファイト変換した。機器のバルブの不具合により品質が低下する、又は主として「Ｎ」塩基からなるリードが生じるレーンで複数のライブラリーを実行したため、アライメント前に、まずリードを実行指標に基づくフィルターにかけた。次に、最初の７５塩基中に３個以下の「Ｎ」を含むようにリードにフィルターをかけ、次いで、ＢＷＡをデフォルトパラメータで用いて、Ｃ２Ｔ及びＧ２Ａ鎖の両方に対してアラインした。両鎖に対してアラインされたリードを取り出した。次いで、両方がどちらの鎖に対してもアラインされなかったリードペアを取り出して７６ｂｐにトリミングし（ＳＥ３６実行を除く）、Ｃ２Ｔ及びＧ２Ａ鎖の両方に対して再度アラインした。ライブラリーＦでは、これらのサイクルの間の機器のバルブ不具合により、リード２の始めから２５ｂｐの最初のトリミングが行われた。重複リード（リード１及び２の両方の同じ開始位置を共有するペア）を取り出し、複雑度を決定した。次いで、アライメントスコアが１０未満のリードを二次解析の前にフィルターにかけて除外した。固有のリードからアラインされた総塩基数を分子に、ゲノムのアライン可能な総塩基数（１鎖当たり３Ｇｂをわずかに下回る）を分母に用いて、総カバレッジの倍数を計算した。

５ｍＣコーリング
Ｌｉｓｔｅｒら（２００９）に記載されているように、二項分布を用いてメチル化シトシンをコールしたが、ここでは、試行回数として位置をカバーするリード数を、また成功としてシトシン状態を維持しているリード数を用いて、各メチル化関係（ＣｐＧ、ＣＨＧ、ＣＨＨ）の確率質量関数を計算し、成功の確率は、非変換率と配列決定エラー率の合計により決定された総エラー率に基づくものであった。最初は、総エラー率を非メチル化ラムダＤＮＡスパイクインにより決定したが、本発明者らは、リードのギャップ修復部分からエラー率を推定すると（本文中に記載するように）、ラムダ推定よりわずかに高く、より包括的な推定ができることに気付いたため、控えめな推定をするために、最も高く決定された０．００９のエラー率を用いた。確率がＭの値を下回った場合（ここで、Ｍ^*（非メチル化ＣｐＧの総数）＜０．０１^*（メチル化ＣｐＧの総数））、その位置はメチル化としてコールし、位置の１％以下がエラー率によるものとした。

結果
超低投入量のトランスポザーゼに基づくＷＧＢＳライブラリーの性能
１ナノグラム〜２００ナノグラムの投入ゲノムＤＮＡから構築されたライブラリーを用いて、ｔｎ５ｍＣ−ｓｅｑを実施し、リンパ芽球様細胞株（ＮＡ２０８４７）のメチロームを配列決定した。各ライブラリーをＰＣＲ増幅時にバーコード付けし、ＩｌｌｕｍｉｎａＨｉＳｅｑ２０００（ＰＥ１００；ｖ２ｃｈｅｍｉｓｔｒｙ）でのスパイクイン（５％）又は多数（８０〜９０％）の配列決定レーンに供した。そのデータを下の表３にまとめる。

ｔｎ５ｍＣ−ｓｅｑライブラリー及び配列決定のまとめ
^*リード２のバルブ不具合により大幅なリードトリミング（５０〜７０ｂｐ）が行われた。
^**リード２の完全なバルブ不具合。

最初に生のリードを特定の位置で機器のバルブ不具合に関するフィルターにかけ、次いで、最初の５０塩基中に４個以上のＮ又はきわめて低品質の塩基（ｐｈｒｅｄスコア≦２）を含むリードを除外した。次いで、ＢＷＡ（Ｌｉ及びＤｕｒｂｉｎ，２００９）を用いて、ｉｎｓｉｌｉｃｏ変換したｈｇ１９（ＧＲＣ３７）の上側及び下側参照鎖に対するアライメントを行った後、トリミング及び再アライメントを行った。重複リードをその開始位置及びインサートサイズにより特定し、除外した。各ライブラリーについてアラインされるフィルター後のリードの百分率が示され、同様に重複ではないリードの百分率も示される。

ＢＷＡ（Ｌｉ及びＤｕｒｂｉｎ，２００９）を用いて、リードをｉｎｓｉｌｉｃｏ変換ｈｇ１９（ＧＲＣ３７）の上側（Ｃ→Ｔ）及び下側（Ｇ→Ａ）鎖の両方にアラインした後、マッピングされていないリードのリードトリミング及び同じパラメータを用いた２回目のアライメントを行った。ギャップ修復段階の間に非メチル化ヌクレオチドが組み込まれるため（第一のリードのインサートサイズにより決定される第二のリードの最初の９塩基対及びアダプターの前の最後の９塩基対）、ギャップ修復領域をメチル化解析から除外しなければならない。しかし、これらの塩基もビサルファイト処理の変換率を内部で制御するものとして働く。これは、全ライブラリーに関して９９％超であることがわかり、またこれは、非メチル化ラムダＤＮＡスパイクインを２つのライブラリーに用いて、独立して確認された。

１０ナノグラム以上のゲノムＤＮＡを用いて構築した各ライブラリーでは、１億を超える複雑度の高い（９０〜９７％の非重複）アラインされたリードが得られた（フィルターにかけた全リードの６０〜７５％；方法を参照）。１ナノグラムから調製したライブラリーの性能はかなり低いものであったが、それでも約１，２００万のリードが依然としてアラインされ、ライブラリーの複雑度は妥当なものであった（７８％の非重複）。アライメント後のリードをまとめて品質に関するフィルターにかけ、計５１．７ギガベースの固有の配列を選別した。平均リード深度は１鎖当たり８．６倍であり、ＣｐＧの９６％超及び非ＣｐＧシトシンの９８％超がゲノム全域をカバーしていた（図３６ｃ）。

リンパ芽球様細胞株のメチル化
約４，６００万の５ｍＣ位置（１％ＦＤＲ；方法を参照）が検出され、カバレッジを有する総シトシンの４．２％を占めていた。メチル化の大部分はＣｐＧ関連でみられ（９７．１％）、全体のＣｐＧメチル化レベルは６９．１％であった。このレベルは、Ｌｉｓｔｅｒらにより配列決定された胎児線維芽細胞株ＩＭＲ９０のもの（Ｌｉｓｔｅｒら，２００９）（６７．７％）と同等であり、分化した細胞型ではＣｐＧメチル化レベルが低下するという観察結果と一致する。更に、ＣＨＧ及びＣＨＨメチル化レベルはそれぞれ０．３６％及び０．３７％で、ＥＳ細胞よりかなり低く、これも分化した細胞型と一致するものであった。染色体規模では、テロメア長を制御するように働くｍｉＲＮＡ仲介性経路により予想されるように（Ｂｅｎｅｔｔｉら，２００８）、メチル化はサブテロメア領域で多くみられた（図３６ｄ）。機能注釈の付いた遺伝子領域の分析により、ＣｐＧメチル化がプロモーター領域では大幅に減少し、次いで５’ＵＴＲでは小幅に増加し、次いで遺伝子本体の全体、特にイントロンではメチル化のレベルが上昇することが明らかになったが（図３６ｅ、３６ｆ）、これは、既に記載されているＣｐＧメチル化プロファイル（Ｌｉｓｔｅｒら，２００９）と一致するものである。

考察
ＷＧＢＳのための複雑なショットガンビサルファイト配列決定ライブラリーを迅速に調製する新規な方法としてｔｎ５ｍＣ−ｓｅｑを開発した。簡潔に述べれば、この方法は、ＤＮＡ−ｓｅｑライブラリーの構築ですでに明らかにされているように、高活性なＴｎ５トランスポザーゼ誘導体を用いて、一段階でゲノムＤＮＡを断片化してアダプターを付加するものである（Ａｄｅｙら，２０１０）。ライブラリー分子がビサルファイト処理に耐えるように、アダプターをすべてのシトシン残基の部分でメチル化し、オリゴヌクレオチド置換戦略を用いて、アダプターが共有結合により隣接している各一本鎖を作製する。効率の高いトランスポザーゼ及び損失を伴う段階の全体的な減少により、わずか１０ｎｇの投入ＤＮＡから高品質なビサルファイト配列決定ライブラリーの構築が、また１ｎｇの投入ＤＮＡから有効な配列の構築が可能となる。

上記の結果は、ＤＮＡ−Ｓｅｑライブラリー調製のためのトランスポザーゼに基づく方法の派生物が、その利点がはるかに意義のある次世代配列決定法の重要な応用をどのように可能にするかを示している。きわめて少量の投入ゲノムＤＮＡからこのようなライブラリーを作製する能力は、全メチローム配列決定の実用性を実質的に改善するものであり、またＲＲＢＳなどの包括性の少ない方法の重要な利点を取り出すものである（Ｍｅｉｓｓｎｅｒら，２００５；Ｈａｒｒｉｓら，２０１０）。具体的には、ｔｎ５ｍＣ−ｓｅｑによる低投入量のＷＧＢＳは、ＤＮＡの品質がボトルネックとなっている数多くの状況、例えば、エピジェネティックな展望が目的であるが組織量により解析が制限されている発生中の解剖学的構造、顕微解剖組織又は癌などの病理において、メチル化を包括的に調べることを可能にし得る。

実施例５：離れた調節部位の同定及び染色体立体配座の測定
最近の研究では、ゲノム内の遺伝要素間の物理的相互作用の重要性及び複雑性が示されている。このような相互作用を測定することは、離れたシス及びトランス調節ＤＮＡが遺伝子調節においてどのように役割を果たしているか（どの遺伝子がどのエンハンサーの影響を受けているのか、染色体が細胞内でどのように配置されているのか、ｈｏｗＡＲ及びＥＲのような特定の転写因子がどのように結合し遺伝子発現に影響を及ぼすのかを含む）を説明するのに役立ち得る。また、それにより癌その他の遺伝子疾患に関与する再編成及び逆位形成の手掛かりを得ることも可能である。

ハイスループットな配列決定法を用いて物理的相互作用をアッセイする現在の方法には、ペアエンドタグ配列決定法を用いるクロマチン相互作用の解析（ＣｈＩＡ−ＰＥＴ；転写因子結合部位の相互作用）及びＨｉ−Ｃ（ゲノムのマップを作製する方法）がある。この２つの方法には、配列決定のためにＤＮＡの離れた領域を対にするためにその方法で用いる分子内連結の効率及び特異性が低いことに起因し得る限界がある。このような連結段階には多量の投入ＤＮＡ（１００＋μｍ）が必要であり、ＤＮＡのフラグメント同士が通常は互い関連がなくても連結されるという技術的アーチファクトが生じ得る。

これらの問題点は、胚性幹細胞及び癌細胞のような小さい集団の細胞のゲノム構造を理解しようとする際に重要となる。それはまた、転写因子結合により生じて測定されるＤＮＡ相互作用に関するいかなる推論も、概してきわめて大きい細胞集団（例えば、１０⁸個の細胞又は約５００マイクログラムのＤＮＡ）のものであることを意味する。異なる細胞が異なるゲノム構造又は転写因子結合パターンを有し得ることを考えると、開始ＤＮＡが少なくて済む方法が有効であろう。

したがって、比較的小さい集団の細胞内のＤＮＡ−ＤＮＡ及びＤＮＡ−タンパク質相互作用を測定する方法を以下に提供する。このような方法は、「インフィニペア（ｉｎｆｉｎｉｐａｉｒ）」技術（上の実施例３Ａに記載）を用いて、架橋し免疫沈降させたＤＮＡの複数のフラグメントを直接配列決定するものである（図２８）。この方法は、分子内連結という余分な段階を経ずに、架橋されたＤＮＡフラグメントを直接アッセイするという点で、ＣＨＩＡ−ＰＥＴ法及びＨｉ−Ｃ法とは異なるものである。

５．Ａ．離れた調節結合部位の同定
一実施形態では、実施例３Ａに記載した技術（本明細書では、「インフィニペア（ｉｎｉｆｉｎｐａｉｒ）」技術と呼ぶ）を改変したものを用いて、例えばエストロゲン受容体にみられるような、転写因子（ＴＦ）結合部位間の相互作用を同定し得る。図２９に示すように、ホルモン（約１０ｎｇ）により約１０⁴個の細胞を誘導し、次いで細胞のクロマチン免疫沈降を行う。次に、細胞を１％ホルムアルデヒドで架橋し超音波処理することにより、クロマチン繊維を破壊する。次いで、ＥＲ／ＡＲ／受容体特異的抗体を用いて、結合クロマチンフラグメントを濃縮する。

次に、Ｔ４ポリメラーゼを用いて末端修復を実施し、Ａ＋Ｂアダプターと連結する。この方法では、リン酸化、半分のリンカーの連結又は連結の希釈は不要である。次いで、インフィニペア（ｉｎｆｉｎｉｐａｉｒ）技術を用いて、免疫沈降した複合体に対応するクラスターを作製する。隣接するクラスターを対にして、染色体上の位置間の相互作用のリストを作成する。

次いで、推定相互作用のリストを絞り込むために、収集したデータをＣＨＩＰ−Ｓｅｑ情報と交差させて、転写因子の既知の結合部位に関する情報を得る。複数のライブラリーから得られた情報を重ね合わせることで、コールされた相互作用の信頼度が高まる。このデータを用いてクロマチン相互作用の構造の特徴を明らにし、更にこれを用いて調節領域とＤＮＡを関連付ける（すなわち、遺伝子とエンハンサーを関連付ける）。

この方法を用いることの有用性をいくつか挙げると、特に限定されないが、（１）相互作用の対形成の精度が高まること―（フラグメント間の連結がない）、（２）必要なＤＮＡ投入量が少なくなり、使用し得る用途が増える（すなわち、比較的少ないセットのサンプル（ＥＳ細胞／癌細胞／比較的小さい集団の健常細胞）内の相互作用を同定し得る）こと、（３）作業の流れた容易になること―連結、ＰＣＲ、ＭｍｅＩ消化などが不要である、（４）必要な配列決定が少なくなることがある。

５．Ｂ．染色体立体配座の推定
別の実施形態では、インフィニペア（ｉｎｆｉｎｉｐａｉｒ）技術を用いて、少数の細胞において染色体立体配座をモデル化する。Ｈｉ−Ｃ法などのこれまでの方法では、多数の細胞（約１０⁷個の細胞；約５０μｍのＤＮＡ）が必要である。図３０に示すように、ゲノムＤＮＡを架橋する。ホモジナイザーを用いて細胞を溶解させた後、クロマチンを遠沈する。１％ＳＤＳ、次いでＴｒｉｔｏｎＸ−１００中でインキュベートすることにより、クロマチンタンパク質を除去する。次いで、ＨｉｎｄＩＩＩ中で一晩インキュベートすることによりクロマチンを消化する。

抗クロマチン抗体に対するビーズの入ったカラムを用いて、クロマチンを精製する。次いで、ビオチン化する必要なしにＡ及びＢアダプターをＤＮＡフラグメントに連結する。次に、インフィニペア（ｉｎｆｉｎｉｐａｉｒ）技術を用いて、複合体に対応するインフィニペア（ｉｎｆｉｎｉｐａｉｒ）クラスターを作製する。隣接するクラスターを対にして、染色体上の位置間の相互作用のリストを作成する。次いで、得られた情報を用いて、３次元モデルを作製し、特定の細胞型の立体配座の理解を深める。

実施例６：より費用対効果の高い配列決定法のための短距離、中距離及び長距離の連続性の統合
この実施例の焦点には、１）実施例１〜３で開発されたマウスゲノムの高品質なｄｅｎｏｖｏアセンブリの方法の統合；２）ヒトゲノムのハプロタイプ分解的再配列決定の上記方法の統合；及び３）他の次世代配列決定パラダイムの適合性の拡張が含まれる。

６．Ａ．コスト分析及び１，０００ドルの目標への道
本明細書に記載の方法の重要な側面は、そのコストが、それが統合される配列決定法プラットフォームのコストにほぼ全面的に依存しているという点である。「Ｘ」をゲノム再配列決定のコストとすれば、本明細書に記載の方法のコストは「ａ＋ｂＸ」に要約され、上式中、「ａ」は連続性情報捕捉の１サンプル当たりの固定コスト（例えば、ｉｎｓｉｔｕ転移反応のコスト）であり、「ｂ」は、ゲノム再配列決定に対するその情報を回収するのに必要な配列決定の割合である。「ａ」の見積もりは低い、すなわち１方法当たり３０ドル未満である。これは、ｉｎｓｉｔｕ転移及びＰＣＲなどの反応では、ゲノムＤＮＡが単一の試薬体積内でまとめて操作されるからである。更に、縮重オリゴヌクレオチドなどの試薬及びマイクロ流体装置は比較的安価であり、多く使用することでそのコストを償却することができる。それに比べて「ｂ」の値は予測が困難であり、各方法の実施及び最適化がどれだけ成功するかに左右される。しかし、バーコード自体は、それがｃｉｓの状態にある一次リードに比べれば短い（例えば、ＳＥ２５バーコード対ＰＥ７６一次リード）ことが注目される。

次に挙げる本明細書に記載の方法の各応用に関連する配列決定のコストは、同じプラットフォームを用いる哺乳動物ゲノムの４０×再配列決定のコストとほぼ同じ、すなわち「ｂ≒１」になるべきである。マウス及びヒトゲノムの最初のアセンブリにより示されるように、同時に十分な連続性情報が得られる限り、ゲノム再配列決定で現在使用されているものよりも実質的に少ないサンプリングで、哺乳動物ゲノムの高品質なｄｅｎｏｖｏアセンブリを達成することが可能である。

６．Ｂ．マウスゲノムのｄｅｎｏｖｏアセンブリ
上記の方法から得られた連続性情報を用いて、哺乳動物ゲノムの高品質なｄｅｎｏｖｏアセンブリをｄｅｎｏｖｏで入手し得る。これを達成するために、従来型又は「次世代」のｄｅｎｏｖｏアセンブリ（Ｓｃｈａｔｚら，２０１０）のための既存のツールをこれらのデータに転用及び適用し、必要に応じて追加のソフトウェアを開発する。品質をあまり落とさずコストを最小限に抑えるために、連続性マッピング法の最適な組合せ（すなわち、さまざまな規模で）を決定する。これには、例えば、各方法からのデータがさまざまな割合で含まれるように各連続性マッピング法でゲノムをオーバーサンプリングし、次いでダウンサンプリングし、ｄｅｎｏｖｏアセンブリの品質に対する影響を評価することが必要となり得る。テストケースとしてマウスゲノムのｄｅｎｏｖｏアセンブリに焦点を当てると、最初のアセンブリの連続性（すなわち、２４．８ＫｂのコンティグＮ５０；Ｎ５０１６．９Ｍｂのスーパーコンティグ）を４０×再配列決定に必要なデータ（２．５Ｇｂ×４０＝約１００Ｇｂ）と同量のデータで上回ることになる、すなわち「ｂ≒１」となる。最初、配列決定のコストの方が高くなる、すなわち「ｂＸ＞＞ａ」となるが、これが変化しても、全規模の連続性マッピング法を用いても（すなわち、短距離、中距離及び長距離の連続性）、調製反応の合計コスト（「ａ」）が１００ドル未満に抑えられるべきである。

６．Ｃ．ヒトゲノムのハプロタイプ分解的再配列決定
予備データ（２．Ｄ）は、適度な量の連続性情報により広範囲のハプロタイプ分解能が得られることを示している。このデータには、ハプロタイプ分解的ゲノム再配列決定に必要なソフトウェアがすでに開発されているか、又はこれから開発する。更に、一倍体遺伝子型を正確にコールするのに必要な配列決定の量は、二倍体遺伝子型のコールの半分に満たないため、同じデータを用いてＳＮＰ解析ハプロタイプを発見するアルゴリズムを開発する。連続性マッピング法を統合して、ＨａｐＭａｐデータとの一致をＤ’＞０．９０で９９．５％超に維持しながら、Ｎ５０が少なくとも１Ｍｂのハプロタイプ分解ブロックにおいて９５％超のカバレッジを目標に、ヒトゲノムを再配列決定すると同時にハプロタイプ分解を行う。マウスゲノムのｄｅｎｏｖｏアセンブリと同様に、これは、４０×のハプロタイプ検出不能なヒトゲノムの再配列決定法に必要とされるであろう同じ量の配列決定（３Ｇｂ×４０＝約１２０Ｇｂ）、すなわち「ｂ≒１」で達成され得る。

６．Ｄ．他の配列決定パラダイムへの連続性マッピング法の適合性の拡張
本明細書に記載されている連続性情報を捕捉する方法は、それと統合する配列決定技術との使用を対象にしたものであるが、このような方法を他の配列決定技術のために及び他の配列決定法プラットフォームとともに開発してもよい。これらには、他のサイクリックアレイ（ｃｙｃｌｉｃ−ａｒｒａｙ）プラットフォーム（例えば、Ｐｏｌｏｎａｔｏｒ、ＳＯＬｉＤ）及びナノポアシーケンシングなどの新たなパラダイムが含まれる。
本発明のまた別の態様は、以下のとおりであってもよい。
〔１〕連続性情報を捕捉する方法であって、以下の工程、
標的ＤＮＡ配列をトランスポザーゼで処理して１つ以上の断片化事象又は挿入事象を生じさせる工程、
前記標的ＤＮＡ配列に１つ以上の認識配列を、（ｉ）前記トランスポザーゼ処理の間又は（ｉｉ）後の増幅の間に付加又は挿入する工程、
前記処理されたＤＮＡを配列決定する工程、
共通の特性を有する標的ＤＮＡ配列又は認識配列を同定することにより、連続性情報を捕捉する工程、
を含むことを特徴とする方法。
〔２〕前記１つ以上の断片化事象又は挿入事象により、前記標的ＤＮＡに由来する標的核酸分子のライブラリーの形成が生じる、前記〔１〕に記載の方法。
〔３〕前記１つ以上の認識配列が、各断片化事象又は挿入事象に隣接する配列に対称的にタグ付けされる１つ以上のバーコードである、前記〔２〕に記載の方法。
〔４〕前記１つ以上のバーコードの前記共通の特性が、同一のバーコード配列又は相補的なバーコード配列である、前記〔３〕に記載の方法。
〔５〕前記標的ＤＮＡ配列が、一組の標的ＤＮＡフラグメントを含む、前記〔１〕に記載の方法。
〔６〕前記トランスポザーゼで処理する前又は後に、前記標的ＤＮＡフラグメントをエマルジョン又は希釈剤で区画化し、標的ＤＮＡフラグメントの区画を２つ以上生じさせることを更に含む、前記〔５〕に記載の方法。
〔７〕前記１つ以上の認識配列が、それぞれ前記区画化段階で生じた前記１つ以上の区画に対応する１つ以上の区画特異的バーコードである、前記〔６〕に記載の方法。
〔８〕前記１つ以上のプライマー配列の前記共通の特性が、同一の区画特異的バーコードである、前記〔７〕に記載の方法。
〔９〕区画特異的バーコードを有するプライマーを用いて核酸増幅を実施することを更に含む、前記〔７〕に記載の方法。
〔１０〕前記１つ以上の認識配列が、前記標的ＤＮＡ配列又は前記標的ＤＮＡ配列内のインサートの末端を修飾する１つ以上のアダプター配列である、前記〔１〕に記載の方法。
〔１１〕前記１つ以上のアダプター配列が、１つ以上の表面結合プライマーに相補的である、前記〔１０〕に記載の方法。
〔１２〕前記トランスポザーゼが、第二の表面結合プライマーに相補的な核酸と結合している、前記〔１１〕に記載の方法。
〔１３〕前記１つ以上のアダプター配列を前記１つ以上の表面結合プライマーとハイブリダイズさせることを更に含む、前記〔１１〕に記載の方法。
〔１４〕前記共通の特性が、拘束された物理的位置である、前記〔１３〕に記載の方法。
〔１５〕前記トランスポザーゼが、表面結合認識配列と結合して表面結合トランスポザーゼ複合体を形成する、前記〔１〕に記載の方法。
〔１６〕前記共通の特性が、拘束された物理的位置である、前記〔１５〕に記載の方法。
〔１７〕前記標的ＤＮＡ配列の処理が、複数の表面結合トランスポザーゼ複合体を前記標的ＤＮＡ配列に曝すことを含む、前記〔１５〕に記載の方法。
〔１８〕ビサルファイト配列決定の方法であって、以下の工程、
ａ）それぞれが二本鎖ＤＮＡトランスポザーゼ認識配列と、メチル化シトシン（Ｃ）残基を有する一本鎖ＤＮＡアダプターオーバーハングとを含むトランスポザーゼ複合体を用いて、標的ＤＮＡ分子内へのｉｎｖｉｔｒｏ転移を実施する工程、
ｂ）転移済みの標的ＤＮＡ分子にビサルファイト処理を施す工程、
ｃ）核酸増幅を実施する工程、
ｄ）得られた核酸ライブラリーを配列決定する工程、
を含むことを特徴とする方法。
〔１９〕工程（ａ）の後かつ工程（ｂ）の前に、第二のアダプターを標的ＤＮＡに由来する核酸フラグメントに組み込むことを更に含み、前記第二のアダプターが、工程（ｃ）での核酸増幅を容易にするように設計されている、前記〔１８〕に記載の方法。
〔２０〕工程（ｂ）の後かつ工程（ｃ）の前に、第二のアダプターを標的ＤＮＡに由来する核酸フラグメントを組み込むことを更に含み、前記第二のアダプターが、工程（ｃ）での核酸増幅を容易にするように設計されている、前記〔１８〕に記載の方法。
〔２１〕染色体立体配座を推定する方法であって、以下の工程、
ａ）細胞内のＤＮＡに架橋を施す工程、
ｂ）架橋ＤＮＡを細胞から単離する工程、
ｃ）前記架橋ＤＮＡを断片化する工程、
ｄ）断片化された架橋ＤＮＡ分子を、第一の表面結合プライマーに相補的であるか、又は第一の表面結合プライマーに対応するアダプターで末端修飾する工程、
ｅ）前記断片化し末端修飾した標的ＤＮＡ分子の末端を前記第一の表面結合プライマーとハイブリダイズさせる工程、
ｆ）それぞれがＤＮＡトランスポザーゼと、第二の表面結合プライマーに対応する１つ以上の配列とを含む非表面結合トランスポザーゼ複合体を用いて、転移を実施する工程、ｇ）クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを調製する工程、
ｈ）クローン化により生じた核酸のクラスターを配列決定する工程、
ｉ）隣接するクラスター同士を対にすることにより、染色体上の位置間の物理的相互作用を決定する工程、
を含むことを特徴とする方法。
〔２２〕前記単離された架橋ＤＮＡが、架橋ＤＮＡ−タンパク質複合体の一部である、前記〔２１〕に記載の方法。
〔２３〕工程（ｃ）の後かつ工程（ｄ）の前に、１つ以上の特定の架橋ＤＮＡ−タンパク質複合体を免疫沈降により濃縮することを更に含む、前記〔２２〕に記載の方法。

（参考文献）
以下に挙げる参考文献、特許及び公開特許出願ならびに上記明細書で引用されるすべての参考文献は、その全体が本明細書に記載された場合と同様に、その内容全体が参照により本明細書に組み込まれるものとする。

ＡｄｅｙＡ，ＭｏｒｒｉｓｏｎＨＧ，Ａｓａｎ，ＸｕｎＸ，ＫｉｔｚｍａｎＪＯ，ＴｕｒｎｅｒＥＨ，ＳｔａｃｋｈｏｕｓｅＢ，ＭａｃＫｅｎｚｉｅＡＰ，ＣａｒｕｃｃｉｏＮＣ，ＺｈａｎｇＸｅｔａｌ．２０１０．Ｒａｐｉｄ，ｌｏｗ−ｉｎｐｕｔ，ｌｏｗ−ｂｉａｓｃｏｎｓｔｒｕｃｔｉｏｎｏｆｓｈｏｔｇｕｎｆｒａｇｍｅｎｔｌｉｂｒａｒｉｅｓｂｙｈｉｇｈ−ｄｅｎｓｉｔｙｉｎｖｉｔｒｏｔｒａｎｓｐｏｓｉｔｉｏｎ．ＧｅｎｏｍｅＢｉｏｌ１１（１２）：Ｒ１１９．
ＢａｌｌＭＰ，ＬｉＪＢ，ＧａｏＹ，ＬｅｅＪＨ，ＬｅＰｒｏｕｓｔＥＭ，ＰａｒｋＩＨ，ＸｉｅＢ，ＤａｌｅｙＧＱ，ＣｈｕｒｃｈＧＭ．２００９．Ｔａｒｇｅｔｅｄａｎｄｇｅｎｏｍｅ−ｓｃａｌｅｓｔｒａｔｅｇｉｅｓｒｅｖｅａｌｇｅｎｅ−ｂｏｄｙｍｅｔｈｙｌａｔｉｏｎｓｉｇｎａｔｕｒｅｓｉｎｈｕｍａｎｃｅｌｌｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌ２７（４）：３６１−３６８．
ＢａｎｓａｌＶ，ＢａｆｎａＶ．ＨａｐＣＵＴ：ａｎｅｆｆｉｃｉｅｎｔａｎｄａｃｃｕｒａｔｅａｌｇｏｒｉｔｈｍｆｏｒｔｈｅｈａｐｌｏｔｙｐｅａｓｓｅｍｂｌｙｐｒｏｂｌｅｍ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８；２４（１６）：ｉ１５３−９．
ＢｅｎｅｔｔｉＲ，ＧｏｎｚａｌｏＳ，ＪａｃｏＩ，ＭｕｎｏｚＰ，ＧｏｎｚａｌｅｚＳ，ＳｃｈｏｅｆｔｎｅｒＳ，ＭｕｒｃｈｉｓｏｎＥ，ＡｎｄｌＴ，ＣｈｅｎＴ，ＫｌａｔｔＰｅｔａｌ．２００８．ＡｍａｍｍａｌｉａｎｍｉｃｒｏＲＮＡｃｌｕｓｔｅｒｃｏｎｔｒｏｌｓＤＮＡｍｅｔｈｙｌａｔｉｏｎａｎｄｔｅｌｏｍｅｒｅｒｅｃｏｍｂｉｎａｔｉｏｎｖｉａＲｂｌ２−ｄｅｐｅｎｄｅｎｔｒｅｇｕｌａｔｉｏｎｏｆＤＮＡｍｅｔｈｙｌｔｒａｎｓｆｅｒａｓｅｓ．ＮａｔＳｔｒｕｃｔＭｏｌＢｉｏｌ１５（３）：２６８−２７９．
ＢｅｎｔｌｅｙＤＲ，ＢａｌａｓｕｂｒａｍａｎｉａｎＳ，ＳｗｅｒｄｌｏｗＨＰ，ＳｍｉｔｈＧＰ，ＭｉｌｔｏｎＪ，ＢｒｏｗｎＣＧ，ｅｔａｌ．Ａｃｃｕｒａｔｅｗｈｏｌｅｈｕｍａｎｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｒｅｖｅｒｓｉｂｌｅｔｅｒｍｉｎａｔｏｒｃｈｅｍｉｓｔｒｙ．Ｎａｔｕｒｅ．２００８；４５６（７２１８）：５３−９．ＰＭＣＩＤ：ＰＭＣ２５８１７９１．
ＢｒａｎｔｏｎＤ，ＤｅａｍｅｒＤＷ，ＭａｒｚｉａｌｉＡ，ＢａｙｌｅｙＨ，ＢｅｎｎｅｒＳＡ，ＢｕｔｌｅｒＴ，ｅｔａｌ．Ｔｈｅｐｏｔｅｎｔｉａｌａｎｄｃｈａｌｌｅｎｇｅｓｏｆｎａｎｏｐｏｒｅｓｅｑｕｅｎｃｉｎｇ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２００８；２６（１０）：１１４６−５３．ＰＭＣＩＤ：ＰＭＣ２６８３５８８．
ＢｒａｓｌａｖｓｋｙＩ，ＨｅｂｅｒｔＢ，ＫａｒｔａｌｏｖＥ，ＱｕａｋｅＳＲ．ＳｅｑｕｅｎｃｅｉｎｆｏｒｍａｔｉｏｎｃａｎｂｅｏｂｔａｉｎｅｄｆｒｏｍｓｉｎｇｌｅＤＮＡｍｏｌｅｃｕｌｅｓ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００３；１００（７）：３９６０−４．ＰＭＣＩＤ：ＰＭＣ１５３０３０．
ＣｌａｒｋＳＪ，ＨａｒｒｉｓｏｎＪ，ＰａｕｌＣＬ，ＦｒｏｍｍｅｒＭ．１９９４．Ｈｉｇｈｓｅｎｓｉｔｉｖｉｔｙｍａｐｐｉｎｇｏｆｍｅｔｈｙｌａｔｅｄｃｙｔｏｓｉｎｅｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ２２（１５）：２９９０−２９９７．
ＣｏｋｕｓＳＪ，ＦｅｎｇＳ，ＺｈａｎｇＸ，ＣｈｅｎＺ，ＭｅｒｒｉｍａｎＢ，ＨａｕｄｅｎｓｃｈｉｌｄＣＤ，ＰｒａｄｈａｎＳ，ＮｅｌｓｏｎＳＦ，ＰｅｌｌｅｇｒｉｎｉＭ，ＪａｃｏｂｓｅｎＳＥ．２００８．ＳｈｏｔｇｕｎｂｉｓｕｌｐｈｉｔｅｓｅｑｕｅｎｃｉｎｇｏｆｔｈｅＡｒａｂｉｄｏｐｓｉｓｇｅｎｏｍｅｒｅｖｅａｌｓＤＮＡｍｅｔｈｙｌａｔｉｏｎｐａｔｔｅｒｎｉｎｇ．Ｎａｔｕｒｅ４５２（７１８４）：２１５−２１９．
ＤｅｎｇＪ，ＳｈｏｅｍａｋｅｒＲ，ＸｉｅＢ，ＧｏｒｅＡ，ＬｅＰｒｏｕｓｔＥＭ，Ａｎｔｏｓｉｅｗｉｃｚ−ＢｏｕｒｇｅｔＪ，ＥｇｌｉＤ，ＭａｈｅｒａｌｉＮ，ＰａｒｋＩＨ，ＹｕＪｅｔａｌ．２００９．ＴａｒｇｅｔｅｄｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｒｅｖｅａｌｓｃｈａｎｇｅｓｉｎＤＮＡｍｅｔｈｙｌａｔｉｏｎａｓｓｏｃｉａｔｅｄｗｉｔｈｎｕｃｌｅａｒｒｅｐｒｏｇｒａｍｍｉｎｇ．ＮａｔＢｉｏｔｅｃｈｎｏｌ２７（４）：３５３−３６０．
ＤｏｗｎＴＡ，ＲａｋｙａｎＶＫ，ＴｕｒｎｅｒＤＪ，ＦｌｉｃｅｋＰ，ＬｉＨ，ＫｕｌｅｓｈａＥ，ＧｒａｆＳ，ＪｏｈｎｓｏｎＮ，ＨｅｒｒｅｒｏＪ，ＴｏｍａｚｏｕＥＭｅｔａｌ．２００８．ＡＢａｙｅｓｉａｎｄｅｃｏｎｖｏｌｕｔｉｏｎｓｔｒａｔｅｇｙｆｏｒｉｍｍｕｎｏｐｒｅｃｉｐｉｔａｔｉｏｎ−ｂａｓｅｄＤＮＡｍｅｔｈｙｌｏｍｅａｎａｌｙｓｉｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌ２６（７）：７７９−７８５．
ＤｒｅｓｓｍａｎＤ，ＹａｎＨ，ＴｒａｖｅｒｓｏＧ，ＫｉｎｚｌｅｒＫＷ，ＶｏｇｅｌｓｔｅｉｎＢ．ＴｒａｎｓｆｏｒｍｉｎｇｓｉｎｇｌｅＤＮＡｍｏｌｅｃｕｌｅｓｉｎｔｏｆｌｕｏｒｅｓｃｅｎｔｍａｇｎｅｔｉｃｐａｒｔｉｃｌｅｓｆｏｒｄｅｔｅｃｔｉｏｎａｎｄｅｎｕｍｅｒａｔｉｏｎｏｆｇｅｎｅｔｉｃｖａｒｉａｔｉｏｎｓ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００３；１００（１５）：８８１７−２２．ＰＭＣＩＤ：ＰＭＣ１６６３９６．
ＤｒｍａｎａｃＲ，ＳｐａｒｋｓＡＢ，ＣａｌｌｏｗＭＪ，ＨａｌｐｅｒｎＡＬ，ＢｕｒｎｓＮＬ，ＫｅｒｍａｎｉＢＧ，ｅｔａｌ．Ｈｕｍａｎｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｕｎｃｈａｉｎｅｄｂａｓｅｒｅａｄｓｏｎｓｅｌｆ−ａｓｓｅｍｂｌｉｎｇＤＮＡｎａｎｏａｒｒａｙｓ．Ｓｃｉｅｎｃｅ．２００９；３２７（５９６１）：７８−８１．
ＤｕａｎＺ，ＡｎｄｒｏｎｅｓｃｕＭ，ＳｃｈｕｔｚＫ，ＭｃＩｌｗａｉｎＳ，ＫｉｍＹＪ，ＬｅｅＣ，ｅｔａｌ．Ａｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｍｏｄｅｌｏｆｔｈｅｙｅａｓｔｇｅｎｏｍｅ．Ｎａｔｕｒｅ２０１０；４６５（７２９６）：３６３−７．ＰＭＣＩＤ：ＰＭＣ２８７４１２１．
ＥｉｄＪ，ＦｅｈｒＡ，ＧｒａｙＪ，ＬｕｏｎｇＫ，ＬｙｌｅＪ，ＯｔｔｏＧ，ｅｔａｌ．Ｒｅａｌ−ｔｉｍｅＤＮＡｓｅｑｕｅｎｃｉｎｇｆｒｏｍｓｉｎｇｌｅｐｏｌｙｍｅｒａｓｅｍｏｌｅｃｕｌｅｓ．Ｓｃｉｅｎｃｅ．２００９；３２３（５９１０）：１３３−８．
ＦａｎＨＣ，ＷａｎｇＪ，ＰｏｔａｎｉｎａＡ，＆ＱｕａｋｅＳＲ（２０１１）Ｗｈｏｌｅ−ｇｅｎｏｍｅｍｏｌｅｃｕｌａｒｈａｐｌｏｔｙｐｉｎｇｏｆｓｉｎｇｌｅｃｅｌｌｓ．ＮａｔＢｉｏｔｅｃｈ２９（１）：５１−５７．
Ｆｕｌｌｗｏｏｄ，Ｍ．Ｊ．ｅｔａｌ．Ａｎｏｅｓｔｒｏｇｅｎ−ｒｅｃｅｐｔｏｒ−α−ｂｏｕｎｄｈｕｍａｎｃｈｒｏｍａｔｉｎｉｎｔｅｒａｃｔｏｍｅ．Ｎａｔｕｒｅ４６２，５８６４（２００９）．
ＧｅｉｓｓＧＫ，ＢｕｍｇａｒｎｅｒＲＥ，ＢｉｒｄｉｔｔＢ，ＤａｈｌＴ，ＤｏｗｉｄａｒＮ，ＤｕｎａｗａｙＤＬ，ｅｔａｌ．Ｄｉｒｅｃｔｍｕｌｔｉｐｌｅｘｅｄｍｅａｓｕｒｅｍｅｎｔｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｗｉｔｈｃｏｌｏｒ−ｃｏｄｅｄｐｒｏｂｅｐａｉｒｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２００８；２６（３）：３１７−２５．
ＧｎｅｒｒｅＳ，ＭａｃｃａｌｌｕｍＩ，ＰｒｚｙｂｙｌｓｋｉＤ，ＲｉｂｅｉｒｏＦＪ，ＢｕｒｔｏｎＪＮ，ＷａｌｋｅｒＢＪ，ＳｈａｒｐｅＴ，ＨａｌｌＧ，ＳｈｅａＴＰ，ＳｙｋｅｓＳ，ＢｅｒｌｉｎＡＭ，ＡｉｒｄＤ，ＣｏｓｔｅｌｌｏＭ，ＤａｚａＲ，ＷｉｌｌｉａｍｓＬ，ＮｉｃｏｌＲ，ＧｎｉｒｋｅＡ，ＮｕｓｂａｕｍＣ，ＬａｎｄｅｒＥＳ，ＪａｆｆｅＤＢ．Ｈｉｇｈ−ｑｕａｌｉｔｙｄｒａｆｔａｓｓｅｍｂｌｉｅｓｏｆｍａｍｍａｌｉａｎｇｅｎｏｍｅｓｆｒｏｍｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｅｄａｔａ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１０Ｄｅｃ２７．［Ｅｐｕｂａｈｅａｄｏｆｐｒｉｎｔ］ＰｕｂＭｅｄＰＭＩＤ：２１１８７３８６．
ＧｒｕｎｅｎｗａｌｄＨ，ＢａａｓＢ，ＧｏｒｙｓｈｉｎＩ，ＺｈａｎｇＢ，ＡｄｅｙＡ，ＨｕＳ，ＳｈｅｎｄｕｒｅＪ，ＣａｒｕｃｃｉｏＮ，ＭａｆｆｉｔｔＭ．２０１１．ＮｅｘｔｅｒａＰＣＲ−ＦｒｅｅＤＮＡＬｉｂｒａｒｙＰｒｅｐａｒａｔｉｏｎｆｏｒＮｅｘｔ−ＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇ．．（ＰｏｓｔｅｒＰｒｅｓｅｎｔａｔｉｏｎ，ＡＧＢＴ）．
ＧｕＨ，ＳｍｉｔｈＺＤ，ＢｏｃｋＣ，ＢｏｙｌｅＰ，ＧｎｉｒｋｅＡ，ＭｅｉｓｓｎｅｒＡ．２０１１．Ｐｒｅｐａｒａｔｉｏｎｏｆｒｅｄｕｃｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｌｉｂｒａｒｉｅｓｆｏｒｇｅｎｏｍｅ−ｓｃａｌｅＤＮＡｍｅｔｈｙｌａｔｉｏｎｐｒｏｆｉｌｉｎｇ．ＮａｔＰｒｏｔｏｃ６（４）：４６８−４８１．
ＨａｒｒｉｓＲＡ，ＷａｎｇＴ，ＣｏａｒｆａＣ，ＮａｇａｒａｊａｎＲＰ，ＨｏｎｇＣ，ＤｏｗｎｅｙＳＬ，ＪｏｈｎｓｏｎＢＥ，ＦｏｕｓｅＳＤ，ＤｅｌａｎｅｙＡ，ＺｈａｏＹｅｔａｌ．２０１０．Ｃｏｍｐａｒｉｓｏｎｏｆｓｅｑｕｅｎｃｉｎｇ−ｂａｓｅｄｍｅｔｈｏｄｓｔｏｐｒｏｆｉｌｅＤＮＡｍｅｔｈｙｌａｔｉｏｎａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｏｎｏａｌｌｅｌｉｃｅｐｉｇｅｎｅｔｉｃｍｏｄｉｆｉｃａｔｉｏｎｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌ２８（１０）：１０９７−１１０５．
ＨｉａｔｔＪＢ，ＰａｔｗａｒｄｈａｎＲＰ，ＴｕｒｎｅｒＥＨ，ＬｅｅＣ，ＳｈｅｎｄｕｒｅＪ．Ｐａｒａｌｌｅｌ，ｔａｇ−ｄｉｒｅｃｔｅｄａｓｓｅｍｂｌｙｏｆｌｏｃａｌｌｙｄｅｒｉｖｅｄｓｈｏｒｔｓｅｑｕｅｎｃｅｒｅａｄｓ．ＮａｔＭｅｔｈｏｄｓ．２０１０；７（２）：１１９−２２．ＰＭＣＩＤ：２８４８８２０．
ｈｔｔｐ：／／ｗｗｗ．ｅｐｉｂｉｏ．ｃｏｍ／ｎｅｘｔｅｒａ／ｎｍｅｔｈ＿ｆ＿２６９．ｐｄｆ．
ＪｏｈｎｓｏｎＤＳ，ＭｏｒｔａｚａｖｉＡ，ＭｙｅｒｓＲＭ，ＷｏｌｄＢ．Ｇｅｎｏｍｅ−ｗｉｄｅｍａｐｐｉｎｇｏｆｉｎｖｉｖｏｐｒｏｔｅｉｎ−ＤＮＡｉｎｔｅｒａｃｔｉｏｎｓ．Ｓｃｉｅｎｃｅ．２００７；３１６（５８３０）：１４９７−５０２．
ＫｉｄｄＪＭ，ＣｏｏｐｅｒＧＭ，ＤｏｎａｈｕｅＷＦ，ＨａｙｄｅｎＨＳ，ＳａｍｐａｓＮ，ＧｒａｖｅｓＴ，ｅｔａｌ．Ｍａｐｐｉｎｇａｎｄｓｅｑｕｅｎｃｉｎｇｏｆｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎｆｒｏｍｅｉｇｈｔｈｕｍａｎｇｅｎｏｍｅｓ．Ｎａｔｕｒｅ．２００８；４５３（７１９１）：５６−６４．ＰＭＣＩＤ：ＰＭＣ２４２４２８７．
ＫｉｔｚｍａｎＪＯ，ＭａｃｋｅｎｚｉｅＡＰ，ＡｄｅｙＡ，ＨｉａｔｔＪＢ，ＰａｔｗａｒｄｈａｎＲＰ，ＳｕｄｍａｎｔＰＨ，ＮｇＳＢ，ＡｌｋａｎＣ，ＱｉｕＲ，ＥｉｃｈｌｅｒＥＥ，ＳｈｅｎｄｕｒｅＪ．Ｈａｐｌｏｔｙｐｅ−ｒｅｓｏｌｖｅｄｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｏｆａＧｕｊａｒａｔｉＩｎｄｉａｎｉｎｄｉｖｉｄｕａｌ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２０１１Ｊａｎ；２９（１）：５９−６３．Ｅｐｕｂ２０１０Ｄｅｃ１９．ＰｕｂＭｅｄＰＭＩＤ：２１１７００４２．
ＫｉｔｚｍａｎＪＯ，ｅｔａｌ．（２０１１）Ｈａｐｌｏｔｙｐｅ−ｒｅｓｏｌｖｅｄｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｏｆａＧｕｊａｒａｔｉＩｎｄｉａｎｉｎｄｉｖｉｄｕａｌ．ＮａｔＢｉｏｔｅｃｈ２９（１）：５９−６３．
ＬａｉＺ，ＪｉｎｇＪ，ＡｓｔｏｎＣ，ＣｌａｒｋｅＶ，ＡｐｏｄａｃａＪ，ＤｉｍａｌａｎｔａＥＴ，ｅｔａｌ．ＡｓｈｏｔｇｕｎｏｐｔｉｃａｌｍａｐｏｆｔｈｅｅｎｔｉｒｅＰｌａｓｍｏｄｉｕｍｆａｌｃｉｐａｒｕｍｇｅｎｏｍｅ．ＮａｔＧｅｎｅｔ．１９９９；２３（３）：３０９−１３．
ＬａｎｄｅｒＥＳ，ＬｉｎｔｏｎＬＭ，ＢｉｒｒｅｎＢ，ＮｕｓｂａｕｍＣ，ＺｏｄｙＭＣ，ＢａｌｄｗｉｎＪ，ｅｔａｌ．Ｉｎｉｔｉａｌｓｅｑｕｅｎｃｉｎｇａｎｄａｎａｌｙｓｉｓｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅ．Ｎａｔｕｒｅ．２００１；４０９（６８２２）：８６０−９２１．
ＬｅｖｙＳ，ＳｕｔｔｏｎＧ，ＮｇＰＣ，ＦｅｕｋＬ，ＨａｌｐｅｒｎＡＬ，ＷａｌｅｎｚＢＰ，ｅｔａｌ．Ｔｈｅｄｉｐｌｏｉｄｇｅｎｏｍｅｓｅｑｕｅｎｃｅｏｆａｎｉｎｄｉｖｉｄｕａｌｈｕｍａｎ．ＰＬｏＳＢｉｏｌ．２００７；５（１０）：ｅ２５４．ＰＭＣＩＤ：ＰＭＣ１９６４７７９．
ＬｉＲ，ＺｈｕＨ，ＲｕａｎＪ，ＱｉａｎＷ，ＦａｎｇＸ，ＳｈｉＺ，ｅｔａｌ．Ｄｅｎｏｖｏａｓｓｅｍｂｌｙｏｆｈｕｍａｎｇｅｎｏｍｅｓｗｉｔｈｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｈｏｒｔｒｅａｄｓｅｑｕｅｎｃｉｎｇ．ＧｅｎｏｍｅＲｅｓ．２０１０；２０（２）：２６５−７２．ＰＭＣＩＤ：ＰＭＣ２８１３４８２．
ＬｉＹ，ＫｉｍＨＪ，ＺｈｅｎｇＣ，ＣｈｏｗＷＨ，ＬｉｍＪ，ＫｅｅｎａｎＢ，ｅｔａｌ．Ｐｒｉｍａｓｅ−ｂａｓｅｄｗｈｏｌｅｇｅｎｏｍｅａｍｐｌｉｆｉｃａｔｉｏｎ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２００８；３６（１３）：ｅ７９．ＰＭＣＩＤ：ＰＭＣ２４９０７４２．
ＬｉＨ，ＤｕｒｂｉｎＲ．２００９．ＦａｓｔａｎｄａｃｃｕｒａｔｅｓｈｏｒｔｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒｔｒａｎｓｆｏｒｍ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５（１４）：１７５４−１７６０．
ＬｉＹ，ＺｈｕＪ，ＴｉａｎＧ，ＬｉＮ，ＬｉＱ，ＹｅＭ，ＺｈｅｎｇＨ，ＹｕＪ，ＷｕＨ，ＳｕｎＪｅｔａｌ．２０１０．ＴｈｅＤＮＡｍｅｔｈｙｌｏｍｅｏｆｈｕｍａｎｐｅｒｉｐｈｅｒａｌｂｌｏｏｄｍｏｎｏｎｕｃｌｅａｒｃｅｌｌｓ．ＰＬｏＳＢｉｏｌ８（１１）：ｅ１０００５３３．
Ｌｉｅｂｅｒｍａｎ−ＡｉｄｅｎＥ，ｖａｎＢｅｒｋｕｍＮＬ，ＷｉｌｌｉａｍｓＬ，ＩｍａｋａｅｖＭ，ＲａｇｏｃｚｙＴ，ＴｅｌｌｉｎｇＡ，ｅｔａｌ．Ｃｏｍｐｒｅｈｅｎｓｉｖｅｍａｐｐｉｎｇｏｆｌｏｎｇ−ｒａｎｇｅｉｎｔｅｒａｃｔｉｏｎｓｒｅｖｅａｌｓｆｏｌｄｉｎｇｐｒｉｎｃｉｐｌｅｓｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅ．Ｓｃｉｅｎｃｅ．２００９；３２６（５９５０）：２８９−９３．ＰＭＣＩＤ：ＰＭＣ２８５８５９４．
ＬｉｍＡ，ＤｉｍａｌａｎｔａＥＴ，ＰｏｔａｍｏｕｓｉｓＫＤ，ＹｅｎＧ，ＡｐｏｄｏｃａＪ，ＴａｏＣ，ｅｔａｌ．ＳｈｏｔｇｕｎｏｐｔｉｃａｌｍａｐｓｏｆｔｈｅｗｈｏｌｅＥｓｃｈｅｒｉｃｈｉａｃｏｌｉＯ１５７：Ｈ７ｇｅｎｏｍｅ．ＧｅｎｏｍｅＲｅｓ．２００１；１１（９）：１５８４−９３．ＰＭＣＩＤ：ＰＭＣ３１１１２３．
ＬｉｎＪ，ＱｉＲ，ＡｓｔｏｎＣ，ＪｉｎｇＪ，ＡｎａｎｔｈａｒａｍａｎＴＳ，ＭｉｓｈｒａＢ，ｅｔａｌ．Ｗｈｏｌｅ−ｇｅｎｏｍｅｓｈｏｔｇｕｎｏｐｔｉｃａｌｍａｐｐｉｎｇｏｆＤｅｉｎｏｃｏｃｃｕｓｒａｄｉｏｄｕｒａｎｓ．Ｓｃｉｅｎｃｅ．１９９９；２８５（５４３３）：１５５８−６２．
ＬｉｓｔｅｒＲ，ＰｅｌｉｚｚｏｌａＭ，ＤｏｗｅｎＲＨ，ＨａｗｋｉｎｓＲＤ，ＨｏｎＧ，Ｔｏｎｔｉ−ＦｉｌｉｐｐｉｎｉＪ，ＮｅｒｙＪＲ，ＬｅｅＬ，ＹｅＺ，ＮｇｏＱＭｅｔａｌ．２００９．ＨｕｍａｎＤＮＡｍｅｔｈｙｌｏｍｅｓａｔｂａｓｅｒｅｓｏｌｕｔｉｏｎｓｈｏｗｗｉｄｅｓｐｒｅａｄｅｐｉｇｅｎｏｍｉｃｄｉｆｆｅｒｅｎｃｅｓ．Ｎａｔｕｒｅ４６２（７２７１）：３１５−３２２．
ＭａｒｇｕｌｉｅｓＭ，ＥｇｈｏｌｍＭ，ＡｌｔｍａｎＷＥ，ＡｔｔｉｙａＳ，ＢａｄｅｒＪＳ，ＢｅｍｂｅｎＬＡ，ｅｔａｌ．Ｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｉｎｍｉｃｒｏｆａｂｒｉｃａｔｅｄｈｉｇｈ−ｄｅｎｓｉｔｙｐｉｃｏｌｉｔｒｅｒｅａｃｔｏｒｓ．Ｎａｔｕｒｅ．２００５；４３７（７０５７）：３７６−８０．ＰＭＣＩＤ：ＰＭＣ１４６４４２７．
ＭａｚｕｔｉｓＬ，ＡｒａｇｈｉＡＦ，ＭｉｌｌｅｒＯＪ，ＢａｒｅｔＪＣ，ＦｒｅｎｚＬ，ＪａｎｏｓｈａｚｉＡ，ｅｔａｌ．Ｄｒｏｐｌｅｔ−ｂａｓｅｄｍｉｃｒｏｆｌｕｉｄｉｃｓｙｓｔｅｍｓｆｏｒｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｓｉｎｇｌｅＤＮＡｍｏｌｅｃｕｌｅｉｓｏｔｈｅｒｍａｌａｍｐｌｉｆｉｃａｔｉｏｎａｎｄａｎａｌｙｓｉｓ．ＡｎａｌＣｈｅｍ．２００９；８１（１２）：４８１３−２１．
ＭｅｉｓｓｎｅｒＡ，ＧｎｉｒｋｅＡ，ＢｅｌｌＧＷ，ＲａｍｓａｈｏｙｅＢ，ＬａｎｄｅｒＥＳ，ＪａｅｎｉｓｃｈＲ．２００５．Ｒｅｄｕｃｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｂｉｓｕｌｆｉｔｅｓｅｑｕｅｎｃｉｎｇｆｏｒｃｏｍｐａｒａｔｉｖｅｈｉｇｈ−ｒｅｓｏｌｕｔｉｏｎＤＮＡｍｅｔｈｙｌａｔｉｏｎａｎａｌｙｓｉｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ３３（１８）：５８６８−５８７７．
ＭｉｔｒａＲＤ，ＳｈｅｎｄｕｒｅＪ，ＯｌｅｊｎｉｋＪ，ＥｄｙｔａＫｒｚｙｍａｎｓｋａＯ，ＣｈｕｒｃｈＧＭ．Ｆｌｕｏｒｅｓｃｅｎｔｉｎｓｉｔｕｓｅｑｕｅｎｃｉｎｇｏｎｐｏｌｙｍｅｒａｓｅｃｏｌｏｎｉｅｓ．ＡｎａｌＢｉｏｃｈｅｍ．２００３；３２０（１）：５５−６５．
ＭｏｒｔａｚａｖｉＡ，ＷｉｌｌｉａｍｓＢＡ，ＭｃＣｕｅＫ，ＳｃｈａｅｆｆｅｒＬ，ＷｏｌｄＢ．ＭａｐｐｉｎｇａｎｄｑｕａｎｔｉｆｙｉｎｇｍａｍｍａｌｉａｎｔｒａｎｓｃｒｉｐｔｏｍｅｓｂｙＲＮＡ−Ｓｅｑ．ＮａｔＭｅｔｈｏｄｓ．２００８；５（７）：６２１−８．
ＭＧＳＣ（２００２）Ｉｎｉｔｉａｌｓｅｑｕｅｎｃｉｎｇａｎｄｃｏｍｐａｒａｔｉｖｅａｎａｌｙｓｉｓｏｆｔｈｅｍｏｕｓｅｇｅｎｏｍｅ．Ｎａｔｕｒｅ４２０（６９１５）：５２０−５６２．
ＮｇＳＢ，ＴｕｒｎｅｒＥＨ，ＲｏｂｅｒｔｓｏｎＰＤ，ＦｌｙｇａｒｅＳＤ，ＢｉｇｈａｍＡＷ，ＬｅｅＣ，ｅｔａｌ．Ｔａｒｇｅｔｅｄｃａｐｔｕｒｅａｎｄｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇｏｆ１２ｈｕｍａｎｅｘｏｍｅｓ．Ｎａｔｕｒｅ．２００９；４６１（７２６１）：２７２−６．ＰＭＣＩＤ：ＰＭＣ２８４４７７１．
ＲａｍａｎａｔｈａｎＡ，ＨｕｆｆＥＪ，ＬａｍｅｒｓＣＣ，ＰｏｔａｍｏｕｓｉｓＫＤ，ＦｏｒｒｅｓｔＤＫ，ＳｃｈｗａｒｔｚＤＣ．ＡｎｉｎｔｅｇｒａｔｉｖｅａｐｐｒｏａｃｈｆｏｒｔｈｅｏｐｔｉｃａｌｓｅｑｕｅｎｃｉｎｇｏｆｓｉｎｇｌｅＤＮＡｍｏｌｅｃｕｌｅｓ．ＡｎａｌＢｉｏｃｈｅｍ．２００４；３３０（２）：２２７−４１．
ＲｉｅｈｎＲ，ｅｔａｌ．（２００５）Ｒｅｓｔｒｉｃｔｉｏｎｍａｐｐｉｎｇｉｎｎａｎｏｆｌｕｉｄｉｃｄｅｖｉｃｅｓ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ１０２（２９）：１００１２−１００１６．ＳｃｈａｔｚＭＣ，ＤｅｌｃｈｅｒＡＬ，ＳａｌｚｂｅｒｇＳＬ．Ａｓｓｅｍｂｌｙｏｆｌａｒｇｅｇｅｎｏｍｅｓｕｓｉｎｇｓｅｃｏｎｄ−ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ．ＧｅｎｏｍｅＲｅｓ．２０１０；２０（９）：１１６５−７３．ＰＭＣＩＤ：ＰＭＣ２９２８４９４．
ＲｉｔｚＡ，ＢａｓｈｉｒＡ，ＲａｐｈａｅｌＢＪ．Ｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎａｎａｌｙｓｉｓｗｉｔｈｓｔｒｏｂｅｒｅａｄｓ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（１０）：１２９１−８．
ＳｃｈｗａｒｔｚＤＣ，ＬｉＸ，ＨｅｒｎａｎｄｅｚＬＩ，ＲａｍｎａｒａｉｎＳＰ，ＨｕｆｆＥＪ，ＷａｎｇＹＫ．ＯｒｄｅｒｅｄｒｅｓｔｒｉｃｔｉｏｎｍａｐｓｏｆＳａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅｃｈｒｏｍｏｓｏｍｅｓｃｏｎｓｔｒｕｃｔｅｄｂｙｏｐｔｉｃａｌｍａｐｐｉｎｇ．Ｓｃｉｅｎｃｅ．１９９３；２６２（５１３０）：１１０−４．
ＳｈｅｎｄｕｒｅＪ，ＪｉＨ．Ｎｅｘｔ−ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇ．ＮａｔＢｉｏｔｅｃｈｎｏｌ．２００８；２６（１０）：１１３５−４５．
ＳｈｅｎｄｕｒｅＪ，ＭｉｔｒａＲＤ，ＶａｒｍａＣ，ＣｈｕｒｃｈＧＭ．Ａｄｖａｎｃｅｄｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ：ｍｅｔｈｏｄｓａｎｄｇｏａｌｓ．ＮａｔＲｅｖＧｅｎｅｔ．２００４；５（５）：３３５−４４．
ＳｈｅｎｄｕｒｅＪ，ＰｏｒｒｅｃａＧＪ，ＲｅｐｐａｓＮＢ，ＬｉｎＸ，ＭｃＣｕｔｃｈｅｏｎＪＰ，ＲｏｓｅｎｂａｕｍＡＭ，ｅｔａｌ．Ａｃｃｕｒａｔｅｍｕｌｔｉｐｌｅｘｐｏｌｏｎｙｓｅｑｕｅｎｃｉｎｇｏｆａｎｅｖｏｌｖｅｄｂａｃｔｅｒｉａｌｇｅｎｏｍｅ．Ｓｃｉｅｎｃｅ．２００５；３０９（５７４１）：１７２８−３２．
ＳｔｅｅｎｓｅｌＢａｎｄＤｅｋｋｅｒＪ．Ｇｅｎｏｍｉｃｓｔｏｏｌｓｆｏｒｕｎｒａｖｅｌｉｎｇｃｈｒｏｍｏｓｏｍｅａｒｃｈｉｔｅｃｔｕｒｅ．ＮａｔｕｒｅＢｉｔｏｅｃｈｎｏｌｏｇｙ１３Ｏｃｔｏｂｅｒ２０１０．
ｖａｎＢｅｒｋｕｍ，Ｎ．Ｌ．，Ｌｉｅｂｅｒｍａｎ−Ａｉｄｅｎ，Ｅ．，Ｗｉｌｌｉａｍｓ，Ｌ．，Ｉｍａｋａｅｖ，Ｍ．，Ｇｎｉｒｋｅ，Ａ．，Ｍｉｒｎｙ，Ｌ．Ａ．，Ｄｅｋｋｅｒ，Ｊ．，Ｌａｎｄｅｒ，Ｅ．Ｓ．，Ｈｉ−Ｃ：ＡＭｅｔｈｏｄｔｏＳｔｕｄｙｔｈｅＴｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌＡｒｃｈｉｔｅｃｔｕｒｅｏｆＧｅｎｏｍｅｓ．ｈｔｔｐ：／／ｗｗｗ．ｊｏｖｅ．ｃｏｍ／ｄｅｔａｉｌｓ．ｓｔｐ？ｉｄ＝１８６９ｄｏｉ：１０．３７９１／１８６９．ＪＶｉｓＥｘｐ．３９（２０１０）．
ＷａｔｅｒｓｔｏｎＲＨ，ＬａｎｄｅｒＥＳ，ＳｕｌｓｔｏｎＪＥ．Ｍｏｒｅｏｎｔｈｅｓｅｑｕｅｎｃｉｎｇｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００３；１００（６）：３０２２−４；ａｕｔｈｏｒｒｅｐｌｙ５−６．ＰＭＣＩＤ：ＰＭＣ１５２２３６．
ＷａｔｅｒｓｔｏｎＲＨ，ＬａｎｄｅｒＥＳ，ＳｕｌｓｔｏｎＪＥ．Ｏｎｔｈｅｓｅｑｕｅｎｃｉｎｇｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００２；９９（６）：３７１２−６．ＰＭＣＩＤ：ＰＭＣ１２２５８９．
ＷａｔｅｒｓｔｏｎＲＨ，Ｌｉｎｄｂｌａｄ−ＴｏｈＫ，ＢｉｒｎｅｙＥ，ＲｏｇｅｒｓＪ，ＡｂｒｉｌＪＦ，ｅｔａｌ．Ｉｎｉｔｉａｌｓｅｑｕｅｎｃｉｎｇａｎｄｃｏｍｐａｒａｔｉｖｅａｎａｌｙｓｉｓｏｆｔｈｅｍｏｕｓｅｇｅｎｏｍｅ．Ｎａｔｕｒｅ．２００２；４２０（６９１５）：５２０−６２．
ＺｅｎｇＹ，ＮｏｖａｋＲ，ＳｈｕｇａＪ，ＳｍｉｔｈＭＴ，ＭａｔｈｉｅｓＲＡ．Ｈｉｇｈ−ｐｅｒｆｏｒｍａｎｃｅｓｉｎｇｌｅｃｅｌｌｇｅｎｅｔｉｃａｎａｌｙｓｉｓｕｓｉｎｇｍｉｃｒｏｆｌｕｉｄｉｃｅｍｕｌｓｉｏｎｇｅｎｅｒａｔｏｒａｒｒａｙｓ．ＡｎａｌＣｈｅｍ．２０１０；８２（８）：３１８３−９０．ＰＭＣＩＤ：ＰＭＣ２８５９６９７．
ＺｈｏｕＳ，ｅｔａｌ．（２００７）Ｖａｌｉｄａｔｉｏｎｏｆｒｉｃｅｇｅｎｏｍｅｓｅｑｕｅｎｃｅｂｙｏｐｔｉｃａｌｍａｐｐｉｎｇ．ＢＭＣＧｅｎｏｍｉｃｓ８（１）：２７８．
ＺｈｏｕＳ，ｅｔａｌ．（２００９）ＡＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｃａｆｆｏｌｄｆｏｒｔｈｅＭａｉｚｅＧｅｎｏｍｅ．ＰＬｏＳＧｅｎｅｔ５（１１）：ｅ１０００７１１．
ＺｉｌｂｅｒｍａｎＤ，ＨｅｎｉｋｏｆｆＳ．２００７．Ｇｅｎｏｍｅ−ｗｉｄｅａｎａｌｙｓｉｓｏｆＤＮＡｍｅｔｈｙｌａｔｉｏｎｐａｔｔｅｒｎｓ．Ｄｅｖｅｌｏｐｍｅｎｔ１３４（２２）：３９５９−３９６５．

Claims

連続性情報を捕捉する方法であって、以下の工程、
標的ＤＮＡ配列をトランスポザーゼで処理して１つ以上の断片化事象又は挿入事象を生じさせる工程、
前記標的ＤＮＡ配列に１つ以上の認識配列を、（ｉ）前記トランスポザーゼ処理の間又は（ｉｉ）後の増幅の間に付加又は挿入する工程、
前記処理されたＤＮＡを配列決定する工程、及び
共通の特性を有する標的ＤＮＡ配列又は認識配列を同定することにより、連続性情報を捕捉する工程、
を含み、前記連続性情報が、前記標的ＤＮＡ配列の２つ以上の断片間の空間的関係であり、前記空間的関係が、
（i）隣接関係であり、前記標的ＤＮＡ配列の前記２つ以上の断片が、前記１つ以上の断片化事象又は挿入事象の前に互いに直接隣接していたか、
（ii）区画的関係であり、前記標的ＤＮＡ配列の前記２つ以上の断片が、前記１つ以上の断片化事象又は挿入事象の前に前記標的ＤＮＡ配列の同じセグメント内であったか、又は
（iii）離れた関係であり、前記標的ＤＮＡ配列の前記２つ以上の断片が、前記１つ以上の断片化事象又は挿入事象の前に非連続かつ非隣接であったが、互いの間の特定の距離又は配列長により関連しており、
連続性情報を捕捉する該方法は、前記標的ＤＮＡ配列の一次配列の内容とは独立していることを特徴とする方法。
前記１つ以上の断片化事象又は挿入事象により、前記標的ＤＮＡに由来する標的核酸分子のライブラリーの形成が生じる、請求項１に記載の方法。
前記１つ以上の認識配列が、各断片化事象又は挿入事象に隣接する配列に対称的にタグ付けされる１つ以上のバーコードである、請求項２に記載の方法。
前記１つ以上のバーコードの前記共通の特性が、同一のバーコード配列又は相補的なバーコード配列である、請求項３に記載の方法。
前記標的ＤＮＡ配列が、一組の標的ＤＮＡフラグメントを含む、請求項１に記載の方法。
前記トランスポザーゼで処理する前又は後に、前記標的ＤＮＡフラグメントをエマルジョン又は希釈剤で区画化し、標的ＤＮＡフラグメントの区画を２つ以上生じさせることを更に含む、請求項５に記載の方法。
前記１つ以上の認識配列が、それぞれ前記区画化段階で生じた前記１つ以上の区画に対応する１つ以上の区画特異的バーコードである、請求項６に記載の方法。
前記１つ以上のプライマー配列の前記共通の特性が、同一の区画特異的バーコードである、請求項７に記載の方法。
区画特異的バーコードを有するプライマーを用いて核酸増幅を実施することを更に含む、請求項７に記載の方法。
前記１つ以上の認識配列が、前記標的ＤＮＡ配列の末端を修飾するか又は前記標的ＤＮＡ配列内に挿入する１つ以上のアダプター配列である、請求項１に記載の方法。
前記１つ以上のアダプター配列が、１つ以上の表面結合プライマーに相補的である、請求項１０に記載の方法。
前記トランスポザーゼが、第二の表面結合プライマーに相補的な核酸と結合している、請求項１１に記載の方法。
前記１つ以上のアダプター配列を前記１つ以上の表面結合プライマーとハイブリダイズさせることを更に含む、請求項１１に記載の方法。
前記共通の特性が、拘束された物理的位置である、請求項１３に記載の方法。
前記トランスポザーゼが、表面結合認識配列と結合して表面結合トランスポザーゼ複合体を形成する、請求項１に記載の方法。
前記共通の特性が、拘束された物理的位置である、請求項１５に記載の方法。
前記標的ＤＮＡ配列の処理が、複数の表面結合トランスポザーゼ複合体を前記標的ＤＮＡ配列に曝すことを含む、請求項１５に記載の方法。