JP6017458B2 - 大量並列連続性マッピング - Google Patents

大量並列連続性マッピング Download PDF

Info

Publication number
JP6017458B2
JP6017458B2 JP2013552641A JP2013552641A JP6017458B2 JP 6017458 B2 JP6017458 B2 JP 6017458B2 JP 2013552641 A JP2013552641 A JP 2013552641A JP 2013552641 A JP2013552641 A JP 2013552641A JP 6017458 B2 JP6017458 B2 JP 6017458B2
Authority
JP
Japan
Prior art keywords
dna
sequencing
sequence
transposase
target dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013552641A
Other languages
English (en)
Other versions
JP2014506788A (ja
Inventor
ジェイ アショク シェンデュア
ジェイ アショク シェンデュア
ジェロッド ジョセフ シュウォーツ
ジェロッド ジョセフ シュウォーツ
アンドリュー コリン エイディ
アンドリュー コリン エイディ
チョ リ リー
チョ リ リー
ジョセフ ブライアン ハイアット
ジョセフ ブライアン ハイアット
ジェイコブ オットー キッツマン
ジェイコブ オットー キッツマン
アカシュ クマル
アカシュ クマル
Original Assignee
ユニヴァーシティ・オブ・ワシントン・スルー・イッツ・センター・フォー・コマーシャリゼーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユニヴァーシティ・オブ・ワシントン・スルー・イッツ・センター・フォー・コマーシャリゼーション filed Critical ユニヴァーシティ・オブ・ワシントン・スルー・イッツ・センター・フォー・コマーシャリゼーション
Publication of JP2014506788A publication Critical patent/JP2014506788A/ja
Application granted granted Critical
Publication of JP6017458B2 publication Critical patent/JP6017458B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P20/00Technologies relating to chemical industry
    • Y02P20/50Improvements relating to the production of bulk chemicals
    • Y02P20/582Recycling of unreacted starting or intermediate materials

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Description

(優先権の主張)
本願は、2011年2月2に出願された米国特許仮出願第61/438,935号及び2011年4月7日に出願された米国特許仮出願第61/473,083号に対する優先権を主張するものであり、両出願の発明の内容は、全体が本明細書に記載された場合と同様に参照により本明細書に組み込まれる。
(政府支援に関する記述)
本発明は、米国国立衛生研究所により授与された助成金番号3U54AI057141−06S1880509及び1R01HG006283−01の下、政府の支援を受けて為されたものである。政府は本発明に対して一定の権利を有する。
この数年の間に、大量並列配列決定プラットフォームによりDNA配列決定の1塩基当たりのコストが数桁削減されている(Shendure及びJi,2008)。市販の「次世代」技術は、そのほとんどすべてが配列決定対象の高密度アレイの生化学反応と画像化のサイクルを繰り返して比較的短いリードを得る方法、すなわち「サイクリックアレイ(cyclic−array)」法によるものである(Shendureら,2005;Marguliesら,2005;Drmanacら,2009;Braslavskyら,2003;Bentleyら,2008)。このようなプラットフォームが広く普及したのは、電気泳動を用いる配列決定に代わる実行可能な代替手段を開発する数十年もの努力の結果である(Shendureら,2004)。
このような成功と照らし合わせれば、数多くの開発中の技術には、現在すでに実行可能な技術の技術的性能を向上させる可能性がある。サイクリックアレイ(cyclic−array)法を更に発展させることにより、あるいはナノポアシーケンシング(Brantonら,2008)、DNA合成のリアルタイム監視(Eidら,2009)及び電子顕微鏡による配列決定などの他の有望な戦略を成熟させることにより、このような向上が達成されるであろう。また、再配列決定、de novoアセンブリ、エクソーム配列決定法(Ngら,2009)、RNA−Seq(Mortazaviら,2008)、ChIP−Seq(Johnsonら,2007)及び全ゲノムでのクロマチン相互作用のマッピング(Lieberman−Aidenら,2009;Duanら,2010)を含めたいくつかの種類の配列決定法の応用が、大量並列配列決定プラットフォームから生み出されている。
DNA配列決定技術のプラットフォームは急速に進歩しているが、DNA配列決定のコストは、目的によっては依然として非常に高額である。したがって、既存の技術及び開発中の技術の適用性を向上させるとともにコストも削減するDNA配列決定技術関連の方法を作出することが望まれている。
ショートリード配列決定法では、ゲノムのセグメント重複及び構造の複雑な領域の再配列決定、ハプロタイプ情報の分解ならびに哺乳動物サイズのゲノムde novoアセンブリに制限がある。更に、配列決定の1塩基当たりのコストを更に削減しても、上に挙げた制限に対処するのにほとんど効果がない。DNA配列決定の新たな方法が成熟し現在の技術を上回っても、技術は、そこから得られる連続性情報という点で制限を受け続けるものと思われる。したがって、さまざまなスケールで連続性情報を得る低コストな方法が本明細書に提供される。
いくつかの実施形態では、連続性情報を捕捉する方法が本明細書に提供される。この方法は、標的DNA配列をトランスポザーゼで処理して、1つ以上の断片化又は挿入事象を生じさせることと、続く増幅の間(ii)のトランスポザーゼ処理の間(i)に、標的DNA配列に1つ以上の認識配列を付加又は挿入することと、処理されたDNAを配列決定することと、共通の特性をもつ標的DNA配列又は認識配列を同定することにより連続性情報を捕捉することとを含み得る。
一実施形態では、1つ以上の断片化又は挿入事象により、標的DNAに由来する標的核酸分子のライブラリーが作製される。このような方法では、1つ以上の認識配列は、各断片化又は挿入事象に隣接する配列に対称的にタグ付けされた1つ以上のバーコードであり、1つ以上のバーコードの共通の特性は、同一の又は相補的なバーコード配列である。
別の実施形態では、標的DNA配列は標的DNAフラグメントのセットを含む。このような実施形態は、トランスポザーゼによる処理の前又は後にエマルジョン(emulsion)又は希釈剤(dilution)で標的DNAフラグメントを区画化して(compartmentalize)、標的DNAフラグメントの区画を2つ以上生じさせることを更に含み得る。この実施形態では、1つ以上の認識配列は1つ以上の区画特異的バーコードであり、各区画特異的バーコードは区画化段階で生じた1つ以上の区画に対応するものであり、1つ以上のプライマー配列の共通の特性は、同一の区画特異的バーコードである。
別の実施形態では、1つ以上の認識配列は、標的DNA配列又は標的DNA配列内のインサートの末端を修飾する1つ以上のアダプター配列である。このような実施形態では、1つ以上のアダプター配列は1つ以上の表面結合プライマーに相補的であり得る。いくつかの態様では、トランスポザーゼは第二の表面結合プライマーに相補的な核酸と結合している。更にこのような方法は、1つ以上のアダプター配列を1つ以上の表面結合プライマーとハイブリダイズさせることを含み得る。いくつかの実施形態では、共通の特性はフローセル上のx、y座標により表すことができる拘束された物理的位置であり、またトランスポザーゼは表面結合認識配列と結合して、表面結合トランスポザーゼ複合体を形成する。いくつかの実施形態では、標的DNA配列の処理は、複数の表面結合トランスポザーゼ複合体を標的DNA配列に曝すことを含む。
いくつかの実施形態では、ビサルファイト(bisulfite)配列決定法が提供される。このような方法は、それぞれが二本鎖DNAトランスポザーゼ認識配列と、メチル化シトシン(C)残基を有する一本鎖DNAアダプターオーバーハングとを含むトランスポザーゼ複合体を用いて、標的DNA分子内へのin vitro転移(transpose)を実施することと、転移を行った標的DNA分子にビサルファイト処理を施すことと、核酸増幅を実施することと、得られた核酸ライブラリーを配列決定することとを含み得る。
他の実施形態では、染色体立体配座を推定する方法が提供される。このような方法は、細胞内のDNAに架橋を施すことと、架橋DNAを細胞から単離することと、架橋DNAを断片化することと、断片化された架橋DNA分子を、第一の表面結合プライマーに相補的であるか、又は第一の表面結合プライマーに対応するアダプターで末端修飾することと、e)断片化し末端修飾した標的DNA分子の末端を第一の表面結合プライマーとハイブリダイズさせることと、f)それぞれがDNAトランスポザーゼと第二の表面結合プライマーに対応する1つ以上の配列とを含む非表面結合トランスポザーゼ複合体を用いて転移を実施することと、g)クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製することと、h)クローン化により生じた核酸を配列決定することと、i)隣接するクラスター同士を対にすることにより、染色体上の位置間の物理的相互作用を決定することとを含み得る。
不連続なオリゴヌクレオチドの高密度でランダムなin vitro転移がゲノムDNAのアダプター隣接ショットガンフラグメントへの高効率な変換を可能にすることを示す図である。薄灰色の部分(1)=トランスポザーゼ;濃灰色のバー(2)=モザイク末端(ME);黄色及び赤色(3a、3b)=非対称な5’オーバーハング;青色(4)=ゲノムDNA。 標準的な方法(「超音波処理」)及びトランスポソーム法(「トランスポザーゼ」)により作製した男性ヒト由来のライブラリーの全ゲノム配列決定に関するカバレッジ倍数のヒストグラム(x軸=カバレッジ倍数;y軸=ゲノムの%)であり、常染色体(「Aut.」)及び性染色体(「Sex」)を別個にプロットしたものである。 合成の不連続なトランスポゾンによる高密度なin vitro断片化で得られたフラグメントサイズのヒストグラム(x軸=塩基対;y軸=カウント数)である。挿入図は、約35bpにおける急激な減少の立体障害モデルと一致するトランスポソーム占有のモデルを示している。 縮重一本鎖「バブル」(A/B)を有するトランスポソームをゲノムDNA(濃灰色、(1))にin vitroで高密度に挿入した後、全ゲノム増幅(WGA)を行って、縮重ストレッチの各鎖を(A/A又はB/Bに)分解することを示す図である。ニッキング(中央部の灰色の部位、(2))及び鎖置換重合により断片化が完了すると同時に、同じバーコード(A/A(図中)又はB/B)で対称的にタグ付けされた接合部が残る。 トランスポザーゼに基づくショットガンライブラリーの限定的な配列決定に由来する独立したリードが9bp間隔でのマッピングに富むことを示す図である。この現象は、低投入量(50ng、矢印なし)より超低投入量(10pg、矢印)の方ではるかに顕著にみられ、このことは、少数の別個の断片化事象をサンプリングすることが多いことを反映している。 実際のデータで観察された例に基づく概略図であり、隣接する位置にマッピングされ9bpの重複を有するリードペアは、隣接する断片化事象に由来する可能性がある。「超低投入量」サンプル由来のライブラリーに基づく複雑度が制限されたデータでは、合計で約1Kb〜約2Kbにおよぶ、4〜6の局所的に由来するリードペアの鎖が同定され得る。 個々の「連結」を同定する効率(x軸、百分率;99%の地点からスケールが変わることに注意)の関数として表した、同じゲノムDNA分子に沿った一連の断片化事象から生じたものとして同定されるリードペアの鎖の合計長の予想されるN10、N50、N90の長さ(y軸)を示すグラフである。 縮重領域(A)に隣接する共通領域((1)、(2))からなる鋳型のエマルジョンPCRにより、クローン的にバーコード付けされたビーズが得られることを示す概略図である。ビーズ繋留鎖(2)の共通3’末端自体が、続くエマルジョンPCR反応においてプライマーとして働き得る。 相補的配列(茶色)のハイブリダイゼーションにより連結されるアダプター((1)、(2))を有するトランスポソームによるin vitro断片化を施したHMWゲノムDNA分子(青色)を示す概略図である。次いで、これらの連結したアダプターが密に散在するDNAをマイクロ流体により乳化し、滴特異的バーコード(A)を有するプライマーを用いるエマルジョンPCRに供する。HMWゲノムDNAフラグメント由来の配列リードを最終ライブラリー内の同じバーコードに関連付けることができる。 HMWDNA(1)の等温性クローン化多重置換増幅を補助するのに使用し得るエマルジョンを示す概略図である。これを、トランスポソーム断片化及び液滴特異的バーコードを含むプライマー用いるエマルジョンPCRの両方のための試薬を含有する液滴と融合する(配色は図8及び9と同じである)。 実験的に相化したアセンブリのさまざまなLD値を、同じ個人のHapMapによる集団ベースのHapMap予測と比較したものを示すグラフである。HapMap推定とは異なり、実験的に相化したハプロタイプはLDに依存しない方法により得られるため、不一致が推定に基づくハプロタイプにおけるエラーを優勢に反映する。 光学的配列決定に関連する方法を容易にするためのin situ転移の使用を図示したものである。(A)単一の鋳型をフローセル上で伸展させ、断片化して、そのゲノム上の距離に比例する物理的距離で空間的に分離されたクラスターを作製する。(B)ランダムコイル状のDNAをその末端で断片化して、コイルの真下の領域に空間的に閉じ込められたクラスターを作製する。2つの異なる配列決定プライマーを使用することにより、どちらかの末端に由来するリードをデコンボリューションすることができる。 配列決定4サイクルにわたる「クラスターペア」の生の画像に関する空間的に分離された「クラスターペア」の代表的な画像(A)及び2つの鋳型の4サイクルにわたる生のベースコーリング強度の総和(B)を示す図である。 修飾Illuminaフローセルに繋留し、15V/cmの電場で伸展させた48.5Kbのラムダゲノム(A)及び(A)のように伸展させ、トランスポソームにより55℃で5分間処理し、再び画像化したDNA(B)の代表的な画像を示したものである。画像化はIllumina GA2xで実施した。スケールバー=20μm。 断片化を行わずにライブラリーにフローセル適応性アダプターを挿入する前処理により、伸展した分子の軸に沿って複数のリードペアを作製することが可能であることを示す概略図である。 一本鎖バブルを含む合成トランスポゾンのゲノムDNAへの高密度の挿入を示す図である。レーン1=ラダー(kb);レーン2=未断片化ゲノムDNA;レーン3=挿入後、PCR後の材料。 対称的にタグ付けされ5’−5’連結したトランスポゾン試薬の構築を示す図である。 対称的にタグ付けされた5’−5’アダプターの予想サイズ(194bp)と一致する種(a)を示す図であり、転移後、PCR後のフラグメントアンプリコンのサイズ分布は、約100〜200bpのゲノムDNA及び約200bpのアダプター/バーコードの合計(b)と一致する。 途中に操作を加えない単一反応体積での転移及びポリメラーゼ伸長を示す図である。トランスポザーゼが断片化を進める。ポリメラーゼがニックトランスレーションによるギャップ閉合及び限られたサイクルのプライマー伸長を進めて、アダプターを有するバーコード(A)を付加する。 途中に操作を加えない単一反応体積での転移及びポリメラーゼ伸長によって、カラムクリーンアップ後にPCRにより回収可能な生成物が得られることを示す図である。PCRで使用するプライマーは、伸長段階の間に付加された配列に対応する。レーン1=100bpラダー;レーン2=ゲノムDNA(gDNA)を含まない対照;レーン3=50gDNA投入。 フローセル配列に対応する適切なアダプター及び3’ssDNAテールを用いてショットガンHMWゲノムDNAフラグメントを作製する2通りの方法を示す図である。 in situ転移法に由来するリードによる大腸菌(E.coli)ゲノムのカバレッジを示す図である。X軸=ゲノムの座標。Y軸=リード数(10Kb区間)。 いくつかの実施形態によるライブラリー調製のためのYアダプター法を示す図である。 多重置換分岐化ローリングサークル増幅法及びポロニー(すなわち、ポリメラーゼコロニー)形成が生じることを示す図である。 いくつかの実施形態によるフローセルプライマーを含むトランスポゾンバブルの直接的な配列決定法を示す図である。 いくつかの実施形態による、生じた「バブル」構造を維持するために2つの同じアダプターを逆方向に使用し、次いで乳化及び増幅を行う、トランスポゾン挿入法を示す図である。 いくつかの実施形態による、反復領域内に固有のバーコード又は挿入部位を使用することにより配列決定する、トランスポゾンで改変したフォスミドライブラリープールによる方法を示す図である。 フローセルでクラスターを作製する方法を示す図である:4本の腕を任意に組み合わせてフローセルとハイブリダイズさせ、ライブラリーを作製することが可能である。この場合、2本の腕だけでそれが行われる。 「インフィニペア(infinipair)」を用いて転写因子結合部位間の相互作用を同定する方法を示す図である。細胞をホルムアルデヒドで架橋してChIPに供し、DNA:タンパク質複合体をプルダウンし得る。修飾された配列決定アダプターを複合体に連結して、インフィニペア(infinipair)クラスターの作製に使用し得る。インフィニペア(infinipair)技術を用いてリードをクラスター化して、クラスターをマッチさせるのに使用し得る。新たなシス及びトランス相互作用の同定は、すでに記載されている方法(16)を用いて行い得る。 インフィニペア(infinipair)を用いて少数の細胞で染色体立体配座をモデル化する方法を示す図である。 in situライブラリー構築のためのサンプル調製を示す図である。a)サイズ選択したHMWゲノムDNAを末端修復した後、ループ領域付近にウラシルヌクレオチドを含むヘアピンアダプターと連結する。青色及び赤色は異なるプライミング配列を表し、各鋳型分子が2つの異なるプライマー配列と連結する可能性は50%である。連結産物をエキソヌクレアーゼIII及びVIIで処理することにより、3’又は5’末端が露出した未連結DNA分子が除去される。ウラシルに特異的な切出し試薬(USER(商標))による処理でウラシル塩基が切り出されてヘアピンが開環し、一本鎖3’テールを有するフローセルの準備ができたライブラリーが生成される。b)ライブラリーを標準的なIlluminaフローセルに負荷し、両端をハイブリダイズさせる。高活性トランスポザーゼを用いて、ランダムに断片化し、共通のフローセルアダプターをHMWがハイブリダイズしたライブラリー中に挿入して、LMWのクラスターの準備ができた鋳型を作製する。クラスター作製後、2つの異なる配列決定プライマー(赤色及び青色で示されている)を用いて、どちらがの末端に由来するリードをデコンボリューションすることができる。 互いに1.5μm以内にあった最近接ペアを示す図であり、a)リード1対リード1、b)リード2対リード2、c)リード1対リード2及びd)リード2対リード1を比較することにより、4,000bpのマッピング距離を特定したものである。3種類の色は3つの異なるサイズのライブラリーを表している:青=1kb、緑=2kb、赤=3kb。クラスターペアの累積数は、各ペアの数値で分類したマッピング距離に対してプロットされている。 異なる最近接検索での1、2及び3kbのライブラリーの最近接クラスターペアのデータを示す図である。白いバーは、物理的間隔が1.5μm未満でマッピング間隔が4000bp未満のクラスターペアの総数である。灰色のバーは、そのライブラリーサイズの標的サイズ範囲内(それぞれ800〜1200bp、1500〜2300bp及び2500〜3500bp)にあるペア数である。着色されたバーは、標的サイズ範囲内にあり、反対側の鎖に反対方向のリードを有するペアである。 一実施形態によるリード1及び2のクラスター間隔を示す一連のデータである。a)最近接が1.5μm以内でマッピング距離が4,000bpのあらゆるクラスターが、3つのライブラリーのリード1内で同定された(青=1kb、緑=2kb、赤=3kb)。マッピング距離は、クラスターの分離距離に対してプロットされており、ヒストグラムが各軸に沿って示されている。そのままのIllumina画像処理ソフトウェアでは、約0.9μm未満の距離にある2つのクラスターの境界が定められないことに留意されたい。b)リード1におけるあらゆるクラスターの最近接がリード2において同定され、上のようにプロットした。 一実施形態による伸展したDNAの画像の例を示す図である。(a)48.5kbのラムダゲノムをJOJO−1で染色し、修飾Illuminaフローセルに繋留し、15V/cmの電場により伸展させた。Illumina GA2xで画像化を実施した。(b)次いで、伸展したDNAを55℃で5分間、トランスポソームで処理した。スケールバー=20μm。 一実施形態によるtn5mC−seq法及び得られたメチル化プロファイルを示す図である。(a)タグメンテーションに基づくDNA−seqライブラリー構築。1段階で断片化及びアダプター組込みが可能な、合成の不連続なオリゴ(黄色、紫色)を負荷したトランスポザーゼホモ二量体によりゲノムDNAを攻撃する。次いで、PCRにより外側フローセル適合性プライマー(桃色、緑色)が付加される。(b)tn5mC−seqライブラリー構築。負荷済みのトランスポザーゼが単一のメチル化アダプター(黄色)を有するゲノムDNAを攻撃する。オリゴ置換法により第二のメチル化アダプター(紫色)とアニールさせ、次いで、これにギャップ修復を施す。次いで、ビサルファイト処理により非メチル化シトシンをウラシル(オレンジ色)に変換した後、PCRにより外側フローセル適合性プライマー(桃色、緑色)を付加する。メチル化は黒のロリポップで表されている。(c)全ゲノムでのシトシン位置のカバレッジ。3つすべての関連におけるCsの96%超が、少なくとも1回でカバーされている。CpGカバレッジがわずかに減少しているのは、高密度のメチル化を有する領域におけるリードアライメント能の低下によるものである。(d)染色体12全体にわたる10kbのウィンドウで総シトシン位置に対して正規化したメチル化シトシン(最大を1.0に設定)であり、黒四角はセントロメアを表している。(e)注釈付きの遺伝子座において総CpG残基に対して正規化したメチル化CpG。プロモーターはTSSの上流2kbの領域と定義される。(f)遺伝子間領域と比較した遺伝子本体(イントロン、エキソン)におけるCpGメチル化レベルの上昇。 3kbのライブラリーにおけるすべての未マッピングリード1(a)ならびに1つの大腸菌(E.coli)及び未マップリードからなるすべての最近接(NN)ペアの生の品質スコアの平均の分布を示す図であり、未マップリードの生の品質スコアの平均がヒストグラムで示されている。 3kbのライブラリーにおけるリード1(A)及びリード2(B)の全塩基にわたる生の品質スコアの平均を示す図である。リードは、大腸菌(E.coli)に対してマッピングされた最近接ペアでみられ、1.5μm未満の間隔で、2500〜3500bpの間でマッピングされたものである。 表面に繋留したDNAの末端間ベクトルγ(右矢印)のx、y及びz成分に対するGsurfのプロットを示す図である(a、b)。(c)は、クラスター形成時に起こり得ることを図解で示したものである。2つのシード鋳型が近接した位置にある場合、クラスターの増幅が進行するにつれて利用可能な表面プライマーの局所的な欠乏が生じる。このことがクラスター同士を互いに離れて形成させる。ベースコーリング時、クラスターの中心は、元のシードとなる鋳型と一致しないx−y位置でコールされる。 本明細書に記載されているin situ伸長工程の模式図である。HMW分子の一端を電場印加の前に表面とハイブリダイズさせた。電場を印加している間、遊離末端を有する分子が電流の方向に伸長される。次いで、遊離末端がハイブリダイズ可能になり、従来通りに配列決定が進行する。(b)は、参照としての正極(r)から最も離れたクラスターを選択することにより決定されるクラスター間の角度を示している。次いで、他のクラスター(oc)に対する角度を計算した。 外部電場を印加しない3kbの大腸菌(E.coli)ライブラリーのマッピング距離対物理的間隔を示す1組の散布図である(a)。囲みの中に示される点については、ペア間の相対角度(ラジアン)のヒストグラムが右側に示されている。(b)は、28V/cmの電場の存在下でハイブリダイゼーションを実施した、(a)と同様のプロットを示している。少なくとも4.5ピクセルで分離されたクラスターペアは、フローセルの軸に沿って電場と平行にアラインされているように思われる(右下)。
(詳細な説明)
連続性情報を捕捉する方法が本明細書に提供される。連続性情報及びその情報を受け取る実施形態を、任意の適切な従来型又は第二世代のDNA配列決定技術とともに用いて、その技術とそれに関連する用途及び応用の効率及び精度を向上させ、かつその費用対効果を高めることができる。本明細書に記載の方法に従って使用することができる適切なDNA配列決定技術としては、特に限定されないが、「サイクリックアレイ(cyclic−array)」法(例えば、454パイロシーケンシング、Illumina Genome Analyzer、AB SOLiD及びHeliScope)、ナノポアシーケンシング法、DNA合成のリアルタイム監視、電子顕微鏡による配列決定、ジデオキシ停止/電気泳動法、微小電気泳動法、ハイブリダイゼーションによる配列決定ならびに質量分光測定法が挙げられる。
上に挙げた配列決定法の多くには、長鎖DNAの配列(すなわち「標的DNA配列」)を決定するための共通する手順上の概念がいくつか含まれている。まず、標的DNA配列を多数の短い配列フラグメント(すなわち「DNAフラグメント」)に分割する。これは標的DNAをトランスポザーゼで処理することにより行うことができる。いくつかの例では、多数のDNAフラグメントをDNAフラグメントライブラリー(すなわち「ショットガンライブラリー」)と見なすことができる。次に、DNAフラグメントを増幅又はクローン化して、クローンのコピー又はクラスターを作製することができる。次いで、クローンのコピー又はクラスターを上記のような配列決定プラットフォームにより配列決定する。配列決定後、配列決定されたDNAフラグメントを再アセンブルして元の配列を再構成するか、又は参照ゲノムにマップして、配列変異を同定することができる。
連続性情報の捕捉
上述のように、標的DNA配列をトランスポザーゼで処理すると、標的DNAは、トランスポザーゼ処理前(すなわち、断片化前)には1つ以上の空間的関係により関連していた2つ以上のDNAフラグメントに分割され得る。一実施形態では、空間的関係は隣接関係であり、この関係では、DNAフラグメントが互いに直接隣接していた(すなわち、1つのDNAフラグメントの末端が第二のDNAフラグメントの末端と連結していた)。別の実施形態では、空間的関係は区画的関係であり得、この関係では、標的DNAが、区画として分けられた2つ以上の配列セグメントを含む。このような実施形態では、トランスポザーゼによる断片化前のDNAフラグメントは、標的DNAの同じセグメント内に存在していたが、必ずしも互いに隣接していなかったものであり得る。別の実施形態では、空間的関係は離れた関係であり、この関係では、DNAフラグメント同士は断片化前に連続しても隣接してもいなかったが、特定の距離又は配列長を間にして互いに関連し合っている。上に挙げた空間的関係は、本明細書に記載の方法を用いて連続性情報を捕捉することにより決定され得る。
連続性情報は、共通の情報に基づく2つ以上のDNAフラグメント間の空間的関係を指す。情報の共通の側面は、隣接する空間的関係、区画的な空間的関係及び離れた空間的関係に関するものであり得る。そして、上記関係に関する情報は、DNAフラグメントから得られた配列リードの階層的なアセンブリ又はマッピングを容易にする。個々の配列リードの相対的なゲノム上の起源又は座標は、それが得られた2つ以上のDNAフラグメントの間の空間的関係に関連するものであるが、従来のショットガン配列決定法とともに用いられる従来のアセンブリ又はマッピングの方法ではそれを考慮に入れないため、この連続性情報は、上記のようなアセンブリ又はマッピングの効率及び精度を向上させるものである。したがって、本明細書に記載の実施形態では、連続性情報を捕捉する方法は、隣接する空間的関係を決定する短距離連続性の方法、区画的な空間的関係を決定する中距離連続性の方法又は離れた空間的関係を決定する長距離連続性の方法により行うことができる。これらの方法は、DNA配列のアセンブリ又はマッピングの精度及び品質を高め、かつ上記のような任意の配列決定法とともに使用し得るものである。
本明細書に記載の実施形態では、連続性情報を捕捉する方法は、標的DNA配列をトランスポザーゼで処理して、1つ以上の断片化又は挿入事象を生じさせることを含み得る。いくつかの実施形態では、この段階により、標的DNA配列に由来するショットガン核酸分子のライブラリーが作製される。別の実施形態では、断片化又は挿入事象を後に記載するYアダプター法により行ってもよい。1つ以上のトランスポザーゼ分子は、可溶性の遊離トランスポザーゼであっても、表面結合認識配列と結合したものであってもよい。
標的DNAは、トランスポザーゼによる処理後に、2つ以上のDNAフラグメント又は多数のDNAフラグメントを含むもの(「断片化標的DNA」とも呼ぶ)であっても、挿入配列を含むもの(「挿入標的DNA」)であってもよい。
いくつかの実施形態では、連続性情報を捕捉する方法は、DNA又はショットガンライブラリーを増幅して、リードのクローンのコピー又はクラスターを作製する段階を含み得る。増幅段階は、特に限定されないが、ポロニー法、エマルジョンPCR法、ブリッジPCR法などの任意の適切な増幅法を含み得る。
いくつかの実施形態では、トランスポザーゼによる処理後又はそれに続く増幅後、断片化標的DNA又は挿入標的DNA内に1つ以上の認識配列が付加又は挿入されていてもよい。1つ以上の認識配列としては、特に限定されないが、隣接する空間的関係、区画的空間的関係又は離れた空間的関係に固有なものとしてDNAフラグメントにタグ付けをする、断片化部位又は挿入部位のバーコード配列、プライマー配列又はアダプターDNA配列が挙げられる。
ショットガン核酸分子をタグ付けした後、上記の配列決定法プラットフォームを用いてその配列決定を行うことができ、共通の特性をもつ認識配列を同定することにより連続性情報が捕捉される。いくつかの実施形態では、共通の特性は同一の又は相補的なバーコード配列である。例えば、隣接する起源のリード配列を共通のバーコード配列により同定することができ、あるいは同じ標的DNAセグメントに由来する共通の区画特異的バーコードに基づき、リードを区画により定めることができる。他の実施形態では、共通の特性は、フローセル上の1つ以上のx、y座標により表し得る共通の又は拘束された物理的位置である。「拘束された」物理的位置は、接近した物理的位置、同じ物理的位置もしくはほぼ同じ物理的位置を指すか、又は相対的な物理座標と、DNAフラグメントが由来する標的DNA配列上の相対的な配列座標とが相関する、2つ以上の物理的位置のセットを指す場合がある。例えば、長距離連続性に関する方法では、アダプター配列を用いて配列決定フローセル表面の伸展したHMWゲノムDNA内へのin situ転移を実施して、アダプター配列、ハイブリダイズしたDNAフラグメント又はその組合せの拘束された物理的位置(すなわち、物理的に連結された配列決定鋳型が固定化されている相対的な座標)を同定することにより、離れた空間的関係を得る。短距離、中距離及び長距離の連続性の捕捉に関する他の実施形態及び詳細を以下に更に記載する。
短距離連続性
短距離連続性に関する情報を捕捉するために、独立し元は隣接していたリードのペア間でのin silico「結合」を後で指定することができるようにvitro転移の改変スキームを提供し、このスキームでは、任意の断片化事象の各隣接部分に由来するショットガンライブラリー分子を対称的にかつ固有にタグ付けする方法において合成トランスポゾン内の縮重バーコードを使用する。ショットガンライブラリー及び対応するバーコードの配列決定後、隣接する断片化事象を共通のバーコード配列により同定することができる。この戦略により、一次配列の内容とはほぼ完全に独立して局所的な連続性の決定が可能であるという点が重要である。
中距離連続性
長い高精度のSangerリードを用いても、特にセグメントが重複し構造が複雑な領域においては、高品質なヒトゲノムの参照アセンブリを得るためには、BACクローンを配列決定する階層的な方法が重要であった(Landerら,2001;Waterstonら,2003;Waterstonら,2002)。したがって、いくつかの実施形態では、ゲノムの同じフォスミド/BACスケール領域に由来するショート(すなわち「ショットガン」)リード(例えば、20〜200Kb)のグループ分けにより、中距離の適合性に関する情報を捕捉することが可能な方法が提供される。この方法については実施例2で詳細に述べる。
下及びKitzmanら(Kitzmanら,2011)に記載されているように、このクラスの情報は、個人のヒトゲノム配列の広範囲なハプロタイプ分解には十分である。この中距離連続性情報はほかにも、de novoゲノムアセンブリを容易にする。例えば、Gnerreら(Gnerreら,2010)は近年、ショートリード配列データのみを用いた、かなり高品質なヒト及びマウスゲノムのde novoアセンブリについて記載している。この結果は、Kitzmanら(Kitzmanら,2011)により得られたハプロタイプの連続性の場合と同様に、ゲノムを約40Kbのセグメントに分割するためにフォスミドライブラリー構築を用いる必要があった。上に挙げた方法では、エマルジョンを用いて高分子量(HMW)のゲノムDNAフラグメントを区画化した後、液滴特異的バーコードを有するプライマーを用いてエマルジョンPCRを行う。回収時に、ショットガンリードのグループを定めるバーコードでアンプリコンをタグ付けし、各グループは同じ20〜200Kbの領域に由来するものである。フォスミドクローンの混在するプールに由来するショットガンライブラリーに依存する準備作業において、このクラスの情報が次世代配列決定法による個人のヒトゲノムの広範囲なハプロタイプ分解に十分であることをのちに示す。
近年報告されている「サブアセンブリ」戦略(Hiattら,2010)と同様に、長いフラグメントライブラリーを入れ子状になったサブライブラリーの集団に変換し、同じ長いフラグメントに由来するショートリードのin silicoでのグループ化をタグ配列により指令して、長いフラグメント配列の局所的なアセンブリ、すなわち「サブアセンブルされた」リードが可能になる。サブアセンブリはショートリード配列決定法プラットフォームの有用性を、通常はロングリードを必要とするか、又はロングリードが有用な応用、例えば、メタゲノミクス及びde novoゲノムアセンブリまで拡張する。しかし、本明細書に記載の実施形態による方法は、すでに述べたように、1Kb前後の領域ではなく20〜200Kb超の領域のサブアセンブリが可能なものである。
長距離連続性
大量並列のショートリード配列決定技術を含めたハイスループットな方法には本質的に、ヒトゲノムのセグメント重複及び構造が複雑な領域の再配列決定、二倍体及び倍数体ゲノムのハプロタイプ情報の分解ならびに複雑なゲノムのde novoアセンブリを含めたいくつかの重要な目的に関して制限がある。配列決定の1塩基当たりのコストを更に削減しても、このような目的をほとんど前進させることはない。必要とされるのはむしろ、さまざまなスケールで連続性情報を得る等しく並列的な方法である。例えば、最初のヒト及びマウスゲノムのde novoアセンブリが、ショートリードのみに基づく低品質なアセンブリより配列のカバレッジが一桁少ないにもかかわらず、高品質を達成したということ(Landerら,2001;MSGC 2002)は主として、(a)長い最初のリード長、(b)プラスミド、フォスミド及びBAC由来のメイトペアリード、(c)階層的なクローンバイクローン配列決定法ならびに(d)遺伝子地図を含めた、連続性情報の広範囲にわたる補完的な入手源を採り入れた結果である。
DNAの配列を決定する新規な方法が成熟し続け、現在の技術より優れたものとなるかもしれないが、最もコスト効率の良い(1塩基当たりのコストに基づくもの)技術でもリード長が制限され続ける可能性がある。したがって、以下に記載する他の技術により得られる連続性情報で低コストのショートリード配列を補うことにより、連続性情報を得ることができる。この方法で連続性情報を得る方法の例としては、以下のものが挙げられる:1)長距離「メイトペア」プロトコルでは、制御された距離によって分離されたリードペアを得ることが可能である。しかし、現在のいずれのin vitroプロトコルも環状化の段階を用いるため、この方法は、数キロベースを分離することにおいてのみ有効である;2)クローン希釈プール(又はそのin vitro同等物)のバーコード付け及び配列決定では、全ゲノム規模のハプロタイプ情報を得ることができる。しかし、この方法の分解能は、効率的に処理することができるフラグメントのタイプ(例えば、フォスミド)及びプールの数に制限される;3)制限酵素を用いる光学マッピングでゲノムアセンブリのための長距離連続性マップを作製することに成功している(Schwartzら,1993;Zhouら,2007;Zhouら,2009)。しかし、この方法は、スター活性及び非効率的な切断に起因する偽陽性及び陰性の切断部位によって制限を受けるものであり、コンセンサスマップを作製するのに同じ領域から複数の光学マップを必要とする。更に、制限酵素認識部位の不均一な分布により、反復領域又は複雑度の低い領域に由来する有用な情報の量が制限される可能性がある;4)伸展した単一DNA分子(断片化されていない)の光学的配列決定により、同じ分子に沿った複数の位置から最大3bpの連続配列情報が得られている(Ramanathanら,2004)。単一分子から直接リードが作製されるため、試料の量及びPCRバイアスの問題が大幅に回避される。
下の実施例3に記載するように、次世代配列決定機器のフローセル内でのin situライブラリー構築及び光学的配列決定は、さまざまなスケールで連続性情報及び一次配列を同時に捕捉する単一技術への向上した効率的な道を示すものである。その基礎となる前提は、DNAの物理的特性(高分子量(HMW)DNAのランダムコイル化又は伸展による)、in situライブラリー構築(フローセル内のHMW DNAへのアダプターのin vitro転移による)及び実用化された次世代配列決定機器の十分に開発された側面(ポロニー増幅、合成による配列決定(sequencing−by−synthesis)、画像化及びデータ処理)を利用すること、物理的分離が既知であるか、又は由来するフローセル上の相対的座標から推定可能な、空間的に関係し合った複数のリードを作製することである。ある方法では、DNAが溶液中でとるランダムコイル構造を利用して両端を空間的に限定し、限定された表面領域内で2つのリードを作製する。これに関連する方法では、そのままのフローセル内で伸展したDNA分子の光学的配列決定を実施してもよい。
上に挙げた方法は、以下に述べられ、いくつかの実施形態に従って、環状化の段階に全く依存しないin vitroでの長距離のメイトペアリングの方法を説明するものである。伸展していない2.7Kb分子からペアエンドリードを得ることに成功したものを図12bに示す。簡潔に述べれば、フローセルに適合するアダプター(FCA1)を直鎖状の二本鎖puc19の末端に連結した。この鋳型をフローセル(Illumina)に導入し、一本鎖の末端をプライマーでコートした表面とハイブリダイズさせた。次いで、FCA2アダプターを予め負荷したトランスポザーゼにより鋳型をin situで処理した。次に、標準的なクラスターPCRの後、合成による配列決定(sequencing−by−synthesis)を実施した。使用したプライマー及び既知のpUC19の配列に基づき、リードが分子のいずれの末端から生じたかによって、最初の4bpがAGCTかCGAGのいずれかであると考えられた。図13A(上)は、最初の4サイクルの空間的に分離された「クラスターペア」の代表的な画像を示すものであり、また両鋳型の生のベースコール強度の総和を図13B(下)に示す。他のまばらな領域の中にこのような接近した位置にあるペアが観察されることは、同じ2.7Kb分子の末端の共通の起源と一致している。鋳型を更に希釈してもなお、クラスターペアが得られ、このことは、これらが近くで偶然ハイブリダイズした2つの異なる鋳型に由来するものではないことを強く示唆するものである。また、わずか20%前後の鋳型が、明白な物理的クラスター分離(図13に示すような)を示したのに対し、ペアエンドの残り80%は共存下にあり、混在したリードを生じた。しかし、2つの異なる配列決定プライマーを用いるという提案された方法により、このような接近して共存するクラスターペア由来の混在するリードを2つの別々のリードにデコンボリューションすることが可能となる。
他の実施形態では、直鎖状に伸展した48.5KbのDNA分子のin situ断片化も示される。簡潔に述べれば、フローセルをPiranha溶液を用いて洗浄し、2%の3−アミノプロピルトリエトキシシラン(APTES)で処理し、JOJO−1染色したラムダDNAを負荷した。次いで、フローセルに6M KClを負荷し、入力ポート及び出力ポートに15V/cmの電場を90秒間印加した。表面をIllumina GA2シーケンサーで直接画像化して(図14A)、単一の48.5Kb分子の末端が約30ピクセルにわたって物理的に伸展され得ることを示した。次いで、表面をトランスポソームによりin situで処理し、再び画像化した(図14B)。個々の分子が複数の位置で断片化されたが、このことは、表面に固定化された鋳型上でも酵素が高い活性を維持することが可能であることを示している。また、上に挙げた方法を用いて、クラスターが長い鋳型の末端で生じるように、断片化の前に「ロックダウン」ブリッジに流すことを組み込んでもよい。
本明細書に記載されている短距離、中距離及び長距離の連続性の実施形態の方法に基づき、連続性を捕捉する他の実施形態を以下に提供する。
いくつかの実施形態により、連続性情報を捕捉する方法が提供される。一実施形態では、このような方法は、各断片化又は挿入事象に隣接する配列をバーコードで対称的にタグ付けする、標的DNA由来のショットガン核酸分子のライブラリー構築と、ショットガンライブラリー分子及び対応するバーコードの配列決定と、共通のバーコード配列による隣接する起源の同定とを含み得る。
別の実施形態では、連続性情報を捕捉する方法は、エマルジョン又は希釈剤により標的DNAフラグメントを区画化することと、区画化の前又は後に、標的DNAフラグメントをトランスポザーゼにより改変しプライマー配列を挿入することと、区画特異的バーコードを有するプライマーを用いて核酸増幅を実施することと、得られた標的DNA由来のショットガン核酸分子のライブラリー及び対応するバーコードを配列決定して、ショットガン配列リードのグループを定めることとを含み得る。一態様では、バーコードを共有するリードのグループは、同じ高分子量ゲノムDNAフラグメントに由来する。
さらなる態様では、連続性情報を捕捉する方法は、標的DNA分子を1つの表面結合プライマーに対応するアダプターで末端修飾することと、末端修飾した標的DNA分子の両端を、伸展を行って又は伸展を行わずに表面結合プライマーとハイブリダイズさせることと、DNAトランスポザーゼと第二の表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体を用いて転移を実施することと、クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製することと、クローン化により生じた核酸のクラスターを配列決定することと、重複する又は接近した位置にあるクラスターが同じ標的DNA分子の末端に由来するか否かを決定することとを含み得る。一態様では、このような方法は、高分子量DNA分子を1つのフローセルプライマーに対応するアダプターで末端修飾することと、末端修飾した高分子量DNA分子の両端を、伸展を行って又は伸展を行わずにフローセルとハイブリダイズさせることと、第二のフローセルプライマーに対応するアダプターを負荷したトランスポザーゼを用いてin situ転移を実施することと、クラスターPCRを実施して、明白に重複する又は接近した位置にあるクラスターを作製することと、重複する又は接近した位置にあるクラスターが同じ高分子量DNA分子の末端に由来するか否かを決定することとを含み得る。
別の実施形態では、連続性情報を捕捉する方法は、標的DNA分子をトランスポザーゼにより改変して、1つ又は複数の表面結合プライマーに対応する核酸配列を挿入することと、内部が改変された標的DNA分子を、伸展を行って又は伸展を行わずに表面結合プライマーとハイブリダイズさせることと、クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製することと、クローン化により生じた核酸のクラスターを配列決定することと、重複する又は接近した位置にあるクラスターが同じ標的DNA分子に由来するか否かを決定することとを含み得る。一態様では、このような方法は、図25のように、高分子量ゲノムDNAをトランスポザーゼにより改変して、1つ又は2つのフローセルプライマーに対応するプライマー配列を挿入することと、内部が修飾された高分子量DNA分子を、伸展を行って又は伸展を行わずにフローセルとハイブリダイズさせることと、クラスターPCRを実施して、明らかに重複する又は接近した位置にあるクラスターを作製することと、重複する又は接近した位置にあるクラスターが同じ高分子量DNA分子に由来するか否かを決定することとを含む。
別の実施形態では、連続性情報を捕捉する方法は、(a)DNAトランスポザーゼの認識配列に対応する二本鎖DNA配列を含む核酸配列が結合した表面を作製する段階と、(b)表面結合認識配列と結合したDNAトランスポザーゼを含む複合体を組み立てる段階と、(c)標的DNAの伸展を行って又は伸展を行わずに、複合体を標的DNAに曝し、表面結合トランスポザーゼ複合体により標的DNAの内部を改変する段階と、(d)クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製する段階と、(e)クローン化により生じた核酸のクラスターを配列決定する段階と、(f)重複する又は接近した位置にあるクラスターが同じ標的DNA分子に由来するか否かを決定する段階とを含む。一態様では、段階(c)の前の任意の時点に、DNAトランスポザーゼと表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体への曝露により標的DNAを修飾する追加の段階を含み得る。別の態様では、段階(c)の後、段階(d)の前に、DNAトランスポザーゼと表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体への曝露により標的DNAを更に修飾する追加の段階を含み得る。
配列決定技術の応用
本明細書に記載されている連続性情報を捕捉する方法は、上記配列決定技術の使用及び応用を向上させるのに有用である。本明細書に記載の方法に従って使用し得るDNA配列決定技術の適切な応用としては、特に限定されないが、DNAメチル化を決定するビサルファイト配列決定法、再配列決定、de novoアセンブリ、エクソーム配列決定法、RNA−Seq、ChIP−Seq、染色体立体配座の推定及び全ゲノムでのクロマチン相互作用マッピングが挙げられる。いくつかの実施形態では、連続性情報を捕捉する方法を、下の実施例に詳述するように、再配列決定、de novoアセンブリ又はその両方などの応用に「サイクリックアレイ(cyclic−array)」法とともに使用し得る。
再配列決定
ヒトゲノムの再配列決定は比較的単純なものになっている。例えば、Bentleyら(2008)は、Illumina GAプラットフォーム(Brantonら,2008)、すなわち、無秩序なPCRコロニーの高密度アレイ上での大量並列的な合成による配列決定(sequencing−by−synthesis)法でヨルバ族の男性のゲノムを約40倍のカバレッジまで配列決定し、約400万のSNPを同定した。現在、Illumina HiSeqプラットフォームでは、それぞれから約100万のマッピング可能なペアエンドの100bpリード(PE100)が得られる7つの配列決定レーン全体で、同じ量のデータ(135ギガバイト(Gb))を8日で作成することができる。例えば、1レーン当たり3,700ドルとすると、約40倍のヒトゲノム再配列決定の推定コストは25,000ドル余りである。
更に、短いリード長及び適度な生の精度は、約94%という高精度でのヒトゲノム再配列決定に適合するが、上に挙げた技術は依然として少なくとも2つの重要な点で不十分なものである。第一に、ヒトゲノムの約6%は、再配列が頻発しやすい、遺伝子に富むセグメント重複又は構造的に複雑な領域からなる。このスペース内で短い配列決定リードを固有にマッピングすることは不可能であり、複雑な構造変異を解読することはきわめて困難であると考えられる。第二に、現在のゲノム再配列決定技術では、ハプロタイプ、すなわち単一の染色体上で多型が生じる相がほぼ全く検出できない。ハプロタイプ情報は、遺伝子と疾患の関連性の研究及び集団遺伝学解析にきわめて有用である。この2つの欠点はともに、この技術で更に配列決定を行っても解消されるわけではない。こうした欠点はむしろ、ショートリード配列決定法の限界を反映するものである。
de novoアセンブリ
再配列決定法とは対照的に、この技術を用いて高品質な哺乳動物ゲノムのde novoアセンブリを作製するまでにはまだ長い道のりがある。20Gb、すなわち2002年に2.5Gbのマウスゲノムを組み立てるのに使用された約8倍のカバレッジ(Sanger)(Waterstonら,2002)の作製が、現在ではIllumina HiSeqの1レーンで可能である(PE100、3,700ドル)。しかし、同様に複雑なヒトゲノムに約90倍のカバレッジで最高の「次世代」de novoアセンブリを行っても、N50コンティグ長が7.4Kb、N50スキャフォールド長が7.4Kb、シーケンスカバレッジがゲノムのわずか87%である(Liら,2010)。ショートリードデータでカバレッジを更に増加させたとしても、アセンブリの品質質がわずかに向上するだけであろう(Liら,2010)。それに比べて、一桁以上少ないデータに基づくマウスゲノムの最初のアセンブリでは、N50コンティグ長が25.9Kb、N50スキャフォールド長が18.6メガベース(Mb)、シーケンスカバレッジがゲノムの95%であった(Waterstonら,2002)。
ビサルファイト配列決定法
DNAメチル化を測定するビサルファイト配列決定の方法が本明細書に提供される。DNAメチル化は、広く存在し多様な生物体のゲノムの調節にきわめて重要な役割を果たしているエピジェネティックな修飾である。最もよくみられ広く研究されている哺乳動物ゲノムにおけるDNAメチル化の形態は、通常はCpGジヌクレオチドとの関連でシトシン残基の5炭素位に生じるものである。マイクロアレイ及びごく最近では大量並列配列決定法により、全ゲノムスケールでシトシンメチル化(5mC)を調べることが可能になった(Zilberman及びHenikoff,2007)。しかし、例えば、特定の細胞型又は解剖学的構造におけるDNAメチル化その他のエピジェネティックな目印のin vivo研究は、最新のプロトコルで必要とされる投入材料の量が比較的多いことにより大幅に制限されている。
ゲノム規模でメチル化パターンを調べる方法には、定めされたゲノムのサブセットの濃縮を先に行ういくつかの方法(Meissnerら,2005;Downら,2008;Dengら,2009)、例えば、簡約表示ビサルファイト配列決定法(RRBS)(Meissnerら,2005)及び抗メチルシトシンDNA免疫沈降とそれに続く配列決定(MeDIP−seq)(Downら,2008)がある。このような方法の利点は、わずかな量の開始DNAで実施することができることである(Guら,2011)。しかし、このような方法は、真に包括的ではないという点で制約されたものである。例えば、消化に基づくRRBS法で参照されるのは、主としてCpGアイランド内にあるCpGsのわずか12%前後であり(Harrisら,2010)、遺伝子本体(Ballら,2009)その他の箇所のメチル化のカバレッジが不十分である。更にRRBSは、哺乳動物発生の初期段階でメチル化のレベルが上昇することが示されているCHG又はCHH(H=A、C、T)と関連するシトシンを対象とするものではない(Listerら,2009)。
5mCを検出する最も包括的で分解能の高い方法は、全ゲノムビサルファイト配列決定法(WGBS)である(Cokusら,2008;Listerら,2009;Harrisら,2010)。DNAを亜硫酸水素ナトリウムで処理することにより、シトシンが5mCよりもはるかに速い速度で化学的に脱アミノ化されて、優先的にウラシルに変換される(Clarkら,1994)。大量並列配列決定法を用いて、それを全ゲノム規模で、単一塩基対の分解能で検出することができる。この方法により、特にCHG及びCHHとの関連において、複雑かつ予想外のメチル化のパターン及び変異が明らかにされてきた。更に、大量並列配列決定法のコストが下がり続ければ、全ゲノムビサルファイト配列決定法が一層安価になっていく。しかし、現在のプロトコルでは投入時に必要なゲノムDNAは5マイクログラムであり、この量はvivoで得られる多くの試料で賄えるものではなく、WGBSはこの点で制約を受けている(Cokusら,2008;Listerら,2009;Liら,2010)。
いくつかの実施形態では、下に記載するように、全ゲノムビサルファイト配列決定のためのトランスポザーゼに基づくin vitroショットガンライブラリー構築(「タグメンテーション」)を採用する。本明細書でtn5mC−seqと呼ぶこの方法では、出発物質を従来のプロトコルに比べ100倍超削減することができるため、わずか10ナノグラムの投入DNAからきわめて複雑なビサルファイト配列決定ライブラリーが作製され、また1ナノグラムの投入DNAから有用な配列が十分に作製される。tn5mC−seqは、ヒトリンパ芽球様細胞株のメチロームを約8.6倍の高品質な各鎖のカバレッジまで配列決定することにより実証される。
更に、Tn5認識配列の二本鎖DNA部分及びアダプター配列1又は2を含む一本鎖DNAオーバーハングを使用し、不連続な合成トランスポゾンをメチル化する方法が提供され、ここでは、シチジン又はシトシン残基がすべてメチル化される。一実施形態では、ニックトランスレーション段階を実施する。ニックトランスレーション後、生じた転移により、アダプターが隣接し一方がメチル化された両アダプターを各鎖が有する、DNAフラグメントが得られる。次いで、ニックトランスレーションを施した材料に対して、ニックトランスレーションで生じたアダプターの非メチル化鎖のPCRを、許容される低効率で実施する。
別の実施形態では、ニックトランスレーション段階を実施せず、下に記載するように、後で第二のアダプターを付加する。次いで、フラグメントライブラリーにビサルファイト処理を施して、非メチル化シチジンをすべてウラシル残基に変換する。次いで、第二のアダプターを次に挙げる2つの方法の1つで付加する:(1)Aテールを付加し、次いで、ポリTを含むプライマー及びアダプターオーバーハングを用いる方法、又は(2)3’ブロックしたN6を含み(ビサルファイト処理されたヌクレオチドの比で)、5’アダプターオーバーハングを有する、フラグメントの3’末端から伸長する鋳型を伸長させる方法。第二のアダプターを付加した後、PCR及び配列決定を実施する。この方法の利点の1つは、gDNAをアダプターで修飾されたフラグメントへ高い効率で変換することにより、ビサルファイト処理を施すライブラリーの構築に使用するDNAを大幅に減らすことが可能になることである。
手順を簡潔に述べれば以下の通りである。まず、dsDNAトランスポザーゼ認識配列を含むアダプターを有するトランスポザーゼに、全シトシン(C)残基がメチル化されているssDNAアダプターオーバーハングを負荷する。次に、ゲノムDNA内への転移を実施し、DNAを断片化し、メチル化C、5’オーバーハングアダプターを付加する。ニックトランスレーションを実施する場合、アダプターが分子の両端まで伸長するが、3’アダプターはメチル化されない。次いで、ライブラリーにビサルファイト処理を施して、非メチル化C残基をすべてU残基に変換する。前段階でニックトランスレーションを実施しなかった場合、第二の3’アダプターを次に挙げる2つの方法の1つで付加し得る:(i)DNAフラグメントにAテールを付加し、3’ポリT5’アダプタープライマーを用いて3’アダプターをフラグメントに付加する;又は(ii)3’ブロックしたN6(相補的なビサルファイト処理されたヌクレオチド組成で)と5’アダプターオーバーハングとからなるオリゴ上でDNAフラグメントを伸長させる。最後にPCR、次いで配列決定を実施する。
他の実施形態では、ビサルファイト配列決定の方法は、(a)メチル化シトシン残基を有する一本鎖DNAアダプターオーバーハングを有する二本鎖DNAトランスポザーゼ認識配列を含むトランスポザーゼ複合体を用いて、標的DNA分子内へのvitro転移を実施する段階と、(b)改変された標的DNA分子にビサルファイト処理を施す段階と、(c)核酸増幅を実施して核酸ライブラリーを作製する段階と、(d)得られた核酸ライブラリーを配列決定する段階とを含み得る。いくつかの態様では、段階(c)の核酸増幅を容易にするよう設計されている、標的DNA由来の核酸フラグメントに対する第二のアダプターを、段階(a)の後、段階(b)の前に組み込んでもよい。他の態様では、段階(c)の核酸増幅を容易にするよう設計されている、標的DNA由来の核酸フラグメントに対する第二のアダプターを、段階(b)の後、段階(c)の前に組み込んでもよい。
他の実施形態では、ビサルファイトの方法は、(a)二本鎖DNA(dsDNA)トランスポザーゼ認識配列を、メチル化シトシン残基を有する一本鎖DNA(ssDNA)アダプターオーバーハングで修飾する段階と、(b)修飾されたdsDNAトランスポザーゼ認識配列を含むアダプターを負荷したトランスポザーゼを用いてin vitro転移を実施して、DNAフラグメントのライブラリーを作製する段階と、(c)DNAフラグメントのライブラリーにビサルファイト処理を施す段階と、(d)PCR法を実施して標的を増幅する段階と、(c)標的を配列決定する段階とを含む。いくつかの実施形態では、段階(b)の後、段階(c)の前に追加のニックトランスレーション段階を実施してもよい。他の実施形態では、ニックトランスレーションを実施しない。この場合、段階(c)の後、段階(d)の前に第二のアダプターを付加する。第二のアダプターは、(i)アデノシン(A)テールをDNAフラグメントに付加し、3’ポリT5’アダプタープライマーを用いて、フラグメントに3’アダプターを付加することにより、又は(ii)3’ブロックしたN6と5’アダプターオーバーハングとを含むオリゴヌクレオチド上でDNAフラグメントを伸長させることにより、付加することができる。
染色体立体配座の推定
いくつかの実施形態により、染色体立体配座を推定する方法が提供される。この方法は、細胞内のDNAを架橋すること、クロマチン繊維を単離すること、クロマチンフラグメントを取り出し消化すること、クロマチンDNAフラグメントを精製すること、アダプターをクロマチンDNAフラグメントに連結させてクロマチンDNAフラグメント複合体を形成すること、及び隣接するクロマチンDNAフラグメント複合体のクラスター同士を対にすることにより三次元モデルを作製することを含み得る。一実施形態では、この方法は、(a)細胞内のDNAを架橋する段階と、(b)架橋DNAを細胞から単離する段階と、(c)架橋DNAを断片化する段階と、(d)断片化した架橋DNA分子の末端を表面結合プライマーに対応するアダプターで修飾する段階と、(e)断片化し末端修飾した標的DNA分子の末端を表面結合プライマーとハイブリダイズさせる段階と、(f)DNAトランスポザーゼと第二の表面結合プライマーに対応する配列とを含む非表面結合トランスポザーゼ複合体を用いて転移を実施する段階と、(g)クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを作製する段階と、(h)クローン化により生じた核酸のクラスターを配列決定する段階と、(i)隣接するクラスター同士を対にすることにより、染色体上の位置間の物理的相互作用を明らかにする段階とを含み得る。いくつかの態様では、単離された架橋DNAは、架橋DNA−タンパク質複合体の一部であり得る。この場合、染色体の詳細な立体配座を推定する方法は、段階(c)の後、段階(d)の前に、1つ以上の特定の架橋DNA−タンパク質複合体を免疫沈降により濃縮する段階を更に含み得る。
他の実施形態では、転写因子結合部位間の相互作用を同定する方法が提供される。このような方法は、ホルモンにより細胞集団を誘導すること、細胞を免疫沈降させてクロマチン繊維を単離すること、細胞を架橋し、クロマチン繊維を破壊することによりクロマチンフラグメントを作製すること、クロマチンフラグメントの末端同士を対にし、アダプターと連結して、クロマチン複合体を生じさせること、クロマチン複合体に対応するクラスターを作製すること、及び隣接するクラスター同士を対にすることにより、染色体上の位置間の相互作用を明らかにすることを含み得る。
以下の実施例は、本発明のさまざまな実施形態を説明することを意図するものである。したがって、記載されている特定の実施形態は本発明の範囲を限定するものではないと解釈されるべきである。本発明の範囲を逸脱することなくさまざまな同等物、改変及び修正を施し得ることは当業者に明らかであり、またこのような同等の実施形態が本明細書に含まれ得ることが理解される。更に、本開示で引用される参考文献はすべて、その全体が本明細書に記載された場合と同様に、その内容全体が参照により本明細書に組み込まれるものとする。
in vitro転移のいくつかの特性を利用して、さまざまな規模で連続性情報を捕捉する超低コストな大量並列配列決定法を開発することができる。第一に、共通配列の挿入を触媒する反応において、改変Tn5 トランスポソームがDNAをin vitroで高効率かつ高密度に攻撃し、断片化が生じるか否かは、合成トランスポゾンが連続性であるか不連続性であるかによって決まる。第二に、トランスポソームによる攻撃のパターンは、配列内容に関して比較的ランダムである。第三に、共通のアダプター配列に加えて、縮重配列が合成トランスポゾン内に容易に含まれ得る。第四に、in vitro転移は単一体積の水相の酵素反応として安価である。実施例1〜3は、vitro転移を利用してそれぞれ短距離、中距離及び長距離の連続性の情報を得る大量並列的方法の開発に関するものである。実施例4は、in vitroメチル化転移を利用して連続性情報を捕捉する方法の開発に関するものである。実施例5は、インフィニペア(infinipair)技術を利用して、免疫沈降し架橋されているDNAの複数のフラグメントを直接配列決定する、比較的小さい細胞集団内でのDNA−DNA及びDNA−タンパク質相互作用を測定するための方法の開発に関するものである。実施例6は、上に挙げた方法を統合して高品質なde novoゲノムアセンブリ及びハプロタイプ分解的ゲノム再配列決定法を実証することに関するものである。
概略的な方法
連続性情報が主要な目的である
下に記載されている実施例の方法は、次世代配列決定法の分野における「盲点」に対処するものである。具体的には、この方法は、より大きい規模で連続性情報を明らかにする超低コストな方法が存在しないことに対処するものである。
これらの方法とそれに伴うコストは統合される配列決定技術に左右されるが、それはこれらが連続性情報と連動する一次配列を解読する方法だからである。下の方法は、市販のサイクリックアレイ(cyclic−array)プラットフォーム(例えば、Illumina GA2x又はHiSeq)を用いて実施するものである。しかし、本明細書に記載の方法を、DNA配列決定を行う他の方法、例えば、ナノポアシーケンシング、他のサイクリックアレイ(cyclic−array)プラットフォームと統合してもよい。適合性が広いため、これらの方法を、1塩基当たりのコストという点で最良のものとして出現するどの技術とも組み合わせることができる。
材料及び方法
連続性情報を捕捉するためのin vitro転移
実施例1〜6は技術的に多様であるが、その共通点は、さまざまな規模での連続性情報の回収を容易にする独創的な方法でゲノムDNAを物理的に粉砕する新規な手段である高密度でランダムなin vitro転移に依存していることである。この技術に対する最初の関心は、低コスト、低投入量、ショットガンライブラリーのin vitro調製に対するその潜在的有用性に基づくものであった。図1に示すように、改変Tn5トランスポザーゼが断片化及びアダプター組込みを5分間の1段階で触媒する。従来のin vitro転移では、トランスポゾンDNAに隣接する逆方向の19bpモザイク末端(ME)配列がトランスポザーゼに認識されて、溶液中で安定なホモ二量体の対合複合体を形成する。この「トランスポソーム」が標的DNA内にトランスポゾンを挿入する。ライブラリー調製に適用する場合、トランスポソームは代わりに、酵素とアダプターオーバーハングを有する遊離のME配列とで構成されるものとなる。不連続なトランスポゾンが挿入されると、非対称な5’アダプターオーバーハングを有するME配列の対称的な挿入を介して断片化が生じる。アダプターに相補的なプライマーを用いたPCR増幅により、ショットガンフラグメントライブラリーが得られる。
挿入バイアス及びライブラリーの複雑度への懸念に対処するために、従来のin vitroショットガンライブラリー構築の方法を用いて、広範囲にわたる比較が実施された(Adeyら,2010)。分析の結果、トランスポソームに基づく方法による断片化部位での配列内容に関するバイアスがわずかに大きいことが明らかになった。しかし、これが全ヒトゲノム再配列決定の際のカバレッジ分布に与える影響はわずかなものであり(図2)、これらの方法は等しいG+Cバイアスを示した。重要なことに、わずか400ナノグラムから作製されるトランスポソームライブラリーの複雑度は、投入DNA量がはるかに多い標準的なライブラリーの複雑度と同等かそれ以上であることがわかった。
断片化事象が任意の一続きのゲノムDNAに沿ってほぼ同時に生じて、数100塩基対の配列決定適合フラグメントが生じ得るため、この方法で観察されるライブラリーの複雑度は、ゲノムDNAのアダプター隣接ライブラリーへの大量変換効率が高いことを示唆するものである。実際、この方法で得られたフラグメント長の分布を解析すると、隣接し攻撃するトランスポソームによる立体障害により起こると思われる35bp付近での急激な減少が観察される(図3)。PCRを実施しないバージョンのプロトコル(フラグメントサイズ分布の歪みを避けるため)でも、データは、隣接するトランスポソーム反応の大部分(95%超)が35〜600bpごとに分離されていることを示唆している。原則的に、大量変換の効率がこのように高いことは、必要な投入量が少なくて済むと解釈されるべきである。そのことと一致するように、わずか100ピコグラムの投入(ヒトゲノムの一倍体30個に相当)でも、複雑なライブラリーを得ることができる。10ピコグラム(一倍体3個に相当)で複雑度のボトルネックが始まるが、それでも数100万もの固有にマッピングするリードペアが観察され得る。
実施例1:短距離連続性
1.A.対称的かつ固有にタグ付けする断片化事象
ゲノムDNAを断片化すると、それが機械的方法によるものでも酵素的方法によるものでも、任意の1つの「切れ目」のどちらかの端に由来する分子の対形成に関する情報が完全に失われる。この情報を保存するために、vitro転移により導入された各切れ目に由来するフラグメントの両端に固有のバーコードを付加する方法を考案した(図4)。簡潔に述べれば、トランスポザーゼを用いて、きわめて少量のゲノムDNA内、すなわち、5個未満の一倍体ヒトゲノム相当物内への、切断制限酵素部位が隣接する縮重一本鎖「バブル」を含む合成トランスポゾンのin vitro挿入を触媒することができる。図1に記載されている方法とは対照的に、合成トランスポゾンは連続性であり、25bpの縮重配列に隣接する2つのエンドヌクレアーゼ切断部位とともに19bpのME配列を含んでいる。上の鎖と下の鎖との間で縮重領域が相補的でないため、一本鎖バブルが存在して柔軟性が増加し、2つのトランスポザーゼ単量体との対合複合体の形成を助ける。これらの合成トランスポゾンを高密度(35〜600bpごと)になるよう挿入した後、転移機序により生じた9bpの損傷部位をギャップフィル/連結反応により修復する。
次いで、この構築物にプライマーゼに基づく全ゲノム増幅(pWGA)を施して、縮重領域にあるバブルを解消するとともに比較的均一な増幅をもたらす(Liら,2008)。次いで、この材料を2つの切断エンドヌクレアーゼにより最後まで消化して、反対側の鎖の縮重領域の隣にニックを導入する。最後に、鎖置換ポリメラーゼを用いた伸長により標的DNAを断片化し、同一のバーコード配列で終わる分子を得る(すなわち、対称的なタグ付け)。この時点で、大量並列型の合成による配列決定(sequencing−by−synthesis)に適合させるために標準的なプロトコル(Aテール付加、アダプター連結、PCR)を適用することができる。個々のリードを用いて、各ライブラリー分子の各末端のバーコード及び一次配列にアクセスすることができる。
本明細書で使用するバーコードは、25bpの縮重ストレッチに由来するものであり、in silicoで使用して、隣接するトランスポソームインサートに由来する一連のリードペア同士を連続して繋ぐことができるため、各断片化事象に固有であるべきである。このような「連結」はバーコードのみに基づくものであるため、一次配列内容から完全に独立している。
この方法の実現可能性を検証するために、2つのプライマーに対応する固定された非相補的な配列を有する一本鎖バブルを含む合成トランスポゾンを設計した(図4の第一段階に示す通りであるが、縮重配列ではなくA及びBに対する固定された非相補的な配列を用いた)。これらの合成トランスポゾンをEZ−Tn5トランスポザーゼに負荷し、適切な条件下でゲノムDNAと反応させた。転移事象により生じた予想される9塩基対の損傷部分にギャップフィル及び修復を行った後、非相補的な合成バブル配列を用いたPCRにより、約0.5〜約3Kbにわたる広いサイズ分布のアンプリコンを得た(図16)。この実験により、一本鎖バブルを含む合成の近接するトランスポゾンを妥当な効率で挿入することが可能であることが確認される。挿入部位の更に高密度な分布を達成するためには、この方法を最適化するべきである。具体的には、トランスポザーゼに合成トランスポゾンを負荷する効率を向上させ得る。隣接し攻撃するトランスポザーゼ複合体による立体障害が挿入密度の上限を定めているため(図3)、過剰量の適切に負荷されたトランスポソーム複合体により、更に高密度な挿入分布が達成されるであろう。
1.B.隣接する事象が検出可能である証拠
隣接する断片化事象が配列決定により検出される可能性があるか否かを評価するために、10ピコグラムのヒトゲノムDNA(一倍体3個に相当)に由来するトランスポソーム断片化ショットガンライブラリーの配列決定から、約200万の固有にマッピングするリードペアを抽出した。各断片化事象の各末端で9bpの複製が生じるため、各事象のどちらかの末端に由来する分子を、9bpの重複をもたせてゲノムにマッピングするべきである。その結果、他のリードペアの「リード1」の開始部位から9bpのところで「リード2」のマッピング位置の明らかな増加がみられた(図5)。この超低投入量のライブラリーにおけるこの特徴は、これよりも多量の出発物質から作製されたライブラリーよりはるかに顕著なものであった。この9bpの重複を同じ切断点に由来するフラグメントの証拠として用いて、連続して隣接するフラグメントに由来する4〜6個のリードペアからなり、合計で約1Kb〜約2Kbにわたる鎖が同定された(図6)。
1.C.方法の開発及び性能パラメータ
上記戦略(1.Aを参照)は、(1)断片化事象の対称的で固有なタグ付けを達成し、(2)分析時に、上記タグを利用して、隣接するトランスポソームインサートに由来する一連の配列リードペア同士を連続して繋ぐために考案した複数の関連する方法のうちの1つである。対称的なタグ付けの別のアプローチも開発されており、この方法では、タグ付けと断片化の両方が一段階でできるように、個々のトランスポザーゼに対称的にタグ付けされているが正式には不連続なオリゴヌクレオチド(すなわち、「オリゴ」)を負荷する。
この別のアプローチに基づく方法は、対称的にタグ付けされ5’−5’連結したトランスポゾン試薬を構築するために考案したものである(図17)。この試薬を作製するために、一方が5’−5’逆方向アデニンRNA部分と3’リン酸をブロックする基とを含む2つのプライマーを連結した。T4 RNAリガーゼを用いて、末端RNA塩基と他方のオリゴヌクレオチドの5’リン酸DNA塩基との間で一本鎖連結を行う。次いで、5’−5’連結したプライマーを、適切な両プライマーに相補的な配列と、タグとして働く縮重ストレッチ(例えば、20個のランダムヌクレオチド―図17で黒く示されている)と、トランスポゾンにより認識される19bpのモザイク末端(ME)配列とを含むオリゴヌクレオチドとハイブリダイズさせる。5’−5’ペアの第一のプライマーが伸長するのに対し、他方の末端は3’リン酸によりブロックされている。次に、T4ポリヌクレオチドキナーゼ(T4 PNK)を用いて、3’をブロックしているリン酸を除去し、第二のプライマーを鎖置換ポリメラーゼにより伸長させる。得られた種の各分子は、縮重ストレッチ全体と一致しそれぞれが19bpのモザイク末端(ME)配列で終わる、逆方向アデニン部分により5’−5’連結した2つのオリゴヌクレオチドを含む。ゲル系の精製を用いて伸長副生成物を除去し、次いで、適切なオリゴヌクレオチドをハイブリダイズさせてMEサブ配列の各末端を二本鎖にする。得られた種はともに単一分子レベルで対称的にタグ付けされており、Tn5トランスポザーゼに容易に負荷することができる。
5’−5’連結し対称的にタグ付けされたトランスポゾン種を記載の通りに構築した。ゲル精製して伸長副生成物を除去する前の前記トランスポゾンの完全長生成物(194bp)を図18aに示し、前記トランスポゾンによるゲノムDNAの断片化に成功したものを図18bに示す。
この方法が成功するか否かは、次の挙げる少なくとも2つのパラメータによって決まる。(1)ライブラリーの複雑度の維持:リードペアを繋ぐ作業は、配列決定で鎖のどちらかの末端にある隣接するフラグメントが検出できなくなったときに終了する。例えば、極端な場合、合成転移に由来するフラグメントの100%について、対応するタグとともに配列決定が成功すれば、全染色体の末端から末端まで繋ぐことが原理的には可能である。(2)表示の均一性:断片化事象の大型のフラグメントの両端からタグ及び一次配列を抽出するのに必要な配列決定の程度は、ライブラリーの均一性に大きく依存する。相対的表示の大きな歪みを克服するにためは、それに応じた大量の配列決定が必要となり得る。したがって、歪みを最小限に抑えることが重要である。
模擬実験では、トランスポソームによる断片化の実験によるサイズ分布に基づき(図3、上)、配列決定が成功したトランスポザーゼ由来のフラグメントの割合の関数(そして、配列決定深度の関数及び上記性能パラメータである)として、長さがN10、N50及びN90の繋がったリードペアが決定された。図7に示すように、効率が90%を超えたところで連続性が急激に上昇している。95%の効率では、N50が1.4Kbであり、N10が4.7Kbである。99%の効率では、N50が8Kb、N10が24Kbである。99.9%の効率では、N50が71Kb、N10が237Kbである。
この技術の重要な側面は、独立したリードペア間でのin silico「連結」が、一次配列内容からほぼ完全に独立しているという点にある(従来のde novoアセンブリではよくみられるように、密接に関連している配列の遍在性による混同がない場合)。むしろ、連結は、対称的なタグ断片化事象で使用する合成トランスポゾンにより生じた共通のバーコード配列に基づくものである。何100万もの独立したタグを配列決定し、妥当な編集距離を許容しても、25bpのバーコード(PE100の実行に比べて配列決定の量を25%増加させるだけでよい)が偶然に一致する可能性はほとんどないことに留意されたい。更に、予想される一次配列間の9bpの重複は、正しい連結の「検証キー」として役立ち得る。したがって、偶然の一致又はエラーにより誤った連結を生じる可能性はきわめて低い。
この方法は、ショートリード技術を使用しながら、「ストローブリード(strobe read)」(すなわち、単一の長い近接フラグメント由来の複数のサブリード(Ritzら,2010))の同等物を可能にし得る。鎖に沿った任意のゲノムフラグメントが長すぎてシングルエンド又はペアエンドの配列決定が及ばない場合、ギャップが生じる。ギャップの頻度及び長さの分布は、この方法と統合されるショートリード技術のリード長の関数になる。例えば、1)ゲノムフラグメントを100bpリード(PE100)のペアエンドにより調べると仮定すれば、2)同じフラグメントをどちらかの末端から配列決定するリードペア同士を1つにするのに末端の重複が20bpで十分であり、3)図3に示す断片化のサイズ分布を適用すれば、模擬実験で1Kb当たり平均0.7のギャップが示され、ギャップサイズは平均53±48bp(全スキャフォールド長の5%未満)となる。
1.D.トランスポザーゼによるLoxP挿入及びそれに続くCre組換え
別の実施形態では、細菌トランスポザーゼTn5を用いて、逆方向のモザイク末端(ME)配列が隣接した34bpの方向性のあるLoxP部位ならびに内部ビオチン化及び代替となる可能性のある配列決定プライマーを含むトランスポゾンを挿入し得る。目標挿入密度は、ほぼ10キロベースごとに1つの挿入である。
得られた分子集団は、同じ順序又は逆の順序で挿入事象を有する。Creリコンビナーゼによる組換えにより、2つのLoxP部位が同じ方向で直列に挿入された10kbの一続きの環状DNAが切り出される。直列したLoxP部位が逆方向になっている場合には、10kb領域が逆方向になるが、DNAは直鎖状のままである。最後に、鎖間のLoxP部位で鎖の組換え及び交換が起こり、ここでも直鎖状DNAが生じる。
次いで、プラスミドセーフエキソヌクレアーゼを用いて直鎖状分子を消化し、同じ方向で直列する2つのLoxP部位間の組換えで生じた環状DNAを残し得る。
次いで、環状DNAを任意の方法でライブラリー調製に使用してもよく、またLoxPトランスポゾンに隣接するDNAをストレプトアビジンビーズプルダウンにより濃縮することができる。LoxP部位内から、又は分子の終端からPCR、次いで配列決定を行って、約10kbのメイトペアリードが得られる。
1.E.Yトランスポゾン
別の実施形態では、ライブラリー調製の方法として、従来のトランスポザーゼ触媒によるアダプター挿入の代わりにYアダプター法(図23)を用いてもよく、この方法で得られる種はA−B(50%)、A−A(25%)又はB−B(25%)であり、ここでA及びBは2つの異なるアダプターであり、分子の50%のみ配列決定の実行が可能である。
この場合、融解温度を高くするための相補性の拡張とともに19bpのモザイク末端認識配列に相補的なオリゴヌクレオチドを、次いでA及びB’の非相補的な一本鎖DNA(ssDNA)アダプターオーバーハングをTn5に負荷し得る。転移により、一方のアダプター(3’末端のME)が、ハイブリダイゼーションを介して結合した他方の残りのアダプターと直接連結される。
置換を行わない重合及びニック修復では、各挿入事象により実行可能な配列決定アンプリコンが生じ得る分子が生じ得る。
別の実施形態は、図23のように、Yアダプターの末端を連結して他方の鎖が融解により失われるのを防ぐU(又は他のリンカー又は分解もしくはポリメラーゼ中断の標的化が可能な部位)を含むヘアピントランスポゾンを含む。
1.F.ダブルバブルバーコードトランスポゾン
別の実施形態では、以下の例に示すような、2つの縮重バーコード(各鎖に)及び2組のプライマー部位ならびにいくつかの制限部位を含む合成トランスポゾンを高頻度でゲノムDNA内に挿入することができる:
ES−SbfI/AsiSI−N1/N2−バーコード−X/Y−NotI−X/Y−バーコード−N1/N2−SbfI/AsiSI−ES。
生じた転移及びギャップ修復後の全ゲノム増幅(WGA)により縮重領域が分解される。最も外側の制限部位(上の例ではSbfI、AsiSI)を用いた消化の後、N1/N2及びオーバーハングするフローセルプライマーを用いるPCRよって配列決定を実行し、各挿入トランスポゾン内の2つの縮重バーコードを関連付けることが可能となる。
トランスポゾン中央部での他の消化(上の例ではNotI)ならびにX/Y及びN1/N2からの増幅及び配列決定により、外側のバーコード配列及び介在するゲノムDNAが得られる。
1.G.トランスポザーゼで挿入したバーコードによるサブアセンブリ
別の実施形態では、各負荷DNA配列が外側のフローセルプライマーと、縮重バーコードと、内側のシーケンシングプライマーと、二本鎖のトランスポザーゼ認識配列とからなる不連続なトランスポゾンを挿入し得る。目標挿入密度は1〜2kbごとであり得る。
転移後、希釈した鋳型、又は可能性が高い方としてエマルジョンの条件下で、配列決定又はフローセルプライマーオーバーハングを有する縮重配列プライマーを用いて、分子に沿って停止トランスポザーゼ付加配列の方に遡って伸長しながら、さまざまな位置とアニールすることができる。
配列決定により、バーコードを長い分子全体で生じた縮重プライマー伸長に由来するあらゆるリードと関連付けることができる。
1.H.メイトペア(ssDNA環状化)トランスポザーゼに基づくライブラリー調製物
別の実施形態では、サイズ選択が必要とされ得る、フラグメントサイズが約1〜2kbの標準的なバーコード付加トランスポザーゼに基づくライブラリー調製物を用いて、メイトペアライブラリーを形成し得る。
バーコード付加トランスポザーゼに基づく大きいフラグメントのライブラリーの調製物を、内部ビオチン及び5’末端付近のウラシルも有する5’リン酸化フローセル(最も外側)プライマーを用いるPCRに供する。
得られたPCR生成物を環状化した後、機械的剪断を施す。次いで、断片化したDNAを変性させ、一本鎖で環状化する。最初の環状化の末端を含むフラグメントを、ストレプトアビジンコートしたビーズを使用するために選別する。次いで、環をウラシルの位置で消化して直鎖状にし、分子を反転させる。配列決定により、バーコードを保存すると同時に元のライブラリーの末端からのメイトペアリードが可能となる。
1.I.トランスポゾンで改変したフォスミド又はプラスミドライブラリープールの配列決定
別の実施形態では、連続する合成トランスポゾンをゲノムDNA(gDNA)内に挿入した後、ギャップ修復を行い得る。次いで、DNAを40kb(又は約5kb)に剪断して使用し、それぞれ複雑なフォスミド(又はプラスミド)ライブラリーを作製する。これにより、固有のバーコードを有するか又は反復領域内への固有の挿入部位により同定されるゲノムの反復領域を、トランスポゾンにより分断することができる(図27)。
簡潔に述べれば、連続する合成トランスポゾンを、転移法を用いて100〜1000塩基対(bp)の密度になるようにゲノムDNA又は高分子量DNA内に挿入する。トランスポゾンはすべて同じものであるか、又は固有のバーコードを含んでいる。次いで、転移機序により生じた長さ9bpの損傷部位を修復する。次に、DNAを約40kb(又は約5kb)に剪断し、サイズ選別を実施した後、末端修復を行う。次に、修飾し、剪断及び修復したDNAを用いて、複雑なフォスミド(又はプラスミド)ライブラリーを作製する。最後に、フォスミド(又はプラスミド)ライブラリープールの配列決定を行って、相化の情報及びトランスポゾン挿入に関する情報を得、この情報により、固有のバーコード及び/又は固有のトランスポゾン挿入部位を用いて、ゲノムの類似した領域を識別することが可能となる。
実施例2:中距離連続性
2.A.液滴特異的バーコードを用いるエマルジョンPCR法
エマルジョンPCR法は十分に確立された方法であるが、以下の方法は、液滴特異的バーコードを有するプライマーを含む試薬を含有する液滴を必要とするものである。上記試薬は、縮重配列に隣接する共通配列のエマルジョンPCRを行って、生成物をミクロン規模のビーズに回収することにより作製することができる(図8)(Dressmanら,2003)。具体的には、限界希釈を用いたエマルジョンPCR、次いでハイブリダイゼーションによる「増幅した」ビーズの濃縮により、多数のクローン的に増幅したビーズ(各ビーズは推定上固有のバーコードを有する)を作製し得る(Shendureら,2005)。このビーズを以下の方法で使用するために再び乳化することができる。クローン的に増幅したビーズを液滴1個当たり1つ含ませるとともに、共通配列及びエマルジョンPCRプライマーを適切に設計すれば、バーコード付加したアンプリコンがビーズ自体に捕捉されて回収が簡便になる。
2.B.「予め転移を施した」HMWゲノムDNAのバーコード付加
一実施形態では(図9)、相補的な末端を有する2つの異なるサブ配列の5’ssDNA伸長を有するトランスポザーゼ認識配列を含むアダプターをトランスポソームに負荷する。これにより、関連するアダプター配列が密に散在するHMWゲノムDNAが得られる。次いで、この「予め転移を施した」分子を、液滴生成のハイスループット性を維持しつつ、剪断を最小限に抑えサイズを制御するマイクロ流体を用いて、限界希釈法でエマルジョンに区画化する(Zengら,2010)。液滴特異的バーコードを有するプライマーを用いたエマルジョンPCR法(上記2.A)により、同じHMW分子に由来する多数のフラグメントが各液滴内で増幅される。同じ液滴に由来する配列リードが最終ライブラリー内の同じバーコードと関連付けられて、20〜200Kbの各前駆体分子のin silicoグループ分け及び局所的なアセンブリが可能になる。
2.C.「予め増幅した」HMWゲノムDNAのバーコード付加
別の実施形態では(図10)、同様に剪断を最小限に抑えるマイクロ流体を、液滴内でのクローン化による等温での多重置換増幅(MDA)を補助する試薬とともに用いて、HMW DNAを直接エマルジョンに区画化する(Mazutisら,2009)。次いで、液滴特異的バーコードを有するプライマーを用いて、この液滴を標準的なトランスポソーム及びエマルジョンPCR用の試薬を含有する液滴と融合させる(比較的簡単で費用対効果の高いマイクロ流体装置を用いる)(上記2.A)。上にすでに記載した実施形態と同様に、得られたライブラリーの回収及び配列決定により、同じバーコードを共有するリードが同じ20〜200Kbの前駆体分子に由来することを見込んで、各分子上のショットガン一次配列及びバーコード配列の両方を調べることができる。
この方法をトランスポソームによる断片化、それに続く単一液滴内でのPCRで使用し得る。「1段階」の方法を用いて細菌コロニーから配列決定ライブラリーを作製する場合、転移を実施し、次いでクリーンアップを行わないPCRを実施し得る。いくつかの態様では、トランスポソーム反応物をPCR試薬の添加により希釈する(Adeyら,2010)。この方法では、ニックトランスレーションによる転移で生じた9bpの損傷部分の修復を促進するのはPCRポリメラーゼであることに注目するべきである。これらのデータは少なくとも、MDA液滴をトランスポソーム反応を補助する液滴と融合させることが可能であることを例証するものであり、次いで、この液滴をPCR試薬とバーコード付加したプライマーとを含有する更に大きい液滴と融合させることも可能である。
同じ有効な最終結果をin vitroの方法だけで達成することができる。本明細書に記載の各方法(2.B、2.C)は、各エマルジョン液滴内で、トランスポソームによる断片化の生成物を固有のバーコードを付加したビーズに捕捉することに依存するものである。これらの方法のうちの1つ(例えば、2.C;「「予め増幅した」HMWゲノムDNAバーコード付加」に記載の方法)を成功させるためには、トランスポザーゼによる断片化とポリメラーゼによる伸長がともに同じエマルジョン区画内、すなわち同じ緩衝液内で生じなければならない。初期の実験はこの特定の段階に焦点が当てられてきたものであり、エマルジョンではない反応体積中で行って最適化を促進するものである(図19の模式図)。最近、選択された緩衝液中でのこの適合性が示された。簡潔に述べれば、Nextera HMW緩衝液中のゲノムDNA50ng、dNTP、アダプター1及び2、負荷したトランスポザーゼならびにPCRポリメラーゼを含有する反応体積を調製した。アダプター1及び2は、合成トランスポゾンに相補的な配列と5’末端の固有の配列の両方を含むように設計されたものである(P1及びP2)。トランスポザーゼ+伸長反応を55℃で5時間行って転移を促進し、その直後に温度サイクリングを1ラウンド行って、ニックトランスレーションを促進しアダプター1及び2を付加した(72℃で10時間、95℃で30分、62℃で30分、72℃で10時間)。反応物にカラムによるクリーンアップを施した後、外側プライマーP1/P2を用いるPCRの鋳型として使用した。得られたアンプリコンサイズの分布(図20)は、挿入密度が不十分ではあるが、同じ緩衝液中で生じるトランスポザーゼによる断片化及びポリメラーゼによる伸長と一致していた。この反応は、油中水型エマルジョンとの関連における伸長生成物又はバーコード付加オリゴヌクレオチドが負荷されたビーズの捕捉を実証するものであると思われる。
中距離連続性情報は、個人のヒトゲノムの再配列決定におけるハプロタイプ分解を広範囲で補助するのに十分であると考えられる。このことを検証するために、大きいインサート(フォスミド)のクローンの複雑なプールをバーコード付加及び配列決定することにより、簡便な「簡略」スキームを実施した。具体的には、ランダムに剪断したヒトゲノムDNA(約35Kb)を1個人からクローン化して、複雑なフォスミドライブラリー(2×106超のクローン)を得た。次いで、このライブラリーを培養大腸菌(E.coli)に形質転換した。得られた形質転換大腸菌(E.Coli)の培養物を115区画に分割し、形質転換体を選別した。最初の形質転換は、1プール当たり約5,000クローンを生じるまで増加させた。インサートのサイズが一様に約35Kbであると仮定すると、これは1プール当たり二倍体ヒトゲノムの約3%の物理的カバレッジに相当する。次いで、トランスポソームによる断片化を実施して、115のプールそれぞれからバーコード付加ライブラリーを作製した。このライブラリーを計120Gbの配列(PE76又はPE101+バーコード)について、Illumina GA2xで18レーンにわたり配列決定した。また、これと同じ個人由来のショットガンライブラリーも計86Gbの配列(PE50)、すなわち一倍体ゲノムの28倍のカバレッジについて、Illumina HiSeqで7レーンにわたり配列決定した。後者のデータだけで360万のSNP及びインデルのコールが得られたが、これまでの個人のヒトゲノム配列決定の例にもれず、これらのコールではハプロタイプを検出することができない。
バーコード及びマッピングリードをデコンボリューション後、各プール内の個々のクローンのおよその境界がリード深度によって容易に確認された。二倍体ゲノムの約3倍の物理的カバレッジに対して計538,009クローン(1プール当たり4678±1229)が確認された。ゲノムの98.6%が1+クローンでカバーされ、93.6%が3+クローンでカバーされた。クローンプールの長期間の増殖を避けて、表示に対する増殖効果の影響を最小限に抑えた。これは成功し、1プール当たり平均82%のクローンが1桁以内のリード深度であった。各プールはゲノム全体を単にまばらに抽出するものであるため、任意のプール内の重複、すなわち「クローンの衝突」の割合が低い。したがって、各プールに由来するショートリードは、任意の位置における2つの相同染色体のうちの一方だけの対立遺伝子を圧倒的に示す。節約−最大化法(parsimony−maximization approach)(Bansal及びBafna,2008)を用いて、クローン由来の一倍体遺伝子型のコールを全プールにわたってアセンブルした。得られたハプロタイプアセンブリは、確認されたヘテロ接合SNPの93%をカバーするものであり、N50は386Kbであった。全RefSeq遺伝子のうち、63%が単相のハプロタイプ区画に完全に含まれ、75%が単一の区画に少なくとも半分含まれていた。
この相化されたアセンブリをこの同じ個人のHapMap予測と比較した(図11)。LDが例外的に高い領域(D’>0.90)内では、HapMap予測とのほぼ完全な一致がみられた(99.5%超の一致)。選択した試料がトリオの一部ではなかったため、HapMap予測は遺伝子型コールからの相を予測するのに対立遺伝子間のLDに依存するものである。それに応じて、組換え産物が比較的高い領域では一致が約71%に減少し(D’<0.10)、これにはペアワイズSNP組換えの大部分(66%)が含まれる。このゲノムのハプロタイプ分解的再配列決定は直接的で実験的なものであるため、LD及び対立遺伝子頻度などの集団ベースの測定に完全に直行するものである。したがって、この傾向はHapMap相化の側のエラーを反映している可能性がある(Lecyら,2007)。
集団ベースの推定法とは対照的に、直接的なハプロタイピングでは、複雑な重複遺伝子座におけるものを含めた、まれな対立遺伝子及び構造的変異の相化が可能である(Kiddら,2008)。例えば、これらのデータでは、染色体7q11上に共通の逆位多型を含むクローンのほか、染色体1p36上にまれな欠失多型を含むクローンがみられた。同様の方法を用いて、本明細書に記載の方法による20〜200Kb領域への短い配列リードの一義的な割り当てを活用し得る。中距離連続性情報は、クローンに依存するものであっても、完全にin vitroのものであっても、個人のヒトゲノムの長距離のハプロタイプ分解を容易にする。更に中距離連続性情報は、大型で複雑なゲノムのde novoアセンブリも容易にし得る。
2.D.ビーズ固定化トランスポソームを用いるエマルジョン転移
別の実施形態では、二本鎖DNA(dsDNA)トランスポザーゼ認識配列で終わりフローセルプライマーで始まる、プライマーが隣接する縮重単クローンバーコードオリゴヌクレオチド(すなわち「オリゴ」)でコートしたビーズを、高分子量ゲノムDNA及び遊離のトランスポザーゼを用いて乳化し得る。エマルジョン内でビーズ固定化オリゴ及び攻撃ゲノムDNAにトランスポザーゼを負荷し得る。得られたフラグメントはPCRの準備ができた状態であり、そのバーコードとともに配列決定することができる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けすることができる。
この方法にはいくつかのバリエーションがある。例えば、モザイク末端配列(ME)で終わるバーコード付加オリゴの多数のクローンコピーを、その5’末端で各ビーズ上に固定化する。このビーズを5’−ビオチン化プライマー及び縮重領域を用いるエマルジョンPCRにより作製してもよく、あるいはこれより小型のバーコード付加オリゴのセットを合成して、ビーズに固定化してもよい。MEの逆相補体(ME’)を含む短いオリゴがエマルジョン混合物中に存在してトランスポザーゼ負荷を補助する。あるいは、ME’を乳化前にトランスポザーゼにアニールさせて負荷してもよい。ビーズ結合オリゴを酵素切断が可能な部分を用いて設計し、負荷したトランスポソームを液滴内に拡散させ得る。
2.E.エマルジョン転移及びビーズ捕捉
別の実施形態では、内側に逆方向塩基を有し、したがって3’末端を2つ有するオリゴでビーズをコートする。ビーズから離れた方の逆方向塩基の3’側には、プライマー部位に隣接する縮重単クローンバーコード及び固定化アダプター配列(「N1プライム」)が存在する。これらを基質(例えば、HMW gDNA)及び予めオリゴ5’−N1−MEを負荷したトランスポザーゼとともに乳化する。次いで、各液滴内で転移が進行し、5’−N1−ME配列と共有結合したフラグメントが生じる。次いで、この混合物を加熱して、トランスポザーゼ酵素を不活性化し、断片化した基質を変性させる。徐冷後、転移により生じた5’−N1に隣接するフラグメントを、ビーズ結合オリゴの遊離末端にアニールさせる。次いで、各液滴内に存在する間又はエマルジョン破壊後に、耐熱性ポリメラーゼを用いてビーズ結合オリゴを伸長させる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けする。
別の方法では、ビーズをプライマーが隣接する縮重単クローンバーコードオリゴでコートする。次いで、各ビーズ固定化オリゴの3’末端に、3’−ブロッキング部分を有するランダムヘキサマー(DNA又はLNA)のプールをssDNA又はRNAリガーゼにより付加する。次いで、ビーズ、基質(例えば、HMW gDNA)及び予め付加したトランスポソームを乳化する。転移により、共有結合した5’リンカーを有するフラグメントが生じる。このフラグメントを変性させて、ビーズ結合オリゴのランダムな3’部分にアニールさせる。次いで、ハイブリダイズしたフラグメントを、各液滴内に存在するポリメラーゼにより、又はエマルジョンを破壊しポリメラーゼを加えることにより、バーコードに伸長させる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けする。
2.F.トランスポザーゼ及び乳化を用いる長い分子の末端捕捉
別の実施形態では、末端に連結したアダプターB’を有する長いゲノムDNA分子に、逆方向アダプターA配列がトランスポゾン認識配列の隣接したバブルを形成するバブルトランスポゾンのトランスポゾン挿入を施し得る。次いで、この分子を乳化することができ、この乳化では、微量反応物の一部が大型の分子、アダプターBで終わる単クローン縮重バーコードでコートしたビーズ及びアダプターAを含有する。次いで、PCRを実施することにより、連結したBアダプターを有する最も外側の末端がビーズ上で増幅され、固有のバーコードが付加される。
次いで洗浄したビーズを用いるPCRを実施した後、ライブラリーを配列決定し、バーコードを用いて、元の長い分子の各末端に由来する2つの末端配列を関連付け、元の長い分子のジャンピングライブラリーをその元の長さに関係なく効率的に作製し得る。
2.G.トランスポザーゼによるT7プロモーター挿入
別の実施形態では、一方の側にT7ターミネーターが隣接し、他方の側にT7プロモーターが隣接するバブル構造をトランスポソームに負荷する。この構造をバルク転移により基質(例えば、HMW gDNA)内に1キロベース当たり少なくとも1か所の組込みという密度で組み込む。次いで、得られた材料を、T7 RNAポリメラーゼと、プライミング部位が隣接しT7ターミネーターより前で、組み込まれたバブル構造の一部分に相補的な配列(X)で終わる単クローン縮重バーコードを含むビーズとともに乳化する。各液滴内でin vitro転写を行い、X’で終わる得られたRNA分子をビーズに結合したその相補的な配列とハイブリダイズさせる。次いで、各液滴内で、又はエマルジョン破壊後に、逆転写を行ってビーズ結合オリゴを伸長させる。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けする。
2.H.サブアセンブリを可能にするアダプターバブルを挿入した高分子量フラグメントのエマルジョンPCRの拡張
別の実施形態では、「バブル」を形成するトランスポゾンを挿入してもよく、ここでは、トランスポゾン内のバブルが2つの同じアダプターを逆方向に含んでいる。逆方向の同じアダプターを使用することにより「バブル」構造を維持する。約1,000bpの頻度でバブルを挿入し得る。
図26に示すように、次いで大きいフラグメントを乳化するが、この乳化では、微量反応物の一部が、単一の長いDNAフラグメント、ビオチンを介して5’末端で結合し外側プライマーからなるプライマーでコートした単一のビーズ、縮重バーコード(各ビーズに対して単クローンである)及び転移により挿入されたアダプターに対する相補体を含有する。次いで、多重置換PCR(MDPCR)により、各アダプター挿入部位から伸長する多数のコピーが生じる。
次いで、エマルジョンを破壊してビーズを取り出す。不連続なトランスポゾン上の第二のアダプターによる転移が、増幅フラグメントの各コピーのビーズからランダムな距離で起こる。ビーズと結合していない生成物を除去し、増幅を行うと、大きいフラグメント由来のアンプリコンをすべて互いに関連付けることが可能なライブラリーが得られる。またこのライブラリーは、元のバーコードアダプター由来のゲノムDNAの配列決定により得られた配列を、リードを関連付けるアンカーとして用いる能力を保持しており、この場合、局所的に関連するリードはすべて、異なる二次的な(エマルジョンPCR後の)転移事象から生じたものであるため、そのペアリードをサブアセンブリに使用することができる。
2.I.クローン的にバーコードでテール付しランダムにプライムするナノリットルリアクター内での増幅
別の実施形態では、各ビーズに対して単クローンの縮重バーコード及びクローンでない完全な縮重短k−mer(k=5〜9)を有するプライマー配列又はその鋳型でビーズをコートする。このプライマーは、ビーズからの固定化DNAオリゴの切出しにより、あるいは固定化DNAオリゴのRNAプライマーへのin vitro転写により放出される。ビーズ上に固定するオリゴは、得られるDNA又はRNAプライマーが次のような構造になるように設計する:
5’−[共通1]−[クローンバーコード]−[共通2]−[ランダム_k−mer]−3’OH。
ビーズ固定化オリゴは、その全配列を直接固定化する(例えば、96の異なるバーコードからなる組で)ことにより調製しても、エマルジョンPCRにより調製してもよい。
このように構築されたビーズを、(i)液滴1個当たり基質フラグメント1つの目標濃度の基質DNA(例えば、高分子量ゲノムDNA)、(ii)特に限定されないがT7 RNAP及びNTP、任意の適切な制限酵素、又はウラシルN−グリコシラーゼ及びDNAグリコシラーゼ−リアーゼを含めたプライマー放出/合成のための試薬ならびに(iii)切断/合成されたプライマーからのDNA重合を補助する試薬(例えば、phi29又はBst DNAポリメラーゼ、dNTP)とともに乳化する。
プライマーの放出また合成の後、プライマーは、ランダムプライミングにより基質分子全体の部位とアニールする。アニールしたプライマーは、含まれるDNAポリメラーゼにより鋳型に沿って伸長し、所与の液滴に対して単クローンのタグを5’末端に、また基質に沿ったさまざまな地点に由来する配列を3’末端に含む、ランダムな間隔で配置されたdsDNAフラグメントを複数生じる。一態様では、DNAポリメラーゼは強い鎖置換活性を有する(例えば、phi29DNAP)。
このDNA重合の後にエマルジョンを破壊する。RNAプライマーを用いる場合、各プライマーにコードされるバーコードを当該技術分野で公知の方法によりDNAに逆転写する。最後に、得られたフラグメントを標準的なライブラリー構築技術(トランスポザーゼに基づく技術又はその他の技術)に供し、共通1からなる左側プライマー及び転移又は連結により付加されたアダプターに対応する右側プライマーを用いて増幅する。次いで、バーコードによる関連付けを用いて、同じ前駆体分子に由来するリードをグループ分けすることができる。
実施例3:長距離連続性
配列決定フローセル表面でのきわめて高分子量(HMW)のゲノムDNAへのin situ転移による長距離連続性(例えば、100Kb〜10Mb)のための方法は、上記のように連続性情報をバーコードに捕捉するのではなく、空間的情報(すなわち、物理的に関連する配列決定鋳型が固定化されている相対的座標)を用いて開発される。
このような方法は、(1)in situ転移を利用して任意に大きい単一のDNA分子からペアエンドリードを得ること、及び(2)任意に大きい単一のDNA分子の全長にわたって複数のリードが得られる関連する方法を開発することにより遂行される。
1つの方法では(図12b)、HMW DNA分子をアダプター(FCA1)で末端修飾し得るが、次いで、伸展を行わずにフローセルとハイブリダイズさせる。長いDNA分子は通常、溶液中でランダムコイル構造をとる。一端がハイブリダイズするのに対し、他端は鋳型の輪郭長の平方根に比例する領域内に空間的に閉じ込められている。これにより、他端も、接近した又はほぼ同じ物理的位置(すなわち、「拘束された」物理的位置)でハイブリダイズする確率が増す。次いで、固定化された鋳型に第二のフローセルプライマーに対応するハイブリッドアダプター(FCA2)が負荷され、可能性のある2つの配列決定プライマー(p1又はp2)のうちの1つに対応する配列も含むトランスポソームによるin situ転移を施す。クラスターPCRの後、元の鋳型の約50%から明らかに重複する又は接近した位置にあるクラスターが2つ生じることが予想され、そのクラスターは、それぞれがp1又はp2に隣接するきわめて高分子量(HMW)の分子の一端又は他端に由来するショットガン配列を含むものである。物理的座標が同じ又は接近した位置にあるp1/p2に由来するリードは、同一のきわめて高分子量(HMW)の分子の末端に由来するものである可能性が高い。
この方法では(図12b)、分子は、フローセル配列(すなわち、クラスターPCRプライマー)の1つに相補的な3’一本鎖テールを有するべきである。これを達成するために、フローセルアダプターA(又はB)を溶液中でHMW DNA分子の末端に付加し、次いでアダプターB(又はA)をin situ転移により挿入し得る。実際には、上に挙げた段階の1つで2つの異なる種のアダプター、すなわちA1及びA2(又はB1及びB2)が必要である。その理由は、任意のHMW DNA分子のどちらかの末端のフラグメントに由来するクラスターは近接した位置にあり、異なる配列決定プライマーを使用しなければ他方の配列決定に干渉する可能性があるからである。これは、ともにフローセルアダプター配列(A(又はB))を含むが、3’末端にクロスハイブリダイズしない異なる配列決定プライマーの設計を容易にする固有の配列も含む2つの異なるアダプター(すなわち、A1及びA2(又はB1及びB2))を使用することにより達成することができる。一実施形態では、A1及びA2を溶液中でHMW DNAの末端に、Bを転移により付加した。このスキームは、転移の接合部(Bに隣接する)ではなくHMW分子の末端(A1及びA2に隣接する)の配列決定を可能にするものである。転移の接合部は19bpのモザイク末端(ME)配列を必ず含み、このことが異なる特異性を有する2つの配列決定プライマーの設計を複雑にしている。しかし、後者の方法(19bp MEによる配列決定)も必要以上に無駄というわけではないであろう。
長さ1Mb程度の分子を分析するのに光学マッピングが日常的に使用されることが留意される。本明細書に記載されているシステムは、これとほぼ同じ長さの分子に適用することができる。
別の方法では、伸展した単一DNA分子の光学的配列決定により、同じ分子に沿った複数の位置に由来する最大3bpの近接する配列の情報を得ることが可能であることが示されている(Ramanathanら,2004)。リードが単一分子から直接生じるため、試料の量及びPCRバイアスの問題が大幅に回避される。しかし、この方法を実際に使用してde novoゲノムアセンブリを容易にするためには、リード長を大幅に改善しなければならない。
ここでは、既存の次世代シーケンシングのハードウェア、ソフトウェア及び試薬でin situ転移を用いて、光学的配列決定に関連する方法を容易にし得る。1つの方法では(図12a)、きわめて高分子量(HMW)のDNA分子(105〜107bp)のライブラリーをアダプター(FCA1)で末端修飾し、プライマーでコートしたフローセルの表面とハイブリダイズさせ、電場を用いて物理的に伸展させる。電場をまだ印加している間に、第二のアダプターをフローセル内に流してハイブリダイズさせる((Geissら,2008)と同様に)。これにより、あらゆる鋳型の遊離末端がロックダウンされ、伸展された位置に保持される。次いで、第二のフローセル適合性アダプター(FCA2)を予め負荷したトランスポソームを導入し、同時にこれらのアダプターを挿入しながら、伸展した分子をランダムに断片化することができる。大部分のフラグメントは、FCA1とFCA2をともに有する末端以外は、2つのFCA2アダプターを受け取る。これらのアダプターを介したクラスターPCRでは、伸展した分子の末端のクラスターのみが得られる。このようにして、同じ親分子に由来することがわかっており、クラスター間の物理的距離により関連している、空間的に共線的なクラスターが得られる。
3.A.光学的配列決定及びin situライブラリー構築
制限酵素を用いる光学マッピングにより、ゲノムアセンブリのための長距離連続性マップを作製することに成功している(Zhouら,2009;Zhouら,2007;Linら,1999;Limら,2001;Laiら,1999;Schwartzら,1993)。しかし、この方法は、スター活性及び非効率的な切断に起因する偽陽性及び陰性の切断部位によって制限を受けるものであり、コンセンサスマップを作製するのに同じ領域から複数の光学マップを必要とする。また、制限酵素認識部位の不均一な分布により、反復領域又は複雑度の低い領域に由来する有用な情報の量が制限される可能性もある。
上述のように、最も費用対効果の高いDNA配列決定技術により得られる比較的短いリード長には、de novoゲノムアセンブリ及びヒトゲノム配列決定の質及び完全性に限界がある。現時点では、現在の大量並列配列決定法の規模に相応のスループットで中距離及び長距離の連続性情報を捕捉する強力な方法はほとんど又は全く存在しない。この限界に対処するために、現時点で入手可能な次世代配列決定プラットフォームのフローセル上でin situライブラリーを構築し、光学的配列決定を実施した。このようにして、標準的なIlluminaフローセル上でのin situライブラリー構築を使用して1、2又は3kbずつ分離された30,000超の大腸菌(E.coli)ペアエンドリードを作製することにより連続性情報と一次配列の両方を単一の技術で捕捉する効率的な方法が生まれた。
表面を介したブリッジPCRは1kb以上のインサートでの性能が低く、このことが、Illuminaプラットフォームが高分子量(HMW)DNAから本来の長さのペアエンドリードを作製する能力を制限している。これを回避するために、特定のサイズ範囲に拘束されているHMW DNA分子を、それぞれが2つの可能なプライミング配列決定プライマー(p1又はp2)のうちの1つを含む2つのフローセル適合性のアダプター配列(FCA1及びFCA2)で末端修飾する。次いで、鋳型を定常流下でフローセル表面とハイブリダイズさせるが、その間、鋳型は通常、ランダムコイル構造をとる。一方の鋳型末端がハイブリダイズすると他方の鋳型末端が空間的に制限され、これによりその末端も物理的に近接した位置でハイブリダイズする確率が高まる。次いで、固定化された鋳型に、第二のフローセルアダプター(FCB1)に対応するハイブリッド鋳型を負荷したトランスポソームによるin situ転移を施す。転移事象が生じなければ、各鋳型分子はクラスターが生じるのに必要な2つのフローセルアダプターのうちの一方だけを含むことになる。転移が生じた鋳型では、この過程で、ともにクラスター形成が可能であり、近接して表面とハイブリダイズした低分子量(LMW)鋳型が2つ生じる。ブリッジPCR増幅後、鋳型の50%から、それぞれがHMW分子の一方又は他方に由来するショットガン配列を含む、重複する又は接近した位置にあるクラスターが2つ生じるはずである。次いで順次、p1を用いて鋳型の一端を配列決定し、p2を用いて鋳型の他端を配列決定し、接近した物理的座標に由来するリードは、同じHMW親分子の末端に由来するものである可能性が高い。このようにして、クラスターが生じる空間的座標により、長距離連続性を推定するための情報が得られる。同様にして、一端で繋留し、流れ又は電場を用いて伸展させたHMW DNA分子に、適切なアダプターを用いてin situで転移を施して、同じ親分子に由来する複数の共線的なクラスターを作製する。
材料及び方法
ライブラリー合成
大腸菌(Eschericia coli)B型細胞のゲノムDNAをUSB(Part#14380)から入手し、Bioruptor(Diagenode)で30秒間、物理的に剪断した。次いで、DNAを100Vで2時間実施する1%アガロースゲルでサイズ選択し、精製し(Qiagen QIAquick Gel Extraction Kit)、末端修復した(End−It、Epicentre)。ヘアピンアダプターを自己アニールさせ、次いで、Fast−Link Ligase(Epicentre)を用いて一晩、平滑末端連結した。エキソヌクレアーゼIII(NEB)及びVII(Epicentre)による処理を施して、連結されていないゲノムDNA及びアダプターを除去した。次いで、分子をウラシルに特異的な切出し試薬(USER(商標))(NEB)で処理して、一本鎖のフローセルに相補的な3’テールを得た。
トランスポソーム負荷
トランスポザーゼモザイク、プライマー部位及びフローセルアダプター配列を含む合成DNAオリゴヌクレオチドをIDT社から入手した。室温で20分間、混合及びインキュベートすることにより、アダプターをアニールさせ、トランスポザーゼ(Tn5、Epicentre)に負荷した。
in situフローセルライブラリー構築及び配列決定
特注のクラスター作製プロトコルを作製して、標準的なIllumina Cluster Stationに負荷する鋳型及びトランスポソームを適合させた。最初にフローセルをハイブリダイゼーション緩衝液でプライムし、次いで、1℃/秒の速度で96℃に加熱した。96℃で、標準的なIllumina配列決定ライブラリーを対照として単独の1つのレーンに負荷し、他の7つのレーンにはハイブリダイゼーション緩衝液を加えた。2分間のインキュベーション後、温度を0.05℃/秒で65℃に下げて、対照ライブラリーとハイブリダイズさせた。この時点で、フローセルの入力側と出力側両方にあるマニフォールドの管を取り外した。大腸菌(E.coli)ライブラリーを15μL/分で2.5分間、各レーンに加えた後、フローセルを0.02℃/秒で40℃に徐冷した。5分間のインキュベーション後、フローセルを1℃/秒で55℃に加熱した。次いで、負荷されたトランスポソームを、大腸菌(E.coli)を含むレーンに15μL/分加えた。フローセルを55℃で5分間インキュベートして転移を生じさせた後、40℃に冷却した。次いで、新しいマニフォールドをクラスターステーションに取り付け、Illumina洗浄/増幅緩衝液をフローセル全体に行きわたるように注入した。ライブラリー特異的DNAポリメラーゼを用いて、最初の鎖合成を65℃で5分間、74℃で5分間実施した。次いで、製造者のプロトコルに従って標準ヒト対照ライブラリーを各大腸菌(E.coli)のレーンとハイブリダイズさせた。35サイクルのブリッジ増幅でクラスターを作製した。製造者のプロトコルに従って、RTA 1.8及びSBS v5を備えたIllumina Genome Analyzer Iixにより、別個の単一末端の36bp(SE36)のリードが2つ得られた。
データの収集及び解析
特注のPerlスクリプトを用いて、fastqファイルからリード1及びリード2由来の各クラスターのX−Y座標を抽出した。このデータを使用して、MATLABのnormxcorr2機能を用いて画像オフセットを計算し、それに基づきリード2のX−Y座標を補正した。次いで、Burrows−Wheeler Aligner(BWA)を用いてリードを個別に大腸菌(E.coli)ゲノムにマッピングし、特注のPerlスクリプトを用いてリード1とリード2の間で隣接するクラスターの同一性を決定した。
結果
in vitro及びin situライブラリー構築及び配列決定
一本鎖のフローセル適合性3’テールを含むHMW DNAライブラリーを作製する効率的な方法を本明細書に記載する。簡潔に述べれば、大腸菌(Eschericia coli)のゲノムDNAを物理的に剪断し、1、2又は3kbのサイズの分子をサイズ選択し、精製し、末端対形成させた。ヘアピンのループ付近にウラシル塩基を3個含むヘアピンアダプター(図31a)を自己アニールさせた後、サイズ選択ライブラリーに平滑末端結合させた。エキソヌクレアーゼIII及びVIIによる処理を行って、結合しなかったゲノムDNA及びアダプターを除去し、両端にヘアピンアダプターを有する分子の濃縮された集団を得た。次いで、分子をUSER(商標)で処理して、ヘアピンループを開き、一本鎖のフローセルに相補的な3’テールを解放した。次いで、わずかに修正したサーマルサイクリングプロトコルを用いて、分子の両端を標準的なIlluminaフローセル表面とハイブリダイズさせた。フローセルにフローセル適合性アダプターを負荷したTn5トランスポザーゼを加えて、ランダムな断片化及びHMW分子へのアダプター付加を行うことにより、LMW配列決定の準備ができている鋳型を作製した(図31b)。Illumina GAIIxで、各大腸菌(E.coli)ライブラリーをヒト対照ライブラリーとともに単独のレーンにプールし、別個のシングルエンドの36bpリード(SE36)を2つ得た。
連続性情報の再構成
上記のように構築した1、2及び3kbのライブラリーのマッピングリードの分布を下の表1に示す。
3つの各レーンから、大腸菌(E.coli)にマッピングする平均3.5Mのリードが得られた(表1)。全タイルのクラスターのX−Y座標を用いて、リード1とリード2のX−Y座標間の空間的オフセットを計算した。リード1及びリード2において大腸菌(E.coli)にマッピングされた各クラスターについて、1.5μm以内に近接する最も近い物理的大腸菌(E.coli)マッピングを同じリード内で同定し、全ペアのマッピング距離を数値の順に並べた(図32a及び32b)。最も近い近接クラスターペアのデータを下の表2に示す。
大腸菌(E.coli)リードと大腸菌(E.coli)リードとを比較したときの1、2及び3kbのライブラリーの最も近い近接クラスターペアのデータ。予想サイズ範囲はそれぞれ、800〜1200bp、1500〜2300bp及び2500〜3500bpに設定した。
予想マッピング距離を有する766〜3,402のクラスターペアが各ライブラリーでみられた(図32a及びb)。クラスターが表面で物理的に重複する場合が多く、Illuminaの画像解析ソフトウェアがそれを識別することができないため、単一リード内でみられるクラスターペア数は少なかった。マッピング距離を物理的間隔の関数としてプロットすることにより(図34a)、単一リードにおける2つのクラスター間のデフォルトの分解下限が約0.94μmであることが明らかになった。
リード1とリード2の間で1.5μm未満のクラスターペアを探すことにより、最近接探索を繰り返した。予想されるマッピング間隔の範囲内で最大37,916の異なるクラスターペアが確認された(表2;図33ならびに図32c及び32d)。このうち99%超が、反対方向に進む反対側の鋳型鎖上のリードが得られたクラスターペアであったが、これはin situライブラリー調製物の設計に基づいて予想された方向である。連続的にペアリードを得るこの方法により、ほぼ完全に重複している一部のものを含め、0.94μmより近いクラスターペアが明確に区別された(図34b)。1、2及び3kbのライブラリーのクラスターペアライブラリーの平均マッピング間隔は、それぞれ946bp、1,770bp及び2,995bpであった(図34b、上のヒストグラム)。2kbのライブラリーはサイズ選択の幅が広かったため、やや低くなったと思われる。
表面に繋留したDNAの自由連結鎖モデルに基づき分離距離を計算した。自由連結鎖モデルを用いて、DNA分子の末端間ベクトルの自由空間の分布関数はガウス分布関数である。これは方程式:
により表され、上式中、Lは輪郭長、bはKuhn長(持続長の2倍)、C0は規格化定数である。表面がz=0で、分子が[0,0,z0]から始まる場合、分布関数は
となり、上式中、C0’は新たな規格化定数であり、2項目は表面からのエントロピー斥力を表す。z0→0のとき、その差は式
で表される導関数となり、上式中、C0’’は規格化定数である。
のx、y及びz成分に対するGsurfのプロットを図39a及び39bに示す。
物理的なクラスター間隔の最頻値は、1kbのペアでは0.44μm、2kb及び3kbのペアでは0.67μmであり、分布の端部は1.0μm超で分離された一部のクラスターペアを示している。インフィニペア(Infinipair)リード間でみられるこれらの物理的間隔距離は、予想より著しく大きいものであった(3〜4倍)(図39a)。例えば、3kbのクラスターペア間の平均物理的距離は約1000nmであり、これはほぼ分子の輪郭長に相当する。この不一致に対する説明が少なくとも2つの考えられた:1)画像オフセットがわずかにずれることにより真の物理的距離の過大評価が生じる、又は2)大きい間隔距離がクラスター形成時のアーチファクトとして生じる。オフセットを検証するために、あらゆるクラスターペア間の角度の分布を示すヒストグラムを作成し、全ペアの累積方向ベクトルを計算した。画像が適切に整列していれば、ペア間の角度のランダムな分布が予想され、正味のベクトルの和がゼロであること、所与のタイル内の角度のサブセットへの偏りがみられること、又はベクトルの和がゼロでないことは、オフセットがわずかにずれていることを示唆するものである。これは誤差の重要な原因ではないと思われた。したがって、上に挙げた大きい間隔距離は、クラスター形成時のアーチファクトとして生じるものである。したがって、ここでみられる不一致は、クラスターがフローセル上で形成される方法が原因で生じる(図39c)。クラスター形成が可能な2つの分子が互いに50〜100nm以内でハイブリダイズする場合、ブリッジPCRの初回サイクルの間に、鋳型間で利用可能なアダプターのきわめて局所的な欠乏が生じるであろう。このことが事実上、クラスターを互いに離れて形成させることになる。その結果、各クラスターのX−Y座標が最初のシード鋳型のX−Y座標を正確に反映しなくなる。
リード1を参照として用い、最も接近した最近接をリード1及びリード2からスクリーニングした(図33)。予想マッピング距離内にあり、正しい方向にあるペアでは、1%未満が合わせたデータセットにおいて異なる最近接を有し、この観察結果はリード2を参照として用いた場合でも変わらなかった。相互排他性を必要とする更に制限の強いフィルターを適用すると(すなわち、クラスターAの最近接がBであり、クラスターBの最近接がAである)、候補ペアの数が最大10%だけ減少するが、感度の大幅な増加は得られなかった。また、ライブラリーのサイズが増加するにつれて、目標サイズ範囲内のペアを生じリードが正しい方向にある総クラスターペアの割合が高くなることも留意される。これは、大型の分子が大量のコピーを生じることにより、他の分子が付近の表面とハイブリダイズするのを妨げる立体効果に起因するものであり得る。
示される関連するクラスターペアの数は、大腸菌(E.coli)にマッピングされた全リードのわずか1%程度を占めるにすぎないが、それはin situ転移及びライブラリー調製が技術的に実行可能であること示すものであった。次の少なくとも2つの要因が、効率が低いことの一因となっている可能性がある:1)DNAが、両端が表面とアニールするのに有利に働く適切なコンホメーションをとる確率が低いこと、及び2)連結したアダプター配列に近接した位置でのトランスポゾン挿入。一端が表面に繋留されているDNA分子の末端間ベクトルの3D確率分布は、遊離末端が表面から遠く離れている確率の方が、表面に接近している確率よりはるかに高いことを示している。この問題は、DNAの長さが長くなると悪化する。一端のみがハイブリダイズして分子が転移を受けると、単独のリードが生じ、関連する最近接を有さない。更に、要因(2)は、リード1が大腸菌(E.coli)にマッピングされた、リード1がトランスポザーゼモザイク及び/又はフローセルアダプター配列にマッピングされた9,294の最近接クラスターペアがみられたことにより明らかである。トランスポザーゼ濃度及びインキュベーション時間の微調整によりこのことが改善されるかもしれないが、完全に排除することは困難であろう。
驚くべきことに、3つの全ライブラリーの大部分のリードがヒト、大腸菌(E.coli)又はアダプター配列にマッピングされなかった(表1)。未マッピングリードの平均品質スコアは一般に低く、生の品質スコアの平均が30を上回ったのはわずか8%であり、69%が可能な最低限の生の平均品質スコア2であった(図37a)。最近接の近接性に関して大腸菌(E.coli)にマッピングされたものだけでなく、全リードを考慮に入れると、最近接ペアの15.7%が大腸菌(E.coli)にマッピングされたリード1つと未マッピングリード1つを有し、6.8%が両方とも大腸菌(E.coli)にマッピングされていた。未マッピングリードを1つ有するペアでは、そのわずか6%が生の品質スコアの平均が30超の未マッピングリードを有し、78%が可能な最低限の生の品質スコアの平均を有するものであった(図37b)。これらの未マッピングリードの源は明らかではないが、主として品質スコアのみに基づきフィルターで除外される可能性がある。
HMW分子のin situ伸展及びタグ付け
この配列決定のハイブリダイゼーション効率を向上させ、パラダイムの応用を更に探究する努力において、in situでの伸展及びHMW分子の断片化をIlluminaフローセル内で成功させた。簡潔に述べれば、Piranha溶液を用いてフローセルを洗浄し、2%の3−アミノプロピルトリエトキシシラン(APTES)で処理し、JOJO−1染色したラムダDNAを負荷した。次いで、フローセルに6M KClを負荷し、15V/cmの電場を入力及び出力ポートに90秒間印加した。表面をIllumina GA2シーケンサーで直接画像化して(図35a)、単一の48.5Kb分子の末端が画像化スペースの約40ピクセルにわたって物理的に伸展され得ることを示した。次いで、表面をトランスポソームによりin situで処理し、再び画像化した(図35b)。個々の分子が複数の位置で明らかに断片化されていたが、このことは、表面に固定化された鋳型上でも酵素が高い活性レベルを維持することが可能であることを示している。上に挙げた方法を基礎にして、クラスターが長い鋳型の末端で生じるように、そのままのフローセルでの断片化の前に「ロックダウン」ブリッジに流すことを組み込むことは容易であるはずである。
上記の3kbの大腸菌(E.coli)ライブラリーを用いて、Illuminaフローセル内でのin situでの伸展及び伸展した分子の末端の配列決定にも成功した(図40a)。鋳型ライブラリーを75℃でフローセル内に負荷し、チャンバを0.1℃/秒で55℃に徐冷した。次に、5×SSCと200mM KClとを含有するハイブリダイゼーション緩衝液をチャンバ内に流し、28V/cmの電場を0秒又は2秒間印加した。次いで、in situ転移及び配列決定の前に洗浄緩衝液をチャンバ内に流した。印加電場の非存在下では、ペア内のクラスター間の角度はランダムに分布し、クラスター間の距離との相関関係はみられなかった。少なくとも4.5ピクセル(約1.6μm)で分離されたクラスターペアでは、46%がチャンバ内の電流の軸に対して−π/4〜π/4の角度(図40b)を有していた(図41a)。しかし、電場の存在下では、4.5ピクセル超で分離されたクラスターペアの78%がこの範囲内の角度を有していた(図41b)。このことは、これらのペアが電場を印加した時点でハイブリダイズした分子の少なくとも一端を有し、また電場を印加した時点で、表面とハイブリダイズする前に他端が電場により伸展したことを強く示している。以上の結果は、HMWDNAのin situ伸展及び配列決定をそのままのフローセル内で遂行し得ることを示している。
考察
現在、光学マッピング(Schwartzら,1993)、ナノチャネル内での単一分子の伸展(Riehnら,20057)、単一染色体のソーティング(Fanら,2011)、ロングリード単一分子配列決定法(Eidら,2009)、大型インサートのクローン化(Kitzmanら,2011)及び透過型電子顕微鏡法を含めた、さまざまな長さの規模で連続性情報を明らかにする多様な技術が存在する。しかし、上に挙げた技術はすべて、資本設備のコストがかかることや、実施にあたり専門知識が必要とされることから、大規模で使用するのは難しい。上記の実験では、HMW DNA分子のin situライブラリー調製により既存の配列決定法プラットフォーム上で最大3kb離れた長距離の配列情報を捕捉することが可能になることを成功裏に示した。本明細書に記載の方法は、既存の配列決定ハードウェア及び一段階の酵素ベースのin situライブラリー調製を利用することによって、上に挙げた制限を克服し得るものである。更に、本明細書に記載の方法は、環状化を行わずにペアエンド配列決定を遂行し得ることを示した。
関連する最近接クラスターの生成に影響を及ぼす要因には、少なくとも次の4つのものがある:1)均一な一本鎖のフローセル適合性3’アダプターを有するHMWライブラリーの作製、2)両端とフローセル表面とのハイブリダイゼーション、3)ブリッジされた分子の均一で非破壊的なin situ転移、及び4)大部分が重複しているクラスターの作製。対照実験は、ヘアピンアダプター、次いでExoIII/VII処理を用いる上述の方法が、ヘアピンアダプターを2つ有さないライブラリー分子を除去するのにきわめて有効であることを示唆している。ほかの対照実験では、USER(商標)処理もアダプターを一本鎖にするウラシル切出しにきわめて有効であることが示されており、このことは、最初のライブラリー構築物が堅固なものであることを示唆している。分子の両端が表面付近にあるのはエントロピー的根拠から不利であるという議論があるかもしれないが、各末端が多数あるフローセルアダプターのいずれの1つともハイブリダイズし得ることから、同じ長さの単一分子の環状化よりは有利である。また、繋留した磁気ビーズ又は電場を使用する方法など、両端を表面近くに位置させてハイブリダイゼーション効率を向上させる方法も存在するであろう。in situ転移段階に関しては、さまざまなトランスポザーゼ濃度とインキュベーション時間を用いて、ともにクラスター作製の失敗を招く低すぎる活性と高すぎる活性との間の最適なバランスを特定した。
大部分が重複しているクラスターを意図的に作製することが配列の品質に与える影響を調べるのは難しい。例えば、従来のバルク溶液PCR時によくみられるように、表面でハイブリダイズしクラスターの準備ができた鋳型が2つ近接して存在し、その一方がブリッジ増幅時に他方と競合して勝つということがあり得る。これは配列組成、融解温度、長さ及びポリメラーゼ結合事象の確率性の差に起因するものであり得る。本明細書に記載の方法では、隣接した関連する鋳型の最終的な長さの制御が転移後に制限された(一方が200bp、他方が800bpになり得た)。クラスター同士が接近しすぎているという懸念も否定できないが、この場合、これは当てはまらないと思われる。このような場合、いずれかのクラスター内の分子数が少ないこと及び/又はリードが混在する可能性により、品質スコアが最近接クラスター距離とともに低下するであろう。しかしここでは、リード2の品質スコアは概してリード1より優れており、平均品質スコアと最近接クラスター距離との間に相関関係はないと思われる(図38)。
現在のところ、この方法はバックグラウンドが高く、de novoアセンブリで実際に使用するのは不可能であるが、ライブラリー調製及びin situ転移の方法を更に改良すれば、同時にシグナル対ノイズが改善されるであろう。最終的には、以下に記載するように、in situライブラリー調製法は、フローセル上での相互の物理的関係とゲノム上での距離に相関関係があるリードの作製を可能にし、数多くの単一HMW分子に由来する複数の整列したリードの日常的な光学的配列決定を可能にし得る。
3.B.単一DNA分子からの複数のin situリードの入手
in situ転移の前に伸展を行えば、ランダムコイル法より優れた多くの利点が得られる。第一に、伸展を行うと、共線的なクラスター間の物理的距離が平方根に比例するのではなく、リード間の距離に直接比例することにより、分解能が高くなることが期待される。第二に、伸展は、完全長の任意の長さの単一DNA分子に沿って多数の独立したリードを作製するというこの目的の第二の目標に対応させるのが容易である。図15に図示されている1つのスキームでは、伸展した単一分子に、一本鎖バブルを含む配列により連結された19bpのME配列を含む合成の連続性トランスポゾンによるin vitro転移を施す。これは、縮重配列ではなくバブルの各腕が、フローセルをコートするプライマーの順方向又は逆方向の配列と連結されていることを除けば、図4の戦略の第一段階とほぼ同じものである。この合成の連続性トランスポゾンが高密度(35〜600bpごと)で挿入されると、高度に分散した単一分子が電流によりフローセル上で伸展される(9bpの損傷部位を修復する必要がないように、トランスポソーム複合体を除去することなく)。各バブルからのハイブリダイゼーション及びクラスターPCR開始が中程度であると仮定すれば、これにより、伸展した各分子の全長にわたって複数の配列決定リードが得られる可能性がある。
上記の長距離連続性の方法に従って使用するフローセルの各レーンの全領域は、流れる方向の寸法が245,760ピクセル(2.5cM)、直交する寸法が3,776ピクセルである。ラムダDNA(48.5Kb)を約30ピクセルまで伸展させるとすれば、400×1Mb分もの分子が全レーンに沿って末端から末端まで伸展し得る。約1/20の密度であれば、単一のレーンが二倍体ヒトゲノムの14倍の物理的カバレッジを支持するのに十分であろう。データ解析には、公開されている光学マッピングのアルゴリズム(Zhouら,2009;Zhouら,2007;Linら,1999;Limら,2001;Laiら,1999;Schwartzら,1993)及び配列決定アプリケーションの画像解析でのこれまでの経験(Shendureら,2005;Mitraら,2003)を用いることができる。このような解析は、画像から直接実施しても、あるいはプラットフォームで作製した元の位置に関する情報の注釈付きの配列リードから実施してもよい。位置情報を共線的な又は重複するクラスターから作成された配列データに関連付けることができる。
得られたデータは光学マップにより作成されたデータとほぼ同じであるはずであるが、次のような利点を有する:
1)配列リードは、情報量がde novoアセンブリ及びハプロタイプ分解の両方の制限酵素部位よりはるかに多いデータポイントを表す;
2)この方法では、制限酵素のスター活性及び不完全な消化など、光学マッピングに影響を及ぼす問題が生じない;
3)伸展したDNA分子の全長に沿ったデータポイントの位置が制限酵素切断部位の分布に依存するものではなく、ランダムなものである。
伸展した又はコイル状の鋳型の付近でハイブリダイズする余分な鋳型の作用(物理的座標の解釈に混乱をもたらし得る)は、単一DNA分子の集団のサイズを制限することにより、及び/又は鋳型濃度を調節することにより軽減することができる。しかし、同じプラットフォームで行った場合の通常の密度と同じ密度になるはずであるため、これらの方法は、クラスター密度をそれほど犠牲にすることなく実施することができる。
各末端に付加されたA1及びA2に対応する一本鎖テールを有するHMW DNAを作製するために、2つの戦略を実行する。第一に(図21、左側)、ゲノムDNAを物理的に剪断し(例えば、HydroShearを用いて)、次いで、修復、Aテール付加を施し、A1及びA2に対応するアダプター配列と連結する。次いで、チミン塩基をすべてウラシルに置き換えたA1及びA2に対応するプライマーを用いて、ライブラリーをPCRで増幅する。PCR後のUSER(商標)処理により、二本鎖HMW DNA分子に隣接する所望の3’一本鎖のフローセル適合性テールが得られることが期待される。この方法の利点の1つが、末端配列の自己相補性がA1−A1及びA2−A2生成物の蓄積を制限することが期待されることであるのに対し、この方法の欠点は、ほとんどがPCRに適合しないHMWフラグメントサイズ、すなわち10Kb超のサイズに対しては実用的でないことである。別の方法として、一本鎖のフローセル適合性テールを含むA1及びA2アダプターを、平滑末端化又は制限消化したHMWゲノムDNAに直接連結させるライブラリーを作製した(図21、右側)。この方法の利点は、それがHMW分子の長さに無関係であることである。しかし、A1−A2で隣接するのは生成物の50%のみである(残りはA1−A1又はA2−A2である)。
図21に示すライブラリー調製法をともに用いて、アダプターA(A1/A2)が隣接するショットガンHMW分子を大腸菌(E.coli)ゲノムDNAから作製した。次いで、フローセル表面でのin situ断片化(すなわち、図12bに示す方法)のためのアダプターBを含む合成トランスポゾンを負荷したトランスポザーゼを使用した。
結果は、in situ転移が成功して、アダプターBが、フローセルと予めハイブリダイズした、ショットガンのA1/A2アダプターが隣接するHMWゲノムDNA分子内に導入され得ることを示していた。これは、単一のpuc19フラグメントのみを用いる上記及び図13の実験における改善である。代表的な実験の大腸菌(E.coli)ゲノム全体にわたるマッピング密度を図22に示す。分布はほぼ均一であり、このことは、in situ転移によるクラスターPCR適合性アダプターの導入により、ゲノム表示に明らかなバイアスが生じないことを示している。
更に、ライブラリー分子の有用な配列決定鋳型への変換は現在のところ、きわめて非効率的である。図22に示すデータは、通常の鋳型の10倍の量を負荷した単一のIllumina GA2xレーンのものであるが、このレーンでは予想より100倍少ないクラスターが生じた。この非効率性を説明すると思われるいくつかの理由として、次のものが挙げられる:(a)適切にテール付加された分子の生成が非効率的である:これらの方法(図21)は、標的材料を適切に適合した分子に変換する効率が100%を著しく下回り、さらなる最適化が必要であると思われる;(b)3’テール付加されたdsDNA分子のフローセルプライマーへの捕捉が非効率的であること:クラスターPCRの前にフローセルに対する操作を追加すること(例えば、トランスポザーゼ反応;SDSを含む洗浄によりトランスポザーゼを除去することなど)により、ライブラリー分子の断片化がかなり除去される可能性がある。(c)フローセルでの最初の鎖合成に失敗したこと:Illuminaプラットフォームでの最初の鎖合成で通常使用されるPhusion DNAポリメラーゼは、鎖置換活性がきわめて低い。この最初のサイクルでの鎖置換は、この方法では必要であるが、このプラットフォームで行う従来の配列決定法では不要である。別の方法では、例えば、フローセルでの最初の鎖合成にBstポリメラーゼをPhusionの代わりに使用し得ることが示されている。(d)トランスポザーゼ負荷及び/又はin situ転移が非効率的である:分子が適切にハイブリダイズし、最初の鎖合成が成功しても、比較的末端に近いところでトランスポザーゼ挿入が少なくとも1つ生じなければ、クラスターペアが形成されない。
最後に、図22に示すデータは、単一レーンから得られた200,000を超えるリードを示しているが、そのうち隣接するクラスターの「ペアリード」を有するクラスターに由来するリードはごく一部である(図13)。この問題は、クラスター形成密度が予想より低かったことに関連があるのかもしれない(すなわち、両端に適切なテールを有する分子の非効率的な生成、非効率的なin situ転移)。あるいはこれは、二本鎖DNAが比較的柔軟性に欠けることにより、一本鎖テールを有する分子の両端が表面とハイブリダイズすることが制限された結果であるのかもしれない。
3.C.トランスポザーゼとそれに続くssDNA環状化及び多重置換分岐化RCA
別の実施形態では、図24に示すように、トランスポザーゼに5’リン酸化A’で終わる不連続なオリゴ、次いでB及びdsDNAトランスポザーゼ認識配列を負荷し得る。転移後の変性により、5’リン酸で終わるssDNA、A’、B、ME、次いでゲノムDNAが生じる。次にssDNA環状化を実施し、次いで、フローセルに結合したA及びBプライマーを用いるローリングサークル増幅法(RCA)により、多重置換分岐化ローリングサークル増幅法及びポロニー(すなわち、ポリメラーゼコロニー)形成が生じる。
別の実施形態では、ssDNAの代わりにフォスミドを使用してもよく、これにより長距離の増幅が生じ、40kbのメイトペアライブラリーの生成が可能になり得る。
3.D.DNAナノボール形成又はバーコード結合に長いssDNA骨格を用いる、順序化された転移
別の実施形態では、環状化したssDNA鋳型を、約100bpのフィラーDNA配列を散在させた4つのプライマー(A、B、C及びD)を用いて調製し、環状化し得る(dsDNA付着末端環状化の後、一方の鎖の選択的消化)。次いで、ローリングサークル増幅法(RCA)により、フィラーDNA配列が散在し、A、B、C及びDプライマー部位が反復する長いssDNA分子が得られる。
次に、1つがA配列に対する相補性を有し、かつ中央切断部位を含み、他の3つがB、C及びD配列に相補的である4つの異なる負荷済みのトランスポザーゼ複合体のセットをプールし得る。ゲノムDNA内への転移により、部分的な又は完全な挿入をA、B、C及びDの順序で生じさせることが可能である。ギャップ修復後、A制限部位を消化し、分子を環状化し得るが、これにより、A、gDNA、B、gDNA、C、gDNA、D、gDNAの環状化分子が生じる。次いで、この分子をRCAの鋳型として用いて、4つのアダプター部位を含むDNAナノボールを作製する。
別の実施形態では、元の骨格鋳型は、約100bpのフィラー配列を有しアダプターが隣接する縮重バーコードであってよく、これを環状化し、変性させ、RCAに供する。得られた骨格には、反復する元の鋳型が連続して多数含まれる。トランスポザーゼ複合体に、バーコードに隣接するアダプターに相補的な配列で終わるオリゴを負荷し、ここでは、トランスポザーゼアダプターが南京錠型にアニールする。縮重領域のギャップ修復により、任意の骨格と結合した各トランスポソームが同じバーコードを有するようになる。転移により、おそらく同じバーコードのトランスポソームから起こる隣接する転移事象が生じて、多数のリードが1つの大きい元の前駆体分子と結合する。
3.E.フローセルプライマーを含むトランスポゾンバブルの直接的な配列決定
別の実施形態では、上記のトランスポゾンなどの「バブル」を形成するトランスポゾンを挿入してもよく、ここでは、トランスポゾン内のバブルは、バブルアダプターとしてフローセル結合プライマーに相補的なプライマーを含む。
挿入とそれに続くギャップ修復の後、伸展を行って又は伸展を行わずに、これらの長い分子をフローセルと直接ハイブリダイズさせることができる。直列型のトランスポゾンの一部は、標準的なブリッジPCR法によりクラスターを形成することが可能なAとB’又はA’とBになる。これにより、互いに隣接する位置に由来するクラスターが、同じ高分子量の分子から生じたと考えられる。
あるいは、既知の(距離の予想が可能になる)又は未知の長さの長い分子が、一方のフローセルプライマーに相補的な5’オーバーハングを含む両端に連結されたアダプターを有していてもよい。他方のフローセルプライマーを含むバブルトランスポゾンの転移の後にギャップ修復を行うと、一方のフローセルプライマーの相補体で終わり、他方が散在した分子が生じる。伸展を行って又は伸展を行わずにフローセルとハイブリダイズさせることにより、分子の両端がアニールする。最初の置換伸長で、トランスポゾンを挿入した第二のアダプター全体がコピーされ、逆方向の相補体が生じる。次いで、標準的なブリッジPCRを実施することができ、配列決定後、隣接するクラスターの一部分が元の長い分子の終端から生じたことになる。
3.F.フローセルでアセンブルするトランスポソーム
別の実施形態では、フローセルを再プログラムして、(1)トランスポザーゼ認識配列で終わるオリゴ又は(2)トランスポザーゼ認識配列で終わるハイブリダイズしたブリッジオリゴを含ませる。次いで、トランスポザーゼを負荷緩衝液に加え、フローセル結合オリゴに負荷させる。
次いで、ゲノムDNAをトランスポザーゼ反応緩衝液に加えると、分子がフローセルと接触する場所では必ず、固定化されたトランスポザーゼがその全長にわたって複数の位置を攻撃する。最初の伸長後、得られたフラグメントでブリッジPCRを実施し得る。配列決定により、同じ大きい前駆体分子から生じた一部の隣接するクラスターが得られる。
別の実施形態では、フローセルに固定化されたトランスポソームの一部ではないプライマー配列の1つを含むアダプターが連結された長い分子を付加してもよい。転移後、一方の鎖を変性させて除去すると、他方がクラスターを形成することが可能になる。得られた隣接するクラスターの一部は、同じ大きい前駆体分子に由来するものである。
実施例4:ビサルファイト配列決定法のための低投入量のトランスポザーゼライブラリー調製
上記のように、トランスポザーゼに基づくin vitroショットガンライブラリー構築法(「タグメンテーション」)は、大幅に量を削減したDNAからの配列決定ライブラリーの構築を可能にするものである(図36a)(Adeyら,2010)。簡潔に述べれば、この方法では、不連続な合成オリゴヌクレオチドを負荷したTn5トランスポザーゼの高活性な誘導体を用いて、ゲノムDNAの断片化とアダプター付加を同時に行う。得られた生成物をPCR増幅、次いでハイスループットな配列決定に供する。ゲノムDNAから実行可能なアンプリコンへの変換効率の上昇及び段階数の大幅な減少により、50ナノグラム未満のゲノムDNAから低バイアスできわめて複雑なライブラリーを構築することが可能となる。
全ゲノムのビサルファイト配列決定法との関連でトランスポザーゼに基づくライブラリー調製の利点を保持し、本明細書でtn5mC−seqと呼ばれる方法を本明細書に記載する。転移反応の標的が二本鎖DNAであるのに対し、ビサルファイト処理では一本鎖DNAが生じるため、タグメンテーション反応がビサルファイト処理の前に生じるように、この方法を大幅に修正した(図36b)。第一に、ビサルファイト処理の間にシトシン性が維持されるように、組み込むアダプターのシトシン残基を、19塩基対のトランスポザーゼ認識配列を除きすべてメチル化した(トランスポソーム組立て時に異なる結合を最小限に抑えるため)。第二に、オリゴヌクレオチド置換スキーム(Grunenwaldら,2011)を用いて、各鎖が分子の両端と共有結合したアダプターを有するようにした。具体的には、これには二本鎖のトランスポザーゼ認識配列が16塩基対(Tm=36℃)に短縮されている単一のアダプターによる最初の転移が伴い、これにより組込み後の変性による除去が容易になる。次いで、第二のアダプターがアニールし、ギャップが修復され、3’及び5’両方のアダプターが共有結合により隣接する各鎖が得られる。次いで、断片化されアダプター付加された二本鎖ゲノムDNAに標準的なビサルファイト処理を施して、非メチル化シトシンをウラシルに変換する。これにより一本鎖の変換DNAが得られ、これをPCRで増幅し、配列決定する。
材料及び方法
tn5mC−seqライブラリー構築及び配列決定
10μMのtn5mC−A1(tn5mC−A1top:5’−GAT[5mC]TA[5mC]A[5mC]G[5mC][5mC]T[5mC][5mC][5mC]T[5mC]G[5mC]G[5mC][5mC]AT[5mC]AGAGATGTGTATAAGAGACAG−3’、IDT(配列番号1)と、tn5mC−A1bot:5’−[Phos]−CTGTCTCTTATACACA−3’、IDT(配列番号2)を、100μMの各オリゴ10μlとEB(QIAGen)80μlを95℃で2分間インキュベートした後、0.1℃/秒でRTに冷却することにより、アニールさせたもの)2.5μlを、100%グリセロール2.5μl及びEz−Tn5トランスポザーゼ(Epicentre−Illumina)5μlとともにRTで20分間インキュベートすることにより、トランスポソーム複合体を作製した。
NA20847細胞系から調製したゲノムDNAを各投入量でNextera(登録商標)HMW緩衝液(Epicentre−Illumina)4μl、無ヌクレアーゼ水(Ambion)とともに、調製済みのtn5mCトランスポソーム17.5μl及び2.5μl(使用したDNAの量に関係なく)に対して使用した。反応物を55℃で8分間、サーモサイクラーでインキュベートした後、ビーズ36μl及び推奨プロトコルを使用し無ヌクレアーゼ水(Ambion)14μlで溶離するSPRIビーズクリーンアップ(AMPure)を行った。次いで、10×Ampligase Reaction Buffer(Epicentre−Illumina)2μl、10×dNTP(それぞれ2.5mM、Invitrogen)2μl及び10μMのtn5mC−A2top(IDT)2μlを各反応物に添加し、50℃で2分間、次いで45℃で10分間インキュベートし、0.1℃/秒で37℃に冷却した後、10分間インキュベートすることにより、アダプター2のアニーリングを行った。次いで、5U/μlのAmpligase(Epicentre−Illumina)3μlとT4 DNAポリメラーゼ(tn5mCライブラリーA〜G、NEB)又はスルホロブス(Sulfolobus)DNAポリメラーゼIV(tn5mCライブラリーH〜J、NEB)1μlとを添加し、更に37℃で30分間インキュベートすることにより、ギャップ修復を実施した。次いで、ビーズ36μl及び無ヌクレアーゼ水(Ambion)50μlを用いる推奨プロトコルに従い、SPRIビーズ(AMPure)を用いて反応物をクリーンアップした。
推奨プロトコルに従いEZ DNA Methylation(商標)キット(Zymo)を用いて、50℃で14時間のインキュベーション及び10μlの溶離を行って、ビサルファイト処理を実施した。次いで、溶出物を、Kapa 2G Robust HotStart ReadyMix(Kapa Biosystems)12.5μl、10μMのtn5mC−P1(5’−[Phos]−CTGTCTCTTATACACATCTCTGAG[5mC]GGG[5mC]TGG[5mC]AAGG[5mC]AGA[5mC][5mC]GAT[5mC]−3’、IDT)(配列番号3)1μl、10μMのバーコード付けしたP2(Adeyら(2010)による)1μl、100×SYBR Green(Invitrogen)0.15μl及び無ヌクレアーゼ水(Ambion)0.35μlを用いるPCRの鋳型として使用した。BioRad Opticon Miniリアルタイム機器で、次のパラメータを用いて温度サイクリングを行った:95℃で5時間;(95℃で15分;62℃で15分;72℃で40分;プレート読取り;72℃で10分)×99。反応物をモニターし、プラトーに達したところで直ちにサーモサイクラーから取り出した(12〜15サイクル)。
特注の配列決定プライマー:リード1:tn5mC−R1(5’−GCCTCCCTCGCGCCATCAGAGATGTGTATAAGAGATAG−3’、IDT)(配列番号4)、インデックスリード:tn5mC−Ix(5’−TTGTTTTTTATATATATTTCTGAGCGGGCTGGCAAGGC−3’、IDT)(配列番号5)、リード2:tn5mC−R2(5’−GCCTTGCCAGCCCGCTCAGAAATATATATAAAAAACAA−3’、IDT)(配列番号6)を使用し、Illumina HiSeq2000の全レーン又は一部のレーンを用いて配列決定を行った。リード長は、インデックス9bpの36bpシングルリード(SE36、ライブラリーA及びB、表には不掲載)又はインデックスが9bpの101bpペアエンド(PE101、ライブラリーC〜J)であった。配列決定プライマー間の類似性により、予防措置として、Nextera(登録商標)ライブラリーを含むレーンを有さない実行でのみライブラリーを配列決定した。
リードアライメント
最初に、hg19参照ゲノムの上側(CをTに変換、C2T)及び下側(GをAに変換、G2A)の鎖をともにin silicoでビサルファイト変換した。機器のバルブの不具合により品質が低下する、又は主として「N」塩基からなるリードが生じるレーンで複数のライブラリーを実行したため、アライメント前に、まずリードを実行指標に基づくフィルターにかけた。次に、最初の75塩基中に3個以下の「N」を含むようにリードにフィルターをかけ、次いで、BWAをデフォルトパラメータで用いて、C2T及びG2A鎖の両方に対してアラインした。両鎖に対してアラインされたリードを取り出した。次いで、両方がどちらの鎖に対してもアラインされなかったリードペアを取り出して76bpにトリミングし(SE36実行を除く)、C2T及びG2A鎖の両方に対して再度アラインした。ライブラリーFでは、これらのサイクルの間の機器のバルブ不具合により、リード2の始めから25bpの最初のトリミングが行われた。重複リード(リード1及び2の両方の同じ開始位置を共有するペア)を取り出し、複雑度を決定した。次いで、アライメントスコアが10未満のリードを二次解析の前にフィルターにかけて除外した。固有のリードからアラインされた総塩基数を分子に、ゲノムのアライン可能な総塩基数(1鎖当たり3Gbをわずかに下回る)を分母に用いて、総カバレッジの倍数を計算した。
5mCコーリング
Listerら(2009)に記載されているように、二項分布を用いてメチル化シトシンをコールしたが、ここでは、試行回数として位置をカバーするリード数を、また成功としてシトシン状態を維持しているリード数を用いて、各メチル化関係(CpG、CHG、CHH)の確率質量関数を計算し、成功の確率は、非変換率と配列決定エラー率の合計により決定された総エラー率に基づくものであった。最初は、総エラー率を非メチル化ラムダDNAスパイクインにより決定したが、本発明者らは、リードのギャップ修復部分からエラー率を推定すると(本文中に記載するように)、ラムダ推定よりわずかに高く、より包括的な推定ができることに気付いたため、控えめな推定をするために、最も高く決定された0.009のエラー率を用いた。確率がMの値を下回った場合(ここで、M*(非メチル化CpGの総数)<0.01*(メチル化CpGの総数))、その位置はメチル化としてコールし、位置の1%以下がエラー率によるものとした。
結果
超低投入量のトランスポザーゼに基づくWGBSライブラリーの性能
1ナノグラム〜200ナノグラムの投入ゲノムDNAから構築されたライブラリーを用いて、tn5mC−seqを実施し、リンパ芽球様細胞株(NA20847)のメチロームを配列決定した。各ライブラリーをPCR増幅時にバーコード付けし、Illumina HiSeq2000(PE100;v2 chemistry)でのスパイクイン(5%)又は多数(80〜90%)の配列決定レーンに供した。そのデータを下の表3にまとめる。
tn5mC−seqライブラリー及び配列決定のまとめ
*リード2のバルブ不具合により大幅なリードトリミング(50〜70bp)が行われた。
**リード2の完全なバルブ不具合。
最初に生のリードを特定の位置で機器のバルブ不具合に関するフィルターにかけ、次いで、最初の50塩基中に4個以上のN又はきわめて低品質の塩基(phredスコア≦2)を含むリードを除外した。次いで、BWA(Li及びDurbin,2009)を用いて、in silico変換したhg19(GRC37)の上側及び下側参照鎖に対するアライメントを行った後、トリミング及び再アライメントを行った。重複リードをその開始位置及びインサートサイズにより特定し、除外した。各ライブラリーについてアラインされるフィルター後のリードの百分率が示され、同様に重複ではないリードの百分率も示される。
BWA(Li及びDurbin,2009)を用いて、リードをin silico変換hg19(GRC37)の上側(C→T)及び下側(G→A)鎖の両方にアラインした後、マッピングされていないリードのリードトリミング及び同じパラメータを用いた2回目のアライメントを行った。ギャップ修復段階の間に非メチル化ヌクレオチドが組み込まれるため(第一のリードのインサートサイズにより決定される第二のリードの最初の9塩基対及びアダプターの前の最後の9塩基対)、ギャップ修復領域をメチル化解析から除外しなければならない。しかし、これらの塩基もビサルファイト処理の変換率を内部で制御するものとして働く。これは、全ライブラリーに関して99%超であることがわかり、またこれは、非メチル化ラムダDNAスパイクインを2つのライブラリーに用いて、独立して確認された。
10ナノグラム以上のゲノムDNAを用いて構築した各ライブラリーでは、1億を超える複雑度の高い(90〜97%の非重複)アラインされたリードが得られた(フィルターにかけた全リードの60〜75%;方法を参照)。1ナノグラムから調製したライブラリーの性能はかなり低いものであったが、それでも約1,200万のリードが依然としてアラインされ、ライブラリーの複雑度は妥当なものであった(78%の非重複)。アライメント後のリードをまとめて品質に関するフィルターにかけ、計51.7ギガベースの固有の配列を選別した。平均リード深度は1鎖当たり8.6倍であり、CpGの96%超及び非CpGシトシンの98%超がゲノム全域をカバーしていた(図36c)。
リンパ芽球様細胞株のメチル化
約4,600万の5mC位置(1%FDR;方法を参照)が検出され、カバレッジを有する総シトシンの4.2%を占めていた。メチル化の大部分はCpG関連でみられ(97.1%)、全体のCpGメチル化レベルは69.1%であった。このレベルは、Listerらにより配列決定された胎児線維芽細胞株IMR90のもの(Listerら,2009)(67.7%)と同等であり、分化した細胞型ではCpGメチル化レベルが低下するという観察結果と一致する。更に、CHG及びCHHメチル化レベルはそれぞれ0.36%及び0.37%で、ES細胞よりかなり低く、これも分化した細胞型と一致するものであった。染色体規模では、テロメア長を制御するように働くmiRNA仲介性経路により予想されるように(Benettiら,2008)、メチル化はサブテロメア領域で多くみられた(図36d)。機能注釈の付いた遺伝子領域の分析により、CpGメチル化がプロモーター領域では大幅に減少し、次いで5’UTRでは小幅に増加し、次いで遺伝子本体の全体、特にイントロンではメチル化のレベルが上昇することが明らかになったが(図36e、36f)、これは、既に記載されているCpGメチル化プロファイル(Listerら,2009)と一致するものである。
考察
WGBSのための複雑なショットガンビサルファイト配列決定ライブラリーを迅速に調製する新規な方法としてtn5mC−seqを開発した。簡潔に述べれば、この方法は、DNA−seqライブラリーの構築ですでに明らかにされているように、高活性なTn5トランスポザーゼ誘導体を用いて、一段階でゲノムDNAを断片化してアダプターを付加するものである(Adeyら,2010)。ライブラリー分子がビサルファイト処理に耐えるように、アダプターをすべてのシトシン残基の部分でメチル化し、オリゴヌクレオチド置換戦略を用いて、アダプターが共有結合により隣接している各一本鎖を作製する。効率の高いトランスポザーゼ及び損失を伴う段階の全体的な減少により、わずか10ngの投入DNAから高品質なビサルファイト配列決定ライブラリーの構築が、また1ngの投入DNAから有効な配列の構築が可能となる。
上記の結果は、DNA−Seqライブラリー調製のためのトランスポザーゼに基づく方法の派生物が、その利点がはるかに意義のある次世代配列決定法の重要な応用をどのように可能にするかを示している。きわめて少量の投入ゲノムDNAからこのようなライブラリーを作製する能力は、全メチローム配列決定の実用性を実質的に改善するものであり、またRRBSなどの包括性の少ない方法の重要な利点を取り出すものである(Meissnerら,2005;Harrisら,2010)。具体的には、tn5mC−seqによる低投入量のWGBSは、DNAの品質がボトルネックとなっている数多くの状況、例えば、エピジェネティックな展望が目的であるが組織量により解析が制限されている発生中の解剖学的構造、顕微解剖組織又は癌などの病理において、メチル化を包括的に調べることを可能にし得る。
実施例5:離れた調節部位の同定及び染色体立体配座の測定
最近の研究では、ゲノム内の遺伝要素間の物理的相互作用の重要性及び複雑性が示されている。このような相互作用を測定することは、離れたシス及びトランス調節DNAが遺伝子調節においてどのように役割を果たしているか(どの遺伝子がどのエンハンサーの影響を受けているのか、染色体が細胞内でどのように配置されているのか、how AR及びERのような特定の転写因子がどのように結合し遺伝子発現に影響を及ぼすのかを含む)を説明するのに役立ち得る。また、それにより癌その他の遺伝子疾患に関与する再編成及び逆位形成の手掛かりを得ることも可能である。
ハイスループットな配列決定法を用いて物理的相互作用をアッセイする現在の方法には、ペアエンドタグ配列決定法を用いるクロマチン相互作用の解析(ChIA−PET;転写因子結合部位の相互作用)及びHi−C(ゲノムのマップを作製する方法)がある。この2つの方法には、配列決定のためにDNAの離れた領域を対にするためにその方法で用いる分子内連結の効率及び特異性が低いことに起因し得る限界がある。このような連結段階には多量の投入DNA(100+μm)が必要であり、DNAのフラグメント同士が通常は互い関連がなくても連結されるという技術的アーチファクトが生じ得る。
これらの問題点は、胚性幹細胞及び癌細胞のような小さい集団の細胞のゲノム構造を理解しようとする際に重要となる。それはまた、転写因子結合により生じて測定されるDNA相互作用に関するいかなる推論も、概してきわめて大きい細胞集団(例えば、108個の細胞又は約500マイクログラムのDNA)のものであることを意味する。異なる細胞が異なるゲノム構造又は転写因子結合パターンを有し得ることを考えると、開始DNAが少なくて済む方法が有効であろう。
したがって、比較的小さい集団の細胞内のDNA−DNA及びDNA−タンパク質相互作用を測定する方法を以下に提供する。このような方法は、「インフィニペア(infinipair)」技術(上の実施例3Aに記載)を用いて、架橋し免疫沈降させたDNAの複数のフラグメントを直接配列決定するものである(図28)。この方法は、分子内連結という余分な段階を経ずに、架橋されたDNAフラグメントを直接アッセイするという点で、CHIA−PET法及びHi−C法とは異なるものである。
5.A.離れた調節結合部位の同定
一実施形態では、実施例3Aに記載した技術(本明細書では、「インフィニペア(inifinpair)」技術と呼ぶ)を改変したものを用いて、例えばエストロゲン受容体にみられるような、転写因子(TF)結合部位間の相互作用を同定し得る。図29に示すように、ホルモン(約10ng)により約104個の細胞を誘導し、次いで細胞のクロマチン免疫沈降を行う。次に、細胞を1%ホルムアルデヒドで架橋し超音波処理することにより、クロマチン繊維を破壊する。次いで、ER/AR/受容体特異的抗体を用いて、結合クロマチンフラグメントを濃縮する。
次に、T4ポリメラーゼを用いて末端修復を実施し、A+Bアダプターと連結する。この方法では、リン酸化、半分のリンカーの連結又は連結の希釈は不要である。次いで、インフィニペア(infinipair)技術を用いて、免疫沈降した複合体に対応するクラスターを作製する。隣接するクラスターを対にして、染色体上の位置間の相互作用のリストを作成する。
次いで、推定相互作用のリストを絞り込むために、収集したデータをCHIP−Seq情報と交差させて、転写因子の既知の結合部位に関する情報を得る。複数のライブラリーから得られた情報を重ね合わせることで、コールされた相互作用の信頼度が高まる。このデータを用いてクロマチン相互作用の構造の特徴を明らにし、更にこれを用いて調節領域とDNAを関連付ける(すなわち、遺伝子とエンハンサーを関連付ける)。
この方法を用いることの有用性をいくつか挙げると、特に限定されないが、(1)相互作用の対形成の精度が高まること―(フラグメント間の連結がない)、(2)必要なDNA投入量が少なくなり、使用し得る用途が増える(すなわち、比較的少ないセットのサンプル(ES細胞/癌細胞/比較的小さい集団の健常細胞)内の相互作用を同定し得る)こと、(3)作業の流れた容易になること―連結、PCR、MmeI消化などが不要である、(4)必要な配列決定が少なくなることがある。
5.B.染色体立体配座の推定
別の実施形態では、インフィニペア(infinipair)技術を用いて、少数の細胞において染色体立体配座をモデル化する。Hi−C法などのこれまでの方法では、多数の細胞(約107個の細胞;約50μmのDNA)が必要である。図30に示すように、ゲノムDNAを架橋する。ホモジナイザーを用いて細胞を溶解させた後、クロマチンを遠沈する。1%SDS、次いでTritonX−100中でインキュベートすることにより、クロマチンタンパク質を除去する。次いで、HindIII中で一晩インキュベートすることによりクロマチンを消化する。
抗クロマチン抗体に対するビーズの入ったカラムを用いて、クロマチンを精製する。次いで、ビオチン化する必要なしにA及びBアダプターをDNAフラグメントに連結する。次に、インフィニペア(infinipair)技術を用いて、複合体に対応するインフィニペア(infinipair)クラスターを作製する。隣接するクラスターを対にして、染色体上の位置間の相互作用のリストを作成する。次いで、得られた情報を用いて、3次元モデルを作製し、特定の細胞型の立体配座の理解を深める。
実施例6:より費用対効果の高い配列決定法のための短距離、中距離及び長距離の連続性の統合
この実施例の焦点には、1)実施例1〜3で開発されたマウスゲノムの高品質なde novoアセンブリの方法の統合;2)ヒトゲノムのハプロタイプ分解的再配列決定の上記方法の統合;及び3)他の次世代配列決定パラダイムの適合性の拡張が含まれる。
6.A.コスト分析及び1,000ドルの目標への道
本明細書に記載の方法の重要な側面は、そのコストが、それが統合される配列決定法プラットフォームのコストにほぼ全面的に依存しているという点である。「X」をゲノム再配列決定のコストとすれば、本明細書に記載の方法のコストは「a+bX」に要約され、上式中、「a」は連続性情報捕捉の1サンプル当たりの固定コスト(例えば、in situ転移反応のコスト)であり、「b」は、ゲノム再配列決定に対するその情報を回収するのに必要な配列決定の割合である。「a」の見積もりは低い、すなわち1方法当たり30ドル未満である。これは、in situ転移及びPCRなどの反応では、ゲノムDNAが単一の試薬体積内でまとめて操作されるからである。更に、縮重オリゴヌクレオチドなどの試薬及びマイクロ流体装置は比較的安価であり、多く使用することでそのコストを償却することができる。それに比べて「b」の値は予測が困難であり、各方法の実施及び最適化がどれだけ成功するかに左右される。しかし、バーコード自体は、それがcisの状態にある一次リードに比べれば短い(例えば、SE25バーコード対PE76一次リード)ことが注目される。
次に挙げる本明細書に記載の方法の各応用に関連する配列決定のコストは、同じプラットフォームを用いる哺乳動物ゲノムの40×再配列決定のコストとほぼ同じ、すなわち「b≒1」になるべきである。マウス及びヒトゲノムの最初のアセンブリにより示されるように、同時に十分な連続性情報が得られる限り、ゲノム再配列決定で現在使用されているものよりも実質的に少ないサンプリングで、哺乳動物ゲノムの高品質なde novoアセンブリを達成することが可能である。
6.B.マウスゲノムのde novoアセンブリ
上記の方法から得られた連続性情報を用いて、哺乳動物ゲノムの高品質なde novoアセンブリをde novoで入手し得る。これを達成するために、従来型又は「次世代」のde novoアセンブリ(Schatzら,2010)のための既存のツールをこれらのデータに転用及び適用し、必要に応じて追加のソフトウェアを開発する。品質をあまり落とさずコストを最小限に抑えるために、連続性マッピング法の最適な組合せ(すなわち、さまざまな規模で)を決定する。これには、例えば、各方法からのデータがさまざまな割合で含まれるように各連続性マッピング法でゲノムをオーバーサンプリングし、次いでダウンサンプリングし、de novoアセンブリの品質に対する影響を評価することが必要となり得る。テストケースとしてマウスゲノムのde novoアセンブリに焦点を当てると、最初のアセンブリの連続性(すなわち、24.8KbのコンティグN50;N5016.9Mbのスーパーコンティグ)を40×再配列決定に必要なデータ(2.5Gb×40=約100Gb)と同量のデータで上回ることになる、すなわち「b≒1」となる。最初、配列決定のコストの方が高くなる、すなわち「bX>>a」となるが、これが変化しても、全規模の連続性マッピング法を用いても(すなわち、短距離、中距離及び長距離の連続性)、調製反応の合計コスト(「a」)が100ドル未満に抑えられるべきである。
6.C.ヒトゲノムのハプロタイプ分解的再配列決定
予備データ(2.D)は、適度な量の連続性情報により広範囲のハプロタイプ分解能が得られることを示している。このデータには、ハプロタイプ分解的ゲノム再配列決定に必要なソフトウェアがすでに開発されているか、又はこれから開発する。更に、一倍体遺伝子型を正確にコールするのに必要な配列決定の量は、二倍体遺伝子型のコールの半分に満たないため、同じデータを用いてSNP解析ハプロタイプを発見するアルゴリズムを開発する。連続性マッピング法を統合して、HapMapデータとの一致をD’>0.90で99.5%超に維持しながら、N50が少なくとも1Mbのハプロタイプ分解ブロックにおいて95%超のカバレッジを目標に、ヒトゲノムを再配列決定すると同時にハプロタイプ分解を行う。マウスゲノムのde novoアセンブリと同様に、これは、40×のハプロタイプ検出不能なヒトゲノムの再配列決定法に必要とされるであろう同じ量の配列決定(3Gb×40=約120Gb)、すなわち「b≒1」で達成され得る。
6.D.他の配列決定パラダイムへの連続性マッピング法の適合性の拡張
本明細書に記載されている連続性情報を捕捉する方法は、それと統合する配列決定技術との使用を対象にしたものであるが、このような方法を他の配列決定技術のために及び他の配列決定法プラットフォームとともに開発してもよい。これらには、他のサイクリックアレイ(cyclic−array)プラットフォーム(例えば、Polonator、SOLiD)及びナノポアシーケンシングなどの新たなパラダイムが含まれる。
本発明のまた別の態様は、以下のとおりであってもよい。
〔1〕連続性情報を捕捉する方法であって、以下の工程、
標的DNA配列をトランスポザーゼで処理して1つ以上の断片化事象又は挿入事象を生じさせる工程、
前記標的DNA配列に1つ以上の認識配列を、(i)前記トランスポザーゼ処理の間又は(ii)後の増幅の間に付加又は挿入する工程、
前記処理されたDNAを配列決定する工程、
共通の特性を有する標的DNA配列又は認識配列を同定することにより、連続性情報を捕捉する工程、
を含むことを特徴とする方法。
〔2〕前記1つ以上の断片化事象又は挿入事象により、前記標的DNAに由来する標的核酸分子のライブラリーの形成が生じる、前記〔1〕に記載の方法。
〔3〕前記1つ以上の認識配列が、各断片化事象又は挿入事象に隣接する配列に対称的にタグ付けされる1つ以上のバーコードである、前記〔2〕に記載の方法。
〔4〕前記1つ以上のバーコードの前記共通の特性が、同一のバーコード配列又は相補的なバーコード配列である、前記〔3〕に記載の方法。
〔5〕前記標的DNA配列が、一組の標的DNAフラグメントを含む、前記〔1〕に記載の方法。
〔6〕前記トランスポザーゼで処理する前又は後に、前記標的DNAフラグメントをエマルジョン又は希釈剤で区画化し、標的DNAフラグメントの区画を2つ以上生じさせることを更に含む、前記〔5〕に記載の方法。
〔7〕前記1つ以上の認識配列が、それぞれ前記区画化段階で生じた前記1つ以上の区画に対応する1つ以上の区画特異的バーコードである、前記〔6〕に記載の方法。
〔8〕前記1つ以上のプライマー配列の前記共通の特性が、同一の区画特異的バーコードである、前記〔7〕に記載の方法。
〔9〕区画特異的バーコードを有するプライマーを用いて核酸増幅を実施することを更に含む、前記〔7〕に記載の方法。
〔10〕前記1つ以上の認識配列が、前記標的DNA配列又は前記標的DNA配列内のインサートの末端を修飾する1つ以上のアダプター配列である、前記〔1〕に記載の方法。
〔11〕前記1つ以上のアダプター配列が、1つ以上の表面結合プライマーに相補的である、前記〔10〕に記載の方法。
〔12〕前記トランスポザーゼが、第二の表面結合プライマーに相補的な核酸と結合している、前記〔11〕に記載の方法。
〔13〕前記1つ以上のアダプター配列を前記1つ以上の表面結合プライマーとハイブリダイズさせることを更に含む、前記〔11〕に記載の方法。
〔14〕前記共通の特性が、拘束された物理的位置である、前記〔13〕に記載の方法。
〔15〕前記トランスポザーゼが、表面結合認識配列と結合して表面結合トランスポザーゼ複合体を形成する、前記〔1〕に記載の方法。
〔16〕前記共通の特性が、拘束された物理的位置である、前記〔15〕に記載の方法。
〔17〕前記標的DNA配列の処理が、複数の表面結合トランスポザーゼ複合体を前記標的DNA配列に曝すことを含む、前記〔15〕に記載の方法。
〔18〕ビサルファイト配列決定の方法であって、以下の工程、
a)それぞれが二本鎖DNAトランスポザーゼ認識配列と、メチル化シトシン(C)残基を有する一本鎖DNAアダプターオーバーハングとを含むトランスポザーゼ複合体を用いて、標的DNA分子内へのin vitro転移を実施する工程、
b)転移済みの標的DNA分子にビサルファイト処理を施す工程、
c)核酸増幅を実施する工程、
d)得られた核酸ライブラリーを配列決定する工程、
を含むことを特徴とする方法。
〔19〕工程(a)の後かつ工程(b)の前に、第二のアダプターを標的DNAに由来する核酸フラグメントに組み込むことを更に含み、前記第二のアダプターが、工程(c)での核酸増幅を容易にするように設計されている、前記〔18〕に記載の方法。
〔20〕工程(b)の後かつ工程(c)の前に、第二のアダプターを標的DNAに由来する核酸フラグメントを組み込むことを更に含み、前記第二のアダプターが、工程(c)での核酸増幅を容易にするように設計されている、前記〔18〕に記載の方法。
〔21〕染色体立体配座を推定する方法であって、以下の工程、
a)細胞内のDNAに架橋を施す工程、
b)架橋DNAを細胞から単離する工程、
c)前記架橋DNAを断片化する工程、
d)断片化された架橋DNA分子を、第一の表面結合プライマーに相補的であるか、又は第一の表面結合プライマーに対応するアダプターで末端修飾する工程、
e)前記断片化し末端修飾した標的DNA分子の末端を前記第一の表面結合プライマーとハイブリダイズさせる工程、
f)それぞれがDNAトランスポザーゼと、第二の表面結合プライマーに対応する1つ以上の配列とを含む非表面結合トランスポザーゼ複合体を用いて、転移を実施する工程、 g)クラスターの増幅を実施して、クローン化により生じた核酸のクラスターを調製する工程、
h)クローン化により生じた核酸のクラスターを配列決定する工程、
i)隣接するクラスター同士を対にすることにより、染色体上の位置間の物理的相互作用を決定する工程、
を含むことを特徴とする方法。
〔22〕前記単離された架橋DNAが、架橋DNA−タンパク質複合体の一部である、前記〔21〕に記載の方法。
〔23〕工程(c)の後かつ工程(d)の前に、1つ以上の特定の架橋DNA−タンパク質複合体を免疫沈降により濃縮することを更に含む、前記〔22〕に記載の方法。
(参考文献)
以下に挙げる参考文献、特許及び公開特許出願ならびに上記明細書で引用されるすべての参考文献は、その全体が本明細書に記載された場合と同様に、その内容全体が参照により本明細書に組み込まれるものとする。

Adey A,Morrison HG,Asan,Xun X,Kitzman JO,Turner EH,Stackhouse B,MacKenzie AP,Caruccio NC,Zhang X et al.2010.Rapid,low−input,low−bias construction of shotgun fragment libraries by high−density in vitro transposition.Genome Biol 11(12):R119.
Ball MP,Li JB,Gao Y,Lee JH,LeProust EM,Park IH,Xie B,Daley GQ,Church GM.2009.Targeted and genome−scale strategies reveal gene−body methylation signatures in human cells.Nat Biotechnol 27(4):361−368.
Bansal V,Bafna V.HapCUT:an efficient and accurate algorithm for the haplotype assembly problem.Bioinformatics.2008;24(16):i153−9.
Benetti R,Gonzalo S,Jaco I,Munoz P,Gonzalez S,Schoeftner S,Murchison E,Andl T,Chen T,Klatt P et al.2008.A mammalian microRNA cluster controls DNA methylation and telomere recombination via Rbl2−dependent regulation of DNA methyltransferases.Nat Struct Mol Biol 15(3):268−279.
Bentley DR,Balasubramanian S,Swerdlow HP,Smith GP,Milton J,Brown CG,et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature.2008;456(7218):53−9.PMCID:PMC2581791.
Branton D,Deamer DW,Marziali A,Bayley H,Benner SA,Butler T,et al.The potential and challenges of nanopore sequencing.Nat Biotechnol.2008;26(10):1146−53.PMCID:PMC2683588.
Braslavsky I,Hebert B,Kartalov E,Quake SR.Sequence information can be obtained from single DNA molecules.Proc Natl Acad Sci U S A.2003;100(7):3960−4.PMCID:PMC153030.
Clark SJ,Harrison J,Paul CL,Frommer M.1994.High sensitivity mapping of methylated cytosines.Nucleic Acids Res 22(15):2990−2997.
Cokus SJ,Feng S,Zhang X,Chen Z,Merriman B,Haudenschild CD,Pradhan S,Nelson SF,Pellegrini M,Jacobsen SE.2008.Shotgun bisulphite sequencing of the Arabidopsis genome reveals DNA methylation patterning.Nature 452(7184):215−219.
Deng J,Shoemaker R,Xie B,Gore A,LeProust EM,Antosiewicz−Bourget J,Egli D,Maherali N,Park IH,Yu J et al.2009.Targeted bisulfite sequencing reveals changes in DNA methylation associated with nuclear reprogramming.Nat Biotechnol 27(4):353−360.
Down TA,Rakyan VK,Turner DJ,Flicek P,Li H,Kulesha E,Graf S,Johnson N,Herrero J,Tomazou EM et al.2008.A Bayesian deconvolution strategy for immunoprecipitation−based DNA methylome analysis.Nat Biotechnol 26(7):779−785.
Dressman D,Yan H,Traverso G,Kinzler KW,Vogelstein B.Transforming single DNA molecules into fluorescent magnetic particles for detection and enumeration of genetic variations.Proc Natl Acad Sci U S A.2003;100(15):8817−22.PMCID:PMC166396.
Drmanac R,Sparks AB,Callow MJ,Halpern AL,Burns NL,Kermani BG,et al.Human genome sequencing using unchained base reads on self−assembling DNA nanoarrays.Science.2009;327(5961):78−81.
Duan Z,Andronescu M,Schutz K,McIlwain S,Kim YJ,Lee C,et al.A three−dimensional model of the yeast genome.Nature 2010;465(7296):363−7.PMCID:PMC2874121.
Eid J,Fehr A,Gray J,Luong K,Lyle J,Otto G,et al.Real−time DNA sequencing from single polymerase molecules.Science.2009;323(5910):133−8.
Fan HC,Wang J,Potanina A,& Quake SR(2011)Whole−genome molecular haplotyping of single cells.Nat Biotech 29(1):51−57.
Fullwood,M.J.et al.An oestrogen−receptor−α−bound human chromatin interactome.Nature 462,5864(2009).
Geiss GK,Bumgarner RE,Birditt B,Dahl T,Dowidar N,Dunaway DL,et al.Direct multiplexed measurement of gene expression with color−coded probe pairs.Nat Biotechnol.2008;26(3):317−25.
Gnerre S,Maccallum I,Przybylski D,Ribeiro FJ,Burton JN,Walker BJ,Sharpe T,Hall G,Shea TP,Sykes S,Berlin AM,Aird D,Costello M,Daza R,Williams L,Nicol R,Gnirke A,Nusbaum C,Lander ES,Jaffe DB.High−quality draft assemblies of mammalian genomes from massively parallel sequence data.Proc Natl Acad Sci U S A.2010 Dec 27.[Epub ahead of print]PubMed PMID:21187386.
Grunenwald H,Baas B,Goryshin I,Zhang B,Adey A,Hu S,Shendure J,Caruccio N,Maffitt M.2011.Nextera PCR−Free DNA Library Preparation for Next−Generation Sequencing..(Poster Presentation,AGBT).
Gu H,Smith ZD,Bock C,Boyle P,Gnirke A,Meissner A.2011.Preparation of reduced representation bisulfite sequencing libraries for genome−scale DNA methylation profiling.Nat Protoc 6(4):468−481.
Harris RA,Wang T,Coarfa C,Nagarajan RP,Hong C,Downey SL,Johnson BE,Fouse SD,Delaney A,Zhao Y et al.2010.Comparison of sequencing−based methods to profile DNA methylation and identification of monoallelic epigenetic modifications.Nat Biotechnol 28(10):1097−1105.
Hiatt JB,Patwardhan RP,Turner EH,Lee C,Shendure J.Parallel,tag−directed assembly of locally derived short sequence reads.Nat Methods.2010;7(2):119−22.PMCID:2848820.
http://www.epibio.com/nextera/nmeth_f_269.pdf.
Johnson DS,Mortazavi A,Myers RM,Wold B.Genome−wide mapping of in vivo protein−DNA interactions.Science.2007;316(5830):1497−502.
Kidd JM,Cooper GM,Donahue WF,Hayden HS,Sampas N,Graves T,et al.Mapping and sequencing of structural variation from eight human genomes.Nature.2008;453(7191):56−64.PMCID:PMC2424287.
Kitzman JO,Mackenzie AP,Adey A,Hiatt JB,Patwardhan RP,Sudmant PH,Ng SB,Alkan C,Qiu R,Eichler EE,Shendure J.Haplotype−resolved genome sequencing of a Gujarati Indian individual.Nat Biotechnol.2011 Jan;29(1):59−63.Epub 2010 Dec 19.PubMed PMID:21170042.
Kitzman JO,et al.(2011)Haplotype−resolved genome sequencing of a Gujarati Indian individual.Nat Biotech 29(1):59−63.
Lai Z,Jing J,Aston C,Clarke V,Apodaca J,Dimalanta ET,et al.A shotgun optical map of the entire Plasmodium falciparum genome.Nat Genet.1999;23(3):309−13.
Lander ES,Linton LM,Birren B,Nusbaum C,Zody MC,Baldwin J,et al.Initial sequencing and analysis of the human genome.Nature.2001;409(6822):860−921.
Levy S,Sutton G,Ng PC,Feuk L,Halpern AL,Walenz BP,et al.The diploid genome sequence of an individual human.PLoS Biol.2007;5(10):e254.PMCID:PMC1964779.
Li R,Zhu H,Ruan J,Qian W,Fang X,Shi Z,et al.De novo assembly of human genomes with massively parallel short read sequencing.Genome Res.2010;20(2):265−72.PMCID:PMC2813482.
Li Y,Kim HJ,Zheng C,Chow WH,Lim J,Keenan B,et al.Primase−based whole genome amplification.Nucleic Acids Res.2008;36(13):e79.PMCID:PMC2490742.
Li H,Durbin R.2009.Fast and accurate short read alignment with Burrows−Wheeler transform.Bioinformatics 25(14):1754−1760.
Li Y,Zhu J,Tian G,Li N,Li Q,Ye M,Zheng H,Yu J,Wu H,Sun J et al.2010.The DNA methylome of human peripheral blood mononuclear cells.PLoS Biol 8(11):e1000533.
Lieberman−Aiden E,van Berkum NL,Williams L,Imakaev M,Ragoczy T,Telling A,et al.Comprehensive mapping of long−range interactions reveals folding principles of the human genome.Science.2009;326(5950):289−93.PMCID:PMC2858594.
Lim A,Dimalanta ET,Potamousis KD,Yen G,Apodoca J,Tao C,et al.Shotgun optical maps of the whole Escherichia coli O157:H7 genome.Genome Res.2001;11(9):1584−93.PMCID:PMC311123.
Lin J,Qi R,Aston C,Jing J,Anantharaman TS,Mishra B,et al.Whole−genome shotgun optical mapping of Deinococcus radiodurans.Science.1999;285(5433):1558−62.
Lister R,Pelizzola M,Dowen RH,Hawkins RD,Hon G,Tonti−Filippini J,Nery JR,Lee L,Ye Z,Ngo QM et al.2009.Human DNA methylomes at base resolution show widespread epigenomic differences.Nature 462(7271):315−322.
Margulies M,Egholm M,Altman WE,Attiya S,Bader JS,Bemben LA,et al.Genome sequencing in microfabricated high−density picolitre reactors.Nature.2005;437(7057):376−80.PMCID:PMC1464427.
Mazutis L,Araghi AF,Miller OJ,Baret JC,Frenz L,Janoshazi A,et al.Droplet−based microfluidic systems for high−throughput single DNA molecule isothermal amplification and analysis.Anal Chem.2009;81(12):4813−21.
Meissner A,Gnirke A,Bell GW,Ramsahoye B,Lander ES,Jaenisch R.2005.Reduced representation bisulfite sequencing for comparative high−resolution DNA methylation analysis.Nucleic Acids Res 33(18):5868−5877.
Mitra RD,Shendure J,Olejnik J,Edyta Krzymanska O,Church GM.Fluorescent in situ sequencing on polymerase colonies.Anal Biochem.2003;320(1):55−65.
Mortazavi A,Williams BA,McCue K,Schaeffer L,Wold B.Mapping and quantifying mammalian transcriptomes by RNA−Seq.Nat Methods.2008;5(7):621−8.
MGSC(2002)Initial sequencing and comparative analysis of the mouse genome.Nature 420(6915):520−562.
Ng SB,Turner EH,Robertson PD,Flygare SD,Bigham AW,Lee C,et al.Targeted capture and massively parallel sequencing of 12 human exomes.Nature.2009;461(7261):272−6.PMCID:PMC2844771.
Ramanathan A,Huff EJ,Lamers CC,Potamousis KD,Forrest DK,Schwartz DC.An integrative approach for the optical sequencing of single DNA molecules.Anal Biochem.2004;330(2):227−41.
Riehn R,et al.(2005)Restriction mapping in nanofluidic devices.Proceedings of the National Academy of Sciences of the United States of America 102(29):10012−10016.Schatz MC,Delcher AL,Salzberg SL.Assembly of large genomes using second−generation sequencing.Genome Res.2010;20(9):1165−73.PMCID:PMC2928494.
Ritz A,Bashir A,Raphael BJ.Structural variation analysis with strobe reads.Bioinformatics.2010;26(10):1291−8.
Schwartz DC,Li X,Hernandez LI,Ramnarain SP,Huff EJ,Wang YK.Ordered restriction maps of Saccharomyces cerevisiae chromosomes constructed by optical mapping.Science.1993;262(5130):110−4.
Shendure J,Ji H.Next−generation DNA sequencing.Nat Biotechnol.2008;26(10):1135−45.
Shendure J,Mitra RD,Varma C,Church GM.Advanced sequencing technologies:methods and goals.Nat Rev Genet.2004;5(5):335−44.
Shendure J,Porreca GJ,Reppas NB,Lin X,McCutcheon JP,Rosenbaum AM,et al.Accurate multiplex polony sequencing of an evolved bacterial genome.Science.2005;309(5741):1728−32.
Steensel B and Dekker J. Genomics tools for unraveling chromosome architecture. Nature Bitoechnology 13 October 2010.
van Berkum,N.L.,Lieberman−Aiden,E.,Williams,L.,Imakaev,M.,Gnirke,A.,Mirny,L.A.,Dekker,J.,Lander,E.S.,Hi−C:A Method to Study the Three−dimensional Architecture of Genomes.http://www.jove.com/details.stp?id=1869 doi:10.3791/1869.J Vis Exp.39(2010).
Waterston RH,Lander ES,Sulston JE.More on the sequencing of the human genome.Proc Natl Acad Sci U S A.2003;100(6):3022−4;author reply 5−6.PMCID:PMC152236.
Waterston RH,Lander ES,Sulston JE.On the sequencing of the human genome.Proc Natl Acad Sci U S A.2002;99(6):3712−6.PMCID:PMC122589.
Waterston RH,Lindblad−Toh K,Birney E,Rogers J,Abril JF,et al.Initial sequencing and comparative analysis of the mouse genome.Nature.2002;420(6915):520−62.
Zeng Y,Novak R,Shuga J,Smith MT,Mathies RA.High−performance single cell genetic analysis using microfluidic emulsion generator arrays.Anal Chem.2010;82(8):3183−90.PMCID:PMC2859697.
Zhou S,et al.(2007)Validation of rice genome sequence by optical mapping.BMC Genomics 8(1):278.
Zhou S,et al.(2009)A Single Molecule Scaffold for the Maize Genome.PLoS Genet 5(11):e1000711.
Zilberman D,Henikoff S.2007.Genome−wide analysis of DNA methylation patterns.Development 134(22):3959−3965.

Claims (17)

  1. 連続性情報を捕捉する方法であって、以下の工程、
    標的DNA配列をトランスポザーゼで処理して1つ以上の断片化事象又は挿入事象を生じさせる工程、
    前記標的DNA配列に1つ以上の認識配列を、(i)前記トランスポザーゼ処理の間又は(ii)後の増幅の間に付加又は挿入する工程、
    前記処理されたDNAを配列決定する工程、及び
    共通の特性を有する標的DNA配列又は認識配列を同定することにより、連続性情報を捕捉する工程、
    を含み、前記連続性情報が、前記標的DNA配列の2つ以上の断片間の空間的関係であり、前記空間的関係が、
    (i)隣接関係であり、前記標的DNA配列の前記2つ以上の断片が、前記1つ以上の断片化事象又は挿入事象の前に互いに直接隣接していたか、
    (ii)区画的関係であり、前記標的DNA配列の前記2つ以上の断片が、前記1つ以上の断片化事象又は挿入事象の前に前記標的DNA配列の同じセグメント内であったか、又は
    (iii)離れた関係であり、前記標的DNA配列の前記2つ以上の断片が、前記1つ以上の断片化事象又は挿入事象の前に非連続かつ非隣接であったが、互いの間の特定の距離又は配列長により関連しており、
    連続性情報を捕捉する該方法は、前記標的DNA配列の一次配列の内容とは独立していることを特徴とする方法。
  2. 前記1つ以上の断片化事象又は挿入事象により、前記標的DNAに由来する標的核酸分子のライブラリーの形成が生じる、請求項1に記載の方法。
  3. 前記1つ以上の認識配列が、各断片化事象又は挿入事象に隣接する配列に対称的にタグ付けされる1つ以上のバーコードである、請求項2に記載の方法。
  4. 前記1つ以上のバーコードの前記共通の特性が、同一のバーコード配列又は相補的なバーコード配列である、請求項3に記載の方法。
  5. 前記標的DNA配列が、一組の標的DNAフラグメントを含む、請求項1に記載の方法。
  6. 前記トランスポザーゼで処理する前又は後に、前記標的DNAフラグメントをエマルジョン又は希釈剤で区画化し、標的DNAフラグメントの区画を2つ以上生じさせることを更に含む、請求項5に記載の方法。
  7. 前記1つ以上の認識配列が、それぞれ前記区画化段階で生じた前記1つ以上の区画に対応する1つ以上の区画特異的バーコードである、請求項6に記載の方法。
  8. 前記1つ以上のプライマー配列の前記共通の特性が、同一の区画特異的バーコードである、請求項7に記載の方法。
  9. 区画特異的バーコードを有するプライマーを用いて核酸増幅を実施することを更に含む、請求項7に記載の方法。
  10. 前記1つ以上の認識配列が、前記標的DNA配列の末端を修飾するか又は前記標的DNA配列内に挿入する1つ以上のアダプター配列である、請求項1に記載の方法。
  11. 前記1つ以上のアダプター配列が、1つ以上の表面結合プライマーに相補的である、請求項10に記載の方法。
  12. 前記トランスポザーゼが、第二の表面結合プライマーに相補的な核酸と結合している、請求項11に記載の方法。
  13. 前記1つ以上のアダプター配列を前記1つ以上の表面結合プライマーとハイブリダイズさせることを更に含む、請求項11に記載の方法。
  14. 前記共通の特性が、拘束された物理的位置である、請求項13に記載の方法。
  15. 前記トランスポザーゼが、表面結合認識配列と結合して表面結合トランスポザーゼ複合体を形成する、請求項1に記載の方法。
  16. 前記共通の特性が、拘束された物理的位置である、請求項15に記載の方法。
  17. 前記標的DNA配列の処理が、複数の表面結合トランスポザーゼ複合体を前記標的DNA配列に曝すことを含む、請求項15に記載の方法。
JP2013552641A 2011-02-02 2012-02-02 大量並列連続性マッピング Active JP6017458B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161438935P 2011-02-02 2011-02-02
US61/438,935 2011-02-02
US201161473083P 2011-04-07 2011-04-07
US61/473,083 2011-04-07
PCT/US2012/023679 WO2012106546A2 (en) 2011-02-02 2012-02-02 Massively parallel continguity mapping

Publications (2)

Publication Number Publication Date
JP2014506788A JP2014506788A (ja) 2014-03-20
JP6017458B2 true JP6017458B2 (ja) 2016-11-02

Family

ID=46603311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013552641A Active JP6017458B2 (ja) 2011-02-02 2012-02-02 大量並列連続性マッピング

Country Status (7)

Country Link
US (3) US10457936B2 (ja)
EP (1) EP2670894B1 (ja)
JP (1) JP6017458B2 (ja)
CN (1) CN103443338B (ja)
AU (1) AU2012212148B8 (ja)
CA (1) CA2826131C (ja)
WO (1) WO2012106546A2 (ja)

Families Citing this family (200)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
US10174368B2 (en) 2009-09-10 2019-01-08 Centrillion Technology Holdings Corporation Methods and systems for sequencing long nucleic acids
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
US9074251B2 (en) 2011-02-10 2015-07-07 Illumina, Inc. Linking sequence reads using paired code tags
AU2012212148B8 (en) 2011-02-02 2017-07-06 University Of Washington Through Its Center For Commercialization Massively parallel contiguity mapping
US20120252682A1 (en) 2011-04-01 2012-10-04 Maples Corporate Services Limited Methods and systems for sequencing nucleic acids
US20130017978A1 (en) * 2011-07-11 2013-01-17 Finnzymes Oy Methods and transposon nucleic acids for generating a dna library
US9145623B2 (en) 2011-07-20 2015-09-29 Thermo Fisher Scientific Oy Transposon nucleic acids comprising a calibration sequence for DNA sequencing
US10689643B2 (en) 2011-11-22 2020-06-23 Active Motif, Inc. Targeted transposition for use in epigenetic studies
ES2665071T3 (es) 2012-02-17 2018-04-24 Fred Hutchinson Cancer Research Center Composiciones y métodos para identificar mutaciones de manera precisa
NO2694769T3 (ja) 2012-03-06 2018-03-03
CA2881783A1 (en) 2012-08-13 2014-02-20 The Regents Of The University Of California Methods and systems for detecting biological components
US10221442B2 (en) 2012-08-14 2019-03-05 10X Genomics, Inc. Compositions and methods for sample processing
US11591637B2 (en) 2012-08-14 2023-02-28 10X Genomics, Inc. Compositions and methods for sample processing
US9951386B2 (en) 2014-06-26 2018-04-24 10X Genomics, Inc. Methods and systems for processing polynucleotides
US20140155295A1 (en) 2012-08-14 2014-06-05 10X Technologies, Inc. Capsule array devices and methods of use
US10752949B2 (en) 2012-08-14 2020-08-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10273541B2 (en) 2012-08-14 2019-04-30 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10584381B2 (en) 2012-08-14 2020-03-10 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10323279B2 (en) 2012-08-14 2019-06-18 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9701998B2 (en) 2012-12-14 2017-07-11 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9644199B2 (en) * 2012-10-01 2017-05-09 Agilent Technologies, Inc. Immobilized transposase complexes for DNA fragmentation and tagging
CN102982252A (zh) * 2012-12-05 2013-03-20 北京诺禾致源生物信息科技有限公司 一种高杂合二倍体基因组支架序列组装策略
US10533221B2 (en) 2012-12-14 2020-01-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
WO2014093676A1 (en) 2012-12-14 2014-06-19 10X Technologies, Inc. Methods and systems for processing polynucleotides
EP2749653A1 (en) * 2012-12-28 2014-07-02 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Molecular coding for analysis of composition of macromolecules and molecular complexes
US9683230B2 (en) * 2013-01-09 2017-06-20 Illumina Cambridge Limited Sample preparation on a solid support
US9411930B2 (en) 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
GB2519255B (en) * 2013-02-01 2016-01-06 Univ California Methods for genome assembly and haplotype phasing
CN108753766A (zh) * 2013-02-08 2018-11-06 10X基因组学有限公司 多核苷酸条形码生成
WO2014142850A1 (en) 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing
US9328382B2 (en) * 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
ES2776202T3 (es) 2013-04-11 2020-07-29 Pelin Sahlen Captura de conformación cromosómica dirigida
EP3712267A1 (en) 2013-05-22 2020-09-23 Active Motif, Inc. Targeted transposition for use in epigenetic studies
WO2014189957A2 (en) 2013-05-23 2014-11-27 The Board Of Trustees Of The Leland Stanford Junior University Transposition into native chromatin for personal epigenomics
WO2014205296A1 (en) * 2013-06-21 2014-12-24 The Broad Institute, Inc. Methods for shearing and tagging dna for chromatin immunoprecipitation and sequencing
CN117568449A (zh) 2013-06-27 2024-02-20 10X基因组学有限公司 用于样品处理的组合物和方法
CN105358715B (zh) 2013-07-03 2018-09-18 伊鲁米那股份有限公司 正交合成测序
CN111705116A (zh) * 2013-07-19 2020-09-25 路德维格癌症研究有限公司 全基因组且靶向的单体型重构
WO2015017759A1 (en) * 2013-08-02 2015-02-05 Stc.Unm Dna sequencing and epigenome analysis
CN105637099B (zh) 2013-08-23 2020-05-19 深圳华大智造科技有限公司 使用短读段的长片段从头组装
CA2921603C (en) * 2013-08-23 2019-11-05 Ludwig Institute For Cancer Research Ltd Methods and compositions for cdna synthesis and single-cell transcriptome profiling using template switching reaction
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
EP3068909B1 (en) * 2013-11-15 2019-01-09 The Regents of The University of California Duplicating dna with contiguity barcodes for genome and epigenome sequencing
EP3077545B1 (en) 2013-12-05 2020-09-16 Centrillion Technology Holdings Corporation Methods for sequencing nucleic acids
WO2015085275A2 (en) 2013-12-05 2015-06-11 Centrillion Technology Holdings Corporation Fabrication of patterned arrays
CN105940024B (zh) 2013-12-05 2019-03-15 生捷科技控股公司 修饰的表面
AU2014362322B2 (en) * 2013-12-11 2021-05-27 The Regents For Of The University Of California Methods for labeling DNA fragments to recontruct physical linkage and phase
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
EP3957750A1 (en) 2013-12-20 2022-02-23 Illumina, Inc. Preserving genomic connectivity information in fragmented genomic dna samples
EP3102691B1 (en) 2014-02-03 2019-09-11 Thermo Fisher Scientific Baltics UAB Method for controlled dna fragmentation
US11136576B2 (en) 2014-02-03 2021-10-05 Thermo Fisher Scientific Baltics Uab Method for controlled DNA fragmentation
CN105531408B (zh) * 2014-02-13 2019-09-10 生物辐射实验室股份有限公司 染色体构象划分产物捕获
US11060139B2 (en) 2014-03-28 2021-07-13 Centrillion Technology Holdings Corporation Methods for sequencing nucleic acids
CN110548550B (zh) 2014-04-10 2022-03-08 10X基因组学有限公司 用于封装和分割试剂的流体装置、系统和方法及其应用
WO2015166768A1 (ja) * 2014-05-02 2015-11-05 国立大学法人金沢大学 単一細胞由来核酸の解析方法
EP3146046B1 (en) * 2014-05-23 2020-03-11 Digenomix Corporation Haploidome determination by digitized transposons
US10533216B2 (en) 2014-05-23 2020-01-14 Centrillion Technology Holdings Corporation Oligonucleotide probe inversion process for in situ synthesized probe arrays
JP7008407B2 (ja) 2014-06-06 2022-01-25 コーネル・ユニバーシティー ヌクレアーゼ、リガーゼ、ポリメラーゼ、及び配列決定反応の組み合わせを用いた、核酸配列、発現、コピー、またはdnaのメチル化変化の識別及び計数方法
EP3715468A1 (en) * 2014-06-13 2020-09-30 Illumina Cambridge Limited Methods and compositions for preparing sequencing libraries
EP3158066B1 (en) * 2014-06-23 2021-05-12 The General Hospital Corporation Genomewide unbiased identification of dsbs evaluated by sequencing (guide-seq)
CN114214314A (zh) * 2014-06-24 2022-03-22 生物辐射实验室股份有限公司 数字式pcr条码化
CA2953469A1 (en) * 2014-06-26 2015-12-30 10X Genomics, Inc. Analysis of nucleic acid sequences
CN106575322B (zh) 2014-06-26 2019-06-18 10X基因组学有限公司 核酸序列装配的方法和系统
WO2015200893A2 (en) 2014-06-26 2015-12-30 10X Genomics, Inc. Methods of analyzing nucleic acids from individual cells or cell populations
US10017759B2 (en) * 2014-06-26 2018-07-10 Illumina, Inc. Library preparation of tagged nucleic acid
EP3160654A4 (en) 2014-06-27 2017-11-15 The Regents of The University of California Pcr-activated sorting (pas)
US10577603B2 (en) * 2014-06-30 2020-03-03 Illumina, Inc. Methods and compositions using one-sided transposition
US10376888B2 (en) 2014-07-03 2019-08-13 Centrillion Technology Holdings Corporation Device for storage and dispensing of reagents
BR112017000168B1 (pt) 2014-07-07 2023-04-18 Astrego Diagnostics Ab Método e sistema de caracterização de uma biblioteca de uma pluralidade de linhagens de células de diferentes genótipos e possuindo regiões variáveis diferentes
CA2956925C (en) * 2014-08-01 2024-02-13 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
WO2016037361A1 (zh) * 2014-09-12 2016-03-17 深圳华大基因科技有限公司 试剂盒及其在核酸测序中的用途
ES2821434T3 (es) * 2014-10-14 2021-04-26 Mgi Tech Co Ltd Método para romper un ácido nucleico y añadir un adaptador por medio de transposasa y reactivo
EP3207134B1 (en) * 2014-10-17 2019-07-03 Illumina Cambridge Limited Contiguity preserving transposition
US11873480B2 (en) * 2014-10-17 2024-01-16 Illumina Cambridge Limited Contiguity preserving transposition
CA3001986C (en) 2014-10-22 2023-02-21 The Regents Of The University Of California High definition microdroplet printer
AU2015339148B2 (en) 2014-10-29 2022-03-10 10X Genomics, Inc. Methods and compositions for targeted nucleic acid sequencing
US9975122B2 (en) 2014-11-05 2018-05-22 10X Genomics, Inc. Instrument systems for integrated sample processing
US10900065B2 (en) 2014-11-14 2021-01-26 University Of Washington Methods and kits for labeling cellular molecules
CN107002292B (zh) * 2014-11-26 2019-03-26 深圳华大智造科技有限公司 一种核酸的双接头单链环状文库的构建方法和试剂
EP3225721B1 (en) * 2014-11-26 2019-07-24 MGI Tech Co., Ltd. Method and reagent for constructing nucleic acid double-linker single-strand cyclical library
SG11201705615UA (en) 2015-01-12 2017-08-30 10X Genomics Inc Processes and systems for preparing nucleic acid sequencing libraries and libraries prepared using same
CA2968417A1 (en) 2015-01-13 2016-07-21 10X Genomics, Inc. Systems and methods for visualizing structural variation and phasing information
EP3253479B1 (en) 2015-02-04 2022-09-21 The Regents of The University of California Sequencing of nucleic acids via barcoding in discrete entities
MX2017010142A (es) 2015-02-09 2017-12-11 10X Genomics Inc Sistemas y metodos para determinar variacion estructural y ajuste de fases con datos de recuperacion de variantes.
CN107406890B (zh) * 2015-02-10 2023-07-18 亿明达股份有限公司 用于分析细胞组分的方法和组合物
SG10202000731WA (en) 2015-02-17 2020-03-30 Dovetail Genomics Llc Nucleic acid sequence assembly
WO2016134218A1 (en) 2015-02-20 2016-08-25 The Regents Of The University Of California Methods related to dna sequencing
US10697000B2 (en) 2015-02-24 2020-06-30 10X Genomics, Inc. Partition processing methods and systems
MX2017010857A (es) 2015-02-24 2017-12-11 10X Genomics Inc Metodos para la cobertura de secuencia de acidos nucleicos seleccionados como diana.
EP3262175A4 (en) * 2015-02-25 2018-10-31 Jumpcode Genomics, Inc. Methods and compositions for in silico long read sequencing
US11807896B2 (en) 2015-03-26 2023-11-07 Dovetail Genomics, Llc Physical linkage preservation in DNA storage
WO2016161236A1 (en) * 2015-04-02 2016-10-06 The Jackson Laboratory Method for detecting genomic variations using circularised mate-pair library and shotgun sequencing
US11326159B2 (en) * 2015-04-06 2022-05-10 The Regents Of The University Of California Methods and compositions for long-range haplotype phasing
EP3280424B1 (en) 2015-04-06 2020-10-14 Centrillion Technology Holdings Corporation Methods for phrasing epigenetic modifications of genomes
US10526649B2 (en) * 2015-04-14 2020-01-07 Massachusetts Institute Of Technology Augmenting in situ nucleic acid sequencing of expanded biological samples with in vitro sequence information
US10059990B2 (en) 2015-04-14 2018-08-28 Massachusetts Institute Of Technology In situ nucleic acid sequencing of expanded biological samples
US11408890B2 (en) 2015-04-14 2022-08-09 Massachusetts Institute Of Technology Iterative expansion microscopy
WO2016169431A1 (zh) * 2015-04-20 2016-10-27 深圳华大基因研究院 一种长片段dna文库构建方法
EP3091026B1 (en) 2015-05-08 2019-02-20 Centrillion Technology Holdings Corporation Disulfide-linked reversible terminators
WO2016191618A1 (en) * 2015-05-27 2016-12-01 Jianbiao Zheng Methods of inserting molecular barcodes
US9771575B2 (en) 2015-06-19 2017-09-26 Agilent Technologies, Inc. Methods for on-array fragmentation and barcoding of DNA samples
EP3317420B1 (en) 2015-07-02 2021-10-20 Arima Genomics, Inc. Accurate molecular deconvolution of mixtures samples
EP3112018A1 (en) 2015-07-02 2017-01-04 Centrillion Technology Holdings Corporation Systems and methods to dispense and mix reagents
CA2984702A1 (en) 2015-07-30 2017-02-02 Illumina, Inc. Orthogonal deblocking of nucleotides
CN108139408B (zh) 2015-08-07 2020-08-28 麻省理工学院 蛋白质保持扩展显微法
WO2017027367A1 (en) 2015-08-07 2017-02-16 Massachusetts Institute Of Technology Nanoscale imaging of proteins and nucleic acids via expansion microscopy
EP3130673B1 (en) 2015-08-13 2019-06-12 Centrillion Technology Holdings Corporation Library construction using y-adapters and vanishing restriction sites
US10584378B2 (en) 2015-08-13 2020-03-10 Centrillion Technology Holdings Corporation Methods for synchronizing nucleic acid molecules
US10695735B2 (en) 2015-08-18 2020-06-30 Centrillion Technology Holdings Corporation Probe inversion process for in situ synthesized probe arrays
WO2017034970A1 (en) * 2015-08-21 2017-03-02 The General Hospital Corporation Combinatorial single molecule analysis of chromatin
WO2017044609A1 (en) 2015-09-08 2017-03-16 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
WO2017070123A1 (en) * 2015-10-19 2017-04-27 Dovetail Genomics, Llc Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection
US11371094B2 (en) 2015-11-19 2022-06-28 10X Genomics, Inc. Systems and methods for nucleic acid processing using degenerate nucleotides
US10774370B2 (en) 2015-12-04 2020-09-15 10X Genomics, Inc. Methods and compositions for nucleic acid analysis
WO2017123758A1 (en) * 2016-01-12 2017-07-20 Seqwell, Inc. Compositions and methods for sequencing nucleic acids
SG11201806757XA (en) 2016-02-11 2018-09-27 10X Genomics Inc Systems, methods, and media for de novo assembly of whole genome sequence data
US11339427B2 (en) 2016-02-12 2022-05-24 Jumpcode Genomics, Inc. Method for target specific RNA transcription of DNA sequences
KR20180116377A (ko) 2016-02-23 2018-10-24 더브테일 제노믹스 엘엘씨 게놈 어셈블리를 위한 페이징된 판독 세트의 생성 및 반수체형 페이징
US20190078150A1 (en) * 2016-03-01 2019-03-14 Universal Sequencing Technology Corporation Methods and Kits for Tracking Nucleic Acid Target Origin for Nucleic Acid Sequencing
EP3868879A1 (en) 2016-03-10 2021-08-25 The Board of Trustees of the Leland Stanford Junior University Transposase-mediated imaging of the accessible genome
US20170283864A1 (en) * 2016-03-31 2017-10-05 Agilent Technologies, Inc. Use of transposase and y adapters to fragment and tag dna
KR102412442B1 (ko) 2016-05-13 2022-06-22 더브테일 제노믹스 엘엘씨 보존된 샘플로부터의 장범위 링키지 정보의 회수
WO2017197338A1 (en) 2016-05-13 2017-11-16 10X Genomics, Inc. Microfluidic systems and methods of use
US10240196B2 (en) * 2016-05-27 2019-03-26 Agilent Technologies, Inc. Transposase-random priming DNA sample preparation
EP3497228A4 (en) 2016-08-10 2020-05-27 The Regents of The University of California COMBINED MULTIPLE DISPLACEMENT AMPLIFICATION AND PCR IN AN EMULSION MICRO DROP
EP3500685B1 (en) * 2016-08-19 2023-07-12 Arizona Board of Regents on behalf of Arizona State University High throughput oil-emulsion synthesis of bowtie barcodes for paired mrna capture and sequencing from individual cells
WO2018076018A1 (en) * 2016-10-21 2018-04-26 Exosome Diagnostics, Inc. Sequencing and analysis of exosome associated nucleic acids
WO2018089944A1 (en) * 2016-11-11 2018-05-17 uBiome, Inc. Method and system for fragment assembly and sequence identification
AU2017363204B2 (en) * 2016-11-18 2022-12-08 Twist Bioscience Corporation Polynucleotide libraries having controlled stoichiometry and synthesis thereof
EP3555290B1 (en) * 2016-12-19 2022-11-02 Bio-Rad Laboratories, Inc. Droplet tagging contiguity preserved tagmented dna
CN110462053A (zh) 2016-12-21 2019-11-15 加利福尼亚大学董事会 使用基于水凝胶的液滴进行单细胞基因组测序
US10550429B2 (en) 2016-12-22 2020-02-04 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10011872B1 (en) 2016-12-22 2018-07-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10815525B2 (en) 2016-12-22 2020-10-27 10X Genomics, Inc. Methods and systems for processing polynucleotides
WO2018136856A1 (en) 2017-01-23 2018-07-26 Massachusetts Institute Of Technology Multiplexed signal amplified fish via splinted ligation amplification and sequencing
WO2018140966A1 (en) 2017-01-30 2018-08-02 10X Genomics, Inc. Methods and systems for droplet-based single cell barcoding
US10995333B2 (en) 2017-02-06 2021-05-04 10X Genomics, Inc. Systems and methods for nucleic acid preparation
IL263118B2 (en) 2017-02-21 2023-12-01 Illumina Inc Tegumentation using fixed transpososomes with linkers
WO2018157048A1 (en) 2017-02-24 2018-08-30 Massachusetts Institute Of Technology Methods for examining podocyte foot processes in human renal samples using conventional optical microscopy
WO2018157074A1 (en) 2017-02-24 2018-08-30 Massachusetts Institute Of Technology Methods for diagnosing neoplastic lesions
US11584958B2 (en) 2017-03-31 2023-02-21 Grail, Llc Library preparation and use thereof for sequencing based error correction and/or variant identification
WO2018191701A1 (en) * 2017-04-14 2018-10-18 The Broad Institute, Inc. High-throughput screens for exploring biological functions of microscale biological systems
WO2018195224A1 (en) * 2017-04-18 2018-10-25 Fred Hutchinson Cancer Research Center Barcoded transposases to increase efficiency of high-accuracy genetic sequencing
EP3615683B1 (en) * 2017-04-26 2022-10-12 The Broad Institute, Inc. Methods for linking polynucleotides
EP3625715A4 (en) 2017-05-19 2021-03-17 10X Genomics, Inc. DATA SET ANALYSIS SYSTEMS AND METHODS
US10914729B2 (en) 2017-05-22 2021-02-09 The Trustees Of Princeton University Methods for detecting protein binding sequences and tagging nucleic acids
US10400235B2 (en) 2017-05-26 2019-09-03 10X Genomics, Inc. Single cell analysis of transposase accessible chromatin
CN109526228B (zh) 2017-05-26 2022-11-25 10X基因组学有限公司 转座酶可接近性染色质的单细胞分析
US11180804B2 (en) * 2017-07-25 2021-11-23 Massachusetts Institute Of Technology In situ ATAC sequencing
US20200208140A1 (en) * 2017-08-31 2020-07-02 Ohio State Innovation Foundation Methods of making and using tandem, twin barcode molecules
US10837047B2 (en) 2017-10-04 2020-11-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
US11725228B2 (en) 2017-10-11 2023-08-15 The General Hospital Corporation Methods for detecting site-specific and spurious genomic deamination induced by base editing technologies
US10501739B2 (en) 2017-10-18 2019-12-10 Mission Bio, Inc. Method, systems and apparatus for single cell analysis
WO2019084043A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR NUCLEIC ACID PREPARATION AND CHROMATIN ANALYSIS
EP4241882A3 (en) 2017-10-27 2023-12-06 10X Genomics, Inc. Methods for sample preparation and analysis
WO2019089959A1 (en) * 2017-11-02 2019-05-09 Bio-Rad Laboratories, Inc. Transposase-based genomic analysis
SG11201913654QA (en) 2017-11-15 2020-01-30 10X Genomics Inc Functionalized gel beads
US10829815B2 (en) 2017-11-17 2020-11-10 10X Genomics, Inc. Methods and systems for associating physical and genetic properties of biological particles
WO2019108851A1 (en) 2017-11-30 2019-06-06 10X Genomics, Inc. Systems and methods for nucleic acid preparation and analysis
CN108300766A (zh) * 2018-01-16 2018-07-20 四川大学 利用转座酶对染色质开放区和线粒体甲基化研究的方法
US11873374B2 (en) 2018-02-06 2024-01-16 Massachusetts Institute Of Technology Swellable and structurally homogenous hydrogels and methods of use thereof
EP3752832A1 (en) 2018-02-12 2020-12-23 10X Genomics, Inc. Methods characterizing multiple analytes from individual cells or cell populations
US11639928B2 (en) 2018-02-22 2023-05-02 10X Genomics, Inc. Methods and systems for characterizing analytes from individual cells or cell populations
WO2019169028A1 (en) 2018-02-28 2019-09-06 10X Genomics, Inc. Transcriptome sequencing through random ligation
US11352714B1 (en) 2018-03-06 2022-06-07 Verily Life Sciences Llc Xseq
EP3775198A4 (en) 2018-04-02 2022-01-05 Grail, Inc. METHYLATION MARKERS AND TARGETED METHYLATION PROBE PANELS
SG11202009889VA (en) 2018-04-06 2020-11-27 10X Genomics Inc Systems and methods for quality control in single cell processing
US11898203B2 (en) 2018-04-17 2024-02-13 The General Hospital Corporation Highly sensitive in vitro assays to define substrate preferences and sites of nucleic-acid binding, modifying, and cleaving agents
WO2019213294A1 (en) * 2018-05-03 2019-11-07 Becton, Dickinson And Company High throughput multiomics sample analysis
WO2019217785A1 (en) * 2018-05-10 2019-11-14 St. Jude Children's Research Hospital, Inc. High-throughput method for characterizing the genome-wide activity of editing nucleases in vitro
WO2019217758A1 (en) 2018-05-10 2019-11-14 10X Genomics, Inc. Methods and systems for molecular library generation
US11932899B2 (en) 2018-06-07 2024-03-19 10X Genomics, Inc. Methods and systems for characterizing nucleic acid molecules
US11703427B2 (en) 2018-06-25 2023-07-18 10X Genomics, Inc. Methods and systems for cell and bead processing
US20200032335A1 (en) 2018-07-27 2020-01-30 10X Genomics, Inc. Systems and methods for metabolome analysis
US12065688B2 (en) 2018-08-20 2024-08-20 10X Genomics, Inc. Compositions and methods for cellular processing
WO2020061903A1 (zh) * 2018-09-27 2020-04-02 深圳华大生命科学研究院 测序文库的构建方法和得到的测序文库及测序方法
WO2020069350A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
US20220073980A1 (en) * 2018-11-29 2022-03-10 Xgenomes Corp. Sequencing by coalescence
US11459607B1 (en) 2018-12-10 2022-10-04 10X Genomics, Inc. Systems and methods for processing-nucleic acid molecules from a single cell using sequential co-partitioning and composite barcodes
US11845983B1 (en) 2019-01-09 2023-12-19 10X Genomics, Inc. Methods and systems for multiplexing of droplet based assays
CA3114732A1 (en) * 2019-01-11 2020-07-16 Illumina Cambridge Limited Complex surface-bound transposome complexes
SG11202108788TA (en) 2019-02-12 2021-09-29 10X Genomics Inc Methods for processing nucleic acid molecules
US11467153B2 (en) 2019-02-12 2022-10-11 10X Genomics, Inc. Methods for processing nucleic acid molecules
US11851683B1 (en) 2019-02-12 2023-12-26 10X Genomics, Inc. Methods and systems for selective analysis of cellular samples
US11655499B1 (en) 2019-02-25 2023-05-23 10X Genomics, Inc. Detection of sequence elements in nucleic acid molecules
SG11202111242PA (en) 2019-03-11 2021-11-29 10X Genomics Inc Systems and methods for processing optically tagged beads
AU2020280104A1 (en) 2019-05-22 2022-01-20 Mission Bio, Inc. Method and apparatus for simultaneous targeted sequencing of DNA, RNA and protein
WO2021003255A1 (en) 2019-07-01 2021-01-07 Mission Bio Method and apparatus to normalize quantitative readouts in single-cell experiments
JP7489455B2 (ja) * 2019-10-25 2024-05-23 チャンピン ナショナル ラボラトリー 哺乳類dnaのメチル化の検出及び分析
WO2021113505A1 (en) 2019-12-05 2021-06-10 Massachusetts Institute Of Technology Method for preparing a specimen for expansion microscopy
CN111172247A (zh) * 2020-01-15 2020-05-19 深圳海普洛斯医学检验实验室 一种高通量测序文库定量检测结果校正的方法及检测方法
CN115349128A (zh) 2020-02-13 2022-11-15 齐默尔根公司 宏基因组文库和天然产物发现平台
US11851700B1 (en) 2020-05-13 2023-12-26 10X Genomics, Inc. Methods, kits, and compositions for processing extracellular molecules
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
US20220277808A1 (en) * 2021-02-19 2022-09-01 Twist Bioscience Corporation Libraries for identification of genomic variants
AU2022227563A1 (en) 2021-02-23 2023-08-24 10X Genomics, Inc. Probe-based analysis of nucleic acids and proteins
CN114540472B (zh) * 2021-08-27 2024-02-23 四川大学华西第二医院 一种三代测序方法

Family Cites Families (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU622426B2 (en) 1987-12-11 1992-04-09 Abbott Laboratories Assay using template-dependent nucleic acid probe reorganization
GB8810400D0 (en) 1988-05-03 1988-06-08 Southern E Analysing polynucleotide sequences
CA1341584C (en) 1988-04-06 2008-11-18 Bruce Wallace Method of amplifying and detecting nucleic acid sequences
WO1989009835A1 (en) 1988-04-08 1989-10-19 The Salk Institute For Biological Studies Ligase-based amplification method
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
AU634969B2 (en) 1988-06-24 1993-03-11 Amgen, Inc. Method and reagents for detecting nucleic acid sequences
ATE138106T1 (de) 1988-07-20 1996-06-15 David Segev Verfahren zur amplifizierung und zum nachweis von nukleinsäuresequenzen
US5185243A (en) 1988-08-25 1993-02-09 Syntex (U.S.A.) Inc. Method for detection of specific nucleic acid sequences
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5573907A (en) 1990-01-26 1996-11-12 Abbott Laboratories Detecting and amplifying target nucleic acids using exonucleolytic activity
DE69118930T2 (de) 1990-01-26 1997-01-09 Abbott Lab Verbessertes Verfahren zur Amplifikation von Nuklein säurezielsequenz, einsetzbar für die Polymerase und Ligasekettenreaktion
US5223414A (en) 1990-05-07 1993-06-29 Sri International Process for nucleic acid hybridization and amplification
US5214587A (en) 1990-11-28 1993-05-25 Green Richard G Device for monitoring utility usage
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
WO1995021271A1 (en) 1994-02-07 1995-08-10 Molecular Tool, Inc. Ligase/polymerase-mediated genetic bit analysistm of single nucleotide polymorphisms and its use in genetic analysis
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
WO1995025180A1 (en) 1994-03-16 1995-09-21 Gen-Probe Incorporated Isothermal strand displacement nucleic acid amplification
US5552278A (en) 1994-04-04 1996-09-03 Spectragen, Inc. DNA sequencing by stepwise ligation and cleavage
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
KR100445103B1 (ko) 1994-12-09 2004-12-04 임페리얼 컬리지 이노베이션스 리미티드 유전자의동정
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
US5965443A (en) 1996-09-09 1999-10-12 Wisconsin Alumni Research Foundation System for in vitro transposition
US5925545A (en) 1996-09-09 1999-07-20 Wisconsin Alumni Research Foundation System for in vitro transposition
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
US5858671A (en) 1996-11-01 1999-01-12 The University Of Iowa Research Foundation Iterative and regenerative DNA sequencing method
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
WO1998044152A1 (en) 1997-04-01 1998-10-08 Glaxo Group Limited Method of nucleic acid sequencing
ATE545710T1 (de) 1997-04-01 2012-03-15 Illumina Cambridge Ltd Verfahren zur vervielfältigung von nukleinsäuren
FI103809B (fi) 1997-07-14 1999-09-30 Finnzymes Oy In vitro -menetelmä templaattien tuottamiseksi DNA-sekventointia varten
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6480791B1 (en) 1998-10-28 2002-11-12 Michael P. Strathmann Parallel methods for genomic analysis
US20010046669A1 (en) 1999-02-24 2001-11-29 Mccobmie William R. Genetically filtered shotgun sequencing of complex eukaryotic genomes
JP2002540802A (ja) 1999-04-06 2002-12-03 イェール ユニバーシティ 配列標識の固定されたアドレス分析
US20050244870A1 (en) 1999-04-20 2005-11-03 Illumina, Inc. Nucleic acid sequencing using microsphere arrays
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
WO2001012855A2 (en) 1999-08-13 2001-02-22 Yale University Binary encoded sequence tags
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
IL149446A0 (en) 1999-11-08 2002-11-10 Eiken Chemical Method for synthesizing nucleic acid
US7611869B2 (en) 2000-02-07 2009-11-03 Illumina, Inc. Multiplexed methylation detection methods
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
US7955794B2 (en) 2000-09-21 2011-06-07 Illumina, Inc. Multiplex nucleic acid reactions
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
AU2001274869A1 (en) 2000-05-20 2001-12-03 The Regents Of The University Of Michigan Method of producing a dna library using positional amplification
CN101525660A (zh) 2000-07-07 2009-09-09 维西根生物技术公司 实时序列测定
US6846658B1 (en) 2000-10-12 2005-01-25 New England Biolabs, Inc. Method for cloning and producing the Msel restriction endonuclease
US7211414B2 (en) 2000-12-01 2007-05-01 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US20040110191A1 (en) 2001-01-31 2004-06-10 Winkler Matthew M. Comparative analysis of nucleic acids using population tagging
US7138267B1 (en) 2001-04-04 2006-11-21 Epicentre Technologies Corporation Methods and compositions for amplifying DNA clone copy number
US6777187B2 (en) 2001-05-02 2004-08-17 Rubicon Genomics, Inc. Genome walking by selective amplification of nick-translate DNA library and amplification from complex mixtures of templates
GB0115194D0 (en) 2001-06-21 2001-08-15 Leuven K U Res & Dev Novel technology for genetic mapping
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US7399590B2 (en) 2002-02-21 2008-07-15 Asm Scientific, Inc. Recombinase polymerase amplification
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
DK3363809T3 (da) 2002-08-23 2020-05-04 Illumina Cambridge Ltd Modificerede nukleotider til polynukleotidsekvensering
US7595883B1 (en) 2002-09-16 2009-09-29 The Board Of Trustees Of The Leland Stanford Junior University Biological analysis arrangement and approach therefor
WO2004042078A1 (en) 2002-11-05 2004-05-21 The University Of Queensland Nucleotide sequence analysis by quantification of mutagenesis
US7575865B2 (en) 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
DE602004031284D1 (de) 2003-02-10 2011-03-17 Max Delbrueck Centrum Transposon-system zur gezielten integration
US20050053980A1 (en) 2003-06-20 2005-03-10 Illumina, Inc. Methods and compositions for whole genome amplification and genotyping
WO2005042781A2 (en) 2003-10-31 2005-05-12 Agencourt Personal Genomics Corporation Methods for producing a paired tag from a nucleic acid sequence and methods of use thereof
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
EP1701785A1 (en) 2004-01-07 2006-09-20 Solexa Ltd. Modified molecular arrays
US7595160B2 (en) 2004-01-13 2009-09-29 U.S. Genomics, Inc. Analyte detection using barcoded polymers
WO2005100585A2 (en) 2004-03-30 2005-10-27 Epicentre Methods for obtaining directionally truncated polypeptides
WO2006047183A2 (en) 2004-10-21 2006-05-04 New England Biolabs, Inc. Recombinant dna nicking endonuclease and uses thereof
US7319142B1 (en) 2004-08-31 2008-01-15 Monsanto Technology Llc Nucleotide and amino acid sequences from Xenorhabdus and uses thereof
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
US7449297B2 (en) 2005-04-14 2008-11-11 Euclid Diagnostics Llc Methods of copying the methylation pattern of DNA during isothermal amplification and microarrays
EP1910537A1 (en) 2005-06-06 2008-04-16 454 Life Sciences Corporation Paired end sequencing
EP1907583B2 (en) 2005-06-15 2019-10-23 Complete Genomics Inc. Single molecule arrays for genetic and chemical analysis
FR2889204B1 (fr) 2005-07-26 2007-11-30 Sidel Sas Appareil pour le depot pecvd d'une couche barriere interne sur un recipient, comprenant une ligne de gaz isolee par electrovanne
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US20070128610A1 (en) 2005-12-02 2007-06-07 Buzby Philip R Sample preparation method and apparatus for nucleic acid sequencing
WO2007087312A2 (en) 2006-01-23 2007-08-02 Population Genetics Technologies Ltd. Molecular counting
US20070172839A1 (en) * 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
WO2007107710A1 (en) 2006-03-17 2007-09-27 Solexa Limited Isothermal methods for creating clonal single molecule arrays
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
US8921073B2 (en) * 2006-06-23 2014-12-30 Illumina, Inc. Devices and systems for creation of DNA cluster arrays
CA2656315A1 (en) 2006-06-30 2008-01-10 Nugen Technologies, Inc. Methods for fragmentation and labeling of nucleic acids
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
WO2008143640A1 (en) 2006-11-07 2008-11-27 Government Of The United Nations Of America, As Represented By The Secretariat, Department Of Healthand Human Services Influenza virus nucleic acid microarray and method of use
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US7948015B2 (en) 2006-12-14 2011-05-24 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
PL2258871T3 (pl) 2007-01-19 2014-10-31 Epigenomics Ag Sposoby i kwasy nukleinowe do analizy zaburzeń proliferacyjnych komórki
WO2009012112A1 (en) 2007-07-13 2009-01-22 The Board Of Trustees Of The Leland Stanford Junior University Method and apparatus using electric field for improved biological assays
JP2010535513A (ja) * 2007-08-15 2010-11-25 ザ ユニバーシティ オブ ホンコン 高スループット亜硫酸水素dnaシークエンシングのための方法および組成物ならびに有用性
US8415099B2 (en) 2007-11-05 2013-04-09 Complete Genomics, Inc. Efficient base determination in sequencing reactions
US8852864B2 (en) 2008-01-17 2014-10-07 Sequenom Inc. Methods and compositions for the analysis of nucleic acids
JP2011515102A (ja) * 2008-03-28 2011-05-19 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 核酸シーケンシング用組成物及び方法
AU2009242546B2 (en) 2008-04-30 2015-01-22 Integrated Dna Technologies, Inc. RNase-H-based assays utilizing modified RNA monomers
CA2729159C (en) * 2008-06-30 2020-01-14 Bionanomatrix, Inc. Methods and devices for single-molecule whole genome analysis
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US9080211B2 (en) * 2008-10-24 2015-07-14 Epicentre Technologies Corporation Transposon end compositions and methods for modifying nucleic acids
HUE027961T2 (en) * 2008-10-24 2016-11-28 Epicentre Tech Corp Transposon final preparations and methods for modifying nucleic acids
SG174155A1 (en) 2009-02-25 2011-10-28 Univ Johns Hopkins Piggybac transposon variants and methods of use
US8709717B2 (en) 2009-04-03 2014-04-29 Illumina, Inc. Generation of uniform fragments of nucleic acids using patterned substrates
WO2010127186A1 (en) 2009-04-30 2010-11-04 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
HUE027972T2 (en) 2010-02-25 2016-11-28 Advanced Liquid Logic Inc A method for generating nucleic acid libraries
CA2803693A1 (en) 2010-08-27 2012-03-01 Genentech, Inc. Methods for nucleic acid capture and sequencing
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
EP2625320B1 (en) 2010-10-08 2019-03-27 President and Fellows of Harvard College High-throughput single cell barcoding
US9096899B2 (en) 2010-10-27 2015-08-04 Illumina, Inc. Microdevices and biosensor cartridges for biological or chemical analysis and systems and methods for the same
US9074251B2 (en) 2011-02-10 2015-07-07 Illumina, Inc. Linking sequence reads using paired code tags
AU2011323107B2 (en) 2010-11-05 2015-09-10 Illumina, Inc. Linking sequence reads using paired code tags
US8829171B2 (en) * 2011-02-10 2014-09-09 Illumina, Inc. Linking sequence reads using paired code tags
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
ES2568910T3 (es) 2011-01-28 2016-05-05 Illumina, Inc. Reemplazo de oligonucleótidos para bibliotecas etiquetadas en dos extremos y direccionadas
AU2012212148B8 (en) 2011-02-02 2017-07-06 University Of Washington Through Its Center For Commercialization Massively parallel contiguity mapping
US9365897B2 (en) 2011-02-08 2016-06-14 Illumina, Inc. Selective enrichment of nucleic acids
EP3789498A1 (en) 2011-04-25 2021-03-10 Bio-rad Laboratories, Inc. Methods for nucleic acid analysis
US20120283108A1 (en) 2011-05-03 2012-11-08 Sampas Nicholas M Method for phased genotyping of a diploid genome
EP2710172B1 (en) 2011-05-20 2017-03-29 Fluidigm Corporation Nucleic acid encoding reactions
US20130017978A1 (en) 2011-07-11 2013-01-17 Finnzymes Oy Methods and transposon nucleic acids for generating a dna library
NO2694769T3 (ja) 2012-03-06 2018-03-03
CA2874343C (en) 2012-05-21 2021-11-09 Fluidigm Corporation Single-particle analysis of particle populations
EP3514243B1 (en) 2012-05-21 2022-08-17 The Scripps Research Institute Methods of sample preparation
US9012022B2 (en) 2012-06-08 2015-04-21 Illumina, Inc. Polymer coatings
US8895249B2 (en) 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
US9644199B2 (en) 2012-10-01 2017-05-09 Agilent Technologies, Inc. Immobilized transposase complexes for DNA fragmentation and tagging
US9683230B2 (en) 2013-01-09 2017-06-20 Illumina Cambridge Limited Sample preparation on a solid support
CN108753766A (zh) 2013-02-08 2018-11-06 10X基因组学有限公司 多核苷酸条形码生成
CN105074010B (zh) 2013-03-07 2018-04-17 积水医疗株式会社 甲基化dna 的检测方法
WO2014142850A1 (en) 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing
WO2014189957A2 (en) 2013-05-23 2014-11-27 The Board Of Trustees Of The Leland Stanford Junior University Transposition into native chromatin for personal epigenomics
CN110964796B (zh) 2013-08-28 2024-04-05 贝克顿迪金森公司 大规模平行单细胞分析
EP3957750A1 (en) 2013-12-20 2022-02-23 Illumina, Inc. Preserving genomic connectivity information in fragmented genomic dna samples
AU2014373757B2 (en) 2013-12-30 2019-12-12 Atreca, Inc. Analysis of nucleic acids associated with single cells using nucleic acid barcodes
US11873480B2 (en) 2014-10-17 2024-01-16 Illumina Cambridge Limited Contiguity preserving transposition

Also Published As

Publication number Publication date
JP2014506788A (ja) 2014-03-20
CN103443338A (zh) 2013-12-11
EP2670894A4 (en) 2014-10-22
US11999951B2 (en) 2024-06-04
CA2826131A1 (en) 2012-08-09
US11299730B2 (en) 2022-04-12
CN103443338B (zh) 2017-09-22
AU2012212148A1 (en) 2013-08-15
EP2670894A2 (en) 2013-12-11
WO2012106546A2 (en) 2012-08-09
EP2670894B1 (en) 2017-11-29
US20220315918A1 (en) 2022-10-06
AU2012212148B2 (en) 2017-06-29
US20130203605A1 (en) 2013-08-08
US20200216839A1 (en) 2020-07-09
CA2826131C (en) 2019-11-05
WO2012106546A3 (en) 2013-11-14
AU2012212148B8 (en) 2017-07-06
US10457936B2 (en) 2019-10-29

Similar Documents

Publication Publication Date Title
US11999951B2 (en) Massively parallel contiguity mapping
JP7532455B2 (ja) 連続性を維持した転位
CN109983125B (zh) 生成用于通过荧光原位测序检测的核酸序列文库的方法
JP6982087B2 (ja) 競合的鎖置換を利用する次世代シーケンシング(ngs)ライブラリーの構築
CN108431233B (zh) Dna文库的高效率构建
EP3207134B1 (en) Contiguity preserving transposition
WO2011143231A2 (en) High throughput paired-end sequencing of large-insert clone libraries
US20130123117A1 (en) Capture probe and assay for analysis of fragmented nucleic acids
US20200190574A1 (en) Rna-stitch sequencing: an assay for direct mapping of rna : rna interactions in cells
US20240287507A1 (en) Massively parallel contiguity mapping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160928

R150 Certificate of patent or registration of utility model

Ref document number: 6017458

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250