JP2014064578A

JP2014064578A - Ａｆｌｐを使用したハイスループット物理地図

Info

Publication number: JP2014064578A
Application number: JP2013230904A
Authority: JP
Inventors: Eijk Michael Josephus Theresia Van; アイク，ミカエルヨセフステレシアヴァン; Taco Peter Jesse; ペテルイェッセ，タコ
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2006-07-12
Filing date: 2013-11-07
Publication date: 2014-04-17
Also published as: CN101484589B; JP2009542256A; US9284606B2; JP5801349B2; US8685650B2; US20140206551A1; EP2275576B1; US8394591B2; CN103333949B; EP2821506A1; EP2182079A1; US20160251713A1; WO2008007951A1; US20150148241A1; ATE481506T1; DE602007009233D1; CN101484589A; JP2013223502A; US8178300B2; ES2352987T3

Abstract

【課題】本発明は、制限断片を生成するとともに、（試料特異的）識別子を含む好適なアダプタをライゲートする、分子マーカーを同定及び検出するハイスループットな方法を提供する。
【解決手段】アダプタとライゲートした制限断片は、その３’末端に選択的ヌクレオチドを担持するアダプタ適合プライマーで選択的に増幅され得る。増幅したアダプタとライゲートした制限断片は、ハイスループットシークエンシング方法を使用して、少なくとも部分的にシークエンシングされ、試料特異的識別子とともに、制限断片の配列部分は分子マーカーとして働く。
【選択図】図１

Description

本発明は、分子生物学及びバイオテクノロジーの分野に関する。特に、本発明は、核酸の検出及び同定の分野に関する。より詳細には、本発明は、ハイスループットシークエンシング技術を使用した、ゲノム又はその一部の物理地図の作製に関する。

統合された遺伝的且つ物理的なゲノム地図は、地図に基づく遺伝子単離、比較ゲノム解析に、及びゲノムシークエンシングプロジェクトのための配列対応（sequence-ready）クローンの供給源として非常に貴重である。ゲノム研究用の種の物理的且つ遺伝的マーカーの統合地図が利用可能であることの影響は非常に大きい。統合地図によって、正確且つ迅速な遺伝子マッピング、並びにマイクロサテライト遺伝子座及びＳＮＰマーカーの正確なマッピングが可能になる。複雑性が様々なゲノムの物理地図をアセンブリするのに様々な方法が開発されている。より良好な特徴を示すアプローチの１つは、制限酵素を使用してゲノムのサブクローンから大量のＤＮＡ断片を生成することである（非特許文献１、非特許文献２、非特許文献３）。これらのフィンガープリントを比較して、関連クローンを同定し、コンティグにおいて重複するクローンをアセンブリする。しかし、ゲル間のＤＮＡ移動の変動、反復ＤＮＡの存在、制限部位の異常な分布及びクローン提示の歪みのために、複雑なゲノムの大きい挿入クローンの順番の決定（ordering）に対するフィンガープリントの有用性は制限されている。したがって、フィンガープリントと、ＰＣＲベース又はハイブリダイゼーションベースの方法との組合せを用いて、複雑なゲノムの最も高品質な物理地図を構築している。しかし、フィンガープリント技術の利用の欠点の１つは、間接的な方法である断片パターンマッチング法に基づいていることである。

実際の配列データに基づきコンティグを作製すること、即ちより直接的な方法によって、物理地図を作製することが好ましい。配列を基にした物理地図はより正確であるだけでなく、同時に対象の種の全ゲノム配列の決定にも寄与する。近年、より効率的且つ費用効果的にクローンの完全ヌクレオチド配列の決定を可能にするハイスループットシークエンシング法が利用可能になっている。

しかしながら、制限断片全体のシークエンシングによる検出は、依然として比較的不経済である。さらに、例えば本明細書中の他の部分で開示される、現行技術水準のシークエンシング技術（454 Life Sciences、www.454.com、Solexa、www.solexa.com及びHelicos、www.helicosbio.comによる）は、その圧倒的なシークエンシング能にも関わらず、制限長断片のシークエンシングしか提供することができない。また、現行方法は１回の操作で多くの試料を同時に処理することができない。

本発明の目的は、制限消化、プーリング、非常に正確な増幅、及びハイスループットシークエンシングの組合せに基づいた、物理地図のハイスループットな作製を可能にする戦略を発明するとともに説明することである。この方法を使用すれば、複雑なゲノムであっても物理地図を作製することができる。

定義
以下の説明及び実施例において、多くの用語が使用される。かかる用語に与えられる範囲を含む、明細書及び特許請求の範囲についての明確で且つ一貫した理解を提供するために、以下の定義が提供される。本明細書中で特に規定しない限り、使用されるすべての技術用語及び科学用語は、本発明が属する技術分野の当業者によって共通に理解されるものと同一の意味を有する。すべての刊行物、特許出願、特許及び他の参考文献の開示内容全体が、参照により本明細書中に援用される。

核酸：本発明に記載の核酸は、ピリミジン塩基及びプリン塩基、好ましくはシトシン、チミン及びウラシル、並びにアデニン及びグアニンの任意のポリマー又はオリゴマーをそれぞれ含み得る（非特許文献４（この全体がすべての目的のために参照により本明細書中に援用される）を参照されたい）。本発明では、任意のデオキシリボヌクレオチド、リボヌクレオチド又はペプチド核酸成分、及びそれらの任意の化学的な変形（例えばこれらの塩基のメチル化形態、ヒドロキシメチル化形態又はグリコシル化形態）等が考えられる。ポリマー又はオリゴマーは、組成物中で不均質であっても又は均質であってもよく、天然の供給源から単離してもよく、又は人為的若しくは合成的に生成してもよい。また核酸は、ＤＮＡ若しくはＲＮＡ、又はそれらの混合物であってもよく、恒久的に又は一時的に、一本鎖形態、又はホモ二重鎖、ヘテロ二重鎖、及びハイブリッド状態を含む、二本鎖形態で存在してもよい。

ＡＦＬＰ：ＡＦＬＰとは、１つ又は複数の制限エンドヌクレアーゼにより核酸を消化して制限断片を生成すること、アダプタを制限断片にライゲートすること、及びアダプタと（一部）相補的であり、制限エンドヌクレアーゼの残部と（一部）相補的であり、Ａ、Ｃ、Ｔ又はＧ（又は場合によってはＵ）の中からランダムに選択される少なくとも１つのヌクレオチドをさらに含有する少なくとも１つのプライマーを用いて、アダプタとライゲートした制限断片を増幅することに基づく核酸の選択的増幅法を指す。ＡＦＬＰには事前配列情報は全く必要なく、ＡＦＬＰは任意の開始ＤＮＡで実施し得る。概してＡＦＬＰは、
（ａ）核酸、特にＤＮＡ又はｃＤＮＡを１つ又は複数の特異的な制限エンドヌクレアーゼで消化する工程であって、対応する一連の制限断片へとＤＮＡを断片化する、消化する工程と、
（ｂ）こうして得られた制限断片を、一端が制限断片の一端又は両端と適合する二本鎖合成オリゴヌクレオチドアダプタとライゲートする工程であって、それによりアダプタとライゲートした（好ましくは、タグ付けした）開始ＤＮＡの制限断片を生成する、ライゲートする工程と、
（ｃ）アダプタとライゲートした（好ましくは、タグ付けした）制限断片を、ハイブリダイズ条件下で、その３’末端に選択ヌクレオチドを含有する１つ又は複数のオリゴヌクレオチドプライマーと接触させる工程と、
（ｄ）プライマーとハイブリダイズした、アダプタとライゲートした（好ましくは、タグ付けした）制限断片を、ＰＣＲ又は同様の技法によって増幅する工程であって、プライマーがハイブリダイズする開始ＤＮＡの制限断片に沿って、ハイブリダイズしたプライマーのさらなる伸長を引き起こす、増幅する工程と、
（ｅ）こうして得られた増幅又は伸長したＤＮＡ断片を、検出、同定、又は回収する工程とを含む。

したがって、ＡＦＬＰはアダプタとライゲートした断片の再現可能なサブセットを提供する。ＡＦＬＰはとりわけ特許文献１、特許文献２、及び非特許文献５に記載されている。ＡＦＬＰに関するさらなる詳細に関しては、これらの刊行物が参照される。ＡＦＬＰは複雑度低減技法及びＤＮＡフィンガープリント技術として一般に使用される。ＡＦＬＰをフィンガープリント技術として使用する状況の中で、ＡＦＬＰマーカーの概念が発展してきた。

選択塩基：選択塩基は、アダプタと相補的な部分、及び制限部位の残部と相補的な部分を含有するプライマーの３’末端に位置し、Ａ、Ｃ、Ｔ又はＧの中からランダムに選択される。選択塩基を用いてプライマーを伸長することにより、続く増幅ではアダプタとライゲートした制限断片の再現可能なサブセットのみ、即ち、選択塩基を担持するプライマーを使用して増幅し得る断片のみが生成される。選択ヌクレオチドは１個〜１０個の数でプライマーの３’末端に付加され得る。典型的には、１個〜４個で十分であり、且つ好ましい。両プライマーは様々な数の選択塩基を含有し得る。それぞれ付加された選択塩基によって、サブセット中の増幅したアダプタとライゲートした制限断片（単位複製配列）の量を約４分の１に低減させる。典型的には、ＡＦＬＰで使用される選択塩基の数は＋Ｎ＋Ｍで示される（この場合、１つのプライマーがＮ個の選択ヌクレオチドを担持するとともに他のプライマーがＭ個の選択ヌクレオチドを担持する）。したがって、Ｅｃｏ／Ｍｓｅ＋１／＋２ＡＦＬＰとは、開始ＤＮＡのＥｃｏＲＩ及びＭｓｅＩによる消化、適切なアダプタのライゲーション、並びに１つの選択塩基を担持するＥｃｏＲＩ制限位置を対象とする１つのプライマー、及び２つの選択ヌクレオチドを担持するＭｓｅＩ制限部位を対象とするもう１つのプライマーを用いる増幅の省略表現である。少なくとも１つの選択ヌクレオチドをその３’末端に担持する、ＡＦＬＰで使用されるプライマーもＡＦＬＰプライマーとして示される。選択ヌクレオチドをその３’末端に担持せず、且つ実際はアダプタ及び制限部位の残部と相補的なプライマーは、ＡＦＬＰ＋０プライマーとして示されることもある。

クラスタリング：「クラスタリング」という用語は、短く又は長く続く同一又は類似のヌクレオチドの存在に基づいて、２つ以上のヌクレオチド配列を比較すること及び短く（又は長く）続く同一又は類似の配列に基づいて、或る特定の最小レベルの配列相同性を有する配列をグループ化することを意味する。

アセンブリ：（部分）重複配列の一群の順番決定に基づくコンティグの構築であり、「コンティグ構築」とも呼ばれる。

アライメント：例えばギャップを導入することによって、アライメント中の様々な配列にわたって配列同一性を有する領域を得る可能性を最大にするための図面における複数の配列の位置決め。以下でさらに説明されるように、幾つかのヌクレオチド配列のアライメント法が当該技術分野で既知である。

識別子：アダプタ若しくはプライマーに付加され得るか、又はその配列内に含まれ得るか、又はそうでなければ標識として使用されて一意の識別子を提供し得る短い配列。かかる配列識別子（タグ）は、特異的な核酸試料を同定するために一意的に使用される、多様であるが規定された長さを有する一意の塩基配列であり得る。例えば、４ｂｐのタグにより、４^４＝２５６個の異なるタグができる。典型例は、ハイブリダイゼーションによる一意的な検出に一般に使用されるタグとして当該技術分野において既知のＺＩＰ配列である（非特許文献６）。かかる識別子を使用することによって、さらなる処理時にＰＣＲ試料の起源が求められ得る。異なる核酸試料に由来する処理産物を組合せる場合には、概して、異なる核酸試料は異なる識別子を使用して同定される。

シークエンシング：「シークエンシング」という用語は、核酸試料、例えばＤＮＡ又はＲＮＡ中のヌクレオチドの順番（塩基配列）を決定することを指す。

ハイスループットスクリーニング：ＨＴＳと略されることの多いハイスループットスクリーニングは、特に生物学及び化学の分野に関連した科学実験用の方法である。現代のロボット工学及び他の専門化した実験ハードウェアの組合せによって、研究者は大量の試料を同時に効率的にスクリーニングすることが可能となる。

制限エンドヌクレアーゼ：制限エンドヌクレアーゼ又は制限酵素は、二本鎖ＤＮＡ分子中の特異的なヌクレオチド配列（標的部位）を認識し、すべての標的部位又はその近くでＤＮＡ分子の両鎖を切断する酵素である。

制限断片：制限エンドヌクレアーゼによる消化によって生成するＤＮＡ分子は制限断片と称される。任意の所定のゲノム（又はその起源に関わらず核酸）は、特定の制限エンドヌクレアーゼによって制限断片の別個の組へと消化される。制限エンドヌクレアーゼ切断に由来するＤＮＡ断片は、多様な技法でさらに使用することができ、例えばゲル電気泳動によって検出することができる。

ライゲーション：２つの二本鎖ＤＮＡ分子を相互に共有結合させるリガーゼ酵素によって触媒される酵素反応は、ライゲーションと称される。概して、両方のＤＮＡ鎖は相互に共有結合するが、鎖の一端の化学的修飾又は酵素的修飾を通じて、２つの鎖のうちの１つの鎖のライゲーションを防ぐことも可能である。その場合には、共有結合が２つのＤＮＡ鎖のうち１つのみで生じる。

合成オリゴヌクレオチド：化学的に合成することができる、好ましくは約１０塩基〜約５０塩基を有する一本鎖ＤＮＡ分子は、合成オリゴヌクレオチドと称される。概して、これらの合成ＤＮＡ分子は、一意又は所望のヌクレオチド配列を有するように設計されるが、関連配列を有し、且つヌクレオチド配列内の特定位置に異なるヌクレオチド組成を有する分子のファミリーを合成することが可能である。「合成オリゴヌクレオチド」という用語は、設計した又は所望のヌクレオチド配列を有するＤＮＡ分子を指すために使用される。

アダプタ：制限断片末端にライゲートすることができるように設計されている、限られた数の塩基対、例えば約１０塩基対長〜約５０塩基対長を有する短い二本鎖ＤＮＡ分子。アダプタは概して、互いに一部が相補的なヌクレオチド配列を有する２つの合成オリゴヌクレオチドから構成される。適切な条件下、溶液中で２つの合成オリゴヌクレオチドを混合すると、これらは互いにアニーリングして二本鎖構造を形成する。アニーリング後、アダプタ分子の一端は、制限断片の末端と適合し、それとライゲートすることができるように設計される。アダプタのもう一方の端は、ライゲートすることができないように設計することができるが、そうである必要はない（二重にライゲートしたアダプタ）。

アダプタとライゲートした制限断片：アダプタでキャッピングした制限断片。

プライマー：概して、「プライマー」という用語は、ＤＮＡの合成をプライムすることができるＤＮＡ鎖を指す。ＤＮＡポリメラーゼは、プライマーなしではＤＮＡをｄｅｎｏｖｏ合成することができない。即ち、アセンブリするヌクレオチドの順番を指示するための鋳型として相補鎖が使用される反応において、ＤＮＡポリメラーゼは既存のＤＮＡ鎖しか伸長することができない。本発明者らは、プライマーとして、ポリメラーゼ連鎖反応（ＰＣＲ）で使用される合成オリゴヌクレオチド分子を指す。

ＤＮＡの増幅：「ＤＮＡの増幅」という用語は、典型的には、ＰＣＲを使用する二本鎖ＤＮＡ分子のｉｎｖｉｔｒｏでの合成を指し示すために使用される。他の増幅方法が存在し、それらが趣旨を逸脱することなく、本発明で使用され得ることに留意されたい。

欧州特許第５３４８５８号米国特許第６０４５９９４号

Brenner et al., Proc. Natl. Acad. Sci., (1989), 86, 8902-8906 Gregory et al., Genome Res. (1997), 7, 1162-1168 Marra et al., Genome Res. (1997), 7, 1072-1084 Albert L. Lehninger著「生化学の原理（Principles of Biochemistry）」、793-800（Worth Pub. 1982） Vos et al., Nucleic Acid Research, 1995, 23, 21, 4407-4414 Iannone et al. Cytometry 39:131-140, 2000

本発明者らは、ライブラリにおけるクローンの制限酵素による消化、得られた配列のアダプタ−ライゲーション、（選択的）増幅、ハイスループットシークエンシング及びデコンボリューションの組合せを使用することによって、大きくて複雑なゲノムであっても物理地図をアセンブリするのに使用することができるコンティグが得られることを見出している。

一態様において、本発明は、ゲノムの少なくとも一部の物理地図を作製する方法であって、
（ａ）試料ＤＮＡを準備する工程と、
（ｂ）人工染色体（ＢＡＣ、ＹＡＣ）のクローンバンクを作製する（各人工染色体のクローンは、試料ＤＮＡの一部を含有する）工程と、
（ｃ）人工染色体のクローンを１つ又は複数のプールで組合せる（各クローンは、2つ以上のプールに存在する）工程であって、ライブラリを作製する、組合せる工程と、
（ｄ）１つ又は複数のプールのＤＮＡを１つ又は複数の制限エンドヌクレアーゼで消化し、各プールに対して制限断片の組が得られる、消化する工程と、
（ｅ）制限断片の片側又は両側にアダプタをライゲートする（少なくとも１つのアダプタがそれぞれ、プール特異的識別子区間又は縮重識別子区間を含有する）工程であって、アダプタとライゲートした制限断片が得られる、ライゲートする工程と、
（ｆ）任意選択で、アダプタとライゲートした制限断片を組合せる工程と、
（ｇ）工程（ｅ）のアダプタとライゲートした制限断片を少なくとも１つのプライマーで増幅し（プライマーはそれぞれ、アダプタのプール特異的識別子区間に対応するプール特異的区間を含有するか、又は縮合識別子区間の位置でプール特異的識別子を含有する）、タグ付けされ増幅したアダプタとライゲートした制限断片（単位複製配列）が得られる、増幅する工程と、
（ｈ）任意選択で、組合せた単位複製配列の組において単位複製配列を組合せる工程と、
（ｉ）少なくともプール特異的識別子、及び単位複製配列の制限断片部分又は組合せた単位複製配列の組の配列を決定する工程と、
（ｊ）プール特異的識別子を使用して、対応するクローンに対して、工程（ｉ）の単位複製配列で決定される制限断片配列を割り当てる工程と、
（ｋ）同じクローン由来の制限断片の順番を決定し、コンティグを構築する、順番を決定する工程と、
（ｌ）工程（ｋ）のクローンのコンティグの順番を決定し、それによって、クローン−コンティグを構築し、物理地図を作製する、順番を決定する工程とを含む、ゲノムの少なくとも一部の物理地図を作製する方法に関する。

この方法の工程（ａ）では、試料ＤＮＡを準備する。例えばSambrook et al（Sambrook and Russell (2001) "Molecular Cloning: A Laboratory Manual（3rd edition）, Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press）によって開示されたような当該技術分野における任意の方法でこれを達成することができる。試料ＤＮＡは、任意の種、特にヒト、植物又は動物由来であり得る。本明細書の他の部分に記載されるように、本発明はまた、例えばＡＦＬＰに基づく選択的増幅を介した再現可能なサブセットの作製によって、任意のサイズのゲノムに合わせた方法を提供するので、ゲノムの一部のみを使用することが可能であるが、これは必須という訳ではない。したがって典型的には、本発明は全ゲノムを使用する。

工程（ｂ）では、人工クローンバンクを作製する。ライブラリは、細菌人工染色体ライブラリであり得るか（ＢＡＣ）、又は酵母に基づき得る（ＹＡＣ）。コスミド、ＰＡＣ、ＴＡＣ又はＭＡＣ等に基づく他のライブラリも可能である。ＢＡＣライブラリが好ましい。ライブラリは、高品質であることが好ましく、挿入サイズが大きいゲノムライブラリが好ましい。これは、個々のＢＡＣが、研究中のゲノムＤＮＡに大きい挿入を含有することを意味する（典型的には、１２５ｋｂｐ超）。好ましい大きい挿入のサイズは、種によって異なる。本願を通して、人工染色体の例として、ＢＡＣに対して言及が為されている。しかし、本発明はそれらに限定されず、本発明の要旨を逸脱することなく、他の人工染色体を使用することができることに留意されたい。好ましくは、ライブラリは、少なくとも５ゲノム当量、より好ましくは少なくとも７ゲノム当量、最も好ましくは少なくとも８ゲノム当量を含有する。特に好ましくは、少なくとも１０ゲノム当量である。ライブラリにおけるゲノム当量数が高くなれば、得られるコンティグ及び物理地図の信頼性が高くなる。

ライブラリにおける個々のクローンをプールし、多くの人工染色体又はクローンを含有するプールを形成する。プーリング（pooling）は、１つの試料への多くの個々のクローン（例えば、１０個のプールへの１００個のクローン（それぞれが１０個のクローンを含有する））の単純な組合せであり得るが、より精密なプーリング戦略を用いてもよい。プールにわたるクローン分布は、各クローンが少なくとも２つ以上のプールに存在するようなものが好ましい。プールは、１つのプール当たり１０個〜１００００個、好ましくは１００個〜１０００個、より好ましくは２５０個〜７５０個のクローンを含有することが好ましい。１つのプール当たりのクローンの数は大いに異なり得ることが観察され、このばらつきは、例えば研究中のゲノムのサイズに関係がある。典型的には、プール又はサブプールの最大サイズは、識別子の組によってプール中のクローンを一意的に同定する能力によって支配される。以下でさらに詳述されるように、プールにおけるゲノム当量の典型的な範囲は、約０．２〜０．３であり、これも１つのゲノム当たりで異なり得る。プールは、当該技術分野で既知のプーリング戦略に基づいて作製される。当業者は、ゲノムサイズ等の要因に基づき、最適なプーリング戦略を選択することができる。得られるプーリング戦略は環境に依存し、その例は、プレートプーリング、Ｎ次元プーリング（例えば２次元プーリング、３次元プーリング、６次元プーリング）、又は複雑なプーリングである。多くのプールの操作を容易にするために、３次元プーリングを示す添付の図１で例示されるように、プールは順番にスーパープール（即ちスーパープールは、クローンプールのプールである）に組合せられるか、又はサブプールに分けられ得る。プーリング戦略及びそのデコンボリューション（即ち１つ又は複数のプール又はサブプールにおけるクローンの既知の関連指標（即ち標識又は識別子）の存在検出による、ライブラリにおける個々のクローンの正確な同定）の他の例は、例えば米国特許第６９７５９４３号又はKlein et al. in Genome Research,（2000）, 10, 798-807に記載される。プーリング戦略は、ライブラリにおけるあらゆるクローンがプールの一意的な組合せがあらゆるクローンに適合するプール全体に分布するようなものが好ましい。その結果、或る特定の（サブ）プールの組合せがクローンを一意的に同定する。

制限エンドヌクレアーゼでプールを消化して、制限断片を得る。各プールが別々にエンドヌクレアーゼ消化に供されるのが好ましい。各プールを同じ（組合せ）のエンドヌクレアーゼ（複数可）で処理する。原則として、あらゆる制限エンドヌクレアーゼを使用することができる。制限エンドヌクレーゼは、フリークエントカッター（ＭｓｅＩ又はＰｓｔＩ等の４又は５カッター）又はレアカッター（ＥｃｏＲＩ、ＨｉｎｄＩＩＩ等の６以上のカッター）であり得る。典型的には、平均して或る量で存在するか、又はその後の工程に適している或る特定の長さ分布を有する制限断片が得られるように、制限エンドヌクレアーゼが選択される。或る特定の実施の形態では、２つ以上の制限エンドヌクレアーゼを使用することができ、また或る特定の実施の形態では、レアカッターと、フリークエントカッターとの組合せを使用することができる。大きいゲノムには、例えば３つ以上の制限エンドヌクレアーゼを有利に使用することができる。

制限断片の一端又は両端に対して、工程（ｅ）でアダプタをライゲートし、アダプタとライゲートした制限断片を得る。典型的に、本明細書の他の部分で規定されるように、アダプタは合成オリゴヌクレオチドである。本発明で使用されるアダプタは、本明細書の他の部分で規定されるように、本質的に識別子区間を含有することが好ましい。或る特定の実施の形態では、アダプタは、プール特異的識別子を含有する、即ち各プールに対して、プールを明確に示す一意の識別子を含有するアダプタを使用する。或る特定の実施の形態では、アダプタは、プール特異的識別子を含有するプライマーと組合せて使用される縮重識別子区間を含有する。

或る特定の実施の形態では、特にアダプタがプール特異的識別子を含有するときに、アダプタとライゲートした制限断片をより大きいグループに組合せることができる。より大きいグループへのこの組合せは、プールから得られるアダプタとライゲートした制限断片の各組の並行増幅数を低減させるのに役立ち得る。

プライマーの組（少なくとも１つのプライマーが、アダプタにおけるプール特異的な位置又は縮重識別子の位置にプール特異的識別子を含有する）を使用して、アダプタとライゲートした制限断片を増幅することができる。この実施の形態は、上記で概説したように、増幅前にアダプタとライゲートした制限断片のグループ化も可能にする。代替的な実施の形態では、別々にプライマーの組（少なくとも１つのプライマーがプール特異的な区間を含有する）を使用することによって一意的にプールを同定して、各プールのアダプタとライゲートした制限断片（アダプタが縮重識別子区画を含有していた）を増幅する。

どちらにしても、結果として、それが由来するプールと結び付く、アダプタとライゲートした制限断片（単位複製配列とも表される）の組が単位複製配列におけるプール特異的識別子の存在により増幅される。或る特定の実施の形態では、本質的に本明細書の他の部分で記載されるように、その３’末端で選択的ヌクレオチドを担持するプライマーを用いて、選択的増幅によって、単位複製配列のサブセットを作製してもよい。

或る特定の実施の形態では、単位複製配列を、組合せた単位複製配列又はいわゆる配列ライブラリと組合せてもよい。

この方法の工程（ｉ）では、単位複製配列は、本明細書中の下記に記載されるようにシークエンシング、好ましくはハイスループットシークエンシングにかけられる。シークエンシング中に、単位複製配列のヌクレオチド配列の少なくとも一部が決定される。好ましくは、少なくともプール特異的識別子の配列及び単位複製配列の制限断片の一部が決定される。好ましくは、制限断片の少なくとも１０ヌクレオチドの配列が決定される。或る特定の実施の形態では、制限断片の少なくとも１１、１２、１３、１４又は１５ヌクレオチドが決定される。また、決定する最小のヌクレオチド数はゲノムに依存する。例えば、植物にはより反復性のある配列が存在し、これによってより長い配列（２５ｂｐ〜３０ｂｐ）が決定される。例えば、既知のシロイヌナズナゲノムの計算では、シークエンシング工程で６ｂｐの制限部位を含む場合、１つの制限断片当たり約２０ｂｐを決定する必要があることが示されている。全制限断片の配列を決定することが可能であるが、これはＢＡＣクローンのコンティグ構築に絶対必要なものではない。

シークエンシング工程では、精度の増大を得るために、少なくとも５の包括度で、配列ライブラリをシークエンシングしてもよい。これは、１つの特異的なアダプタとライゲートした制限断片の単位複製配列の増幅から得られる少なくとも５つの単位複製配列を有する配列を決定することを意味する。言い換えれば、各制限断片は、（統計的に）少なくとも５回シークエンシングされる。さらに精度が高まるので、包括度の増大は好ましく、好ましくは包括度は少なくとも７であり、より好ましくは少なくとも１０である。包括度の増大を利用して、「サンプリング変動」として知られる現象を補う。

以下の工程では、コンピュータ制御方法によって、典型的にコンピュータ内では、（一部）シークエンシングされた単位複製配列は、対応するクローンと相関がある。制限断片由来の部分においてヌクレオチドの同一区間を含有する単位複製配列が選択される。その後、これらの単位複製配列に存在する様々なプール特異的識別子を同定する。様々なプール特異的識別子の組合せ、及びしたがって制限断片の配列は、特定のクローンに一意的に割り当てることができる（上記で「デコンボリューション」として記載されたプロセス）。例えば、３次元プーリング戦略（Ｘ、Ｙ、Ｚ）の場合、３つのプールに特異的な識別子の組合せによって、ライブラリにおける各プールが一意的に扱われる。各クローンがライブラリにおいて２回以上発生するので、ライブラリにおけるクローンの各発生に対して、同じ制限断片由来の区画と組合せて、３つのプールに特異的な識別子を組合せることができる。言い換えれば、クローンに起因する制限断片由来の区画は、３つの異なる識別子でタグ付けされる。３つの識別子と組合せて観察される場合、一意の制限断片由来の区画を単一のＢＡＣクローンに割り当てることができる。制限断片由来部分で他の一意のヌクレオチド区画を含有する各単位複製配列に対して、これを繰り返すことができる。１つのプール当たりのゲノム当量を比較的低く（０．３未満、好ましくは０．２未満）維持し、それにより同じ断片が、異なるクローンに由来する同じプールで２回存在する確率を減らすことによって、このデコンボリューションプロセスを簡易にすることができる。

プーリング概念の例示的な図面が図１に与えられる。試料ＤＮＡを、ＢＡＣライブラリに変換する。ＢＡＣライブラリをプールの組（Ｍ）にプールする（３つのプールが示され、各プールが約０．３ＧＥを含有する）。各プールは、（Ｘ＋Ｙ＋Ｚ）サブプール（典型的にはマイクロタイタープレート束）に分けられる。

ライブラリにおいて特定のクローンと結び付くシークエンシングされた単位複製配列が、制限断片由来の区画の配列マッチングに基づき、コンティグを構築するのに使用される。次いで、各クローンのコンティグをアライメントして、物理地図を作製する。

本方法の利点は、とりわけＢＡＣコンティグ構築に関する従来技術に比べて、ＢＡＣコンティグ構築に関する精度の向上にある。さらに、配列情報に基づく物理地図の構築はより正確である。これは、本方法が物理地図の構築の直接的な方法であるとともに、ゲノム配列の決定に寄与し、さらにＳＴＳ開発及び比較マッピング目的に好適な配列情報を与えるためである。

本発明で使用されるハイスループットシークエンシングは、特に生物学及び化学の分野に関連した科学実験用の方法である。現代のロボット工学及び他の専門化した実験ハードウェアの組合せによって、研究者は大量の試料を同時に効率的にスクリーニングすることが可能となる。

シークエンシングは、国際公開第ＷＯ０３／００４６９０号、同第ＷＯ０３／０５４１４２号、同第ＷＯ２００４／０６９８４９号、同第ＷＯ２００４／０７０００５号、同第ＷＯ２００４／０７０００７号、及び同第ＷＯ２００５／００３３７５号（すべて454 Life Sciences名義）、Seo et al.（2004）による、Proc. Natl. Acad. Sci. USA 101:5488-93、並びにHelicos、Solexa、UＳ Genomics等の技術（これらは参照により本明細書中に援用される）で開示されている方法等のハイスループットシークエンシング法を使用して実施されることが好ましい。

454 Life sciences技術
或る特定の実施の形態において、シークエンシングは、国際公開第ＷＯ０３／００４６９０号、同第ＷＯ０３／０５４１４２号、同第ＷＯ２００４／０６９８４９号、同第ＷＯ２００４／０７０００５号、同第ＷＯ２００４／０７０００７号、及び同第ＷＯ２００５／００３３７５号（すべて454 Life Sciences名義）（これらは参照により本明細書中に援用される）に開示されている装置及び／又は方法を使用して実施されることが好ましい。記載されている技術は、１回の操作での２０００万〜４０００万塩基のシークエンシングを可能にし、競合技術よりも１００倍速く、且つ安価である。シークエンシング技術は、大まかには５工程：１）一本鎖ＤＮＡ（ｓｓＤＮＡ）のライブラリを作製するための、ＤＮＡの断片化及び特定のアダプタのライゲーション、２）ｓｓＤＮＡのビーズへのアニーリング、油中水型マイクロリアクタにおけるビーズの乳化、及び個々のｓｓＤＮＡ分子をビース上で増幅するためのエマルションＰＣＲの実施、３）表面上に増幅したｓｓＤＮＡ分子を含有するビーズの選択／濃縮、４）ＰｉｃｏＴｉｔｅｒ（商標）プレートにおける、ＤＮＡ担持ビーズの沈着、並びに５）ピロリン酸光シグナルの発生による１０００００ウェルでの同時シークエンシングから構成される。以下、本方法をより詳細に説明する。

好ましい実施の形態において、シークエンシングは、
（ａ）アダプタと結合した（adapted）断片をビーズにアニーリングする（各ビーズは単一のアダプタと結合した断片とアニーリングする）工程と、
（ｂ）ビーズ上にアニーリングした断片を油中水型マイクロリアクタ中で乳化及び増幅させる（各油中水型マイクロリアクタは単一のビーズを含む）工程と、
（ｃ）ビーズをウェルに充填する（各ウェルは単一のビーズを含む）工程と、ピロリン酸シグナルを発生する工程とを含む。

第１の工程（ａ）において、シークエンシングアダプタは、組合せライブラリ内で断片とライゲートする。上記シークエンシングアダプタは少なくとも、ビーズと結合した相補的なオリゴヌクレオチドにアニーリングするための領域、シークエンシングプライマー領域、及びＰＣＲプライマー領域を含む。したがって、アダプタと結合した断片が得られる。

第１の工程では、アダプタと結合した断片をビーズにアニーリングする（各ビーズは単一のアダプタと結合した断片とアニーリングする）。アダプタと結合した断片のプールに過剰のビーズを加えることにより、大部分のビーズに関して、１つのビーズ当たり１つのアダプタと結合した単一断片のアニーリングが保証される（ポワソン分布）。本発明では、クローンから得られた制限断片にライゲートするアダプタは、ビーズとアニーリング可能な区画を含み得る。

次の工程では、ビーズを油中水型マイクロリアクタ中で乳化させる（各油中水型マイクロリアクタは単一のビーズを含む）。ＰＣＲ試薬が油中水型マイクロリアクタ内に存在することにより、ＰＣＲ反応をマイクロリアクタ内部で起こすことが可能となる。続いて、マイクロリアクタを破壊して、ＤＮＡを含むビーズ（ＤＮＡポジティブビーズ）を濃縮する、即ち増幅断片を含有しないビーズから分離する。

続く工程では、濃縮ビーズをウェルに充填する（各ウェルは単一のビーズを含む）。ウェルは、好ましくは大量の断片の同時シークエンシングを可能にするＰｉｃｏＴｉｔｅｒ（商標）プレートの一部である。

酵素担持ビーズの添加後、ピロシークエンシングを使用して断片の配列を決定する。引き続く工程では、従来のシークエンシング試薬の存在下、ＰｉｃｏＴｉｔｅｒ（商標）プレート及びビーズ並びにその中の酵素ビーズを異なるデオキシリボヌクレオチドに曝し、デオキシリボヌクレオチドを取り込む際に、発生する光シグナルを記録する。正確なヌクレオチドの取込みにより、検出し得るピロシークエンシングシグナルが発生される。

ピロシークエンシング自体は当該技術分野において既知であり、とりわけwww.biotagebio.com; www.pyrosequencing.comの技術欄に記載されている。本技術は、例えば、国際公開第ＷＯ０３／００４６９０号、同第ＷＯ０３／０５４１４２号、同第ＷＯ２００４／０６９８４９号、同第ＷＯ２００４／０７０００５号、同第ＷＯ２００４／０７０００７号、及び同第ＷＯ２００５／００３３７５号（すべて454 Life Sciences名義）及びMargulies et al., nature 2005, 437, 376-380（これらは参照により本明細書中に援用される）でさらに適用される。

本発明において、ビーズは好ましくは、ビーズ結合単位複製配列を得るために重合による伸長が可能なプライマー配列又はその一部を備える。他の実施の形態において、増幅で使用されるプライマーは、続くエマルション重合、その後のシークエンシングを可能にするために、例えばその５’末端に単位複製配列をビーズに結合させる配列を備える。代替的には、単位複製配列は、ビーズ又は表面とのライゲーション前にシークエンシングアダプタとライゲートし得る。単位複製配列をシークエンシングすることにより、識別子の同一性が明らかになり、ひいては識別子の組合せにより、クローンの同一性が明らかになる。

Solexa技術
ハイスループットシークエンシング法の１つは、Solexa（英国）（www.solexa.co.uk）が利用可能であり、とりわけ、国際公開第ＷＯ０００６７７０号、同第ＷＯ００２７５２１号、同第ＷＯ００５８５０７号、同第ＷＯ０１２３６１０号、同第ＷＯ０１５７２４８号、同第ＷＯ０１５７２４９号、同第ＷＯ０２０６１１２７号、同第ＷＯ０３０１６５６５号、同第ＷＯ０３０４８３８７号、同第ＷＯ２００４０１８４９７号、同第ＷＯ２００４０１８４９３号、同第ＷＯ２００４０５０９１５号、同第ＷＯ２００４０７６６９２号、同第ＷＯ２００５０２１７８６号、同第ＷＯ２００５０４７３０１号、同第ＷＯ２００５０６５８１４号、同第ＷＯ２００５０６８６５６号、同第ＷＯ２００５０６８０８９号、同第ＷＯ２００５０７８１３０号に記載されている。本質的に特に本明細書の他の部分で記載されるように人工染色体プールのアダプタとライゲートした断片の場合に、本方法はＤＮＡのアダプタとライゲートした断片で開始する。アダプタとライゲートしたＤＮＡは、典型的にはフローセルで、固体表面と結合したプライマーの濃密な叢（lawn）とランダムに結合する。アダプタとライゲートした断片の他端は、表面上で相補的なプライマーとハイブリダイズする。いわゆる固相架橋増幅において、ヌクレオチド及びポリメラーゼの存在下でプライマーを伸長することにより、二本鎖の断片が得られる。本固相架橋増幅は選択的増幅であり得る。変性及び固相架橋増幅の反復の結果、増幅した断片の濃密なクラスタが表面全体に分布して得られる。４つの異なる標識をした可逆性終止ヌクレオチド、プライマー及びポリメラーゼをフローセルに加えることによって、シークエンシングを開始する。１回目のプライマー伸長の後、標識を検出し、第１の取込み塩基の同一性を記録し、ブロックした３’末端及び蛍光体を取込み塩基から除去する。その後、同様に、第２の塩基の同一性を判定し、このようにしてシークエンシングを継続する。

本発明において、アダプタとライゲートした制限断片又は単位複製配列は、プライマー結合配列又はプライマー配列を介して表面に結合する。識別子配列及び制限断片（の一部）を含む配列は概説したように決定する。現在利用可能なSolexa技術により、約２５塩基対の断片のシークエンシングが可能である。アダプタ及び表面に結合したプライマーの経済的設計によって、シークエンシング工程は、試料識別子、制限エンドヌクレアーゼの認識配列の残部、及びいずれかの任意選択的な選択塩基を読み取る。６ｂｐの試料識別子を使用すると、残部はレアカッターＥｃｏＲＩ由来であり（ＡＡＣＣＴ）、２つの選択塩基を使用すると、１２ｂｐの制限断片の内部配列が得られ、これを使用して、試料中の制限断片を一意的に同定することができる。

上記のSolexaシークエンシング技術に基づく、好ましい実施の形態において、アダプタとライゲートした制限断片の増幅は、その３’末端に最大で１つの選択ヌクレオチドを含有するプライマー、好ましくはその３’末端に選択ヌクレオチドを含有しないプライマー（即ち、プライマーがアダプタのみと相補的である）（＋０プライマー）を用いて実施される。

本明細書中に記載されるシークエンシング法を対象とする代替的な実施の形態において、増幅で使用されるプライマーは、（本明細書中に記載されるプライマー又はプライマー結合配列の代用として）特定の区間を含有し得る。これは、次のシークエンシング工程で使用されて、アダプタでキャッピングした制限断片又は単位複製配列を表面に結合させる。これらは、概して鍵領域又は５’−プライマー適合配列として示される。

本発明は、プール特異的な区間又は縮重識別子区間を含有するアダプタ、及び／又はプール特異的識別子を含有するプライマーそれぞれにおいて具体化される。

プーリング戦略の概略図である。シロイヌナズナ染色体４に対する４つの連続したＢＡＣコンティグ−プーリング戦略を示す図である。グループ内で重複しない代替的な最小タイリングパス（tiling path）を示す図である。ＢＡＣプールで扱われる認識配列−アガロースゲル上の増幅産物を示す図である。再アセンブリした最小タイリングパス−１．９Ｍｂのコンティグ部分の拡大を示す図である。

以下、実施例に基づいて説明する。

合成時解読（Sequencing By Synthesis）（ＳＢＳ）アプローチに基づくシロイヌナズナ（Arabidopsis thaliana）のｄｅｎｏｖｏのＢＡＣに基づく物理地図構築
本実施例は、以下の概括に基づく。

全シロイヌナズナゲノムは約１２５Ｍｂｐである。細菌人工染色体（ＢＡＣ）は、平均約１００ｋｂのゲノム挿入を有する。シロイヌナズナゲノムの１×物理的包括度に対して、ＢＡＣの１ゲノム当量（ＧＥ）は、約１２５０個のＢＡＣを含む。至適結果を得るには、１つのＢＡＣプールが０．３４ＧＥ（約３８４個のＢＡＣ）以下を含有するように、ＢＡＣプールを構築することが好ましい。統計分析によって、０．３４ＧＥでは、２つの同一のＢＡＣ（即ち全く同じ物理的位置にマッピングされる２つのＢＡＣ）を見出す確率は５％未満であることが予測される。ＢＡＣプールのＧＥが低くなると、同じ位置にマッピングされる２つのＢＡＣを見出す確率がさらに低くなる。直接的な３次元プーリングシステムを計算に使用する。２つの異なる高品質ＢＡＣライブラリ（２つの異なるクローニング酵素、例えばＥｃｏＲＩ及びＨｉｎｄＩＩＩ）の合計１０ＧＥのＢＡＣは、高品質物理地図の構築には十分である。シロイヌナズナに関する１０ＧＥのＢＡＣは、約１２５００個のＢＡＣである。

配列タグ（制限断片の一部と識別子との組合せ）、例えばＥｃｏＲＩ／ＭｓｅＩ若しくはＨｉｎｄＩＩＩ／ＭｓｅＩ等のＡＦＬＰ断片、又は幾つかの複合酵素（ＥＣ）の組合せが、レアカッター制限部位から生成される。

本実施例では、ＨｉｎｄＩＩＩ／ＭｓｅＩの複合酵素を使用する。シロイヌナズナゲノムにおけるＨｉｎｄＩＩＩ／ＭｓｅＩ断片の分布は、１００ｋｂ当たり５０〜１２０個の断片であると推測される。

ハイスループットシークエンシングの設定
図１も参照されたい。０．３ＧＥは、３８４個のＢＡＣに対応する。Ｘ＋Ｙ＋Ｚ次元を用いた３８４個のＢＡＣの３次元プーリングによって、８＋１２＋４＝２４個のサブプールが得られる。１０ＧＥに関して、Ｍ×（Ｘ＋Ｙ＋Ｚ）＝３０×（８＋１２＋４）＝７２０個のサブプール。

各サブプールに関して、
１つのＢＡＣ当たり１００個のシークエンシングされたタグ、
１つのタグ当たり１０倍の配列冗長性（sequence redundancy）、
３次元プーリング（各ＢＡＣ断片は、各（Ｘ、Ｙ、Ｚ）次元でシークエンシングされる）を生成することが目的である。

このことは、０．３４ＧＥのプールの架橋増幅に基づくハイスループットシークエンシングに関して、一連のシークエンシングによって、８つのサブプール×（１２×４×１００×１０）＋１２個のサブプール×（８×４×１００×１０）＋４つのサブプール×（１２×８×１００×１０）＝１１５２０００個のサブプールが読み取られる必要があることを意味する。このことは、１ＧＥに対して、１ＧＥ当たり３×１１５２０００＝３４５６０００個の読み取り、及び１０ＧＥ当たり１０×３４５６０００＝３４５６００００個の読み取りが必要であることを意味する。

単一のＢＡＣは、潜在的に約２０ｂｐの一意の配列タグ（制限部位を含む）を約１００個生成する。配列数は、複合酵素の選択及び／又は組合せに依存する。

個々のＢＡＣが調整され、「デコンボリューション」工程によって扱われるサブプールの配列から添付の配列タグを推測することができる。結果として、デコンボリューションを介して、各配列タグを対応する個々のＢＡＣに割り当てることが可能である。反復配列タグは無視する。デコンボリューションプロセスによって、１つのＢＡＣ当たり１００個の一連のタグが得られ、続いてアガロースゲルで分析されたＢＡＣ断片に関してCari Soderlundによって説明されたように、ＦＰＣ（フィンガープリント化コンティグ）型プロセスによって、ｄｅｎｏｖｏ物理地図のアセンブリが得られる（Soderlund et al. 2000 - Genome Research 10; 1772-1787）。最終的に、物理地図の遺伝子地図への固定がコンピュータ内で行われる。より大きいゲノムに対しては、他のプーリング戦略が必要な場合がある。

合成時解読（ＳＢＳ）アプローチに基づくキュウリ（Cucumis sativus）のｄｅｎｏｖｏのＢＡＣに基づく物理地図構築
本実施例は、以下の概括に基づく。

キュウリの全ゲノムは、約３５０Ｍｂｐである。細菌人工染色体（ＢＡＣ）は、平均して約１００ｋｂのゲノム挿入を有する。シロイヌナズナゲノムの１×物理的包括度に対して、ＢＡＣの１ゲノム当量（ＧＥ）は、約３５００個のＢＡＣを含む。至適結果を得るには、１つのＢＡＣプールが０．３４ＧＥ（約３８４個のＢＡＣ）以下を含有するように、ＢＡＣプールを構築することが好ましい。統計分析によって、０．３４ＧＥでは、２つの同一のＢＡＣ（即ち全く同じ物理的位置にマッピングされる２つのＢＡＣ）を見出す確率は５％未満であることが予測される。ＢＡＣプールのＧＥが低くなると、同じ位置にマッピングされる２つのＢＡＣを見出す確率がさらに低くなる。直接的な３次元プーリングシステムを計算に使用する。２つの異なる高品質ＢＡＣライブラリ（２つの異なるクローニング酵素、例えばＥｃｏＲＩ及びＨｉｎｄＩＩＩ）の合計１０ＧＥのＢＡＣは、高品質物理地図の構築には十分である。キュウリに関する１０ＧＥのＢＡＣは、約３５０００個のＢＡＣである。

本実施例では、複合酵素ＨｉｎｄＩＩＩ／ＭｓｅＩを使用する。キュウリゲノム中のＨｉｎｄＩＩＩ／ＭｓｅＩ断片の分布は、１００ｋｂ当たり５０個〜１２０個の断片であると推測される。

ハイスループットシークエンシングの設定
図１を参照されたい。０．３ＧＥは１１５２個のＢＡＣに対応する。Ｘ＋Ｙ＋Ｚ次元による１１５２個のＢＡＣの３次元プーリングによって、８＋１２＋１２＝３２個のサブプールが得られる。１０ＧＥに対して、Ｍ×（Ｘ＋Ｙ＋Ｚ）＝３０×（８＋１２＋１２）＝９６０個のサブプール。

各サブプールに関して、
１つのＢＡＣ当たり１００個のシークエンシングされたタグ、
１つのタグ当たり１０倍の配列冗長性、
３次元プーリング（各ＢＡＣ断片は、各（Ｘ、Ｙ、Ｚ）次元でシークエンシングされる）を生成することが目的である。

このことは、０．３４ＧＥのプールの架橋増幅に基づくハイスループットシークエンシングに関して、一連のシークエンシングによって、８個のサブプール×（１２×１２×１００×１０）＋１２個のサブプール×（８×１２×１００×１０）＋１２個のサブプール×（１２×８×１００×１０）＝３４５６０００個のサブプールが読み取られる必要があることを意味する。このことは、１ＧＥに対して、１ＧＥ当たり３×３４５６０００＝１０３６８０００個の読み取り、及び１０ＧＥ当たり１０×１０３６８０００＝１０３６８００００個の読み取りが必要であることを意味する。

プールしたＢＡＣからＡＦＬＰ鋳型（ＥｃｏＲＩ／ＭｓｅＩ又はＨｉｎｄＩＩＩ／ＭｓｅＩ）を調製する。２個のＨｉｎｄＩＩＩ＋１プライマーと、１個のＭｓｅＩ＋０プライマーとの組合せを用いて、ＡＦＬＰ増幅を行う（ＥｃｏＲＩに関しても同じ）。２個の＋１プライマーの使用によって、プールからの約５０％のＨ／Ｍ（又はＥ／Ｍ）断片の増幅、即ち各複合酵素に対して平均して７０／２＝３５個の制限断片が増幅されるのを確実にする。各ＢＡＣプールの５’末端に一意の識別子タグを含有するＡＦＬＰプライマーで、ＡＦＬＰ増幅反応を行う。したがって、少なくとも７４個の識別子配列が必要である。４つの塩基タグ（４^４＝２５６個の可能性）によって、これを達成することができる。本実施例では一方向性のシークエンシングを行うので、ＨｉｎｄＩＩＩプライマーには、識別子配列だけが必要である。

すべてのプールのＡＦＬＰ反応混合物を等量で混合し、断片ライブラリを作製する。断片ライブラリを用いて、配列ライブラリを構築する。

３次元プーリング戦略では、このことは、各次元で断片毎に平均して複数回サンプリングすることを意味する。結果は、制限断片のＨｉｎｄＩＩＩ（又はＥｃｏＲＩ）部位に由来する１００ｂｐの配列である。上記のように、１つのＢＡＣクローン当たり平均して３５個の配列が得られる。この配列は、ＦＰＣ（http://www.agcol .arizona.edu/software/fpc/から入手可能なSoderlund製のソフトウェアパッケージ）と同様の手順を用いるが、配列マッチングに基づいて（より詳細には）、コンティグアセンブリの基礎となる。

再現性のある複雑性の低減を利用することの利点は、物理地図の構築に必要な断片が少なくなることである。上記のキュウリの例における複雑性の５０％の低減は、読み取りを１０３６８００００個から５１８４００００個にする。本明細書に記載されるような複雑性の低減を利用した本発明のさらなる利点は、制御可能な品質で物理地図を作製することができることである。このことは、＋１のＡＦＬＰ増幅、例えば＋Ｃをプライマーに組合せることで、ＢＡＣプールの複雑性を低減させることによって、＋１の増幅を４つすべてのプライマーの組合せ（Ａ、Ｃ、Ｔ、Ｇ）と比べて、物理地図の品質（包括度）が約２５％になることを意味する。しかしながら、２つ又は３つのプライマーの組合せを用いると、＋１の増幅を４つすべてのプライマーの組合せ（Ａ、Ｃ、Ｔ、Ｇ）で得られる包括度と比べると、包括度の増大、即ち例えばそれぞれ５５％又は９０％が得られる。

ＢＡＣクローンの役割
３つの異なるタグ付けしたプライマーで同じＢＡＣクローン由来の断片を増幅する。したがって、３つのタグとの組合せで観察された一意の配列をライブラリ中の単一のＢＡＣクローンに割り当てる。反復配列は、複数のタグとの組合せで観察されるので、単一のＢＡＣクローンには結び付けることはできない。このことは、かなりの割合の断片に影響を与えるが、１つのＢＡＣクローン当たり３５個の断片の中で少なくとも１つのサブセットが一意的なものである。

ＢＡＣプールの１０倍の配列包括度（３．３倍／次元）は、（個々のクローンの濃度差及びサンプリングの変動等のために）すべての予測される断片が観察される訳ではないことを意味する。したがって、（一意の）配列分画は、１つ又は２つのタグとの組合せで観察されるにすぎない（又は全く観察されない）。このことが、配列を単一のＢＡＣクローンに割り当てるのを邪魔している。しかしながら、これが同じクローンに由来する制限断片間のサンプリングの変動によるものであれば、３５個の断片をサンプリングすることは、タグの組合せが、ＢＡＣに対する正確なアドレスを提供することを意味する：下記を参照されたい。

上記のスキームは、コンティグ構築が、コンティグにおいて相互に断片をグループ化する、即ち断片５（一意の配列を有し、３つのタグを組合せてサンプリングした）が、同様に断片１〜断片４（＋３５）が由来すると考えられる、ライブラリ中でＢＡＣアドレスを規定することを示している。

したがって、このアプローチの強みは、十分多い制限断片（上記実施例では３５個）における配列情報を正確なコンティグを構築するのに使用し、（実験の変動により）たとえＢＡＣアドレスが各個々の断片配列から得ることができなくとも、３次元タグ付けシステムを利用することで大部分のＢＡＣに対する直接的な同定を可能にすることである。しかしながら、同じＢＡＣ由来の断片からのタグの組合せによってＢＡＣアドレスが提供される。

このように、配列ベースのＢＡＣコンティグ作製に由来する情報は、従来のアプローチ（即ちコンティグ＋ＢＡＣアドレス）と同じである。個々のクローンフィンガープリント化アプローチに関するＢＡＣアドレスは定義により既知であることが観察される。

配列タグＢＡＣマッピングによるハイスループット物理地図作製の手順
シロイヌナズナの第４染色体に対してマッピングし、４つのＢＡＣコンティグ（１．８Ｍｂ、１．２Ｍｂ、０．５Ｍｂ及び１．９Ｍｂ）における全体の物理的な広がりが５．４Ｍｂに及ぶ合計７２個のＢＡＣ（ＢＡＣ＝細菌人工染色体）をＴＡＩＲ及び他のデータベースから選択した。ＢＡＣライブラリのドナー植物は、コロンビア型のシロイヌナズナである。サイズが７０ｋｂ〜１５０ｋｂに及ぶ７２個のＢＡＣを３６個のＢＡＣの２つのグループ、「ＡＢ」グループ及び「ＸＹ」グループに分けた。２つのグループ内の３６個のＢＡＣには内部重複はないが、ＡＢグループとＸＹグループとを組合せたＢＡＣは、ＡＢグループ及びＸＹグループのＢＡＣを交互に並べた４つの連続した最小のタイリングパスコンティグにアセンブリすることができる（図２〜図５を参照されたい）。

７２個のシロイヌナズナのＢＡＣ、ＡＢグループ３６個及びＸＹグループ３６個のプーリング戦略

クロラムフェニコール（ＴＡＭＵＢＡＣクローン）又はカナマイシン（ＩＧＦＢＡＣクローン）を含む標準ＴＹ培地２００μｌで個々のクローンとして７２個のＢＡＣを一晩培養した。すべてのクローンを６×６フォーマットで培養し、プーリング手順を容易にした。翌朝、１つのグループ当たり１２個のプールを作製するように、２次元（６×６）で液体培養物をプールした。各プールは、培養ＢＡＣを有する培地６００μｌ（個々のＢＡＣ当たり１００μｌ）を含有していた。Sambrook et al.（2001）による標準的なアルカリミニプレップ法に従って２４個すべてのＢＡＣプールからＤＮＡを単離した。

各ＢＡＣプールのＤＮＡ５０ｎｇを制限酵素ＥｃｏＲＩ及びＭｓｅＩで消化し、続いてVos et al.（1995）によって記載された標準ＡＦＬＰ法に従って、ＥｃｏＲＩ及びＭｓｅＩのＡＦＬＰアダプタをライゲートした。制限／ライゲーションミックスをミリＱ水で１０倍に希釈し、５μｌを増幅工程に使用した。各プールがプール特異的な４つのヌクレオチドアドレス配列でタグ付けされるように、増幅工程で使用したプライマーを４つのヌクレオチド認識配列を用いて設計した。この認識配列は、個々のＢＡＣ座標に対するすべての配列のデコンボリューションを容易にするのに必要である。

使用したＥｃｏＲＩ＋０プライマー及びＭｓｅＩ＋０プライマーの両方は、５’認識配列を担持するアダプタ適合性の５’リン酸化プライマーであり、各プール座標で異なる（図４を参照されたい）。５’リン酸化は、ピロシークエンシングアダプタのライゲーションに必要である。９４℃（３０秒）、５６℃（６０秒）、７２℃（６０秒）のプロファイル３０サイクルで増幅を行った。増幅後、産物をアガロースゲル上で確認し（図４）、各グループの増幅したプール産物１２個をグループプール（ＡＢｃｑ．ＸＹ）にプールするとともに定量した。すぐに各グループプールのＤＮＡ５μｇを454 Life Sciencesのシークエンシングのためにさらなる調製工程で処理した。Margulies et al.（2005）に従ってＧＳ２０プラットフォームで454 Life Sciencesのピロシークエンシングを行った。

ＢＡＣコンティグのデータセット及びアセンブリの解析
ＧＳ２０ピロシークエンシング機によって得られるＤＮＡ配列の読み取り表は、３つの工程で解析した：
工程１）プール試料コードから成る最初の４つのヌクレオチドを同定し、対応するプール標識を割り当てた。コードが未知であった場合、このセットから、この読み取りを除いた。

工程２）次のプライマー配列を含有する１６個又は１７個のヌクレオチド（制限酵素に依存する）を同定した。プライマー配列と１００％同一であった場合、読み取りを承認して、データセットに加え、そうでなければ除いた。

工程３）工程２のすべての読み取りをプライマー配列後の１４個のヌクレオチドに対してトリミングした。

その後、正確にトリミングした配列の読み取りをすべてクループ化した。１００％同一な読み取りをすべて同定し、それらを対応するプールに割り当てた。各一意の読み取りグループを「タグ」と呼ぶ。ちょうど２つのプールで見出されたタグ（Ｘ座標に関するタグ及びＹ座標に関するタグの両方）を特異的なＢＡＣと結び付けた。この手順はデコンボリューションと呼ぶ。

両方のＢＡＣグループに関して、デコンボリューションしたＢＡＣに対する一意のタグをすべて列挙した。１つ又は複数の共通のタグを有するＢＡＣ対を同定した。その後、ＢＡＣコンティグを表３に示されるようにアセンブリすることができた。

１．８Ｍｂ、１．２Ｍｂ、０．５Ｍｂ及び１．９Ｍｂの４つのＢＡＣの最小タイリングパスが、個々のＢＡＣに対する配列タグのデコンボリューション後に直接的な方法で再アセンブリことができることが実証された（表１及び図４）。作製したＧＳ２０タグと、コンピュータ内で予測した断片との比較は、ＥｃｏＲＩ／ＭｓｅＩ断片の７０％〜８０％がシークエンシングされたことを示した。したがって、４つのＢＡＣコンティグを再アセンブリする際に、２つのＢＡＣ間で幾つかの小さい物理的重複は検出することができなかった。

短い読み取り（１４ｂｐ）が、ＢＡＣタイリングパスを再アセンブリするのには十分であるということは、短い読み取り長を有するハイスループットシークエンシングプラットフォーム（例えばIlluminaのゲノム分析器及びＳＯｌｉＤ（ABI））が、提唱された方法に従って、ハイスループットな物理地図のアセンブリを可能にすることを示す。

Claims

ゲノムの少なくとも一部の物理地図を作製する方法であって、
（ａ）試料ＤＮＡを準備する工程と、
（ｂ）各々が前記試料ＤＮＡの一部を含有する人工染色体（ＢＡＣ、ＹＡＣ）のクローンのバンクを作製する工程と、
（ｃ）前記人工染色体のクローンであって、各クローンは２つ以上のプールに存在する前記クローンを、複数のプールで組合せる工程であって、ライブラリを作製する、組合せる工程と、
（ｄ）前記１つ又は複数のプールを１つ又は複数の制限エンドヌクレアーゼで消化し、各プールに対して制限断片の組が得られる、消化する工程と、
（ｅ）前記制限断片の片側又は両側にアダプタをライゲートする工程であって、前記アダプタの少なくとも１つが、プール特異的識別子区間を含有することでアダプタとライゲートした制限断片を得るライゲートする工程と、
（ｆ）任意選択で、前記アダプタとライゲートした制限断片を組合せる工程と、
（ｇ）工程（ｅ）の前記アダプタとライゲートした制限断片を、それぞれが該アダプタの前記プール特異的識別子区間に対応するプール特異的区間を含有するか、又は前記縮合識別子区間の位置でプール特異的識別子を含有する少なくとも１つのプライマーで増幅し、増幅したアダプタとライゲートした制限断片である単位複製配列が得られる増幅する工程と、
（ｈ）任意選択で、前記単位複製配列を組合せて組合せた単位複製配列の組を得る工程と、
（ｉ）少なくとも前記プール特異的識別子、及び前記単位複製配列の制限断片部分又は組合せた単位複製配列の組の配列を決定する工程と、
（ｊ）前記プール特異的識別子を使用して、対応するクローンに対して、工程（ｉ）の前記単位複製配列で決定される前記制限断片配列を割り当てる工程と、
（ｋ）同じクローン由来の前記制限断片の順番を決定し、コンティグを構築する、順番を決定する工程と、
（ｌ）工程（ｋ）の前記クローンのコンティグの順番を決定し、それによって、クローン−コンティグを構築し、物理地図を作製する、順番を決定する工程とを含む、ゲノムの少なくとも一部の物理地図を作製する方法。
制限断片の一部で同一の配列を含有するが、異なるプール特異的識別子を担持する単位複製配列をクラスタリングすることによって、該制限断片が前記対応するクローンに割り当てられる、請求項１に記載の方法。
前記シークエンシングが、ハイスループットシークエンシングによって行われる、請求項１に記載の方法。
前記ハイスループットシークエンシングが固体支持体上で行われる、請求項３に記載の方法。
前記ハイスループットシークエンシングが合成時解読（Sequencing-by-Synthesis）に基づく、請求項３に記載の方法。
前記ハイスループットシークエンシングが、
前記単位複製配列又は前記アダプタとライゲートした制限断片を、ビーズにアニーリングする工程であって、各ビーズは、単一のアダプタとライゲートした制限断片又は単位複製配列とアニーリングする工程と、
前記ビーズを各油中水型マイクロリアクタが単一のビーズを含むように、前記油中水型マイクロリアクタ中で乳化させる工程と、
エマルションＰＣＲを実施し、前記アダプタとライゲートした制限断片又は前記単位複製配列を前記ビーズ表面上で増幅する、実施する工程と、
任意選択で、増幅した単位複製配列を含有するビーズを選択／濃縮する工程と、
前記ビーズを各ウェルが単一のビーズを含むように前記ウェルに充填する工程と、
ピロリン酸シグナルを発生させる工程とを含む、請求項３に記載の方法。
前記ハイスループットシークエンシングが、
前記アダプタとライゲートした制限断片又は前記単位複製配列を、第１のプライマー及び第２のプライマー又は第１のプライマー結合配列及び第２のプライマー結合配列をそれぞれ含有する表面にアニーリングする工程と、
架橋増幅を実施し、増幅したアダプタとライゲートした制限断片又は増幅した単位複製配列のクラスタが得られる、実施する工程と、
標識した可逆性終止ヌクレオチドを使用して、前記増幅したアダプタとライゲートした制限断片又は前記増幅した単位複製配列のヌクレオチド配列を決定する工程とを含む、請求項３に記載の方法。
前記識別子が、４ｂｐ〜１６ｂｐ、好ましくは４ｂｐ〜１０ｂｐ、より好ましくは４ｂｐ〜８ｂｐ、最も好ましくは４ｂｐ〜６ｂｐである、請求項１に記載の方法。
前記識別子が２つ以上の同一の連続塩基を含有しない、請求項８に記載の方法。
２つ以上のクローンに対して、前記対応する識別子が、少なくとも２つの異なるヌクレオチドを含有する、請求項８に記載の方法。
前記少なくとも１つのプライマーが、その３’末端で１個〜１０個、好ましくは１個〜４個の選択的ヌクレオチドを担持し、単位複製配列のランダムサブセットが得られる、請求項１〜１０のいずれか一項に記載の方法。
請求項１に記載のプライマーを１つ又は複数含むキット。
請求項１に記載のアダプタを１つ又は複数含むキット。
請求項１に記載のプライマー及びアダプタを含むキット。