JP2013514079A

JP2013514079A - 制限酵素に基づく全ゲノムシーケンシング

Info

Publication number: JP2013514079A
Application number: JP2012544417A
Authority: JP
Inventors: レネーコーネリヨセフスホガース; アイクミヒャエルヨセフステレージアヴァン
Original assignee: キージーン・エン・フェー
Priority date: 2009-12-17
Filing date: 2010-12-16
Publication date: 2013-04-25
Also published as: CN102656279A; AU2010330936B2; CA2783548A1; US8932812B2; WO2011074960A1; EP2513333B1; AU2010330936A1; US20120245037A1; EP2513333A1

Abstract

ＤＮＡ試料の、アダプターとライゲーションされた制限酵素切断断片のシーケンシングと組み合わせた、タグ化された、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングに基づく、ＤＮＡ試料クローンバンクの（配列に基づく）物理地図に基づくｄｅｎｏｖｏ全ゲノムシーケンシングのための方法であって、この物理地図の生成で使用される制限酵素の認識配列は、当該ＤＮＡ試料の生成で使用される制限酵素の認識配列少なくとも一部分と同一である方法。
【選択図】図４

Description

本発明は、高スループットシーケンシングを使用する、全ゲノム配列またはその一部分の効率的な生成のための方法および戦略に関する。本発明は、大スケールの核酸のシーケンシングに、特に生物のゲノム、またはその一部分をシーケンシングする方法に関する。本発明は、高スループットシーケンシング技術の使用に基づく、好ましくは複雑な（すなわち大きい）ゲノムの配列を決定するための改善された戦略に関する。

多くのシーケンシングプロジェクトのゴールは、標的生物のゲノム配列全体を初めて決定すること（ｄｅｎｏｖｏドラフトゲノムシーケンシング）である。ドラフトゲノム配列を手にすることで、例えば種と種の間または同じ種の個体間の遺伝的変異の起源の特定のための、生物の有用な遺伝情報の特定が可能になる。従って、ヒト、動物または植物のいずれであろうと、個体のゲノム配列全体のｄｅｎｏｖｏ決定を妥当な費用および労力で可能にする技法に至ることが、当該技術分野での一般的な要望である。この探求は、典型的には、１０００ドルゲノム、すなわち最大１０００ドル（通貨変動は考慮しない）で個体のゲノム配列全体を決定することへの探求として表される。しかしながら、実際、１０００ドルゲノムは、必ずしもｄｅｎｏｖｏゲノムシーケンシングおよびアセンブリ戦略に依るわけではなく、リシーケンシングアプローチに基づく可能性もある。後者の場合、リシーケンシングされるゲノムは、ｄｅｎｏｖｏアセンブリングされず、シーケンシングされたそのＤＮＡは、注目する生物についての既存の参照ゲノム配列と比較される（既存の参照ゲノム配列にマッピングされる）。それゆえ、リシーケンシングアプローチは、技術的にそれほど困難ではなく、費用もかからない。分かりやすくするために、本発明の焦点は、参照ゲノム配列が欠けている生物に適用することができるｄｅｎｏｖｏゲノムシーケンシング戦略に当てられる。

現在の努力は様々であり、成し遂げられた結果は多く、そして急速に増加している。とはいうものの、上記のゴールはまだ成し遂げられていない。ゲノム全体を直接的にシーケンシングしアセンブリングすることは、まだ経済的に実現可能とは言えない。改良されたｄｅｎｏｖｏゲノムシーケンシング戦略についての要求が当該技術分野でまだある。このような戦略についての一般的な要求事項は、そのような戦略が、より安く、データを配列のリード（ｓｅｑｕｅｎｃｅｒｅａｄ）からアセンブリングされたドラフトゲノムへと処理するために必要な計算能力に関して効率的であり、十分な品質、すなわち、十分に正確なデータを作成するために決定される必要がある配列が持つべき重複性、のデータを生成するための高スループットシーケンシング装置の使用に関して効率的である、などということである。

特許文献１は、クローンアレイプールドショットガンシーケンシング（ｃｌｏｎｅ−ａｒｒａｙｐｏｏｌｅｄｓｈｏｔｇｕｎｓｅｑｕｅｎｃｉｎｇ）法（ＣＡＰＰＳ）を記載する。この方法は、様々にプールされた（ｐｏｏｌｅｄ）（ＢＡＣ）クローンからのランダムな配列のリードを用いる。ランダムなリードの交差アセンブリに基づいて、複数のクローンから配列コンティグを生成することができ、その配列に対する当該クローンの地図を生成することができる。この公開公報は、多次元のプール、例えば各プールおよび列が１４８個のＢＡＣクローンを含有する二次元のフォーマット（１４８×１４８フォーマット）でのＢＡＣライブラリーの生成を、より詳細に記載する。ＣＡＰＰＳを使用すると、ＢＡＣプールは、平均で４〜５×カバレッジ（ｃｏｖｅｒａｇｅ）までシーケンシングされ、これは、二次元プールのスキームの場合、ＢＡＣあたり８〜１０×カバレッジを生成する。コンティグは、１つの列および、二次元のプーリング（ｐｏｏｌｉｎｇ）スキームの場合は、１つのプールにおけるそれらの配列の出現に基づいて、そのＢＡＣにとって一意的である配列に基づいて、ＢＡＣごとに別々に作製される。その後、これらのＢＡＣは、そのゲノムについてのコンティグにアセンブリングされる。この公開公報は、５つのＢＡＣに基づく技術を実証しているにすぎず、データ処理の問題を手付かずのまま残している。この技術の不都合のうちの１つは、ランダムにシアリングされる断片の使用が、８〜１０倍の配列重複性レベルでゲノムをカバーする（ｃｏｖｅｒ）ために膨大な量のリードを必要とすることであり、このため、この方法は、大規模に行うと非常に面倒なものになる。さらには、この方法は、配列に基づく物理的ＢＡＣ地図を与えない。

特許文献２は、順序付けられている制限酵素地図の作成のために制限酵素を使用する全ゲノムの光学的な制限酵素地図作成と組み合わされた全ゲノムショットガン配列情報を作成するための、一本鎖のゲノムＤＮＡのクローン的に単離および増幅されたライブラリーに基づいた、配列情報のアセンブリの方法を記載する。

特許文献３は、部分配列の比較によるＢＡＣコンティグ地図作成に関する方法を開示する。この方法は、反復配列、およびリピートリッチの領域にわたるブリッジの作成によるコンティグの生成に関連する困難を回避することを目的とする。

ＢＡＣに基づいて物理地図を決定することは、例えば「全ゲノムプロファイリング（ｗｈｏｌｅｇｅｎｏｍｅｐｒｏｆｉｌｉｎｇ）」またはＷＧＰとしても示されるＫｅｙｇｅｎｅの特許文献４に記載されている方法を使用して、シーケンシングＢＡＣライブラリー（ＢＡＣクローンの配列に基づく物理地図作成）に基づくことができる。簡潔に言えば、ＷＧＰはゲノムの少なくとも一部分の物理地図の生成に関し、ＷＧＰは、試料ＤＮＡから人工染色体ライブラリーを生成する工程、クローンをプールする工程、プールされたクローンを制限酵素で消化する工程、識別子含有アダプターをライゲーションする工程、この識別子含有の、アダプターとライゲーションされた制限酵素切断断片を増幅する工程、増幅産物をクローンに相関させる工程、および断片を順序付けしてコンティグを生成し、これにより物理地図を作成する工程を含む。

国際公開第０３／０２７３１１号パンフレット米国特許出願公開第２００７／００８２３５８号明細書米国特許出願公開第２００２／０１８２６３０号明細書国際公開第２００８／００７９５１号パンフレット

高スループットシーケンシングにおけるすべての開発にもかかわらず、高精度でドラフトゲノム配列を決定することは、費用がかかり労力がかかるとまだ考えられており、激しい競争が市場で行われている。従って、ドラフトゲノム配列の生成のための効率的かつ経済的な方法に至るために、現在の既存の方法を補完する必要性がまだ残っている。

本発明者らは、シーケンシング技術の最近の発展に基づいて、新規かつ効率的な戦略が既存の方法論の改良をもたらすということを見出した。この戦略は、原理上は、制限酵素切断断片を使用した、クローンバンクからの物理地図に基づく。物理地図の生成で使用された認識配列と同じ認識配列を含有する制限酵素によって得られる、クローン由来またはゲノムＤＮＡ由来の制限酵素切断断片が、断片化された制限酵素切断断片のシーケンシング、デコンボリューション（クローンを使用するとき）および物理地図へのアラインメントを使用するその後の工程で、さらなる配列情報を生成するために使用される。その結果は、制限酵素切断断片にリンクされる配列のリードの生成であり、この際、制限酵素切断断片自体が物理地図にリンクされる。この組み合わされたアプローチを使用して、物理地図およびドラフトゲノム配列は、制限酵素切断断片の内部配列のシーケンシングと組み合わされた制限酵素切断断片シーケンシングの組み合わせを通して成し遂げられうる。

本発明のシーケンシング戦略の略図。ＷＧＰＳ、全ゲノムプロファイルシーケンシングの略図。ＳＤＳＥＳ、部位特異的なシングルエンドシーケンシングの略図。ＳＤＰＥＳ、部位特異的なペアエンドシーケンシングの略図。リード１とＷＧＰタグとの間の関係。リード１はシーケンシングプライマー２（の一部）を含有し、リード２はプールＩＤおよびシーケンシングプライマー１の組み合わせ（の一部）を含有する。リード２はプールＩＤ（の一部）を含有する。１５０６個のペアエンドリードを用いた、ＷＧＰタグ「ＧＡＡＴＴＣＡＧＴＧＧＡＧＧＡＴＴＧＴＧＧＧＧＴＧＧ」ビンについてのｐｈｒａｐ、Ｃａｐ３およびＶｅｌｖｅｔの例示的なアセンブリ結果。メロンゲノム配列（＝ターゲット）に対してＷＧＰタグ「ＧＡＡＴＴＣＡＡＡＴＧＡＡＧＣＣＡＣＣＣＴＴＴＡＧＡ」（＝クエリ）について生成されたコンティグのＢｌａｓｔ解析の例示的な結果。

定義
本願明細書で使用する場合、「ペアエンドシーケンシング」は、高スループットシーケンシングに基づく、特に、ＩｌｌｕｍｉｎａおよびＲｏｃｈｅによって現在販売されているプラットフォームに基づく方法である。Ｉｌｌｕｍｉｎａは、鋳型の両末端のシーケンシングを可能にし、これによりペアエンドリードを生成するアップグレードとして、既存のシーケンサーにインストールすることができるハードウェアモジュール（ＰＥＭｏｄｕｌｅ）をリリースした。本発明に係る方法においては、特にＳｏｌｅｘａ技術を使用するペアエンドシーケンシングを使用することが、特に好ましい。ペアエンドシーケンシングの例は、例えば米国特許出願公開大２００６０２９２６１１号明細書に、およびＲｏｃｈｅからの刊行物（４５４シーケンシング）に記載されている。

シーケンシング：用語「シーケンシング」は、核酸試料、例えばＤＮＡまたはＲＮＡの中のヌクレオチドの順序（塩基配列）を決定することを指す。Ｓａｎｇｅｒシーケンシングおよび高スループットシーケンシング技術（次世代シーケンシング技術としても知られる）、例えばパイロシークエンス（ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ）に基づいて、ＲｏｃｈｅＡｐｐｌｉｅｄＳｃｉｅｎｃｅによって提供されるＧＳＦＬＸプラットフォームなど、多くの技法が利用できる。

制限酵素：制限エンドヌクレアーゼまたは制限酵素は、二本鎖ＤＮＡ分子の中の特定のヌクレオチド配列（標的部位）を認識し、標的部位ごとにその部位またはその近傍でそのＤＮＡ分子の両方の鎖を切断して、平滑末端または付着末端を残すであろう酵素である。

タイプＩＩｓ制限エンドヌクレアーゼは、制限酵素部位から離れた認識配列を有するエンドヌクレアーゼである。換言すれば、タイプＩＩｓ制限エンドヌクレアーゼは、一方の側で、認識配列の外側を切断する。その例は、ＮｍｅＡＩＩＩ（ＧＣＣＧＡＧ（２１／１９）およびＦｏｋＩ、ＡｌｗＩ、ＭｍｅＩである。両側で認識配列の外側を切るタイプＩＩｓ酵素がある。

フリークエントカッター（ｆｒｅｑｕｅｎｔｃｕｔｔｅｒ）およびレアカッター（ｒａｒｅｃｕｔｔｅｒ）：制限酵素は、典型的には、４（ＭｓｅＩなど）〜６（ＥｃｏＲＩ）およびさらには８（ＮｏｔＩ）というヌクレオチドの数が異なる認識配列を有する。使用される制限酵素は、フリークエントカッターおよびレアカッターであることができる。これに関して用語「フリークエント」は、典型的には、用語「レア」に対して使用される。高頻度で切断するエンドヌクレアーゼ（フリークエントカッターとしても知られる）は、比較的短い認識配列を有する制限エンドヌクレアーゼである。フリークエントカッターは、典型的には、それらが認識しその後切断する４または５ヌクレオチドを有する。従って、フリークエントカッターは、平均で、２５６〜１０２４ヌクレオチドごとにＤＮＡ配列を切断する。レアカッターは、比較的長い認識配列を有する制限エンドヌクレアーゼである。レアカッターは、典型的には、それらが認識しその後切断する６またはこれより多いヌクレオチドを有する。従って、レアの６カッターは、平均で４０９６ヌクレオチドごとにＤＮＡ配列を切断し、より長い断片を導く。ここでも、フリークエントおよびレアの定義は互いに対してのものであるということが認められ、これは、ＭｓｅＩなどの４ｂｐ制限酵素がＡｖａＩＩなどの５カッターと組み合わせて使用されるとき、ＡｖａＩＩはレアカッターとして見られ、ＭｓｅＩはフリークエントカッターとして見られるということを意味する。

メチル化感受性制限酵素（ＭＳＲＥ）。認識配列の中またはその近傍にあるヌクレオチドのメチル化状態に敏感な制限酵素。特定のメチル化されたヌクレオチド（通常はシトシン）の存在または不存在は、当該酵素の活性にとって、認識配列の次に、重要である。ＮｏｔＩ、ＳｍａＩ、ＸｍａＩ、ＭｂｏＩ、ＢｓｔＢＩ、ＣｌａＩ、ＭＭ、ＮａｅＩ、ＮａｒＩ、ＰｓｔＩ、ＰｖｕＩ、ＳａｃＩＩ、ＳａｉＩ、ＨｐａＩＩ、およびＨｈａＩは、ＭＳＲＥの例である。他の有用なＭＳＲＥは、例えばＭｃＣｌｅｌｌａｎｄら、Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．、１９９４年、第２２巻、３６４０−３６５９頁に、またはＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（マサチューセッツ州ビバリー（Ｂｅｖｅｒｌｙ））、Ｐｒｏｍｅｇａ（ウィスコンシン州マディソン（Ｍａｄｉｓｏｎ））、もしくはＩｎｖｉｔｒｏｇｅｎ（カリフォルニア州カールスバッド（Ｃａｒｌｓｂａｄ））などの民間の販売業者から入手できる技術資料に記載されている。

イソ制限酵素：イソ制限酵素は、同じ認識配列に特異的でありかつおよび同じ位置で切断する制限酵素の対である。例えば、ＳｐｈＩ（ＧＣＡＴＧ^∧Ｃ）およびＢｂｕＩ（ＧＣＡＴＧ^∧Ｃ）は互いにイソ制限酵素である。与えられた配列を認識し切断するための第１の酵素はプロトタイプ（原型）として知られ、その配列を認識し切断するすべての後に続く酵素はイソ制限酵素である。同じ配列を認識するが異なってそれを切断する酵素はネオ制限酵素（ｎｅｏｓｃｈｉｚｏｍｅｒ）である。イソ制限酵素は、ネオ制限酵素の特定のタイプ（サブセット）である。例えば、ＳｍａＩ（ＣＣＣ^∧ＧＧＧ）およびＸｍａＩ（Ｃ^∧ＣＣＧＧＧ）は、互いにネオ制限酵素である（イソ制限酵素ではない）。

制限酵素切断断片：制限エンドヌクレアーゼを用いたＤＮＡの消化によって生成されるＤＮＡ分子は、制限酵素切断断片と呼ばれる。いずれの与えられたゲノム（または核酸。その由来に依らない）も、特定の制限エンドヌクレアーゼによって、個別の組の制限酵素切断断片へと消化されるであろう。制限エンドヌクレアーゼの切断から生じるＤＮＡ断片は、様々な技法においてさらに使用することができ、例えばゲル電気泳動またはシーケンシングによって検出することができる。制限酵素切断断片は、平滑末端にされてもよいし、またはオーバーハングを有してもよい。このオーバーハングは、ポリッシングと記載される技法を使用して除去することができる。制限酵素切断断片の用語「内部配列」は、典型的には、制限酵素切断断片の一部の起源が試料ゲノムの中に存在する、すなわちアダプターの一部に由来するものではないということを示すために使用される。この内部配列は、試料ゲノムに直接由来し、従ってその配列は検討対象のゲノムの配列の一部である。用語「内部配列」は、アダプターに対して、制限酵素の認識配列の残部などを区別するために使用される。

ライゲーション：２つの二本鎖ＤＮＡ分子が共有結合で一緒に連結される、リガーゼ酵素によって触媒される酵素による反応は、ライゲーションと呼ばれる。一般に、両方のＤＮＡ鎖は共有結合で一緒に連結されるが、それらの鎖の末端の１つの化学修飾または酵素による修飾を通して、その２本の鎖のうちの１本のライゲーションを防止することも可能である。その場合、共有結合による連結は、それらの２本のＤＮＡ鎖のうちの１本のみで生じることになろう。

合成オリゴヌクレオチド：化学的に合成することができる、好ましくは約１０〜約５０塩基を有する一本鎖のＤＮＡ分子は合成オリゴヌクレオチドと呼ばれる。一般に、これらの合成ＤＮＡ分子は、一意的なまたは所望のヌクレオチド配列を有するように設計されるが、そのヌクレオチド配列内の特定の位置で異なるヌクレオチド組成を有する関連する配列を有する一群の分子を合成することが可能である。用語「合成オリゴヌクレオチド」は、設計されたまたは所望のヌクレオチド配列を有するＤＮＡ分子を指すために使用されるであろう。

アダプター：制限酵素切断断片の末端にライゲーションされうるように設計されている、限られた数の塩基対、例えば長さが約１０〜約３０塩基対を有する短い二本鎖ＤＮＡ分子。アダプターは、一般に、部分的に互いに相補的であるヌクレオチド配列を有する２つの合成オリゴヌクレオチドから構成される。適切な条件下で溶液の中でこれら２つの合成オリゴヌクレオチドを混合するとき、それらは互いにアニーリングして、二本鎖構造を形成するであろう。アニーリング後、このアダプター分子の一端は、それが制限酵素切断断片の末端と適合性であり、かつ制限酵素切断断片の末端にライゲーションされうるように設計され、そのアダプターの他端は、それがライゲーションされ得ないように設計することができるが、これは、必ずしもこのとおりである必要はない（二重にライゲーションしたアダプター）。アダプターは、識別子、制限酵素のための認識配列、プライマー結合セクションなどの他の機能的特徴を含むことができる。他の機能的特徴を含むとき、アダプターの長さは大きくなってもよいが、機能的特徴を組み合わせることにより、アダプターの長さは制御されうる。

アダプターとライゲーションされた制限酵素切断断片：一方の末端または両方の末端でアダプターによりキャッピングされた制限酵素切断断片。

プライマー：一般に、用語「プライマー」は、ＤＮＡの合成をプライミングすることができるＤＮＡ鎖を指す。ＤＮＡポリメラーゼは、プライマーなしではＤＮＡをｄｅｎｏｖｏ合成することができない：アセンブリングされるヌクレオチドの順序を指定するために、鋳型として相補的な鎖が用いられるような反応において、ＤＮＡポリメラーゼは既存のＤＮＡ鎖を伸長することができるだけである。本発明者らは、プライマーとして、ポリメラーゼ連鎖反応（ＰＣＲ）において用いられる合成オリゴヌクレオチド分子に言及することになろう。

ＤＮＡ増幅：用語「ＤＮＡ増幅」は、典型的には、ＰＣＲを使用する、二本鎖ＤＮＡ分子のインビトロ合成を表すために使用されるであろう。他の増幅方法が存在し、それらの方法が、主旨から逸脱せずに本発明において使用されてもよいということに留意されたい。

核酸：本発明に係る核酸は、ピリミジン塩基およびプリン塩基、好ましくはそれぞれシトシン、チミンおよびウラシル、ならびにアデニンおよびグアニン、の任意のポリマーまたはオリゴマーをそれぞれ含んでもよい（ＡｌｂｅｒｔＬ．Ｌｅｈｎｉｎｇｅｒ、「ＰｒｉｎｃｉｐｌｅｓｏｆＢｉｏｃｈｅｍｉｓｔｒｙ」、ＷｏｒｔｈＰｕｂ．、１９８２年、７９３−８００頁を参照。これはすべての目的のためにその全体が参照により本明細書において援用される）。本発明は、これらの塩基のメチル化された形態、ヒドロキシメチル化された形態または糖鎖が付加した形態などのような、任意のデオキシリボヌクレオチド、リボヌクレオチドまたはペプチド核酸成分、およびそれら任意の化学的な変異型も検討する。このポリマーまたはオリゴマーは、組成が不均質でもまたは均質であってもよく、天然に存在するソースから単離するかまたは人為的もしくは合成的に生成されてもよい。さらに核酸は、ＤＮＡもしくはＲＮＡ、またはそれらの混合物であってもよく、持続的にまたは一過性に、ホモ二本鎖、ヘテロ二本鎖、およびハイブリッド状態を含む、一本鎖型または二本鎖型で存在してもよい。

複雑度の減少：用語「複雑度の減少」は、試料のサブセットの生成または選択によって、ゲノムＤＮＡのような核酸試料の複雑度を減少させる方法を意味するために使用される。このサブセットは試料全体（即ち複雑である）の代表になることができ、好ましくは再現可能なサブセットである。本文脈において、再現可能は、同一の方法および実験条件を使用して同一の試料の複雑度が減少される場合、同じかまたは少なくとも同程度のサブセットが得られることを意味する。複雑度の減少のために使用される方法は、当該技術分野において公知である複雑度の減少のための任意の方法であってもよい。複雑度の減少のための方法の例は、例えば、ＡＦＬＰ（登録商標）（ＫｅｙｇｅｎｅＮ．Ｖ．、オランダ；例えば、欧州特許第０５３４８５８号明細書を参照）、Ｄｏｎｇにより記述された方法（例えば、国際公開第００／２４９３９号パンフレットを参照）、インデックスリンク（ｉｎｄｅｘｅｄｌｉｎｋｉｎｇ）（Ｕｎｒａｕら．、Ｇｅｎｅ、１９９４年、第１４５巻、１６３−１６９頁）などを含む。本発明で使用される複雑度の減少方法は、それらが再現可能であることが共通である。同一の試料が同一の様式で複雑度が減少される場合に、試料の同一のサブセットが得られるという意味における再現可能は、顕微解剖、ランダムなシアリング、または選択された組織で転写されたゲノムの一部を表し、その再現性については、組織の選択、単離時期などへ依存するｍＲＮＡ（ｃＤＮＡ）の使用のような、よりランダムな複雑度の減少に対立するものである。

識別子：アダプターもしくはプライマーに付加もしくは挿入することができる短い配列、または一意的な識別子（バーコード（ｂａｒｃｏｄｅ）またはインデックス（ｉｎｄｅｘ）としても知られる）を提供するための標識として配列に含まれるかもしくは別の態様で使用される短い配列。このような配列識別子（タグ）は、特定の核酸試料を特定するために使用される、様々であるが明確な長さ、典型的には４〜１６ｂｐを有する一意的な塩基配列であることができる。例えば４ｂｐタグは、４（ｅｘｐ４）＝２５６の異なるタグを可能にする。このような識別子を使用して、さらなる処理の後にＰＣＲ試料の由来（起源）を決定することができるし、または断片をクローンに関連づけることができる。また、プールの中にあるクローンは、これらの配列に基づく識別子を使用して互いに区別することができる。従って、識別子は、試料特異的、プール特異的、クローン特異的、増幅産物特異的などであることができる。異なる核酸試料に由来する処理した産物を合わせる場合には、それらの異なる核酸試料は、一般に、異なる識別子を使用して特定される。識別子は、互いに少なくとも２塩基対異なることが好ましく、ミスリードを防ぐために、２つの同一の連続する塩基を含有しないことが好ましい。識別子機能は、アダプターまたはプライマーなどの他の官能性と組み合わせることができる場合もあり、任意の好都合な位置に置くことができる。

タグ化：用語「タグ化」は、核酸試料を第２の核酸試料またはさらなる核酸試料と区別することを可能にするために、核酸試料へ配列タグを追加することを指す。タグ化は、例えば、複雑度の減少の間の配列識別子の追加により、または別々のライゲーション工程などの当該技術分野において公知である任意の他の手段により行うことができる。そのような配列識別子は、特定の核酸試料の同定のために独自に使用される、例えば一様でないが、定義された長さの特有な塩基配列であり得る。ヌクレオチドに基づくタグを使用して、その後の加工に際して、試料、クローン、または増幅産物の起源を決定することができる。異なる核酸試料から生じる加工生成物を組み合わせる場合には、異なる核酸試料は異なるタグを使用して同定されることができる。

タグ化したライブラリー：用語「タグ化したライブラリー」は、タグ化した核酸のライブラリーを指す。

アラインすること：用語「アラインすること」により、同一または同様のヌクレオチドの、短いまたは長い一続きのもの（ｓｔｒｅｔｃｈｅｓ）の存在に基づいた、２つ以上のヌクレオチド配列の比較を意味する。さらに以下で説明されるように、ヌクレオチド配列のアラインメントのためのいくつかの方法が、当該技術分野において公知である。

アラインメント：例えばギャップを導入することにより、並べたものの中の種々の配列にわたる配列同一性を有する領域を得るための可能性を最大にするために、複数の配列を管状の提示形態に配置すること。さらに以下で説明されるように、ヌクレオチド配列のアラインメントのためのいくつかの方法が、当該技術分野で公知である。

用語「コンティグ」は、ＤＮＡ配列解析に関連して使用され、近接ヌクレオチド配列を有する２以上のＤＮＡ断片に由来するＤＮＡのアセンブリングされた近接の一続きのものを指す。従って、コンティグは、ゲノムの部分的な近接配列を与える重複するＤＮＡ断片の組である。「足場」は、正しい順序にはあるが１つの近接配列として連結されていない、すなわちギャップを含む一連のコンティグとして定義される。コンティグ地図も、一組のクローンの中での重複関係を特定することにより、ゲノムの近接領域の構造を表す。例えば、用語「コンティグ」は、各配列がその隣接部分の配列に重複するように順序付けられている一連のクローニングベクターを包含する。その場合、リンクされたクローンは、手作業でまたは、好ましくはＦＰＣ、ＰＨＲＡＰ、ＣＡＰ３などなどの適切なコンピュータープログラムを使用して、コンティグへとグループ化することができる。

断片化：ＤＮＡをより小さい断片へと細分化するために使用される技法。断片化は、酵素によるもの、化学的なものまたは物理的なものであってもよい。ランダムな断片化は、断片の配列とは無関係な長さを有する断片を与える技法である。典型的には、シアリング（ｓｈｅａｒｉｎｇ）またはネブライゼーション（ｎｅｂｕｌｉｓａｔｉｏｎ）は、ＤＮＡのランダムな断片を与える技法である。典型的には、ランダムな断片化の強度または時間が断片の平均長さを決定する。断片化の後、断片の所望のサイズ範囲を選択するために、サイズ選択を実施することができる。

物理地図作成は、配列特徴の位置を示す地図を構築するためにＤＮＡ分子を直接調べるための、ハイブリダイゼーション分析、ＰＣＲおよびシーケンシングなどの分子生物学技法を使用する技法を記述する。

遺伝子地図作成は、ゲノム上の配列特徴の位置を示す地図を構築するための、家系解析などの遺伝子技法の使用に基づく。

デコンボリューション（ｄｅｃｏｎｖｏｌｕｔｉｏｎ）は、１以上のプールまたはサブプール（ｓｕｂｐｏｏｌ）の中の既知の関連指標（すなわち標識または識別子）の存在の検出による、ライブラリーの中の個体の特定を記述するために使用される用語である。

増幅産物：ＤＮＡ（断片）が（例えばＰＣＲを使用することにより）増幅されるとき、その増幅から生じるＤＮＡ鎖は、増幅産物として示すことができる。

ポリッシング（ｐｏｌｉｓｈｉｎｇ）：ＤＮＡを制限酵素で消化することで、酵素に応じて、平滑末端または付着末端（すなわち、オーバーハングを含有するかまたは伸長された塩基を含有する）を生じることができる。付着末端は、「ポリッシング」として記述されるプロセスにおいて平滑化（オーバーハングが取り除かれる）できる。ポリッシングは、Ｔ４ポリメラーゼ、ＫｌｅｎｏｗＤＮＡポリメラーゼ（Ｃｏｓｔａら、ＮｕｃｌｅｉｃａｃｉｄｓＲｅｓｅａｒｃｈ、１９９４）のようなＤＮＡポリメラーゼを使用して成し遂げられる。

第１の態様では、本発明は、ＤＮＡ試料から配列情報を生成する方法に関し、この方法は、
（ａ）タグ化された、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングに基づいてクローンバンクの（配列に基づく）物理地図を準備することであって、当該制限酵素切断断片は、少なくとも１つの制限酵素を使用して生成されたものである、ことと、
（ｂ）次の工程を含むサブメソッドを準備することと、
（ｉ）このＤＮＡ試料のアダプターとライゲーションされた制限酵素切断断片を準備すること、
（ｉｉ）任意に、このアダプターとライゲーションされた制限酵素切断断片を断片化すること、
（ｉｉｉ）任意に、アダプターを工程（ｉｉ）の断片にライゲーションすること、および
（ｉｖ）工程（ｉｉｉ）の断片の配列の少なくとも一部分を決定すること、
（ｃ）工程（ｂ）で得られる配列情報を工程（ａ）の物理地図と組み合わせることと、
（ｄ）ドラフトゲノム配列を生成することと
を含み、工程（ｂ）（ｉ）における制限酵素切断断片は、工程（ａ）の物理地図の生成で使用される少なくとも１つの制限酵素の認識配列の少なくとも一部分と同一である認識配列を含有する少なくとも１つの制限酵素を用いて生成される。

当該方法の第１の工程では、クローンバンクの物理地図は、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングによって準備される。エンドシーケンシングに基づくクローンバンクの物理地図は、国際公開第２００８００７９５１号「Ｈｉｇｈｔｈｒｏｕｇｈｐｕｔｐｈｙｓｉｃａｌｍａｐｐｉｎｇ（ハイスループット物理地図）」パンフレットに記載されている方法などに基づくことができるが、その変法も、以下に例証されるように、使用することができる。

ハイスループット物理地図に関する出願人ら自身の国際公開第２００８００７９５１号パンフレットでは、ライブラリーにあるクローンの制限酵素消化、プーリング、制限酵素消化、アダプターライゲーション、（選択的）増幅、高スループットシーケンシングおよび得られた配列のデコンボリューション（これは、物理地図をアセンブリングするために使用することができるＢＡＣクローン特異的な組を生じる）の組み合わせから物理地図を生成するための効率的な方法が記載されている。これらのクローンのコンティグへのアセンブリは、配列データのさらなるリンケージ（ｌｉｎｋａｇｅ）のための配列に基づくアンカーポイントとして使用することができる、シーケンシングされた断片の末端ヌクレオチド配列の同時存在に基づく。

この技法は全ゲノムプロファイリング（ＷｈｏｌｅＧｅｎｏｍｅＰｒｏｆｉｌｉｎｇ、ＷＧＰ）として示されており、配列に基づく物理地図作成のための、ＫｅｙＧｅｎｅの最近に開発された特許権で守られたアプローチである。典型的には、ＢＡＣライブラリーは単一の（ホモ接合の）個体から構築され、ＢＡＣクローンは多次元のフォーマットでプールされる。ＢＡＣプールは、多次元プールスクリーニングにおける座標に基づいて個々のＢＡＣクローンに配列を割り当てることを可能にするためのプール得意的なタグによって特徴づけられる。ＤＮＡは、各ＢＡＣプールから抽出され、１以上の制限酵素、例えばＥｃｏＲＩおよびＭｓｅＩで消化される。制限酵素切断断片のＥｃｏＲＩ末端は、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒなどの次世代シーケンサーで分析され、このようにして、これらの比較的短い（２０〜１００塩基対）シーケンシングされた断片（ＷＧＰタグと呼ばれる）を個々のＢＡＣに割り当てることができる。次の工程では、ＢＡＣは、ＦＰＣ（Ｓｏｄｅｒｌｕｎｄら）などのコンティグ構築ソフトウェアツールを使用して、重複するＷＧＰタグパターンに基づいてアセンブリングすることができる。典型的には、これは、２〜４キロベースごとにＷＧＰタグ、ＢＡＣクローンあたり約３０〜６０タグを有するアセンブリングされたＢＡＣのコンティグを導く。

ＳＮａＰｓｈｏｔマッピング（例えば、ＢＭＣｇｅｎｏｍｉｃｓ、２００７年、第８巻、第１号、４０頁においてＱｕｉｎｉｏｕによって使用されるもの）などの他の物理地図作成アプローチと比べて、ＷＧＰ方法は、ＢＡＣコンティグのアセンブリのために、断片長さの代わりに配列に基づくアンカーポイントを提供するという点で一意的である。配列に基づくアンカーはより正確であり、全ゲノムショットガン（ＷｈｏｌｅＧｅｎｏｍｅＳｈｏｔｇｕｎ）データのアセンブリのための基礎を提供する。

より詳細には、物理地図作成は、
（ａ）人工染色体（例えばＢＡＣ、ＹＡＣ）クローンバンクを準備する工程であって、各人工染色体クローンは、試料ゲノム由来のＤＮＡを含有する、工程と、
（ｂ）この人工染色体ライブラリー由来のクローンをプールへとプールする工程と、
（ｃ）制限酵素を使用して、各プールについての断片の組を準備する工程と、
（ｄ）アダプターをこの断片にライゲーションする工程と、
（ｅ）このアダプターの少なくとも一部分および当該断片の一部分の配列を決定する工程と、
（ｆ）この断片を対応するクローンに割り当てる工程と、
（ｇ）このクローンをクローン−コンティグへと順序付け、これにより当該試料ゲノムの物理地図を生成する工程と
を含む。

当該方法の工程（ａ）では、人工クローンバンクが準備される。ライブラリーは、バクテリア人工染色体ライブラリー（ＢＡＣ）であるかまたは酵母（ＹＡＣ）に基づくことができる。フォスミド、コスミド、ＰＡＣ、ＴＡＣまたはＭＡＣに基づくものなどの他のライブラリーも可能である。ＢＡＣライブラリーが好ましい。このライブラリーは、高品質のものであることが好ましく、好ましくは高インサートサイズのゲノムライブラリーである。これは、個々のＢＡＣが検討対象のゲノムＤＮＡの比較的大きいインサート（典型的には＞１００ｋｂｐ）を含有するということを意味する。好ましい大きいインサートのサイズは、種に依存する。本願全体にわたって、人工染色体の例としてＢＡＣが参照される。しかしながら、本発明はＢＡＣに限定されず、本発明の主旨から逸脱せずに他の人工染色体を使用することができるということに留意されたい。好ましくは、当該ライブラリーは、少なくとも５ゲノム当量、より好ましくは少なくとも７ゲノム当量、最も好ましくは少なくとも８ゲノム当量を含有する。少なくとも１０ゲノム当量が特に好ましい。ライブラリーの中のゲノム当量の数が高いほど、得られたコンティグおよび物理地図は、より分かりやすくかつ信頼性が高いことになろう。

工程（ｂ）では、ライブラリーの中の個々のクローンはプールされ、多数の人工染色体またはクローンを含有するプールが形成される。このプーリングは、いくつかの個々のクローンを１つの試料へ（例えば、１００クローンを各々１０クローンを含有する１０のプールへ）と単純に組み合わせることであってもよいが、より精巧なプーリング戦略も使用されてよい。複数のプールにわたるクローンの分布は、各クローンがそれらのプールの少なくとも２以上に存在するようになっていることが好ましい。好ましくは、このプールは、１プールあたり１０〜１００００クローン、好ましくは１００〜１０００クローン、より好ましくは２５０〜７５０クローンを含有する。１プールあたりのクローン数は広い範囲で変わることができ、この変化は、例えば、検討対象のゲノムのサイズに関連するということが認められる。典型的には、プールまたはサブプールの最大サイズは、一組の識別子によって、プールの中にあるクローンを一意的に特定する能力によって支配される。プールの中のゲノム当量の典型的な範囲は０．２〜０．３の程度であり、ここでもこの範囲はゲノムごとに変わってもよい。このプールは、当該技術分野で周知のプーリング戦略に基づいて生成される。当業者は、ゲノムサイズなどの因子に基づいて最適のプーリング戦略を選択することができる。得られるプーリング戦略は状況に応じて変わるであろうが、その例は、プレートプーリング、Ｎ次元プーリング（二次元プーリング、三次元プーリング、六次元プーリングなど）または複雑なプーリングである。多数のプールの取り扱いを容易にするために、プールは、適宜、スーパープール（ｓｕｐｅｒ−ｐｏｏｌ）（すなわちスーパープールはクローンのプールのプールである）に組み合わされてもよいし、またはサブプールに分割されてもよい。プーリング戦略およびそれらのデコンボリューション（すなわち、１以上のプールまたはサブプールの中の、クローンの既知の関連指標（すなわち標識または識別子）の存在の検出によるライブラリーの中にある個々のクローンの正しい特定）の他の例は、例えば米国特許第６９７５９４３号明細書にまたはＫｌｅｉｎら、ＧｅｎｏｍｅＲｅｓｅａｒｃｈ、２０００年、第１０巻、７９８−８０７頁に記載されている。このプーリング戦略は、ライブラリーの中にあるあらゆるクローンが、プールの一意的な組み合わせがあらゆるクローンに対して作成されるように、（複数の）プールにわたって分布されるようなものであることが好ましい。その結果は、（サブ）プールの特定の組み合わせが一意的にクローンを特定するということである。

当該方法の工程（ｃ）では、プールは制限エンドヌクレアーゼを用いて消化され、制限酵素切断断片を与える。各プールは、好ましくは別々に、エンドヌクレアーゼ消化にかけられる。各プールは、好ましくは、同じ（組み合わせの）エンドヌクレアーゼまたは同じ認識配列を有するエンドヌクレアーゼで処理される。原則として、いずれの制限エンドヌクレアーゼも使用することができる。制限エンドヌクレアーゼは、フリークエントカッター（４または５カッター、ＭｓｅＩまたはＡｖａＩなど）またはレアカッター（６カッターおよびこれより多くのカッター、ＥｃｏＲＩ、ＨｉｎｄＩＩＩなど）であってもよい。典型的には、制限エンドヌクレアーゼは、平均してある量で存在するか、またはその後の工程のために十分である特定の長さ分布を有する制限酵素切断断片が得られるように選択される。ある実施形態では、２以上の制限エンドヌクレアーゼを使用することができ、ある実施形態では、レアカッターおよびフリークエントカッターの組み合わせを使用することができる。大きいゲノムについては、例えば、３つまたはこれより多い制限エンドヌクレアーゼの使用を有利に使用して、ゲノムの複雑度を減少させることができる。

工程（ｄ）で、制限酵素切断断片の一方の末端または両末端へ、アダプターがライゲーションされ、アダプターとライゲーションされた制限酵素切断断片が与えられる。典型的には、アダプターは、本願明細書中の別の箇所で定義される合成オリゴヌクレオチドである。本発明で使用されるアダプターは、好ましくは、「タグ化されたアダプター」を与えるための、本質的には本願明細書中の別の箇所で定義されるとおりの識別子セクションを含有する。ある実施形態では、このアダプターは、プール特異的識別子を含有する、すなわち各プールに対して、明確にプールを示す、一意的な識別子を含有するアダプターが使用される。ある実施形態では、アダプターは、プール特異的識別子を含有するプライマーと組み合わせて使用される縮重識別子セクションを含有する。

ある実施形態では、特にアダプターがプール特異的識別子を含有するとき、アダプターとライゲーションされた制限酵素切断断片は、より大きな群に組み合わされてもよい。より大きい群でのこの組み合わせは、プールから得られる、アダプターとライゲーションされた制限酵素切断断片の各組の並行増幅数を減らすことを支援する可能性がある。

あるいは、ライゲーションされたアダプターは、識別子または縮重識別子セクションを含有しない。アダプターとライゲーションされた断片は、その後、例えば５’末端に識別子（タグ）を含有するプライマーを使用して増幅される。この結果は、増幅された、タグ化された、アダプターとライゲーションされた断片が得られるということである。この実施形態では、アダプターは、複数（またはすべて）のプールについて同じであることができ、タグ化プライマーを使用する増幅によって、あとでデコンボリューションにおいて使用することができる、プール間の区別が生成される。どちらにしても、タグの存在によって、断片が由来するプールにリンクされる、タグ化された、アダプターとライゲーションされた断片の組が得られる。

このタグ化された、アダプターとライゲーションされた断片を増幅することができる。この増幅は、複雑度を減少させるか、または分析のために利用できるＤＮＡの量を増やす働きをする可能性がある。増幅は、アダプターおよび／またはタグ／識別子に少なくとも部分的に相補的である一組のプライマーを使用して実施することができる。この増幅は、タグをアダプターへと導入する本願明細書にこれまで記載した増幅とは独立であってもよいが、それは、１つの組み合わされた工程の中で行われてもよい。ある実施形態では、この増幅は、一度に複数の目的を果たしてもよく、すなわち複雑度を減少させ、ＤＮＡ量を増やし、プールの中にある、アダプターとライゲーションされた断片にタグを導入してもよい。ある実施形態では、この増幅は異なるプライマーを使用して別々の段階で行われてもよく、例えばまず、アダプターに向けられたプライマーを使用して利用できるＤＮＡの量を増やし、次にタグを含有するプライマーを使用することによってタグを導入し、次いでアダプターとライゲーションされた断片を選択することができるプライマーを使用して、例えば３’末端にランダムに選択的なヌクレオチドを使用することにより、または特定のタグ化されたアダプターを増幅する（プールされた）プライマーを使用することにより、複雑度を減少させてもよい。

ある実施形態では、特にアダプターがプール特異的識別子を含有するとき、アダプターとライゲーションされた断片は、より大きな群に組み合わされてもよい。より大きい群でのこの組み合わせは、プールから得られる、アダプターとライゲーションされた制限酵素切断断片の各組の並行増幅数を減らすことを支援する可能性がある。

アダプターとライゲーションされた断片は、一組のプライマー（アダプターの中のプール特異的識別子または縮重識別子の位置でそのプール特異的識別子を増幅する、少なくとも１つのプライマーを含む）を使用して増幅することができる。このプライマーはその識別子（の一部）を含有してもよいが、このプライマーは、タグの外部に位置する、すなわちアダプターの中で下流の、アダプターの中のあるセクションに相補的であってもよい。そのとき、増幅はこのタグも増幅する。

工程（ｅ）で、このタグ化された、アダプターとライゲーションされた断片の配列の一部分が決定される。タグ化された、アダプターとライゲーションされた断片は、シーケンシング、好ましくは本願明細書中の別の箇所に記載されるもののような高スループットシーケンシングにかけられる。シーケンシングの間、（増幅された）タグ化された、アダプターとライゲーションされた断片のヌクレオチド配列の少なくとも一部分が決定される。好ましくは、少なくとも、プール特異的識別子の配列および（増幅された）タグ化された、アダプターとライゲーションされた断片の断片（すなわち、試料ゲノムから誘導される断片）の一部分の配列が決定される。好ましくは、断片の少なくとも１０ヌクレオチドの配列が決定される。ある実施形態では、当該断片（すなわち、試料ゲノムから誘導される断片）のうちの少なくとも１５、２０、２５、３０または３５ヌクレオチドが決定される。決定されることになるヌクレオチドの数は、最低でも、ここでもゲノムに依存し、加えてシーケンシングプラットフォームに依存することになろう。例えば、植物では、より多くの反復配列が存在し、従って、より長い配列（２５〜７５ヌクレオチド）が、同等の品質を有するコンティグのために決定されることになる。例えば、シロイヌナズナの公知のゲノム配列についてのコンピューターでの計算によって、シーケンシング工程に６ｂｐの制限酵素部位を含むとき、配列の大部分（＞８０％）がゲノムの中で一意的であることを確実にするために、１断片あたり約２０ｂｐが決定される必要があるということが示された。断片全体の配列を決定することは可能であるが、これは、ＢＡＣクローンのコンティグ構築のためには絶対的に必要というわけではない。

シーケンシング工程では、すべての断片の最大カバレッジおよび高められた精度を与えるために、配列ライブラリーは、少なくとも５の平均重複性レベル（オーバーサンプリングレートとしても知られる）でシーケンシングされてもよい。これは、平均で、１つの特定のアダプターとライゲーションされた断片の増幅から得られる少なくとも５つの増幅産物の配列が決定されるということを意味する。換言すれば、各断片は、平均で少なくとも５回（統計的に）シーケンシングされる。重複性の増大は各プールの中でサンプリングされる断片の割合およびこれらの配列の精度を改善するので、重複性の増大は好ましく、そのため、好ましくは重複性レベルは少なくとも７、より好ましくは少なくとも１０である。平均シーケンシング重複性レベルの上昇は、「抽出変動」、すなわち大きい「集団」から小集団をサンプリングする際のランダムな統計的ゆらぎとして知られる現象を補うために使用される。加えて、より高い平均シーケンシング重複性レベルは、断片間の長さの変動および配列組成における相違によって引き起こされる断片の増幅率の差から生じる増幅された断片の存在量の差が生じる可能性を緩和する。

このシーケンシングは、国際公開第０３／００４６９０号パンフレット、国際公開第０３／０５４１４２号パンフレット、国際公開第２００４／０６９８４９号パンフレット、国際公開第２００４／０７０００５号パンフレット、国際公開第２００４／０７０００７号パンフレット、および国際公開第２００５／００３３７５号パンフレット、Ｓｅｏら、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ、２００４年、第１０１巻、５４８８−９３頁、およびＨｅｌｉｃｏｓ、Ｉｌｌｕｍｉｎａ、ＵＳＧｅｎｏｍｉｃｓなどの技術（これらは、参照により本願明細書に援用したものとする）に開示されるパイロシークエンスに基づく方法などの高スループットシーケンシング方法を使用して実施されることが好ましい。

続く工程（ｆ）では、（部分的に）シーケンシングされた（増幅された）タグ化された、アダプターとライゲーションされた断片は、典型的にはコンピューター制御された方法によってコンピューターで、対応するクローンに相関されまたは割り当てられる。制限酵素切断断片に由来する部分のヌクレオチドと同一のセクションを含有する（増幅された）タグ化された、アダプターとライゲーションされた断片が選択される。その後、（増幅された）タグ化された、アダプターとライゲーションされた断片の中に存在する異なるプール特異的識別子（タグ）が特定される。異なるプール特異的識別子の組み合わせ、および従って制限酵素切断断片の配列は、特定のクローンに一意的に割り当てることができる（「デコンボリューション」とこれまでに記載したプロセス）。例えば、三次元プーリング戦略（Χ、Ｙ、Ζ）の場合では、ライブラリーの中の各プールは、同じ制限酵素切断断片由来のセクションをもつ３つのプール特異的識別子の組み合わせによって一意的に扱われる。換言すれば、クローンに由来する制限酵素切断断片由来のセクションは、３つの異なる識別子でタグ化されることになろう。一意的な制限酵素切断断片由来のセクションは、この３つの識別子と組み合わせて観察されるとき、単一のＢＡＣクローンに割り当てることができる。これは、制限酵素切断断片由来の部分の中にヌクレオチドの他の一意的なセクションを含有する各（増幅された）タグ化された、アダプターとライゲーションされた断片について繰り返すことができる。

工程（ｆ）で断片を対応するクローンに割り当てた後、当該方法の工程（ｇ）で、そのクローンは組み合わされ、クローンコンティグへと順序付けられる。グループ化および順序付けは、実質的に本願明細書中の別の箇所に記載されるとおり、ＦＰＣソフトウェア（Ｓｏｄｅｒｌｕｎｄら、「ＦＰＣ：ａｓｙｓｔｅｍｆｏｒｂｕｉｌｄｉｎｇｃｏｎｔｉｇｓｆｒｏｍｒｅｓｔｒｉｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔｅｄｃｌｏｎｅｓ」、Ｃｏｍｐｕｔ．Ａｐｐｌ．Ｂｉｏｓｃｉ．、１９９７年、第１３巻、５２３−５３５頁）などの、この目的のためのフィンガープリントコンティグ構築ソフトウェアによって実施することができる。コンティグへのクローンのアラインメントおよびＷＧＰタグの対応する順序によって、試料ゲノムの物理地図が生成される。

本発明のサブメソッドでは、アダプターとライゲーションされた制限酵素切断断片が準備される。アダプターとライゲーションされた制限酵素切断断片の生成のための出発物質として、試料ゲノムを使用することができ、または試料ゲノムの一部を使用することができ、またはただ１つのＢＡＣクローンからＢＡＣクローンのライブラリー全体までにわたるＢＡＣクローンの一群、そのため１以上のＢＡＣクローンを含むＢＡＣライブラリーの小集団も、可能である。ＢＡＣクローンが使用されるとき、本願明細書中の別の箇所に記載されるとおり、類似または同一のプーリングおよびデコンボリューション戦略を使用して、ＢＡＣクローンのプールが使用されてもよい。このサブメソッドでは、ＤＮＡ試料は、工程（ａ）で物理地図を生成するために使用されるＤＮＡ試料と同じ個体、系統または源に由来することが好ましい。あるいは、このサブメソッドにおけるＤＮＡ試料は、異なる源、例えばその個体の血縁者、同じ系統のメンバーなどに由来してもよい。

出発物質は、物理地図の生成で使用される少なくとも１つの制限酵素の認識配列の少なくとも一部分と同一である認識配列を含有する少なくとも１つの制限酵素で消化することにより、制限酵素切断断片へと断片化される。

ある実施形態では、物理地図の生成について、および第２の工程のための制限酵素切断断片の生成について同じ制限酵素が使用される。代替の実施形態では、制限酵素は、同じ認識配列を有してもよいし、または物理地図を作成するために使用される制限酵素の認識配列の少なくとも一部分を含有してもよい。ある実施形態では、制限酵素の認識配列は、物理地図の作成で使用される制限酵素の認識配列を包含する。例えば、制限酵素ＰａｃＩは、認識配列としてＴＴＡＡＴＴＡＡを有するが、他方で、制限酵素ＭｓｅＩは認識配列ＴＴＡＡを有し、この認識配列は全体が制限酵素ＰａｃＩに存在する。

ある実施形態では、これら２つの方法で用いられる制限酵素は、イソ制限酵素またはネオ制限酵素であってもよい。制限酵素切断断片の数に影響を及ぼすために、または例えば選択的な増幅によって複雑度を減少させるために、制限酵素の組み合わせが可能である。

第２の下位工程（（ｂ）（ｉ））の制限酵素切断断片へ、アダプターをライゲーションすることができる。典型的には、アダプターは、本願明細書中の別の箇所で定義されるとおりの合成オリゴヌクレオチドである。本発明で使用されるアダプターは、好ましくは、「タグ化されたアダプター」を提供するための、本質的には本願明細書中の別の箇所で定義されるとおりの識別子セクションを含有する。アダプターがライゲーションされるとき、制限エンドヌクレアーゼの認識配列を回復しないことが好ましい。典型的には、１つの制限酵素が断片化において使用されるとき、アダプターはその断片の両末端にライゲーションされることになろう。使用されるアダプターは、ある実施形態では、ビオチン化されてもよい。このアダプターは、あとの親和性標識されたアダプターの、（ストレプトアビジンに基づいた）選択を可能にするように、ビオチンなどの親和性標識で標識されてもよい。特に、第１の親和性標識されたアダプターが、得られた親和性標識された、アダプターとライゲーションされた制限酵素切断断片にライゲーションされる。２以上の制限酵素が使用されるとき、２以上の異なるアダプターが使用されてもよく、これらは、独立に親和性標識で標識されてもよいし標識されていなくてもよい。これらのアダプターは、プーリングおよびデコンボリューション戦略を可能にするための、実質的に本願明細書中の別の箇所に記載されるとおりの識別子をさらに含有してもよい。

これらのアダプターは、物理地図の生成で使用されるものと同じであることができ、物理地図の生成で使用されるものと同じであってもよい識別子を含有してもよい。ある実施形態では、アダプターは制限酵素、好ましくはタイプＩＩｓ酵素についての認識配列を含有してもよい。

アダプターの中のタイプＩＩｓ認識配列の存在に関するある実施形態では、この工程のあとに環状化工程が続いて、次いでタイプＩＩｓ酵素による消化が続いてもよい。ＩＩｓ消化部位に、アダプターをライゲーションすることができ、このようにアダプターとライゲーションされた断片を断片化にかけることができる。

アダプターとライゲーションされた断片は、ここで断片化されて、断片化された、アダプターとライゲーションされた断片を生じてもよい。典型的には、これにより、一方の末端にアダプターを含有し、他の側の末端に試料核酸配列由来のヌクレオチドを有する（「裸の末端（ｎａｋｅｄｅｎｄｓ）」）、ＤＮＡ断片が生じうる。この第２の断片化工程は、別の（非選択的な）制限酵素を用いて、またはシアリングもしくはネブライゼーションなどのランダムな断片化によって、実施することができる。

これらの「裸の末端」（ある実施形態では、ポリッシングされていてもよくかつＡ付加（「Ａテーリグ」）を受けていてもよい）に、アダプターがライゲーションされる。これらのアダプターは工程（ｉｉｉ）で使用されるアダプターと同じであってもよいし異なっていてもよく、タグ化されていてもよい。

その後の工程で、これらのアダプターとライゲーションされた裸の末端は、ここでシーケンシングされる、すなわちその断片の配列の少なくとも一部分が決定される。好ましくは、このアダプターとライゲーションされた末端はエンドシーケンシングされる、すなわちアダプターの一部分および内部断片の一部分を含有するその配列の一方または両方の末端が決定される。これは一組の配列断片を生じる。これらの配列断片は、アダプターおよび識別子を介して、物理地図上の制限酵素部位に相関させることができ、従って、物理地図に相関させることができる。物理地図上で制限酵素部位に相関させることができる断片の各組について、これらの組の断片は、地図にアンカリングすることができ、それらは、その物理地図の特定の位置（ＷＧＰタグ）に配列情報をさらに加えるためにコンティグ構築もされてよい。

この方法を使用して、物理地図上でＷＧＰ−タグを決定し、その後配列データをこれらのＷＧＰタグに付加し、これにより当該物理地図をさらに完成し、そして当該試料、または少なくともその一部分のドラフトゲノム配列を生成することが可能である。

本発明の方法は、すべて上記の共通の技術思想を共有する３つの異なる実施形態で具現化される。これら３つの実施形態を、これより本願明細書中で、以降論じることとする。

第１の実施形態、ダブ（ｄｕｂｂｅｄ）ＷＧＰＳでは、物理地図はまだ利用できず、物理地図は、ＷＧＰタグにアンカリングされた、物理地図に加えられる必要がある所望のさらなる配列情報を併用して決定される。２つの他の実施形態、ＳＤＳＥＳおよびＳＤＰＥＳでは、それぞれ、物理地図はすでに利用可能であり、生成される配列データは、既存の物理地図をさらに補完するために役立つ。とはいうものの、物理地図がすでに利用可能である特定の実施形態でも、ＷＧＰＳは、さらなる配列情報を生成するために使用されてもよい。実施形態によっては、特定のシーケンシング技法およびこれにより生成される配列のリード（の長さ）が好ましい場合がある。これは、図１に概略的に描かれている。

ＷＧＰＳ（全ゲノムプロファイルシーケンシング、ＷｈｏｌｅＧｅｎｏｍｅＰｒｏｆｉｌｅＳｅｑｕｅｎｃｉｎｇ）
従って、本発明の方法の第１の変法では、物理地図は、断片配列と一緒に（同時に、並行して、またはその後に）決定される。

物理地図は、本願明細書中ですでに概略を記載したように決定され、同じ変法および実施形態が適用できる。分かりやすくするために、それらは、ＷＧＰＳに関してここで繰り返される。

これに加えて、ＢＡＣクローンのアダプターとライゲーションされた制限酵素切断断片は、本願明細書中で概略が後述されるとおり、さらなる断片化、アダプターライゲーションおよびシーケンシングにかけられる。

物理地図の生成を含めた全体の方法は、
（ａ）複数のクローンを含むクローンバンクを準備する工程であって、各クローンは、試料ゲノム（もしくは試料ゲノムの一部分）由来のＤＮＡを含有する工程と、
（ｂ）このクローンを当該クローンバンクからプールへとプールする工程と、
（ｃ）少なくとも１つの制限酵素を使用して各プールについての断片を準備する工程と、
（ｄ）第１のアダプターを当該断片にライゲーションする工程と、
（ｅ）断片化された、アダプターとライゲーションされた制限酵素切断断片を与え、および、任意に、ランダムな断片末端をポリッシングするために、工程（ｄ）のアダプターとライゲーションされた制限酵素切断断片を断片化する工程と、
（ｆ）第１および第２のアダプターを含有する、アダプターとライゲーションされた断片化された制限酵素切断断片を与えるために第２のアダプターを（ポリッシングされた）断片化された制限酵素切断断片にライゲーションする工程と、
（ｇ）任意に、第１のプライマーおよび第２のプライマーを用いて工程（ｆ）のアダプターとライゲーションされた断片化された制限酵素切断断片を増幅する工程であって、これにより増幅産物を生成する工程と、
（ｉ）第１のアダプターの少なくとも一部分および／もしくは第１のアダプターに隣接した断片の一部分の配列ならびに／または第２のアダプターの少なくとも一部分および／もしくは第２のアダプターに隣接した断片の一部分の配列を決定する工程と、
（ｊ）このシーケンシングされた、第１のアダプターの一部分および／もしくは第１のアダプターに隣接した断片の一部分ならびに／または第２のアダプターの一部分および／もしくは第２のアダプターに隣接した断片の一部分に基づいて、当該断片を対応するクローンに割り当てる工程と、
（ｋ）このクローンをクローン−コンティグへと順序付けし、これにより当該試料ゲノムの物理地図を生成する工程と、
（ｌ）第２のアダプターの少なくとも一部分および／もしくは第２のアダプターに隣接した断片の一部分の断片配列を対応するクローンに割り当てる工程と、
（ｍ）工程（ｈ）の断片配列を上記物理地図へアンカリングする工程と、
（ｎ）ドラフトゲノム配列を生成する工程と
を含む。

１つの実施形態では、当該方法は、第１のアダプターおよび第１のアダプターに隣接した断片の一部分に由来する配列ならびに第２のアダプターおよび第２のアダプターに隣接した断片の一部分に由来する配列を、物理地図にリンクされるコンティグへとアセンブリングする工程をさらに含む。さらなる工程では、この特定のコンティグは、物理地図にアンカリングされてもよい。この「ビニング（ｂｉｎｎｉｎｇ）」アプローチは、より大きいデータセットが取り扱われるときに効率的である可能性があるサブアセンブリ工程を作成する。

本発明の方法のこの実施形態の利点は、とりわけ、制限酵素切断断片の断片のペアエンド配列データの併用にある。配列のリードのうちの１つは、物理地図を構築するための制限酵素切断断片の断片配列に直接関連し、ランダムに断片化された末端の断片配列は、ランダムであるが、物理地図を構築するために使用される断片に物理的にリンクされている。

当該方法の異なる工程は、本願明細書中、以下でより詳細に論じられる。

当該ＷＧＰＳ実施形態では、両方のアダプターは、断片をクローンと相関させるために使用されてもよい識別子を含有してもよい。

工程（ｄ）の（タグ化された）制限酵素切断断片は断片化される。このタグ化された制限酵素切断断片の断片化により、断片化されたタグ化された、アダプターとライゲーションされた制限酵素切断断片が与えられる。得られる断片は、断片の３’または５’末端に、アダプターを含有してもよく、または、この断片が、二重に断片化されたタグ化された制限酵素切断断片の中央部セクションであるならば、この断片はアダプターをまったく含有してもよい。断片化は好ましくはランダムであり、好ましくはシアリングもしくはネブライゼーションを介するか、または配列組成に依存しないヌクレアーゼを使用することによる。従って、典型的には、断片は、アダプターとライゲーションされた末端およびランダム末端を含有する。それゆえ、一般的な知識技術を使用して所望のサイズ範囲にある一組の断片を選択することが可能である。これらの断片は、ランダム末端でポリッシングされてもよい。ある代替の実施形態では、ポリッシング工程のあとに、第２のアダプター（このときは、付着型構成を有する）のアンカリング点および位置確認点を提供するための１以上の特定のヌクレオチドの付加が続く。

このランダム末端へ、（第２の）アダプターがライゲーションされる。ランダム末端がポリッシングされているとき、存在する各ランダム末端にアダプターがライゲーションされるように、アダプターは、平滑末端にされる。時には、これらは、第２のアダプターとして示される（このとき、工程（ｅ）において示された制限酵素切断断片にライゲーションされたアダプターは、第１のアダプターとして見られる）。

得られた配列、すなわちアダプターとライゲーションされた断片化されたタグ化された制限酵素切断断片は、２つのプライマー、第１のプライマーおよび第２のプライマーを使用して増幅されてもよい。第１のプライマーは、任意にタグ化された、制限酵素切断断片末端に向けられ、かつ少なくとも識別子（または縮重識別子セクション）を増幅する（第１の）アダプターの一部分に少なくとも相補的であるセクションを含有してもよい。第２のプライマーは、制限酵素切断断片のランダム末端にライゲーションされた、任意にタグ化されたアダプターの少なくとも一部分に向けられてもよい（に相補的である）。増幅、好ましくはＰＣＲを使用する増幅は、増幅された断片化されたタグ化された制限酵素切断断片（増幅産物）を生じる。例えば使用されるシーケンシングプラットフォームの容量を収容するために、利用できる異なる増幅産物の数に依存して、増幅産物は、種々の実験から、一組の増幅産物に組み合わされてもよい。ある実施形態では、この増幅産物は、一組の組み合わされた増幅産物またはいわゆる配列ライブラリーに組み合わされてもよい。

当該方法の工程（ｉ）では、アダプターとライゲーションされた断片または増幅産物の一方のまたは両方の末端の配列は、好ましくはペアエンドシーケンシングを使用して決定することができる。シーケンシングを用いて、少なくとも第１のアダプターおよび／もしくは第２のアダプターに位置する識別子の任意の配列ならびに／または第１のアダプターおよび／もしくは第２のアダプターに隣接して位置する当該断片の内部配列の一部分が決定される。本発明の方法におけるシーケンシングは、典型的には、本願明細書に開示されるＲｏｃｈｅ（４５４）およびＩｌｌｕｍｉｎａプラットフォーム上でのパイロシークエンスなどの高スループットシーケンシングに基づく。

アダプターとライゲーションされた断片または増幅産物は、シーケンシング、好ましくは本願明細書に記載される高スループットシーケンシングにかけられる。シーケンシングの間、この増幅産物のヌクレオチド配列の少なくとも一部分が決定される。好ましくは、好ましくはそれぞれの側から、断片の少なくとも１０ヌクレオチドの配列が決定される。ある実施形態では、断片の少なくとも２０、２５または３０ヌクレオチドが決定される。決定されることになるヌクレオチドの数は、最低でも、ここでもゲノムに依存し、加えてシーケンシングプラットフォームに依存することになろう。例えば、植物では、より多くの反復配列が存在し、従って、より長い配列（２５〜７５ヌクレオチド）が、同等の品質を有するコンティグのために決定されることになる。現在のプラットフォームは、かなり長いリード（１００〜８００ｎｔ）を取り扱うことができる。

上記のように、本発明のシーケンシングは、「ペアエンドシーケンシング」を使用して実施されることが好ましい。

ペアエンドシーケンシングは、第２のアダプターに隣接した断片の内部配列の一部分も与える。ペアエンドシーケンシングを実施することにより、上記２つの配列が同時に決定される。識別子および内部配列の一部分に基づいて、配列を、同じ制限酵素切断断片に由来する組へとグループ化することができる。ランダム末端からの配列情報は、当該制限酵素切断断片の内部配列の組成についての情報を与える。制限酵素切断断片から得られるすべての情報を一緒にグループ化して、ランダム末端から得られる配列のコンティグを作成することにより、第１のアダプターおよび隣接する断片配列から得られる情報は、制限酵素切断断片の（全体ではないとしてもその）ほとんどのドラフト配列を与える可能性がある。

工程（ｊ）では、これらの断片が対応するクローンと関連づけられる。典型的には、ゲノムの物理地図を生成するためのデコンボリューションは、当該断片をプールへと相関させる、アダプター中の識別子の存在に基づき、従って対応するクローンへのプーリング戦略に基づく。従って、断片は、シーケンシングされた、第１のアダプターの一部分および／もしくは第１のアダプターに隣接した断片の一部分ならびに／または第２のアダプターの一部分および／もしくは第２のアダプターに隣接した断片の一部分に基づいて、対応するクローンへと割り当てられる。例えば、２つの制限酵素、例えばＥｃｏＲＩ／ＭｓｅＩに基づいて物理地図が利用でき、その場合、ＨｉｎｄＩＩＩを使用するＷＧＰＳ実施形態は、ＥｃｏＲＩ／ＭｓｅＩベースの物理地図にリンクすることができるさらなる情報を与える可能性がある。

当該方法の工程（ｋ）では、物理地図は、物理地図の生成の目的のための一般に公知のソフトウェアを使用して、クローンを順序付けすることによって生成される。

当該方法の工程（ｌ）では、第２のアダプターおよび／または第２のアダプターに隣接する断片から得られる断片配列は、工程（ｉ）における制限酵素切断断片シーケンシングを介して特定のクローンに（工程（ｊ）において）リンクされる断片配列の群が得られるように、対応するクローンと対にされる。これは、（ｊ）、すなわち、第２のアダプターの少なくとも一部分および／もしくは第２のアダプターに隣接した断片の一部分の配列が、ペアエンドシーケンシングに基づいて同じ断片に由来するということに基づく。このようにして得られた配列は、物理地図および生成されたドラフトゲノムにアンカリングすることができる。

ある実施形態では、物理地図がすでに利用できるとき、そうではあっても、ＷＧＰＳは、例えばＷＧＰＳについて異なる制限酵素を使用することにより、最初の物理地図にリンクすることができるさらなる配列情報を生成するために使用されてもよい。

ＳＤＳＥＳ（部位特異的なシングルエンドシーケンシング、ＳｉｔｅＤｉｒｅｃｔｅｄＳｉｎｇｌｅＥｎｄＳｅｑｕｅｎｃｉｎｇ）
本発明の方法のさらなる実施形態では、本発明の方法の工程（ｂ）のサブメソッドは、以下の工程を含む：
（ａ）制限酵素切断断片を得るための、少なくとも１つの制限エンドヌクレアーゼを用いた標的ＤＮＡ（ゲノムＤＮＡまたは人工染色体ＤＮＡ）の断片化、
（ｂ）第１のアダプターとライゲーションされた制限酵素切断断片を得るための、当該制限酵素切断断片の末端への第１のアダプターのライゲーション、
（ｃ）ランダムに断片化された第１のアダプターとライゲーションされた制限酵素切断断片を得るための、第１のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
（ｄ）任意に、アダプターを含有する断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
（ｅ）第１のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第２のアダプターのライゲーション、
（ｆ）任意に、（親和性標識された）増幅された断片を得るための、工程（ｂ）のアダプターに向けられたプライマーおよび工程（ｅ）の第２のアダプターに向けられた（親和性標識された）プライマーを使用する増幅、
（ｇ）任意に、第２のアダプターの存在に基づく、工程（ｆ）で得られるこの（親和性標識された）増幅された断片の選択、
（ｈ）第１のアダプターの少なくとも一部分の配列および／もしくは第１のアダプターに隣接した断片の配列の一部分ならびに／または第２のアダプターの少なくとも一部分の配列および／もしくは第２のアダプターに隣接した断片の配列の一部分の決定。

当該方法の工程（ａ）では、標的ＤＮＡが準備される。この標的ＤＮＡは、ゲノムベースでもまたはクローンベースでも、いずれの源から得ることもできる。ＤＮＡからの単離は、例えばＳａｍｂｒｏｏｋら（ＳａｍｂｒｏｏｋおよびＲｕｓｓｅｌｌ、「ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（３ｒｄｅｄｉｔｉｏｎ）」、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ、２００１年）によって開示されるものなど、当該技術分野のいずれかの手段によって成し遂げることができる。試料ＤＮＡは、あらゆる種に由来、特にヒト、植物または動物起源に由来することができる。物理地図の生成で使用されたものと同じＤＮＡ試料を採用することが好ましいが、本願明細書中でこれまでに概略を示したもののような他の試料も（すなわち血縁関係がある個体、系統などから）使用してもよい。

クローンＤＮＡに向けられる実施形態では、クローンバンクが準備される。これは、物理地図を生成するために使用されたものと同じクローンバンクでもよい。このクローンバンク（またはライブラリー）は、バクテリア人工染色体ライブラリー（ＢＡＣ）であるかまたは酵母（ＹＡＣ）に基づくことができる。フォスミド、コスミド、ＰＡＣ、ＴＡＣまたはＭＡＣに基づくものなどの他のライブラリーも可能である。ＢＡＣライブラリーが好ましい。このライブラリーは、高品質のものであることが好ましく、好ましくは高インサートサイズのゲノムライブラリーである。これは、個々のＢＡＣが検討対象のゲノムＤＮＡの比較的大きいインサート（典型的には＞１２５ｋｂｐ）を含有するということを意味する。好ましい大きいインサートのサイズは、種に依存する。本願全体にわたって、人工染色体の例としてＢＡＣが参照される。しかしながら、本発明はＢＡＣに限定されず、本発明の主旨から逸脱せずに他の人工染色体を使用することができるということに留意されたい。ライブラリーの中の個々のクローンはプールされ、多数の人工染色体またはクローンを含有するプールが形成されてもよい。このプーリングは、いくつかの個々のクローンを１つの試料へ（例えば、１００クローンを各々１０クローンを含有する１０のプールへ）と単純に組み合わせることであってもよいが、より精巧なプーリング戦略も使用されてよい。複数のプールにわたるクローンの分布は、各クローンがそれらのプールの少なくとも２以上に存在するようになっていることが好ましい。好ましくは、このプールは、１プールあたり１０〜１００００クローン、好ましくは１００〜１０００クローン、より好ましくは２５０〜７５０クローンを含有する。１プールあたりのクローン数は広い範囲で変わることができ、この変化は、例えば、検討対象のゲノムのサイズに関連するということが認められる。典型的には、プールまたはサブプールの最大サイズは、一組の識別子によって、プールの中にあるクローンを一意的に特定する能力によって支配される。プールの中のゲノム当量の典型的な範囲は０．２〜０．３の程度であり、ここでもこの範囲はゲノムごとに変わってもよい。このプールは、当該技術分野で周知のプーリング戦略に基づいて生成される。当業者は、ゲノムサイズなどの因子に基づいて最適のプーリング戦略を選択することができる。得られるプーリング戦略は状況に応じて変わるであろうが、その例は、プレートプーリング、Ｎ次元プーリング（二次元プーリング、三次元プーリング、六次元プーリングなど）または複雑なプーリングである。多数のプールの取り扱いを容易にするために、プールは、適宜、スーパープール（すなわちスーパープールはクローンのプールのプールである）に組み合わされてもよいし、またはサブプールに分割されてもよい。プーリング戦略およびそれらのデコンボリューション（すなわち、１以上のプールまたはサブプールの中の、クローンの既知の関連指標（すなわち標識または識別子）の存在の検出によるライブラリーの中にある個々のクローンの正しい特定）の他の例は、例えば米国特許第６９７５９４３号明細書にまたはＫｌｅｉｎら、ＧｅｎｏｍｅＲｅｓｅａｒｃｈ、２０００年、第１０巻、７９８−８０７頁に記載されている。このプーリング戦略は、ライブラリーの中にあるあらゆるクローンが、プールの一意的な組み合わせがあらゆるクローンに対して作成されるように、（複数の）プールにわたって分布されるようなものであることが好ましい。その結果は、（サブ）プールの特定の組み合わせが一意的にクローンを特定するということである。

ゲノムの一部のみを使用することも可能であるが、それは必須ではない。なぜなら、本発明は、例えばＡＦＬＰ（欧州特許第５３４８５８号明細書）に基づく選択的な増幅などの再現性のある複雑度の減少を介した、例えば再現性のある小集団の作成を通して、任意のサイズのゲノムを取り扱うための方法も提供するからである。従って、典型的には、本発明の方法はゲノム全体を使用する。あるいは、クローンバンク、またはその一部分を使用することができる。

標的ＤＮＡは、制限酵素を用いて制限され、制限酵素切断断片が得られる。標的ＤＮＡは、少なくとも１つの制限酵素を用いて制限することができる。ある実施形態では、所望の長さおよび分布の制限酵素切断断片を生成するために２以上の酵素を使用することができる。ある実施形態では、所望の長さ分布の制限酵素切断断片に到達するために、３つの制限エンドヌクレアーゼを使用することが有利である可能性がある。制限酵素は、平滑にまたは付着的に（ｓｔａｇｇｅｒｅｄ）（すなわちオーバーハングを作成する）切断してもよいが、あとのアダプターライゲーションを考慮すると付着的であることが好ましい。

これらの酵素および酵素の組み合わせは、例えば、使用されるシーケンシングプラットフォームに応じて、平均で、断片の長さが約４００〜１０００ｂｐであるように選択されることが好ましい。ＥｃｏＲＩなどのレアカッターが好ましい。

第２の下位工程の制限酵素切断断片に、アダプターをライゲーションすることができる。典型的なアダプターは、本願明細書中の別の箇所で定義されるとおりの合成オリゴヌクレオチドであり、それらは、識別子および親和性標識などを含有してもよい。

当該方法の工程（ｃ）では、アダプターとライゲーションされた制限酵素切断断片はランダムに断片化される。ランダムな断片化のための好適なおよび好ましい技法は、ネブライゼーションもしくはシアリングとして公知であるか、または別の、非選択的な制限酵素を使用する。

ＤＮＡの制御可能な断片化を提供する他の技法も好適である。アダプターとライゲーションされた制限酵素切断断片の断片化は、１つの末端にアダプターを有する断片、他方の末端にアダプターを有する断片、および両方の末端ではランダムな断片化の結果である中間断片を生じることになろう。断片化された組は、一般的な手順を使用してサイズ範囲の選択にかけられてもよい。

断片化された、アダプターとライゲーションされた制限酵素切断断片は、ここ工程（ｄ）で、好ましくは親和性標識を使用して選択され、ランダムな断片化のあとに残る、アダプターも親和性標識も有しない断片、例えば、両末端でランダムな断片化プロセスに由来する（「ランダム末端を有する」）断片から、断片化された、アダプターとライゲーションされた制限酵素切断断片が分離されてもよい。好ましくは、この選択においてビオチン−ストレプトアビジンの組み合わせが使用されるが、他の親和性リガンドの組み合わせも同様に使用することができ、ならびに当該アダプターにハイブリダイズするプローブを含有する担体も同様に使用することができる。

選択された、アダプターとライゲーションされた制限酵素切断断片のランダム末端へ、工程（ｅ）で第２のアダプターをライゲーションすることができる。第２のアダプターのライゲーションに先立ち、ランダム末端、すなわちランダムな断片化工程によって引き起こされた末端はポリッシングされてもよく、すなわちオーバーハングするヌクレオチドが取り除かれ（平滑化され）てもよい。第２のアダプターは、平滑末端化することができる。ある代替の実施形態では、ポリッシング工程のあとに、第２のアダプター（このときは、付着型構成を有する）のアンカリング点および位置確認点を提供するための１以上の特定のヌクレオチドの付加が続く。

アダプターとライゲーションされた組は、ここで、工程（ｆ）で一対の好適なプライマーから増幅されて、増幅された断片（増幅産物）を導いてもよい。この増幅は、第１のプライマー（これは、第１のアダプター（すなわち工程（ｂ）のアダプター）のヌクレオチドの少なくとも一部分に向けられていてもよい）を用いて実施される。この増幅における第２のプライマーは、第２のアダプター（すなわち工程（ｅ）のアダプター）（の少なくとも一部分）に向けられる。この第１のプライマーおよび／または第２のプライマーは、あとの選択工程のための親和性標識された増幅産物を得るために、親和性標識されてもよい。この親和性標識はビオチンであってもよいが、親和性標識は、工程（ｂ）のある実施形態で使用された親和性標識とは異なっていてもよい。例えば、ビオチン標識の代わりに、ヌクレオチドに基づく親和性標識を使用し、選択工程を、当該断片を捕捉するためのヌクレオチドに基づく親和性標識に相補的である相補的なオリゴヌクレオチドを有するディップスティックへのハイブリダイゼーションに基づかせることも可能である。

得られた（任意に親和性標識された）増幅された断片は、これまでに記載されたとおりの方法を使用して、例えばストレプトアビジンを有する担体を使用して、以下の工程（工程（ｇ））で、選択することができる。

当該方法の工程（ｈ）では、当該断片は、ここで、例えば、実質的に本願明細書中の別の箇所に記載されるとおりのパイロシークエンスに基づく高スループットシーケンシング技術を使用して、シーケンシングすることができる。第１のアダプターの少なくとも一部分の配列および第１のアダプターに隣接した断片の配列の一部分が決定される。別の実施形態では、第２のアダプターの少なくとも一部分の配列および第２のアダプターに隣接した断片の配列の一部分が決定される。シーケンシングされた断片は、コンティグへとアセンブリングすることができ、その後に物理地図にリンクすることができ、または配列情報は、配列の同一性に基づいて、物理地図に直接アンカリングすることができる。

上記コンティグは、すべて使用される制限酵素の認識部位に同一の配列で始まり、同一の認識配列を有する制限酵素を使用して生成された物理地図にリンクすることができる。リンク形成（ｌｉｎｋｉｎｇ）は、制限酵素配列に隣接しているコンティグの配列の中で、物理地図のＷＧＰタグの配列を検索することにより、確立することができる。一意的なヒットが見出されるとき、そのコンティグ配列は、その物理地図にリンクすることができる。特定の場合には、これらのコンティグは、その末端に制限酵素部位も含むことになろうが、これは、完全な中間配列が決定されたということを示す。

本発明の１つの態様では、ＳＤＳＥＳは、それ自体、標的ＤＮＡの配列情報の生成のために適用することもできる。従って、本発明は、以下の工程を含む標的ＤＮＡの配列情報を生成する方法にも関する：
（ａ）制限酵素切断断片を得るための、少なくとも１つの制限エンドヌクレアーゼを用いた標的ＤＮＡ（ゲノムＤＮＡまたは人工染色体ＤＮＡ）の断片化、
（ｂ）第１のアダプターとライゲーションされた制限酵素切断断片を得るための、当該制限酵素切断断片の末端への第１のアダプターのライゲーション、
（ｃ）ランダムに断片化された第１のアダプターとライゲーションされた制限酵素切断断片を得るための、第１のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
（ｄ）任意に、アダプターを含有する断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
（ｅ）第１のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第２のアダプターのライゲーション、
（ｆ）任意に、（親和性標識された）増幅された断片を得るための、工程（ｂ）のアダプターに向けられたプライマーおよび工程（ｅ）の第２のアダプターに向けられた（親和性標識された）プライマーを使用する増幅、
（ｇ）任意に、第２のアダプターの存在に基づく、工程（ｆ）で得られる（親和性標識された）増幅された断片の選択、
（ｈ）第１のアダプターの少なくとも一部分の配列および／もしくは第１のアダプターに隣接した断片の配列の一部分ならびに／または第２のアダプターの少なくとも一部分の配列および／もしくは第２のアダプターに隣接した断片の配列の一部分の決定。

ＳＤＰＥＳ（部位特異的なペアエンドシーケンシング、ＳｉｔｅＤｉｒｅｃｔｅｄＰａｉｒｅｄＥｎｄＳｅｑｕｅｎｃｉｎｇ）
本発明の方法のさらなる実施形態では、本発明の方法の工程（ｂ）のサブメソッドは、以下の工程を含む：
（ａ）制限酵素切断断片を得るための、標的ＤＮＡの制限酵素消化、
（ｂ）ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプＩＩｓ制限エンドヌクレアーゼについての認識配列を含有するＩＩｓ−アダプターのライゲーション、
（ｃ）断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を得るための、当該ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の断片化、
（ｄ）環状化産物を得るための、当該断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の環状化、
（ｅ）タイプＩＩｓで消化された断片を与えるための、環状化産物のタイプＩＩｓ制限酵素消化、
（ｆ）アダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、タイプＩＩｓで消化された断片への第１のアダプターのライゲーション、
（ｇ）第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片の断片化、
（ｈ）第１および第２のアダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片への第２のアダプターのライゲーション、
（ｉ）これらの断片および／またはアダプターの少なくとも一部分の配列を決定すること。

クローンＤＮＡに向けられる実施形態では、人工のクローンバンクが準備される。これは、物理地図を生成するために使用されたものと同じクローンバンクでもよい。人工クローンバンク（またはライブラリー）は、バクテリア人工染色体ライブラリー（ＢＡＣ）であるかまたは酵母（ＹＡＣ）に基づくことができる。フォスミド、コスミド、ＰＡＣ、ＴＡＣまたはＭＡＣに基づくものなどの他のライブラリーも可能である。ＢＡＣライブラリーが好ましい。このライブラリーは、高品質のものであることが好ましく、好ましくは高インサートサイズのゲノムライブラリーである。これは、個々のＢＡＣが検討対象のゲノムＤＮＡの比較的大きいインサート（典型的には＞１２５ｋｂｐ）を含有するということを意味する。好ましい大きいインサートのサイズは、種に依存する。本願全体にわたって、人工染色体の例としてＢＡＣが参照されうる。しかしながら、本発明はＢＡＣに限定されず、本発明の主旨から逸脱せずに他の人工染色体を使用することができるということに留意されたい。ライブラリーの中の個々のクローンはプールされ、多数の人工染色体またはクローンを含有するプールが形成されてもよい。このプーリングは、いくつかの個々のクローンを１つの試料へ（例えば、１００クローンを各々１０クローンを含有する１０のプールへ）と単純に組み合わせることであってもよいが、より精巧なプーリング戦略も使用されてよい。複数のプールにわたるクローンの分布は、各クローンがそれらのプールの少なくとも２以上に存在するようになっていることが好ましい。好ましくは、このプールは、１プールあたり１０〜１００００クローン、好ましくは１００〜１０００クローン、より好ましくは２５０〜７５０クローンを含有する。１プールあたりのクローン数は広い範囲で変わることができ、この変化は、例えば、検討対象のゲノムのサイズに関連するということが認められる。典型的には、プールまたはサブプールの最大サイズは、一組の識別子によって、プールの中にあるクローンを一意的に特定する能力によって支配される。プールの中のゲノム当量の典型的な範囲は０．２〜０．３の程度であり、ここでもこの範囲はゲノムごとに変わってもよい。このプールは、当該技術分野で周知のプーリング戦略に基づいて生成される。当業者は、ゲノムサイズなどの因子に基づいて最適のプーリング戦略を選択することができる。得られるプーリング戦略は状況に応じて変わるであろうが、その例は、プレートプーリング、Ｎ次元プーリング（二次元プーリング、三次元プーリング、六次元プーリングなど）または複雑なプーリングである。多数のプールの取り扱いを容易にするために、プールは、適宜、スーパープール（すなわちスーパープールはクローンのプールのプールである）に組み合わされてもよいし、またはサブプールに分割されてもよい。プーリング戦略およびそれらのデコンボリューション（すなわち、１以上のプールまたはサブプールの中の、クローンの既知の関連指標（すなわち標識または識別子）の存在の検出によるライブラリーの中にある個々のクローンの正しい特定）の他の例は、例えば米国特許第６９７５９４３号明細書にまたはＫｌｅｉｎら、ＧｅｎｏｍｅＲｅｓｅａｒｃｈ、２０００年、第１０巻、７９８−８０７頁に記載されている。このプーリング戦略は、ライブラリーの中にあるあらゆるクローンが、プールの一意的な組み合わせがあらゆるクローンに対して作成されるように、（複数の）プールにわたって分布されるようなものであることが好ましい。その結果は、（サブ）プールの特定の組み合わせが一意的にクローンを特定するということである。

ゲノムの一部のみを使用することも可能であるが、それは必須ではない。なぜなら、本発明は、例えばＡＦＬＰ（欧州特許第５３４８５８号明細書）に基づく選択的な増幅などの再現性のある複雑度の減少を介した、例えば再現性のある小集団の作成を通して、任意のサイズのゲノムを取り扱うための方法も提供するからである。従って、典型的には、本発明の方法はゲノム全体を使用する。

標的ＤＮＡは、制限酵素を用いて制限され、制限酵素切断断片が得られる。標的ＤＮＡは、少なくとも１つの制限酵素を用いて制限することができる。ある実施形態では、所望の長さおよび分布の制限酵素切断断片を生成するために２以上の酵素を使用することができる。ある実施形態では、所望の長さ分布の制限酵素切断断片に到達するために、３つの制限エンドヌクレアーゼを使用することが有利である可能性がある。制限酵素は、平滑にまたは付着的に（すなわちオーバーハングを作成する）切断してもよいが、あとのアダプターライゲーションを考慮すると付着的であることが好ましい。

これらの酵素および酵素の組み合わせは、シーケンシングプラットフォームのリード長に応じて、平均で、断片の長さが約５０〜８００ｂｐであるように選択されることが好ましい。ＥｃｏＲＩなどのレアカッターが好ましい。

当該方法の工程（ｂ）では、アダプター（本願明細書中ではＩＩｓ−アダプターと示される）が、工程（ａ）から得られる制限酵素切断断片へとライゲーションされる。このアダプターは、タイプＩＩｓ制限エンドヌクレアーゼについての認識配列を含有し、ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を与える。このＩＩｓ−アダプターは、例えばプールされたクローンＤＮＡの場合、識別子を含んでもよい。

当該方法の工程（ｃ）では、ＩＩｓ−アダプターとライゲーションされた断片はランダムに断片化される。このランダムな断片化は、ネブライゼーション、シアリングまたは配列組成に依存しないヌクレアーゼなどの一般的方法を使用して実施することができる。断片化を実施して、所望のサイズ範囲にある断片を得ることができ、このサイズ範囲は、当該方法において後で使用されるシーケンシングプラットフォームに依って変わりうる。得られた断片は、中間サイズ選択工程にかけられてもよい。所望に応じて、得られた断片は、平滑末端化された断片末端を得るためにポリッシングされてもよい。

当該方法の工程（ｄ）では、断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片は、環状産物を得るために環状化され、この環状産物は、その後、タイプＩＩｓ制限エンドヌクレアーゼを用いて（工程（ｅ）において）切断して、タイプＩＩｓで消化された断片を得ることができる。このタイプＩＩｓで消化された断片に、第１のアダプターが、工程（ｆ）でライゲーションされる。この第１のアダプターは、好ましくは、第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるために、タイプＩＩｓ制限酵素部位の残部にライゲーションされる。当該方法の工程（ｇ）では、この第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片は、次いで再度断片化され、使用できるサイズ（典型的には、使用されるプラットフォームに応じて約１５０〜８００ｂｐ）の一組の断片が得られる。

当該方法の工程（ｈ）では、第２のアダプターのこの後のライゲーションは、第１アダプターおよび第２のアダプターとライゲーションしたタイプＩＩｓで消化された断片、すなわち、各末端で、それぞれ第１のアダプターまたは第２のアダプターとライゲーションされているタイプＩＩｓで消化された断片を生じる。この第１のアダプターおよび／または第２のアダプターは、（異なる）識別子を含有してもよい。この第１アダプターおよび第２のアダプターとライゲーションしたタイプＩＩｓで消化された断片は、ここで、エマルジョンＰＣＲまたはクラスター増幅などの高スループットシーケンシング技術を使用して、シーケンシングおよび／または増幅することができる。

この断片の配列の少なくとも一部分は、第１のアダプターから第２のアダプターの方向またはその逆の方向に、決定される。好ましくは、この断片の配列は、本願明細書中の別の箇所で概略を示したもののようなペアエンドシーケンシングを使用して決定される。

得られた配列情報は、物理地図にリンクすることができる。本発明の１つの態様では、ＳＤＰＥＳは、それ自体、標的ＤＮＡの配列情報の生成についても適用することができる。従って、本発明は、以下の工程を含む標的ＤＮＡの配列情報を生成する方法にも関する：
（ａ）制限酵素切断断片を得るための、標的ＤＮＡの制限酵素消化、
（ｂ）ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプＩＩｓ制限エンドヌクレアーゼについての認識配列を含有するＩＩｓ−アダプターのライゲーション、
（ｃ）断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を得るための、ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の断片化、
（ｄ）環状化産物を得るための、当該断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の環状化、
（ｅ）タイプＩＩｓで消化された断片を与えるための、環状化産物のタイプＩＩｓ制限酵素消化、
（ｆ）アダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、当該タイプＩＩｓで消化された断片への第１のアダプターのライゲーション、
（ｇ）第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片の断片化、
（ｈ）第１および第２のアダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片への第２のアダプターのライゲーション、
（ｉ）これらの断片および／またはアダプターの少なくとも一部分の配列を決定すること。

ＷＧＰＳ実施例
酵素部位にリンクされるＧＡペアエンドリードのアセンブリを通した、ＢＡＣプールに対する成功裏のＷＧＰＳを実証するために、メロンＢＡＣライブラリースーパープール２４をスーパープール２４のＷＧＰデータと一緒に準備した。

１．ウェットラボ（Ｗｅｔｌａｂ）アプローチ
このアプローチは以下の工程を含む：
− 単独の酵素（ＥｃｏＲＩ）を使用する（個々の）ＢＡＣプールＤＮＡの消化。
− Ｐ５増幅、配列プライマー１およびプール特異的な識別子配列を含有するプール特異的なＥｃｏＲＩ適合性のアダプターのライゲーション。
− （例えばＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒの１つのレーンでシーケンシングされることになるスーパープール由来のＲＬ産物の任意のプーリング。これは、それまでのライゲーション工程で使用される異なるプール特異的な識別子の最大値次第である）
− アダプターとライゲーションされた産物の、１００〜１０００ｂｐのサイズ範囲を有する産物への断片化。
断片化された、アダプターとライゲーションされた制限酵素切断断片を末端ポリッシングし、１つのＡ−ｎｔを、断片化された末端に付加する。
− 小さすぎる断片を取り除くために、１：１．８の試料：ビーズ比を用いて、Ａｍｐｕｒｅ精製を実施する。これにより、１００ｎｔ未満の断片が除去されることになろう。
− Ｐ７増幅および配列プライマー２配列を含有する３’−Ｔオーバーハングを含有するアダプターをライゲーションする。
− あらゆる残りのアダプターを除去するために、１：１．３の試料：ビーズ比を使用してＡｍｐｕｒｅ精製を実施する。
− 部分的に一本鎖のアダプターを埋め込む（ｆｉｌｌｉｎｇ）ことによって、完全に二本鎖の断片を生成するために、埋め込み（ｆｉｌｌ−ｉｎ）反応を実施する。あるいは、Ｐ５およびＰ７プライマーを使用する増幅を実施することができる。
− ＱｉａｇｅｎＰＣＲ精製カラムを使用して最終の試料を精製する。
− Ｎａｎｏｄｒｏｐを使用して濃度を測定し、ＡｇｉｌｅｎｔＢｉｏＡｎａｌｙｚｅｒによる分析を通して断片のサイズ分布を決定する。
− ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩを使用して、ペアエンド３６ｎｔシーケンシングプロトコルを使用して、生成したライブラリーをシーケンシングする。
− 得られたシーケンシングデータを、標準的なＩｌｌｕｍｉｎａＳｏｆｔｗａｒｅパイプラインｖ１．６を使用して、処理する。
− 処理した配列データをエクスポートし、ＷＧＰパイプラインについておよびペアエンドリードのアセンブリについてのインプットとして使用する。

２．バイオインフォーマティクスアプローチ
２．１物理地図生成のためのデコンボリューション
データの処理後、プールの中の１タグあたりの平均リード数は約４５０であった。これは、通常のＷＧＰにおける値よりもおよそ７倍高かった。この大きいデータセットを使用して、標準的なＷＧＰパイプラインを使用して９０３９個のタグをデコンボリューションすることができた。通例のＷＧＰデータセットでは、使用したＢＡＣプールの中で１３５７１個のタグがデコンボリューションされた。上記９０３９個のデコンボリューションされたタグのうちのおよそ７１％は、通例のＷＧＰデータセットの中にも存在した。より低いデコンボリューションは、きわめて大規模なシーケンシングおよびより低い品質のシーケンシングランに割り当てられる。両方とも、エラーを含み（これは、複数の座標を得るタグの数を上昇させる）、それゆえデコンボリューションされないリードの数を増加させる。デコンボリューションされたタグは、２．２工程５で生成されて選択されるコンティグを配置するために使用されるであろうＷＧＰ地図を生成するために、使用されることになる。

２．２ペアエンドデータのコンティグへのアセンブリ
このアプローチは６工程を含む。

工程１は、ペアエンドリードのリード１からプールタグをトリミングする。これは、当該ＷＧＰプロセスでは、プールタグをデコンボリューションのために使用し、アセンブリのためには使用しないからである。この工程は、ＣＡＡＴＴＣからＧＡＡＴＴＣへと修飾した制限酵素部位の回収も含む。生成したリード１から、プールタグの除去後、約８５％は予想される制限酵素部位で始まっていた。工程１ｂは、リードのＢＡＣ／プールタグに基づいてリードをプールすることである。これは、クラスタリングがこのプールされたタグに対して実施されるとき、リードのローカルアセンブリを可能にするであろう。これは、工程２で述べたアプローチの代替の（より断片化された）アプローチである。

工程２は、リード１の対応するＷＧＰタグに従って、ペアエンドリードをクラスタリングする。図５は、ＷＧＰタグとリード１との関係を示す。工程１ｂは、工程４における反復領域からのリードのアセンブリングで問題が生じないようにするために、加えられてもよい。

工程３は、各クラスターについて、図６ａおよび６ｂに示されているアーチファクト断片を含有するペアエンドリードをトリミングする。図６ａの場合には、リード１およびリード２の両方が、アーチファクトを含むためにトリミングされる。リード１は、ＧＡＩＩ配列プライマー２の一部分を含むためにトリミングされ、リード２は、プールＩＤおよびＧＡＩＩ配列プライマー１の一部分を含むためにトリミングされる。リード１とリード２との間の共通の断片配列は、維持されるべきである（図６ａにおける、リード１とリード２のダッシュラインの間）。図６ｂは、リード２のみがアーチファクト、プールタグの一部分を含む別の例を示す。

工程４は、ソフトウェアツールｐｈｒａｐおよび／またはｃａｐ３を使用して、クラスターごとにトリミングされたデータセットをアセンブリングする。

工程５は、すべてのクラスターからアセンブリングされた最も長いコンティグを拾い上げ、統計解析を実施する。ペアエンドリードのＢＡＣＩＤに基づいてペアエンドリードをプールすることで、複数のコンティグの作成が減少する。当該オプションは、同一のＷＧＰタグを有するすべての反復領域をアセンブリングする。当該実施例では、二次元プールされたメロンＢＡＣライブラリーの単独のプールセットだけしか使用せず、これにより、反復的なＷＧＰタグの存在が最小になった。完全なＢＡＣライブラリーからのデータに対してこのアプローチを使用することでは、ローカルアセンブリの最大の恩恵は与えられないであろう。工程１ｂで述べたアプローチは、反復領域のアセンブリを回避するであろう。

工程６は、これらのコンティグを、ＱＣの目的で、利用可能であれば、（メロン）ドラフトゲノムに対してＢＬＡＳＴ解析する。

工程７は、コンティグ（工程５）を、２．１で生成したＷＧＰ地図上に配置する。

工程８は、工程７の配置された（重複する）コンティグを、より長いコンティグへとアセンブリングする。これは、物理地図に基づいてドラフトゲノム配列を生じることになる。この工程は工程７の前に実施されてもよいが、こうすると、反復配列に起因して正しくないアセンブリが生じる可能性がある。この工程が、複数のローカルアセンブリのローカルアセンブリであることが効果的である。

クラスターごとにＧＡＩＩペアエンドリードをアセンブリングするために、いくつかのプログラムを使用することができる。評価したツールは、Ｖｅｌｖｅｔ、Ｓｏａｐｄｅｎｏｖｏ、ＡＢｙＳＳ、ｃａｐ３およびｐｈｒａｐであった。Ｓａｎｇｅｒリードについての従来からのアセンブリプログラムであるＣａｐ３およびｐｈｒａｐの両方は、クラスターごとにＧＡＩＩリードを非常に良好にアセンブリングした。本研究では、使用したｃａｐ３についての設定は、「−ｏ４０ −ｐ８０ −ｙ６」であり、ペアエンドリード間の距離を０〜８００ｎｔに設定した。Ｐｈｒａｐはペアエンド距離を採用せず、これらのリードをショットガンリードとしてのみ扱う。本研究で使用したｐｈｒａｐについての設定は、「−ｖｅｃｔｏｒ＿ｂｏｕｎｄ０ −ｆｏｒｃｅｌｅｖｅｌ１ −ｍｉｎｓｃｏｒｅ１２ −ｍｉｎｍａｔｃｈ１０ −ｉｎｄｅｘｗｏｒｄｓｉｚｅ８」であった。これらの設定は、「Ｐａｒａｌｌｅｌ，ｔａｇ−ｄｉｒｅｃｔｅｄａｓｓｅｍｂｌｙｏｆｌｏｃａｌｌｙｄｅｒｉｖｅｄｓｈｏｒｔｓｅｑｕｅｎｃｅｒｅａｄｓ」と題するＮａｔｕｒｅ論文（Ｈｉａｔｔら、２０１０年）でも使用された。

図４は、Ｃａｐ３、ｐｈｒａｐまたはＶｅｌｖｅｔを使用する１つのクラスターについてのアセンブリ結果を示す。Ｃａｐ３およびＰｈｒａｐは、酵素部位の近傍で断片を生成したが、これに対して、Ｖｅｌｖｅｔは、ペアエンドリードおよびリード２のみの両方において、その領域上での配列重複性に起因して、その部分を欠いた。

Ｃａｐ３を他と比較すると、Ｃａｐ３は、末端部分を欠くことが示された。なぜなら、Ｃａｐ３は３’側の「低」品質の領域をトリミングしたからである。ＣＡＰ３におけるこの特性は、Ｓａｎｇｅｒリードアセンブリに対して設計されている。それゆえ、ｐｈｒａｐは、最良のパフォーマンスを呈し、このアプローチについての好ましいアセンブラーである。

３結果
単独のＢＡＣを特定するために、工程２．２で生成した配列データから、９０３９個のタグをデコンボリューションした。これらのタグのうちで、７１％は、使用したプールについてのもとのＷＧＰタグリストでも見出された。工程２．２で生成されたすべてのリードは、それらの第１のリードに基づいてビニングし、そのあとに、各ビン（ｂｉｎ）に対して個別にアセンブリを実施した。Ｐｈｒａｐソフトウェアを用いると、アセンブリは合計１５９３８個のコンティグを生じ、そのうちで１４９０５個（＝９４％）が予想される制限酵素部位で始まっていた。生成したこれらのコンティグの平均長さは約５４５ｎｔであった。アセンブリングされたコンティグの品質をチェックするために、サブセットを、ランダムシーケンシングアプローチを使用して生成したメロンゲノム配列に対してＢＬＡＳＴ解析にかけた。ＢＬＡＳＴ解析の結果を図８に示す。この図は、生成したＷＧＰＳコンティグ（７６０ｎｔ）がゲノム配列コンティグと１００％マッチするということを示す。このマッチは、高有意性を有する唯一のヒットであった。

ＳＤＳＥＳ実施例
酵素結合の配列情報をメロンのＷＧＰ地図にリンクすることを通した、メロンのゲノムＤＮＡに対するＳＤＳＥＳを実証するために、メロンＢＡＣライブラリースーパープール２４をスーパープール２４のＷＧＰデータと一緒に準備した。

ウェットラボアプローチ
このアプローチは以下の工程を含む：
１− 葉緑体およびミトコンドリアから得られる配列データの量を減らすために、核ＤＮＡを単離する。これは、任意の工程であるが、使用できるアウトプットを増やすことになろう。
２− 単独の酵素（ＥｃｏＲＩ）を使用するメロンゲノムＤＮＡの消化。この酵素は、ＷＧＰ地図の生成で使用した酵素と同じ酵素であることが好ましい。異なる酵素が使用されることになる場合、その異なる酵素は、ＷＧＰで使用した酵素と同じヌクレオチド（ＧＡＡＴＴＣ）を認識するべきである（これが好ましい）。
３− 増幅および配列プライマーを含有する酵素（ＥｃｏＲＩ）適合性のアダプターのライゲーション。
４− 少なくとも４００ｂｐ、最大で１０００ｂｐのサイズ範囲を有する産物への、アダプターとライゲーションされた産物の断片化。低いほうの断片長さは変わる可能性があるが、少なくとも、得ることができるシーケンシングリード長よりも高くあるべきである。断片化は、ネブライゼーションまたは超音波処理（Ｃｏｖａｒｉｓ）を使用して実施することができる。
５− 精製した断片のサイズ分布および濃度を、高感度ＤＮＡチップ（サイズ分布）およびｎａｎｏｄｒｏｐ測定（濃度）を使用するＡｇｉｌｅｎｔＢｉｏａｎａｌｙｚｅｒでの解析を通して決定する。
６− ＧＳ−ＦＬＸシーケンシングについてライブラリー調製プロトコルで使用したＡＭｐｕｒｅ手順を使用して、サイズ選択を使用して小さい断片（＜４００ｎｔ）を取り除く。サイズ選択後、ｎａｎｏｄｒｏｐで試料の濃度を測定する。
７− 精製した断片を末端ポリッシングする。
８− ストレプトアビジンをコーティングした磁気ビーズ上に断片を捕捉することを通して、ポリッシングした産物を（任意に）精製する。これは、使用するライゲーションしたＥｃｏＲＩアダプターが５’−ビオチン修飾を含有するとき、可能である。
９− 繋合を防止するために、１つのＡを、断片のポリッシングされたランダム末端に付加する。
１０− 増幅および配列プライマー２配列を含有するＴ字型のアダプターをライゲーションする。
１１− 増幅を実施して、完全に二本鎖の断片、および増幅された試料（これは、１本のＤＮＡ鎖の５’末端にビオチン修飾を含有する）を生成する。
１２− 上記のプロトコルを使用して、増幅産物を、ストレプトアビジンをコーティングした磁気ビーズ（Ｄｙｎａｌ）に結合する。
１３− 断片の標識していない鎖をビーズから溶出し、（次世代の）シーケンシング技術を使用するシーケンシングのために使用する。

シーケンシング
上記で調製した試料を、ＲｏｃｈｅＧＳ−ＦＬＸｔｉｔａｎｉｕｍシーケンサーを使用してシーケンシングする。ＧｅｎｅｒａｌＳｅｑｕｅｎｃｉｎｇＳｉｇｎａｌ処理ツールを使用して、粗配列データを処理する。これは、クオリティおよびライブラリー調製で使用したアダプター配列の存在に関して配列のリードをトリミングするであろう。フィルタリング後、３８０ｂｐの平均リード長を有する９３０，６１８個のリードが残った。これは、３５４Ｍｂｐの配列情報に相当する。Ｆａｓｔａ（ｆｎａ）および対応するクオリティ（．ｑｕａｌ）ファイルを、粗配列ファイル（．ｓｆｆ）から抽出する。このｆａｓｔａ、クオリティおよび粗配列のファイルを、後述するバイオインフォーマティクス処理工程を使用して処理する。

バイオインフォーマティクス処理
− （修飾された）制限酵素認識部位で始まらないすべてのリードの除去。この実施例では、ＥｃｏＲＩを使用する。これは、ＣＡＡＴＴＣで始まらないリードが取り除かれるということを意味する。代替の酵素を使用する場合、フィルタリングは、異なる認識部位を使用して実施する必要があるだろう。
− シーケンシングライブラリーの調製について使用した酵素についての内部認識部位を含有するすべてのリードを取り除く。これらのリードはキメラであってもよい。この実施例では、内部ＧＡＡＴＴＣを含有するすべてのリードが取り除かれる。
− 残りのリードでは、修飾された制限酵素（ＥｃｏＲＩ）部位（ＣＡＡＴＴＣ）が回復される。この回復（または、調整されたトリミングポイントが調整される）は、生成したコンティグとＷＧＳおよび／またはＷＧＰデータとの統合を容易にするであろう。

配列データ処理の結果を表２に提示する。
表２：配列のリードの処理の概説

− ＣＡＰ３ソフトウェアを使用して、以下の設定、 −ｐ９７（重複同一性カットオフ）および−ｙ６（クリッピング範囲）を使用して、処理した配列のリードをアセンブリングする。他のオプションは、初期設定値で使用する。このアセンブリの結果を表３に提示する。
− アセンブリングされたコンティグを、シーケンシングライブラリー調製において使用した酵素、すなわちこの実施例ではＥｃｏＲＩについての内部制限酵素部位の存在についてスクリーニングする。内部部位を有するコンティグは、それらの内部配列に基づいた、そして配列のリードの出発点にある制限酵素部位に隣接している配列には基づかない、アセンブリングされた可能性があるリードである。

表３：Ｃａｐ３アセンブリ結果の概説

内部制限酵素部位を有するコンティグを、この選択から取り除く。
内部制限酵素部位を有しないコンティグを、アセンブリングされていないリードとともに、新しいｆａｓｔａファイルへと合わせる。

このｆａｓｔａファイル（これまでの工程のコンティグおよびシングルトンを含有する）を、Ｃａｐ３および上記の設定を使用して、再アセンブリングする。再アセンブリの結果を表４に示す。

表４：再アセンブリ結果の概説

生成した配列ファイルを使用して、メロンゲノムアセンブリと統合するか、またはこの配列を配列に基づく物理地図へとリンクする。
平均コンティグ長さは約５００ｂｐである。

配列に基づく物理地図（＝ＷＧＰ）へのＳＤＳＥＳリンケージ
表７は、ＳＤＳＥＳ配列の組全体をメロンのフィルタリングされたＷＧＰタグリストにリンクすることの結果を提示する。全ＳＤＳＥＳデータセットは、上記の再アセンブリングを通して得られたコンティグコンティグ（ｃｏｎｔｉｇｃｏｎｔｉｇｓ）およびシングレットコンティグ（ｓｉｎｇｌｅｔｃｏｎｔｉｇｓ）ならびに第１の配列アセンブリラウンドの後に残るシングルトンリードを含む。一般に、フィルタリングされたメロンＷＧＰタグのうちの約８０％を、少なくとも１つのＳＤＳＥＳ配列（コンティグまたはシングルトン）にリンクすることができると結論することができる。シングルトンにおいては、多くの「タグ」が高頻度で発生しているということをも認められる。認められた最高値は１１９３である。これらが葉緑体／ミトコンドリアに起因するのかまたは反復配列に起因するのかは不明である。

４５６３６９個の配列を含有する全ＳＤＳＥＳ配列データセットから、約５９％をＷＧＰタグにリンクすることができる。

表７：ＷＧＰメロンタグへのＳＤＳＥＳ結果のリンケージ

ＳＤＳＥＳシングルトン配列は、ＷＧＰタグのカバレッジを増大させ、いくつかのタグ配列が（非常に）高い頻度で発生するということを示す。これは、配列のアセンブリを最適化できるということを示す。ＷＧＰリンクされたＳＤＳＥＳコンティグは、メロンゲノムの約２５Ｍｂｐ（５０８９５個のコンティグとリンクされたＷＧＰタグ×５００配列長さ）をカバーする。４５０ｂｐの平均コンティグ／リード長が使用されるとき、このゲノムの全ＷＧＰリンクされたカバレッジは４２Ｍｂｐ（９３４５９個のＷＧＰタグ×４５０ｂｐ配列長さ）である。

Claims

ＤＮＡ試料から配列情報を生成する方法であって、
（ａ）タグ化された、アダプターとライゲーションされた制限酵素切断断片のエンドシーケンシングに基づいてクローンバンクの（配列に基づく）物理地図を準備することであって、前記制限酵素切断断片は、少なくとも１つの制限酵素を使用して生成されたものである工程と、
（ｂ）次の工程を含むサブメソッドを準備する工程と、
（ｉ）前記ＤＮＡ試料のアダプターとライゲーションされた制限酵素切断断片を準備する工程、
（ｉｉ）任意に、前記アダプターとライゲーションされた制限酵素切断断片を断片化する工程、
（ｉｉｉ）任意に、アダプターを工程（ｉｉ）の断片にライゲーションする工程、
（ｉｖ）工程（ｉｉｉ）の断片の配列の少なくとも一部分を決定する工程、
（ｃ）工程（ｂ）で得られる配列情報を工程（ａ）の物理地図と組み合わせる工程と、
（ｄ）ドラフトゲノム配列を生成する工程と
を含み、工程（ｂ）（ｉ）における制限酵素切断断片は、工程（ａ）の物理地図の生成で使用される前記少なくとも１つの制限酵素の認識配列の少なくとも一部分と同一である認識配列を含有する少なくとも１つの制限酵素を用いて生成される、方法。
前記少なくとも１つの制限酵素はレアカッターである、請求項１に記載の方法。
工程（ａ）および（ｂ）（ｉ）の少なくとも１つの制限酵素はイソ制限酵素である、請求項１に記載の方法。
工程（ａ）の少なくとも１つの制限酵素の認識部位は、工程（ｂ）（ｉ）の少なくとも１つの制限酵素の前記認識配列と同一であるセクションを含有する、請求項１に記載の方法。
以下の工程：
（ａ）複数のクローンを含むクローンバンクを準備する工程であって、各クローンは、試料ゲノム（もしくは前記試料ゲノムの一部分）由来のＤＮＡを含有する工程と、
（ｂ）前記クローンを前記クローンバンクからプールへとプールする工程と、
（ｃ）少なくとも１つの制限酵素を使用して各プールについての断片を準備する工程と、
（ｄ）第１のアダプターを前記断片にライゲーションする工程と、
（ｅ）断片化された、アダプターとライゲーションされた制限酵素切断断片を与え、および、任意に、ランダムな断片末端をポリッシングするために、工程（ｄ）のアダプターとライゲーションされた制限酵素切断断片を断片化する工程と、
（ｆ）第１および第２のアダプターを含有する、アダプターとライゲーションされた断片化された制限酵素切断断片を与えるために、第２のアダプターを前記（ポリッシングされた）断片化された制限酵素切断断片にライゲーションする工程と、
（ｇ）任意に、第１のプライマーおよび第２のプライマーを用いて工程（ｆ）のアダプターとライゲーションされた断片化された制限酵素切断断片を増幅し、これにより増幅産物を生成する工程と、
（ｉ）前記第１のアダプターの少なくとも一部分および／もしくは前記第１のアダプターに隣接した断片の配列の一部分ならびに／または前記第２のアダプターの少なくとも一部分および／もしくは前記第２のアダプターに隣接した断片の一部分の配列を決定する工程と、
（ｊ）シーケンシングされた、前記第１のアダプターの一部分および／もしくは前記第１のアダプターに隣接した断片の一部分ならびに／または前記第２のアダプターの一部分および／もしくは前記第２のアダプターに隣接した断片の一部分に基づいて、前記断片を対応するクローンに割り当てる工程と、
（ｋ）前記クローンをクローン−コンティグへと順序付けし、これにより前記試料ゲノムの物理地図を生成する工程と、
（ｌ）前記第２のアダプターの少なくとも一部分および／もしくは前記第２のアダプターに隣接した断片の一部分の断片配列を対応するクローンに割り当てる工程と、
（ｍ）工程（ｈ）の断片配列を前記物理地図へアンカリングする工程と、
（ｎ）ドラフトゲノム配列を生成する工程と
を含む、請求項１に記載の方法。
前記サブメソッドは、ＳＤＳＥＳおよびＳＤＰＥＳからなる群から選択され、
Ｉ．ＳＤＳＥＳは、
（ａ）制限酵素切断断片を得るための、少なくとも１つの制限エンドヌクレアーゼを用いた標的ＤＮＡ（ゲノムＤＮＡまたは人工染色体ＤＮＡ）の断片化、
（ｂ）第１のアダプターとライゲーションされた制限酵素切断断片を得るための、前記制限酵素切断断片の末端への第１のアダプターのライゲーション、
（ｃ）ランダムに断片化された第１のアダプターとライゲーションされた制限酵素切断断片を得るための、前記第１のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
（ｄ）任意に、アダプターを含有する前記断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
（ｅ）前記第１のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第２のアダプターのライゲーション、
（ｆ）任意に、（親和性標識された）増幅された断片を得るための、工程（ｂ）のアダプターに向けられたプライマーおよび工程（ｅ）の第２のアダプターに向けられた（親和性標識された）プライマーを使用する増幅、
（ｇ）任意に、前記第２のアダプターの存在に基づく、工程（ｆ）で得られる（親和性標識された）増幅された断片の選択、
（ｈ）前記第１のアダプターの少なくとも一部分の配列および／もしくは前記第１のアダプターに隣接した断片の配列の一部分ならびに／または前記第２のアダプターの少なくとも一部分の配列および／もしくは前記第２のアダプターに隣接した断片の配列の一部分の決定
の工程を含み、
ＩＩ．ＳＤＰＥＳは、
（ａ）制限酵素切断断片を得るための、標的ＤＮＡの制限酵素消化、
（ｂ）ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプＩＩｓ制限エンドヌクレアーゼについての認識配列を含有するＩＩｓ−アダプターのライゲーション、
（ｃ）断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を得るための、前記ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の断片化、
（ｄ）環状化産物を得るための、前記断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の環状化、
（ｅ）タイプＩＩｓで消化された断片を与えるための、環状化産物のタイプＩＩｓ制限酵素消化、
（ｆ）アダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、前記タイプＩＩｓで消化された断片への第１のアダプターのライゲーション、
（ｇ）前記第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片の断片化、
（ｈ）第１および第２のアダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、前記第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片への第２のアダプターのライゲーション、
（ｉ）前記断片および／またはアダプターの少なくとも一部分の配列を決定すること
の工程を含む、請求項１に記載の方法。
標的ＤＮＡの配列情報を生成する方法であって、
（ａ）制限酵素切断断片を得るための、少なくとも１つの制限エンドヌクレアーゼを用いた標的ＤＮＡ（ゲノムＤＮＡまたは人工染色体ＤＮＡ）の断片化、
（ｂ）第１のアダプターとライゲーションされた制限酵素切断断片を得るための、前記制限酵素切断断片の末端への第１のアダプターのライゲーション、
（ｃ）ランダムに断片化された第１のアダプターとライゲーションされた制限酵素切断断片を得るための、前記第１のアダプターとライゲーションされた制限酵素切断断片のランダムな断片化、
（ｄ）任意に、アダプターを含有する前記断片化された、アダプターとライゲーションされた制限酵素切断断片の選択、
（ｅ）前記第１のアダプターとライゲーションされた制限酵素切断断片の断片化された末端への、第２のアダプターのライゲーション、
（ｆ）任意に、（親和性標識された）増幅された断片を得るための、工程（ｂ）のアダプターに向けられたプライマーおよび工程（ｅ）の第２のアダプターに向けられた（親和性標識された）プライマーを使用する増幅、
（ｇ）任意に、前記第２のアダプターの存在に基づく、工程（ｆ）で得られる（親和性標識された）増幅された断片の選択、
（ｈ）前記第１のアダプターの少なくとも一部分の配列および／もしくは前記第１のアダプターに隣接した断片の配列の一部分ならびに／または前記第２のアダプターの少なくとも一部分の配列および／もしくは前記第２のアダプターに隣接した断片の配列の一部分の決定
の工程を含む、方法。
標的ＤＮＡの配列情報を生成する方法であって、
（ａ）制限酵素切断断片を得るための、標的ＤＮＡの制限酵素消化、
（ｂ）ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を与えるための、タイプＩＩｓ制限エンドヌクレアーゼについての認識配列を含有するＩＩｓ−アダプターのライゲーション、
（ｃ）断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片を得るための、前記ＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の断片化、
（ｄ）環状化産物を得るための、前記断片化されたＩＩｓ−アダプターとライゲーションされた制限酵素切断断片の環状化、
（ｅ）タイプＩＩｓで消化された断片を与えるための、環状化産物のタイプＩＩｓ制限酵素消化、
（ｆ）アダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、前記タイプＩＩｓで消化された断片への第１のアダプターのライゲーション、
（ｇ）前記第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片の断片化、
（ｈ）第１および第２のアダプターとライゲーションされたタイプＩＩｓで消化された断片を与えるための、前記第１のアダプターとライゲーションされたタイプＩＩｓで消化された断片への第２のアダプターのライゲーション、
（ｉ）前記断片および／またはアダプターの少なくとも一部分の配列を決定すること
の工程を含む、方法。
前記シーケンシング工程は、ペアエンドシーケンシングを使用して実施される、請求項５から請求項８のいずれか１項に記載の方法。
前記シーケンシング工程は、シングルエンドシーケンシングを使用して実施される、請求項５から請求項８のいずれか１項に記載の方法。