JP2012514977A

JP2012514977A - 新規ゲノム配列決定戦略

Info

Publication number: JP2012514977A
Application number: JP2011545311A
Authority: JP
Inventors: マイケル・ヨセフュス・テレジア・ファン・アイク; アドリアヌス・ヨハネス・ファン・トゥーネン; アントワン・アントニウス・アルノルドゥス・ヴィルヘルムス・ヤンセン
Original assignee: キージーン・エン・フェー
Priority date: 2009-01-13
Filing date: 2010-01-13
Publication date: 2012-07-05
Also published as: EP2379751B1; US20130196859A1; ES2403312T3; WO2010082815A1; CN102272334A; EP2379751A1; CN102272334B

Abstract

本発明は、プールされたBACクローンの断片末端を配列決定することによって、サンプルゲノムの物理的マップを提供するステップと、サンプルゲノムから得た配列リードのセット提供し、物理的マップおよび配列リードのコンティグを作製するステップとを含む、ゲノム配列を決定するための方法に関する。

Description

本発明は、デノボ全ゲノム配列決定のための効率的な方法に関する。本発明は、大規模核酸配列決定、特に、生物のゲノムまたはその一部を配列決定する方法に関する。本発明は、ハイスループット配列決定技術の使用に基づいて、好ましくは、複雑な(すなわち、大きな)ゲノムの配列を決定するための改善された戦略に関する。

多くの配列決定プロジェクトの目標は、標的生物の全ゲノム配列を初めて決定すること(デノボドラフトゲノム配列決定)である。ドラフトゲノム配列を手中にすることによって、例えば、種または同一種の個体間の遺伝的多様性の起源の同定のための生物の有用な遺伝情報の同定が可能となる。したがって、ヒト、動物または植物であろうと、個体の全ゲノム配列のデノボ決定を、合理的な費用および努力で可能にする技術に達することは当技術分野では一般的な要望である。この探求は、通常、1000$-ゲノムの探求、すなわち、最大1000$(通貨変動を考慮せずに)で個体の全ゲノム配列を決定することとして示されている。しかし、実際には、1000$ゲノムは、必ずしも、デノボゲノム配列決定に依存せず、アセンブリー戦略もまた、再配列決定アプローチに基づく場合もある。後者の場合には、再配列決定されたゲノムは、デノボアセンブリーされず、その配列決定されたDNAは、注目する生物の既存の参照ゲノム配列と比較される(それにマッピングされる)。したがって、再配列決定アプローチは、技術的にあまり困難でなく、費用もあまりかからない。明確にするために、本発明は、参照ゲノム配列が欠けている生物に適用できるデノボゲノム配列決定戦略を対象としている。

現在の努力はさまざまであり、豊富な、急増する結果が達成されている。それにもかかわらず、目標はまだ達成されていない。全ゲノムを直接的な方法で配列決定し、アセンブルすることは、まだ経済的に実現可能ではない。改善されたデノボゲノム配列決定戦略に対して、当技術分野において依然として必要性がある。

WO03/027311には、クローン-アレイプールドショットガン配列決定法(CAPPS)が記載されている。この方法は、異なってプールされた(BAC)クローンに由来するランダム配列リードを使用する。ランダムリードのクロスアセンブリーに基づいて、複数のクローンから配列コンティグを作製でき、配列に対してクローンのマップを作製できる。この刊行物には、多次元プール、例えば、各プールおよび列が148のBACクローン含む二次元形式(148×148形式)でのBACライブラリーの作製がより詳細に記載されている。CAPPSを使用すると、BACプールは、平均で4〜5Xのカバー率まで配列決定され、これにより、2次元プーリングスキームの場合には、BACあたり8〜10Xのカバー率が生じる。コンティグは、2次元プーリングスキームの場合には、単一列および単一プール中のそれらの出現に基づいて、BACに対してユニークである配列に基づいて、BACあたり、別個に作製される。続いて、これらのBACは、ゲノムのためにコンティグにアセンブルされる。この刊行物には、5つのみのBACに基づいた技術が示されている。この刊行物は、手付かずのデータ処理の問題を残している。しかし、この技術の不利点の1つは、ランダムに剪断された断片の使用により、8〜10倍の配列重複レベルでゲノムをカバーするには莫大な量のリードが必要となり、このことが、この方法を大規模では極めて骨の折れるものにするということである。さらに、この技術は、物理的BACマップに基づいた配列をもたらさない。

US2007/0082358には、順序付き制限マップの作製のために制限酵素を使用する全ゲノム光学的制限酵素マッピングと組み合わせた、全ゲノムショットガン配列情報を作成するための、クローン的に単離され、増幅された一本鎖ゲノムDNAのライブラリーに基づいた配列情報のデノボアセンブリーの方法が記載されている。

US2002/0182630には、部分配列を比較することによるBACコンティグマッピングでの方法が開示されている。この方法は、繰り返し配列に付随する困難およびリピートリッチ領域間の架橋の作製によるコンティグの生成を避けることを目的とする。

BACに基づいて物理的マップを決定することは、例えば、「全ゲノムプロファイリング」またはWGPとしても示されるKeygeneからのWO2008/007951に記載される方法を使用してBACライブラリーを配列決定すること(BACクローンの配列ベースの物理的マッピング)に基づき得る。手短には、WGPは、サンプルDNAから人工染色体ライブラリーを作製するステップと、クローンをプールするステップと、プールされたクローンを制限酵素で消化するステップと、識別子を含有するアダプターをライゲーションするステップと、識別子を含有するアダプターがライゲーションされた制限断片を増幅するステップと、アンプリコンをクローンと関連付けるステップと、断片を順序付けてコンティグを作製し、それによって、物理的マップを作製するステップとを含む、ゲノムの少なくとも一部の物理的マップの作製に関する。

WO03/027311 US2007/0082358 US2002/0182630 WO2008/007951 EP534858 US6045994 WO03/012118 WO00/24939 US6975943 WO03/004690 WO03/054142 WO2004/069849 WO2004/070005 WO2004/070007 WO2005/003375 WO0006770 WO0027521 WO0058507 WO0123610 WO0157248 WO0157249 WO02061127 WO03016565 WO03048387 WO2004018497 WO2004018493 WO2004050915 WO2004076692 WO2005021786 WO2005047301 WO2005065814 WO2005068656 WO2005068089 WO2005078130 WO2006/137734

Vosら1995年AFLP: a new technique for DNA fingerprinting. Nucleic Acids Research 23(21):4407〜4414頁 Albert L. Lehninger、Principles of Biochemistry、793〜800頁(Worth Pub. 1982年) lannoneらCytometry 39:131〜140頁、2000年 Sambrookら(Sambrook and Russell (2001)「Molecular Cloning」: A Laboratory Manual(第3版)、Cold Spring Harbor Laboratory、Cold Spring Harbor Laboratory Press) KleinらGenome Research、(2000年)、10、798〜807頁 Seoら(2004年) Proc. Natl. Acad. Sci. USA 101 :5488〜93頁 www.biotagebio.com; www.pyrosequencing.com / section technology Marguliesら、nature 2005年、437、376〜380頁 Soderlund, C.、S. Humphrey、A. DunhumおよびL. French(2000年). Contigs built with fingerprints, markers and FPC V4.7. Genome Research 10:1772〜1787頁

ハイスループット配列決定におけるすべての進歩にもかかわらず、高い正確度でドラフトゲノム配列を決定することは、依然として高価で骨の折れることであると考えられる。ドラフトゲノム配列の作製のための効率的な、経済的な方法に達する現在存在する方法を補う必要性が残っている。特に、現ハイスループット配列決定技術は、比較的短いリード(最大400nt)を提供し、大きなコンティグにアセンブルすることが困難である比較的短いコンティグをもたらし、コンピュータ処理能力に大きな負担をかける。

本発明者らは、クローンベースの全ゲノムプロファイリングを、ハイスループット配列決定技術を使用するサンプル(ゲノム)DNAの断片の(ハイスループット)配列決定と組み合わせることによって、高い正確度および速さを有するドラフトゲノム配列の決定のための優れた戦略が提供されることを見出した。配列決定リードからコンティグを作製するステップおよびこれらのリードを、全ゲノムプロファイリングによって得られたBAC(またはYACもしくは任意のその他の大きなインサートクローニングベクター)-コンティグに固定するステップによって、長さおよび密度の増大したコンティグが作製される。したがって、減少した数のコンティグによって作製され、それによって、その品質が増大しているドラフトゲノム配列が得られる。

定義
クラスタリング:用語「クラスタリング」とは、同一または類似のヌクレオチドの短いまたは長いストレッチの存在に基づいて2つ以上のヌクレオチド配列を比較し、同一または類似の配列の短い(または長い)ストレッチの存在に基づいて特定の最小レベルの配列相同性を有する配列をグループ化するステップとを意味する。

アラインメント:例えば、ギャップを導入することによる、アラインメント中の種々の配列の全域で配列同一性の領域を得る可能性を最大にするための表形式提示での複数の配列の位置決定。ヌクレオチド配列のアラインメントのためのいくつかの方法は、以下にさらに説明するように、当技術分野で公知である。

AFLP:AFLPとは、1種または複数の制限エンドヌクレアーゼを用いて核酸を消化し、制限断片を得るステップ、制限断片にアダプターをライゲーションするステップおよびアダプターと(部分)相補的である、制限エンドヌクレアーゼの残部と(部分)相補的である、また、プライマーの3’末端にA、C、TまたはG(または場合によってはU)の中から無作為に選択された少なくとも1個のヌクレオチドをさらに含み得る、少なくとも1つのプライマーを用いてアダプターがライゲーションされた制限断片を増幅するステップに基づいた、核酸の選択的増幅のための方法を指す。AFLPは、事前配列情報を全く必要とせず、任意の出発DNAで実施できる。通常、AFLPは、
(a)核酸、特に、DNAまたはcDNAを、1種または複数の特異的制限エンドヌクレアーゼを用いて消化し、DNAを対応する一連の制限断片に断片化するステップ;
(b)このように得られた制限断片を、一方の末端が、制限断片の末端の一方または両方と適合する二本鎖合成オリゴヌクレオチドアダプターを用いてライゲーションし、それによって、アダプターがライゲーションされた、出発DNAの制限断片を製造するステップ;
(c)ハイブリダイズする条件下でアダプターがライゲーションされた制限断片を、アダプターに向けられた、その3’末端に選択的ヌクレオチドを含み得る1つまたは複数のオリゴヌクレオチドプライマーと接触させるステップと;
(d)PCRまたは同様の技術によって、プライマーとハイブリダイズされた、アダプターがライゲーションされた制限断片を増幅し、ハイブリダイズされたプライマーの、プライマーがハイブリダイズされる出発DNAの制限断片に沿ったさらなる伸長を引き起こすステップ;および
(e)このように得られた増幅されるか、伸長されたDNA断片を検出、同定または回収するステップ
を含む。

したがって、AFLPは、アダプターがライゲーションされた断片の再現性のあるサブセットを提供する。AFLPは、EP534858、US6045994、Vosら1995年AFLP: a new technique for DNA fingerprinting. Nucleic Acids Research 23(21):4407〜4414頁に記載されている。AFLPに関するさらなる詳細のためにこれらの刊行物が参照される。AFLPは、効率的な、頑強な、再現性のある複雑性低減技術としてよく使用される。

選択的塩基または選択的ヌクレオチド:アダプターと相補的である部分と、制限部位の残部と相補的である部分とを含むプライマーの3’末端に配置され、選択的塩基は、A、C、TまたはG(または場合によってはU)の中から無作為に選択される。プライマーを選択的塩基を用いて伸長することによって、その後の増幅が、アダプターがライゲーションされた制限断片の再現性のあるサブセットのみ、すなわち、選択的塩基を保持するプライマーを使用して増幅され得る断片のみをもたらす。選択的ヌクレオチドを、1から10の間で変動する数でプライマーの3’末端に付加してもよい。通常、1から4で十分である。両プライマーは、種々の数の選択的塩基を含み得る。選択的塩基が付加されるごとに、サブセットが、サブセット中の増幅されるアダプターがライゲーションされた制限断片の量を約4倍低減する。通常、AFLPにおいて使用される選択的塩基の数は、+N+Mによって示され、ここで、一方のプライマーは、N個の選択的ヌクレオチドを保持し、もう一方のプライマーは、M個の選択的ヌクレオチドを保持する。したがって、EcoRI/MseI +1/+2 AFLPは、EcoRIおよびMseIでの出発DNAの消化、適当なアダプターのライゲーションならびに1個の選択的塩基を保持するEcoRI制限部位に向けられた一方のプライマーおよび2個の選択的ヌクレオチドを保持するMseI制限部位に向けられたもう一方のプライマーを用いる増幅の省略表現である。3’末端に少なくとも1個の選択的ヌクレオチドを保持する、AFLPにおいて使用されるプライマーはまた、AFLP-プライマーと表される。3’末端に選択的ヌクレオチドを保持しない、実際にアダプターおよび制限部位の残部と相補的であるプライマーは、AFLP+0プライマーと示されることがある。用語選択的ヌクレオチドは、アダプターセクションに隣接して位置する、ヌクレオチドが知られるようになった結果として選択的プライマーの使用によって同定された標的配列のヌクレオチドにも使用される。

配列決定:用語配列決定とは、核酸サンプル、例えば、DNAまたはRNA中のヌクレオチドの順序(塩基配列)を決定することを指す。Sanger配列決定およびパイロシークエンシングに基づいた、Roche Applied Scienceによって提供されるGS FLXプラットフォームなどのハイスループット配列決定技術(次世代配列決定技術としても知られている)など、多数の技術が利用可能である。

制限エンドヌクレアーゼ:制限エンドヌクレアーゼまたは制限酵素は、二本鎖DNA分子中の特定の核酸配列(標的部位)を認識する酵素であり、すべての標的部位またはその付近でDNA分子の両鎖を切断し、平滑末端または段違い末端(staggered end)を残す。

フリークエントカッターおよびレアカッター:制限酵素は、通常、3、4(例えば、MseI)〜6(EcoRI)およびさらに8(Notl)のヌクレオチドの数で異なる認識配列を有する。使用される制限酵素は、フリークエントおよびレアカッターであり得る。この点において、用語「フリークエント」は、通常、用語「レア」との関連で使用される。頻繁に切断するエンドヌクレアーゼ(別名、フリークエントカッター)は、比較的短い認識配列を有する制限エンドヌクレアーゼである。フリークエントカッターは、通常、それらが認識し、その後切断する3〜5個のヌクレオチドを有する。したがって、フリークエントカッターは、平均で、64〜1024個のヌクレオチド毎にDNA配列を切断する。レアカッターは、比較的長い認識配列を有する制限エンドヌクレアーゼである。レアカッターは、通常、それらが認識し、その後、切断する6個またはそれ以上のヌクレオチドを有する。したがって、レア6カッターは、平均して、DNA配列を4096ヌクレオチド毎に切断し、より長い断片をもたらす。フリークエントおよびレアの定義は、互いに関連しているとやはり観察され、これは、MseIなどの4bp制限酵素が、AvaIIなどの5カッターと組み合わせて使用される場合には、AvaIIはレアカッターと見られ、MseIはフリークエントカッターと見られることを意味する。

制限断片:制限エンドヌクレアーゼを用いる消化によって生じたDNA分子は、制限断片と呼ばれる。任意の所与のゲノム(または核酸(その起源にかかわらず))は、特定の制限エンドヌクレアーゼによって、制限断片の個々のセットに消化される。制限エンドヌクレアーゼ切断に起因するDNA断片は、種々の技術においてさらに使用でき、例えば、ゲル電気泳動によって検出され得る。

ライゲーション:2つの二本鎖DNA分子が共有結合によって一緒に結合されるリガーゼ酵素によって触媒される酵素反応は、ライゲーションと呼ばれる。一般に、両DNA鎖は、共有結合によって一緒に結合されるが、鎖の末端の一方の化学的または酵素的修飾によって、2つの鎖の一方のライゲーションを避けることも可能である。その場合には、共有結合は、2つのDNA鎖の一方のみで起こる。

合成オリゴヌクレオチド:化学的に合成され得る、好ましくは、約10〜約50塩基を有する一本鎖DNA分子は、合成オリゴヌクレオチドと呼ばれる。一般に、これらの合成DNA分子は、ユニークな、または所望のヌクレオチド配列を有するよう設計されるが、関連配列を有し、ヌクレオチド配列内の特定の位置に異なるヌクレオチド組成を有する分子のファミリーを合成することも可能である。用語合成オリゴヌクレオチドは、設計された、または所望のヌクレオチド配列を有するDNA分子を指すよう使用される。

アダプター:制限断片の末端にライゲーションされ得るよう設計された制限された数の塩基対、例えば、約10〜約30の塩基対の長さを有する短い二本鎖DNA分子。アダプターは、通常、互いに部分的に相補的であるヌクレオチド配列を有する2つの合成オリゴヌクレオチドからなる。適当な条件下、溶液中で2つの合成オリゴヌクレオチドを混合すると、それらは互いにアニーリングして、二本鎖構造を形成する。アニーリング後、アダプター分子の一方の末端は、制限断片の末端と適合し、それにライゲーションされ得るよう設計され;アダプターのもう一方の末端は、ライゲーションされ得ないよう設計されるが、これはそうである必要はない(二重にライゲーションされるアダプター)。

アダプターがライゲーションされた制限断片:アダプターによってキャップされている制限断片。

プライマー:通常、用語プライマーは、DNAの合成をプライムできるDNA鎖を指す。DNAポリメラーゼは、プライマーなしではデノボでDNAを合成できない:ヌクレオチドの順序がアセンブルされるよう、相補鎖が鋳型として使用される反応において既存のDNA鎖のみを伸長し得る。本発明者らは、ポリメラーゼ連鎖反応(PCR)において使用される合成オリゴヌクレオチド分子をプライマーと呼ぶ。

DNA増幅:用語DNA増幅は、通常、PCRを使用する二本鎖DNA分子のin vitro合成を示すために使用される。その他の増幅法が存在し、主旨から逸脱することなく本発明においてそれらを使用できるということは留意されたい。

核酸:本発明の核酸は、それぞれ、ピリミジンおよびプリン塩基、好ましくは、シトシン、チミンおよびウラシルならびにアデニンおよびグアニンの任意のポリマーまたはオリゴマーを含み得る(その全文がすべての目的のために参照により本明細書に組み込まれるAlbert L. Lehninger、Principles of Biochemistry、793〜800頁(Worth Pub. 1982年)参照)。本発明は、任意のデオキシリボヌクレオチド、リボヌクレオチドまたはペプチド核酸成分およびその任意の化学変種、例えば、これらの塩基のメチル化、ヒドロキシメチル化またはグリコシル化形態などを考慮する。ポリマーまたはオリゴマーは、組成が異種または同種であり得、天然に存在する供給源から単離され得るか、または人工的にもしくは合成によって製造され得る。さらに、核酸は、DNAまたはRNA、またはそれらの混合物であり得、一本鎖またはホモ二本鎖、ヘテロ二本鎖およびハイブリッド状態を含めた二本鎖の形態で永久に、または一時的に存在し得る。

複雑性低減:用語複雑性低減は、サンプルのサブセットの作製または選択によって、ゲノムDNAなどの核酸サンプルの複雑性が低減される方法を示すために使用される。このサブセットは、全(すなわち、複雑な)サンプルの代表物であり得、再現性のあるサブセットが好ましい。これに関連して、再現性のあるとは、同一サンプルが、同一方法および実験条件を使用して複雑性において低減される場合に、同一のまたは少なくとも匹敵するサブセットが得られることを意味する。複雑性低減のために使用される方法は、当技術分野で公知の複雑性低減のための任意の方法であり得る。複雑性低減のための方法の例として、例えば、AFLP(登録商標)(Keygene N.V.、オランダ;例えば、EP0534858参照)、Dongによって記載される方法(例えば、WO03/012118、WO00/24939参照)、インデックス付きリンキング(indexed linking)(Unrauら、下記参照)などが挙げられる。本発明において使用される複雑性低減法は、それらは再現性のあるという共通点を有する。マイクロダイセクション、ランダム剪断などのよりランダムな複雑性低減または選択された組織において転写されたゲノムの一部に相当するmRNA(cDNA)の使用とは対照的に、同一サンプルが、同様の方法で複雑性において低減される場合に、サンプルの同一のサブセットが得られるという意味で再現性のある、およびその再現性については、組織の選択および単離時間などに応じて変わる。

タグ付け:用語タグ付けとは、核酸サンプルを、第2のまたはさらなる核酸サンプルから区別できるようにするための核酸サンプルへの配列タグの付加を指す。タグ付けは、例えば、複雑性低減の際の配列識別子の付加によって、または別個のライゲーションステップなどの当技術分野で公知の任意のその他の手段によって実施できる。このような配列識別子は、例えば、特定の核酸サンプルを同定するためにユニークに使用される、変動するが規定の長さのユニーク塩基配列であり得る。代表的な例として、ハイブリダイゼーションによるユニーク検出のためによく使用されるタグとして当技術分野で公知の、ZIP配列がある(lannoneらCytometry 39:131〜140頁、2000年)。ヌクレオチドベースのタグを使用することによって、さらなるプロセシングの際に、サンプル、クローンまたは増幅産物の起源を調べることができる。異なる核酸サンプルに起因するプロセシングされた生成物を組み合わせる場合には、異なる核酸サンプルは、異なるタグを使用して同定されるべきである。

識別子:アダプターもしくはプライマーに付加され得る、またはその配列に含まれ得る、そうでなければユニーク識別子(別名バーコードまたは指標)を提供するための標識として使用され得る短い配列。このような配列識別子(タグ)は、特定の核酸サンプルを同定するために使用される、変動するが規定の長さ、通常、4〜16bpのユニーク塩基配列であり得る。例えば、4bpのタグによって、4(累乗4)=256種の異なるタグが可能となる。このような識別子を使用して、さらなるプロセシングの際にPCRサンプルの起源を決定することができ、または断片をクローンと関連付けることができる。また、これらの配列ベースの識別子を使用してプール中のクローンを互いに区別することができる。したがって、識別子は、サンプル特異的、プール特異的、クローン特異的、アンプリコン特異的などであり得る。異なる核酸サンプルに起因するプロセシングされた生成物を組み合わせる場合には、異なる核酸サンプルは、通常、異なる識別子を使用して同定される。識別子は、少なくとも2塩基対で互いに異なることが好ましく、ミスリードを防ぐために2つの同一の連続する塩基を含まないことが好ましい。識別子機能は、アダプターまたはプライマーなどのその他の機能性と組み合わせられる場合もあり、任意の好都合な位置に配置され得る。

タグ付きライブラリー:用語タグ付きライブラリーとは、タグ付き核酸のライブラリーを指す。

アラインすることおよびアラインメント:用語「アラインすること」および「アラインメント」とは、同一または類似のヌクレオチドの短いまたは長いストレッチの存在に基づく、2つ以上のヌクレオチド配列の比較を意味する。以下にさらに説明するように、ヌクレオチド配列のアラインメントのためのいくつかの方法が、当技術分野で公知である。

用語「コンティグ」は、DNA配列分析に関連して使用され、連続するヌクレオチド配列を有する2つ以上のDNA断片に由来するDNAのアセンブルされた隣接するストレッチを指す。したがって、コンティグは、ゲノムの部分的な連続する配列を提供する、重複するDNA断片のセットである。「スキャフォールド」は、正しい順序にあるが、1つの連続する配列には結合していない、すなわち、ギャップを含む一連のコンティグとして定義される。コンティグマップはまた、一連のクローン間の重複関係を特定することによってゲノムの連続する領域の構造を表す。例えば、用語「コンティグ」は、その隣のものの各配列重複を有するよう順序付けられた一連のクローニングベクターを包含する。次いで、連結しているクローンを、手作業によって、または好ましくは、FPC、PHRAP、CAP3などといった適当なコンピュータプログラムを使用してグループにしてコンティグにできる。

用語「スキャフォールド」は、とりわけ、大きさ既知(未知)のギャップを含むペアエンド配列決定によって作製されたコンティグのために使用される。用語「スーパースキャフォールド(superscaffold)」とは、WGP BACコンティグによって互いに連結しているスキャフォールドのために使用される。

ハイスループットスクリーニング: HTSと略されることが多いハイスループットスクリーニングは、特に、生物学および化学の分野と関連している科学実験の方法である。最新のロボット工学とその他の特殊化された実験室機械設備を組み合わせることによって、研究者が多量のサンプルを同時に効率的にスクリーニングすることが可能となる。

上流または下流: DNA配列の特徴を、DNA配列の方向(5’〜3’)の点で説明するために使用される慣習。下流(または、3’側)は、DNA配列の3’末端の方向にあるのに対し、上流(5’側)は、DNA配列の5’末端の方向にある。従来、一本鎖DNA配列、遺伝子マップおよびRNA配列は、左から右への転写(または翻訳)を用いて描かれ、そのため、下流は右(上流は左)に向かう。用語下流または上流は、種々のDNAセグメントの、DNA配列中の互いに対する相対位置を定義するために使用できる。例えば、AFLP断片では、断片中の選択ヌクレオチドは、アダプターから上流に配置されるが、プライマー中の選択ヌクレオチドは、プライマーのアダプター相補的セクションの下流(すなわち、3’側)に配置される

コンティグおよびスキャフォールドを作製するために、BAC由来配列およびショットガン配列決定を使用して、全ゲノムプロファイリングおよび全ゲノム配列決定を組み合わせることの視覚表示である。 BAC由来コンティグを補完し、BACコンティグ間のギャップを埋めるために、BAC由来配列およびショットガン配列決定を使用して、全ゲノムプロファイリングおよび全ゲノム配列決定を組み合わせることの視覚表示である。メロンのBAC由来コンティグの作製において得られたコンティグサイズ分布の視覚化である。プライマー構造ならびにアダプターおよび識別子とのその相互作用の視覚表示である。スキャフォールド作製の視覚表示である。ブロックは、BACコンティグであり、水平線は、WGSスキャフォールドであり、垂直線は、連結しているタグである。分岐スキャフォールド作製の視覚表示である。ブロックは、BACコンティグであり、水平線は、WGSスキャフォールドであり、垂直線は連結しているタグである。点線の細部の水平線は、同一BACコンティグと連結して、2つの分岐をもたらす別のWGSスキャフォールドを示す。

本発明者らは、新規(植物)ゲノム配列決定戦略を見出し、これを、市販の野菜作物(メロン)に適用した。このゲノム配列決定戦略は、2つの構成要素:
1)好ましくは、Genome Analyzer IIを使用する、好ましくは、プールされた人工染色体(好ましくは、BAC)クローン(Amplicon Express, Pullman, USA)の配列決定断片末端による配列ベースの物理的マップの構築と、
2)GS FLXチタンまたはGA IIを使用する、好ましくは、シングルリード、3kbのペアエンドリードおよびロングジャンプ(long-jump)ペアエンドリードの組合せを含む全ゲノム配列決定(WGS)と
に基づいている。

最大アセンブリー力は、別記の実施例において記載される作物の場合のように、同様の(ホモ接合性/近交系)株を使用して配列ベースの物理的マップとWGS配列の両方が作製される場合に得られる。

したがって、第1の態様において、本発明は、
-プールされたBACクローンの断片末端を配列決定することによってサンプルゲノムの物理的マップを提供するステップと;
-サンプルDNAに由来する配列リードのセットを提供するステップと;
-物理的マップおよび配列リードのコンティグを作製するステップと
を含む、ゲノム配列を決定する方法に関する。

配列リードが、配列決定されたクローンの断片末端のコンティグによって得られた物理的マップによって提供されたスキャフォールドを補完するので、このような方法で、ゲノム配列の効率的な高品質のドラフトが得られる。

一実施形態では、本発明は、
(a)サンプルDNAを提供するステップと;
(b)各人工染色体クローンがサンプルDNAの一部を含む、人工染色体(例えば、BAC、YAC)クローンバンクを作製するステップと;
(c)1つまたは複数のプールにおいて人工染色体クローンを組み合わせ、ここで、各クローンが2つ以上のプール中に存在してライブラリーを作製するステップと;
(d)各プールの断片のセットを提供するステップと;
(e)断片の一端または両端とアダプターをライゲーションするステップと、
(f)少なくともアダプターの一部および断片の一部の配列を決定するステップと;
(g)断片配列を対応するクローンに割り当てるステップと;
(h)クローン-コンティグを構築し、それによって、サンプルゲノムの物理的マップを作製するステップと;
(i)サンプルDNAから配列リードを作製するステップと;
(j)配列リードおよび/または配列リードから得たコンティグもしくはスキャフォールドを、クローンコンティグに対してアラインし、それによって、ゲノム配列/スーパースキャフォールドを構築するステップと
を含む、ゲノム配列を決定する方法に関する。

この戦略は、BACベースの物理的マッピングの能力を、全ゲノム配列決定と組み合わせる。本発明の方法は、現在使用されるゲノム配列決定戦略と比較して大幅な費用削減を提供する。本方法は、BAC由来配列などの人工染色体に由来する配列情報ならびに全ゲノムショットガン配列決定および同様の技術などの配列情報を直接的に作製する技術に由来する配列情報を組み合わせるための適応性の増大をさらに提供する。本方法はまた、Sangerジデオキシ配列決定法のような、より従来的な技術によって得られるような利用可能なその他の配列情報で補完され得る。

方法のステップ(a)では、サンプルDNAが提供される。これは、例えば、Sambrookら(Sambrook and Russell (2001)「Molecular Cloning」: A Laboratory Manual(第3版)、Cold Spring Harbor Laboratory、Cold Spring Harbor Laboratory Press)によって開示されるような、当技術分野における任意の手段で達成され得る。サンプルDNAは、任意の種、特に、ヒト、植物または動物起源に由来するものであり得る。ゲノムの一部のみを使用することが可能であるが、本発明はまた、例えば、AFLPに基づく選択的増幅などの再現性のある複雑性低減による再現性のあるサブセットの作製(EP534858)によって、任意の大きさのゲノムに対応する方法も提供するので、それは必要ではない。したがって、通常、本方法は、全ゲノムを使用する。

ステップ(b)では、人工クローンバンクが作製される。ライブラリーは、細菌人工染色体ライブラリー(BAC)であり得る、または酵母に基づき得る(YAC)。フォスミド、コスミド、PAC、TACまたはMACに基づくものなどのその他のライブラリーもあり得る。BACライブラリーが好ましい。ライブラリーは、高品質のものが好ましく、大きなインサートサイズのゲノムライブラリーが好ましい。これは、個々のBACは、研究中のゲノムDNAの相対的に大きなインサート(通常、>125kbp)を含むことを意味する。好ましい大きなインサートの大きさは、種依存性である。この出願を通じて、人工染色体の例としてBACが参照され得る。しかし、本発明は、それに制限されず、本発明の主旨から逸脱することなく、その他の人工染色体を使用してもよいということは留意されたい。好ましくは、ライブラリーは、少なくとも5、より好ましくは、少なくとも7、最も好ましくは、少なくとも8ゲノム相当量を含む。少なくとも10が特に好ましい。ライブラリー中のゲノム相当量の数が大きいほど、得られるコンティグおよび物理的マップは、より信頼性のあるものとなる。

ライブラリー中の個々のクローンは、多数の人工染色体またはクローンを含有するプールを形成するようプールされる。プーリングは、いくつかの個々のクローンを1サンプルへ簡単に組み合わせることであり得る(例えば、10プールへの100クローン、各々10クローンを含有)が、より複雑なプーリング戦略を使用してもよい。プールにわたるクローンの分布は、各クローンが、少なくとも1つまたは2つまたは複数のプール中に存在し、それによってライブラリーを作製するようなものであることが好ましい。プールが、プールあたり10〜10000クローン、好ましくは、100〜1000、より好ましくは、250〜750を含有することが好ましい。プールあたりのクローンの数は、大きく異なり得、この変動は、例えば、研究中のゲノムの大きさと関連していることが観察される。通常、プールまたはサブプールの最大の大きさは、識別子のセットによってプール中のクローンをユニークに同定する能力によって支配される。プール中のゲノム相当物の通常の範囲は、ほぼ0.2〜0.3程度であり、これもやはりゲノムあたりで変わり得る。プールは、当技術分野で周知のプーリング戦略に基づいて作製される。当業者ならば、ゲノムサイズなどといった因子に基づいて最適プーリング戦略を選択できる。得られたプーリング戦略は、状況に応じて変わり、その例として、プレートプーリング、2Dプーリング、3Dプーリング、6DプーリングなどのN次元プーリングまたは複合プーリング(complex pooling)がある。多数のプールの取り扱いを容易にするために、プールを、その性向で、スーパープールに組み合わせてもよい(すなわち、スーパープールは、クローンのプールのプールである)、またはサブプールに分割してもよい。プーリング戦略のおよびそのデコンボリューション(すなわち、1つまたは複数のプールまたはサブプール中のクローンの既知関連指標(すなわち、標識または識別子)の存在の検出によるライブラリー中の個々のクローンの正しい同定)のその他の例は、例えば、US6975943またはKleinらGenome Research、(2000年)、10、798〜807頁中に記載されている。プーリング戦略は、ライブラリー中のどのクローンも、どのクローンについてもプールのユニーク組合せが作成されるようにプール中に
分散されているようなものであることが好ましい。その結果は、(サブ)プールの特定の組合せが、クローンをユニークに同定するということである。

本方法のステップ(d)では、プールを断片化し、各プールのフラグメントのセットが生じる。断片化は、ランダムに、すなわち、剪断または噴霧によって断片のセットを作製できる。好ましい実施形態では、プールは、制限エンドヌクレアーゼで消化されて、制限断片が得られる。各プールは、別個にエンドヌクレアーゼ消化に付されることが好ましい。各プールは、同一エンドヌクレアーゼ(の組合せ)で処理される。原則として、任意の制限エンドヌクレアーゼを使用できる。制限エンドヌクレアーゼは、フリークエントカッター(4または5カッター、例えば、MseIまたはAvaII)またはレアカッター(6以上のカッター、例えば、EcoRI、HindIII、PacI)であり得る。通常、制限エンドヌクレアーゼは、平均で、必要なプロファイリング解明および/またはその後のステップにとって適当である量で存在する、または特定の長さ分布を有する制限断片が得られるように選択される。特定の実施形態では、2種以上の制限エンドヌクレアーゼを使用でき、特定の実施形態では、レアおよびフリークエントカッターの組合せを使用できる。大きなゲノムのためには、例えば、3種以上の制限エンドヌクレアーゼを使用できることが有利である。特定の実施形態では、平滑末端を提供する制限酵素を使用できる。次いで、対応するアダプター(以下参照)を平滑末端にしてもよい。

ステップ(e)では、アダプターがライゲーションされた断片を提供するために断片の一方または両方の末端に、アダプターがライゲーションされる。通常、アダプターは、本明細書において別の場所で定義される合成オリゴヌクレオチドである。本発明において使用されるアダプターは、本質的に、本明細書において別の場所で定義される識別子セクションを含むことが好ましい。特定の実施形態では、アダプターは、プール特異的識別子を含む、すなわち、各プールについて、断片が起源とするプールを明確に示すユニーク識別子を含有するアダプターが使用される。特定の実施形態では、アダプターは、プール特異的識別子を含有するプライマーと組み合わせて使用される縮重識別子セクションを含む。アダプターは、後の増幅時にそこで開始され得るプライマー結合部位をさらに含み得る。これらのプライマー結合部位はまた、後の段階でライゲーションしてもよい。識別子セクション(縮重または縮重ではない)は、プライマー結合部位と相補的であるプライマーを使用するプライマー結合部位からの増幅が、識別子を少なくとも増幅するよう、断片とプライマー結合部位の間に配置されることが好ましい。

特定の実施形態では、特にアダプターが、プール特異的識別子を含む場合には、アダプターがライゲーションされた断片を大きな群に組み合わせてもよい。この大きな群に組み合わせることは、プールから得られたアダプターがライゲーションされた制限の各セットのパラレル増幅の数を低減する助けとなり得る。

アダプターがライゲーションされた断片は、少なくとも1つのプライマーが、アダプター中のプール特異的または縮重識別子の位置でプール特異的識別子を増幅する、プライマーのセットを使用して増幅できる。プライマーは、識別子(の一部)を含み得るが、プライマーはまた、識別子の外側、すなわち、アダプター中の下流に位置するアダプターのセクションと相補的であり得る。増幅はまた、識別子も増幅する(図4も参照)。一実施形態では、プライマーは、アダプターと相補的である部分から5’に位置する位置に識別子を含み得、その結果、増幅によって、識別子が得られるアンプリコン中に導入される。

この実施形態によってまた、上記で概説されるように増幅に先立ってアダプターがライゲーションされた断片のグループ化が可能となる。代替実施形態では、アダプターが縮重識別子セクションを含んでいた、アダプターがライゲーションされた断片の各プールが、少なくとも1つのプライマーが、識別子として役立つプール特異的セクションを含み、それによって、プールをユニークに同定する、プライマーのセットを使用して別個に増幅される。別の実施形態では、アダプターの少なくとも一部と相補的であるプライマーは、例えば、アダプターと相補的である部分の5’末端に識別子配列を含有することによって、増幅されたアダプターがライゲーションされた断片中に識別子を提供する。このプライマーを用いる増幅によって、識別子がアンプリコンに加えられる。

どちらにしても、結果は、増幅されたアダプターがライゲーションされた断片のセットであり、プール特異的識別子のアンプリコンの存在によってそれらが起源とするプールと関連しているアンプリコンとしても表される。特定の実施形態では、選択的増幅によって、例えば、本質的に、本明細書において別の場所に記載されるように、その3’末端に選択的ヌクレオチドを保持するプライマーを使用することによってアンプリコンのサブセットを作製してもよい。

アンプリコンは、特定の実施形態では、組み合わされたアンプリコンのセットに、または、いわゆる配列ライブラリーに組み合わせてもよい。

本方法のステップ(f)では、断片は(または、増幅された場合には、アンプリコンは)、配列決定、好ましくは、本明細書において以下に記載されるハイスループット配列決定に付される。配列決定の際に、アダプターがライゲーションされた断片のヌクレオチド配列の少なくとも一部が決定される。少なくともアダプターの一部の配列および断片配列の一部が決定されることが好ましい。配列決定された部分によって、配列をBACクローンと相関させることが可能となることが好ましい。好ましくは、プール特異的識別子および断片の一部(すなわち、サンプルゲノムに由来する)の配列が決定される。断片の少なくとも10ヌクレオチドの配列が決定されることが好ましい。特定の実施形態では、断片の少なくとも11、12、13、14または15ヌクレオチドが決定される。決定されるヌクレオチドの数は、やはり、わずかに、ゲノム依存性、ならびに配列決定プラットフォーム依存性となる。例えば、植物では、より多くの繰り返し配列が存在し、したがって、匹敵する品質のコンティグについて、より長い配列(25〜75ヌクレオチド)が決定されるはずである。例えば、シロイヌナズナ(Arabidopsis)の既知ゲノム配列でのコンピュータによる計算によって、配列決定ステップに6bpの制限部位を含む場合には、配列の大部分がゲノム中でユニークであることを確実にするために、断片あたり約20bpが決定される必要があるということが示されている。全断片の配列を決定することが可能であるが、これは、BACクローンのコンティグを構築するために絶対必要ではない。

配列決定ステップでは、すべての断片の最大カバー率および高い正確度を提供するために、配列ライブラリーを少なくとも5の平均重複レベル(別名、オーバーサンプリング率)を用いて配列決定してもよい。このことは、平均して、1つの特定のアダプターがライゲーションされた断片の増幅から得られた、少なくとも5アンプリコンの配列が決定されることを意味する。言い換えれば:各断片は、(統計的に)少なくとも5回配列決定される。重複性の増大は、それが、各プール中にサンプリングされる断片の分画およびこれらの配列の正確度を改善するので好ましく、したがって、重複レベルは、少なくとも7であることが好ましく、少なくとも10がより好ましい。平均配列決定重複レベルの増大は、「サンプリング変動」、すなわち、大きな「集団」から得たサンプリングサブセットにおけるランダム統計変動として知られる現象を補うために使用される。さらに、より高い平均配列決定重複レベルは、断片間の長さの変動および配列組成の相違によって引き起こされるその増幅速度の相違に起因する増幅された断片の量のあり得る相違を軽減する。

以下のステップ(g)では、(部分的に)配列決定されたアダプターがライゲーションされた断片またはアンプリコンを、通常、コンピュータ化された方法によってコンピュータによって対応するクローンと関連付ける、またはそれに割り当てる。断片に由来する部分中のヌクレオチドの同一のセクションを含むアダプターがライゲーションされた断片またはアンプリコンが選択される。その後、アダプターがライゲーションされた断片またはアンプリコン中に存在する種々のプール特異的識別子が同定される。種々のプール特異的識別子、したがって、断片の配列の組合せが、特定のクローンにユニークに割り当てられ得る(「デコンボリューション」として知られる工程)。例えば、3Dプーリング戦略(X、Y、Z)の場合には、ライブラリー中の各プールは、3プール特異的識別子の組合せによってユニークに対応される。各クローンは、ライブラリー中に2回以上現れ、そのため、ライブラリー中のクローンの各出現について、3プール特異的識別子の組合せを、同一断片由来セクションと組み合わせて作製できる。言い換えれば:クローンに起因する断片由来セクションに、3つの異なる識別子を用いてタグを付ける。ユニーク断片由来セクションは、3つの識別子と組み合わせて観察すると、単一のBACクローンに割り当てることができる。これを、断片由来部分中のヌクレオチドのその他のユニークセクションを含有する、アダプターがライゲーションされた断片またはアンプリコンの各々に反復できる。このデコンボリューションのプロセスは、プールあたりのゲノム相当物を比較的低く(<0.3、好ましくは、0.2)維持し、それによって、異なるクローンに由来する同一プール中に同一断片が2回存在する機会を低減することによって、より容易に行うことができる。

サンプルDNAはBACライブラリーに変換される。BACライブラリーは、プールのセット(M)にプールできる(例えば、3プール、各々、約0.3GEを含有する)。各プールを(X+Y+Z)サブプールに分割する(通常、大量のマイクロタイタープレートまたは行および/または列プール)。

今や、ライブラリー中の特定のクローンに関連付けられている、配列決定されたアダプターがライゲーションされた断片またはアンプリコンを、断片由来セクションの配列マッチングに基づいてコンティグを作り上げることに使用できる。次いで、各クローンのコンティグをアラインして、物理的マップを作製できる。一実施形態では、同一クローン由来の断片を順序付けて、クローンからコンティグを作り上げることができる。2つ以上のクローンにおける断片配列の出現に基づいて(WGPタグ)、本発明のステップ(h)において、クローンを互いに関連付け、それによって、クローンコンティグ、したがって、サンプルゲノムの物理的マップを形成できる。

本発明において使用されるハイスループット配列決定は、特に、生物学および化学の分野と関連する科学実験の方法である。最新のロボット学とその他の特殊化された実験室機器設備を組み合わせることによって、研究者が多量のサンプルを同時に効率的にスクリーニングすることが可能となる。

配列決定が、ハイスループット配列決定法、例えば、参照により本明細書に組み込まれる、WO03/004690、WO03/054142、WO2004/069849、WO2004/070005、WO2004/070007およびWO2005/003375に、Seoら(2004年) Proc. Natl. Acad. Sci. USA 101 :5488〜93頁によって開示されるものおよびHelicos、lllumina)、US Genomicsなどの技術を使用して実施されることが好ましい。

ロシュ・アプライド・サイエンス(Roche Applied Science)
特定の実施形態では、配列決定が、参照により本明細書に組み込まれる、WO03/004690、WO03/054142、WO2004/069849、WO2004/070005、WO2004/070007およびWO2005/003375に開示される装置および/または方法を使用して実施されることが好ましい。目下のところ、記載される技術によって、単回のGS FLXチタン実施において、400,000の配列リードの配列決定が可能であり、競合技術よりも100倍速く、安価である。配列決定技術は、本質的に5つのステップ:1)DNAを断片化し、特異的アダプターをライゲーションして、一本鎖DNA(ssDNA)のライブラリーを作製するステップ;2)ssDNAをビーズにアニーリングし、このビーズを油中水マイクロリアクター中で乳化し、エマルジョンPCRを実施して、ビーズ上の個々のssDNA分子を増幅するするステップ;3)その表面に増幅されたssDNA分子を含有するビーズを選択/濃縮するステップ4)PicoTiter(商標)プレートにおいてDNA保持ビーズを沈殿させるステップ;および5)ピロホスフェート光シグナルを生成することによって、PicoTiter(商標)プレートの百万を超えるウェルで同時に配列決定するステップを含む。この方法は、以下で、より詳細に説明する。

好ましい実施形態では、配列決定は、
a.適合した断片をビーズとアニーリングし、各ビーズが単一の適合した断片とアニーリングされるステップと;
b.油中水マイクロリアクター中で、ビーズ上にアニーリングされた断片を乳化および増幅し、各油中水マイクロリアクターが、単一のビーズを含むステップと;
c.ウェルにビーズをロードし、各ウェルが、単一ビーズを含み、ピロホスフェートシグナルを生成するステップと
を含む。

第1のステップ(a)では、配列決定アダプターを、組合せライブラリー内の断片にライゲーションする。前記配列決定アダプターは、少なくともビーズと結合している相補的オリゴヌクレオチドとのアニーリングのための領域と、配列決定プライマー領域と、PCRプライマー領域とを含む。したがって、適合した断片が得られる。

第1のステップでは、適合した断片を、ビーズにアニーリングし、各ビーズは、単一の適合した断片とアニーリングする。適合した断片のプールに、ビーズを、ビーズの大部分について、ビーズあたり1つの単一の適合した断片のアニーリングを確実にするために過剰に加える(ポアソン分布)。本発明では、クローンから得られた制限断片にライゲーションされているアダプターは、ビーズとアニーリングできるセクションを含み得る。

次のステップでは、ビーズを、各油中水マイクロリアクターが単一のビーズを含む油中水マイクロリアクター中で乳化する。PCR試薬は、油中水マイクロリアクター中に存在し、PCR反応がマイクロリアクター内で起こるのを可能にする。その後、マイクロリアクターを破壊し、DNAを含むビーズ(DNA陽性ビーズ)を濃縮、すなわち、増幅された断片を含有しないビーズから分離する。

以下のステップでは、濃縮されたビーズをウェル中にロードし、各ウェルは、単一のビーズを含む。ウェルは、多数の断片の同時配列決定を可能にする、PicoTiter(商標)プレートの一部であることが好ましい。

酵素保持ビーズを添加した後、パイロシークエンシングを使用して断片の配列を決定する。連続するステップでは、PicoTiter(商標)プレートおよびビーズならびにその中の酵素ビーズを、従来の配列決定試薬の存在下で種々のデオキシリボヌクレオチドに付し、デオキシリボヌクレオチドの組み込み時に、光シグナルが生じ、これが記録される。正しいヌクレオチドの組み込みによって、パイロシークエンシングシグナルが生じ、これが検出され得る。

パイロシークエンシング自体は、当技術分野で公知であり、とりわけ、www.biotagebio.com; www.pyrosequencing.com / section technologyに記載されている。この技術は、参照により本明細書に組み込まれる、WO03/004690、WO03/054142、WO2004/069849、WO2004/070005、WO2004/070007およびWO2005/003375(すべて454 Life Sciences、現在は、Roche Diagnosticsの名で)およびMarguliesら、nature 2005年、437、376〜380頁においてさらに適用されている。

本発明では、ビーズは、重合によって伸長され得るプライマー配列またはその一部を備え、ビーズが結合しているアンプリコンが得られることが好ましい。その他の実施形態では、増幅において使用されるプライマーは、例えば、その5’末端に、アンプリコンのビーズとの結合を可能にし、その後のエマルジョン重合と、それに続く配列決定を可能にする配列を備えている。あるいは、アンプリコンを、配列決定アダプターとライゲーションし、その後、ビーズまたは表面とライゲーションしてもよい。配列決定されたアンプリコンは、識別子の固有性を示し、したがって、識別子の組合せは、クローンの固有性を示す。

Illumina technologies
ハイスループット配列決定のための方法の1つは、Illumina Technologies(www.illumina.com)から入手可能であり、とりわけ、WO0006770、WO0027521、WO0058507、WO0123610、WO0157248、WO0157249、WO02061127、WO03016565、WO03048387、WO2004018497、WO2004018493、WO2004050915、WO2004076692、WO2005021786、WO2005047301、WO2005065814、WO2005068656、WO2005068089、WO2005078130に記載されている。本明細書において別の場所に記載されるような、人工染色体プールのアダプターがライゲーションされた制限断片のこの特定の場合には、本質的に、本方法は、DNAのアダプターがライゲーションされた断片を用いて開始する。アダプターがライゲーションされたDNAを、通常、フローセル中で、固体表面と結合しているプライマーの高密度の菌叢と無作為に結合させる。アダプターがライゲーションされた断片のもう一方の末端は、表面上の相補的プライマーとハイブリダイズする。プライマーを、ヌクレオチドおよびポリメラーゼの存在下、いわゆる、固相架橋増幅において伸長して、二本鎖断片を提供する。この固相架橋増幅は、選択的増幅であり得る。変性および固相架橋増幅の反復の結果、表面全体に分布する増幅された断片の高密度のクラスターが得られる。配列決定は、フローセルへの、4種の異なって標識された可逆性ターミネーターヌクレオチド、プライマーおよびポリメラーゼの添加によって開始する。第1ラウンドのプライマー伸長後、標識を検出し、最初に組み込まれた塩基の固有性を記録し、組み込まれた塩基からブロックされた3’末端およびフルオロフォアを除去する。次いで、第2の塩基の固有性を同様の方法で決定し、そのように、配列決定を続ける。

本発明では、アダプターがライゲーションされた断片またはアンプリコンが、プライマー結合配列またはプライマー配列によって表面と結合している。識別子配列および断片(の一部)を含む配列を、概説されるように決定する。現在利用可能な技術によって、最大125塩基の配列決定リード長が可能である。全ゲノムプロファイリングの目的で、36塩基までの配列リード長で十分であり得るが、これは、ゲノムサイズおよび配列組成に応じて変わる(下記参照)。アダプターおよび表面に結合しているプライマーの経済的な設計によって、配列決定ステップは、サンプル識別子を経て、制限エンドヌクレアーゼの認識配列の残部、任意のさらなる選択的塩基および制限断片の内部配列を読み取る。例えば、36塩基配列リードの場合には、レアカッターEcoRI(GAATTC)からの残部が6塩基である場合に6塩基サンプル識別子が使用され、2個の選択的塩基が使用される場合には、制限断片の内部配列の長さは、36-14=22塩基となり、これを使用して、サンプル中の制限断片をユニークに同定する。制限酵素部位の配列および(任意選択の)選択的塩基も、ゲノム中に存在するが、これらの配列は、すべての制限断片について共通しているので、それらは配列リードを、ライブラリー中のユニーククローンに割り当てる能力に寄与しないということは留意されたい。

本方法のステップ(i)では、配列リードを、サンプルDNAから作製する。これは、クローンバンクの作製に使用した同一サンプルであり得るが、同一種由来の別のサンプルでもあり得る。配列リードを作製するためにサンプルの異なる起源を使用することによって、このように得られるゲノム配列の品質を犠牲にするか、得られたゲノム配列が低い品質のものであるか(コンティグを作製することはより困難であり得る)、より多くのギャップを含むものの、すでに存在しているクローンバンクを使用することが可能となる。配列リードから、ステップ(j)におけるようにそれらをアラインすることおよびそれらをクローンコンティグに固定し、スーパースキャフォールドまたはゲノム配列を作り上げることによって、スキャフォールドまたはコンティグを作製してもよい。

本発明の一実施形態では、BAC(またはその他の人工染色体)またはBACのプールからランダムに作製された断片を使用することおよび本明細書に記載される配列決定技術を使用してその配列(の一部)を決定することも可能である。次いで、コンティグのアセンブリーの品質は、BAC制限断片末端だけが連結されるのではなく、BAC(の一部)のコンティグが作製され得るのでさらにより改善される。配列リードを、サンプルDNAから得られたコンティグと組み合わせ、これが品質をさらに高めることが好ましい。

したがって、好ましい実施形態では、ドラフトゲノム配列がBAC由来コンティグの組合せから、すなわち、BAC末端配列および/またはBAC由来の制限断片配列および/または(制限酵素)断片化によって得られている可能性があるサンプルDNA由来の配列リード(から作製されたコンティグ)を含む無作為に配列決定されたBACクローンから作製される。

クローン-コンティグおよび/または物理的マップの作製と同時に、またはそれに続いて、「ショットガン配列決定」または「全ゲノムショットガン配列決定」(WGS)としても示される、より直接的なアプローチを使用して配列リードをサンプルから作製できる。このステップでは、サンプルDNAから、および/またはサンプルDNAの1つまたは複数の人工染色体クローンから配列データを作成する。サンプルは、クローンバンクへと進行中であるサンプルであり得るが、同一種または亜種由来の、したがって、クローンバンクサンプルと比較して、本質的に少量の多形しか含まない別のサンプルであってもよい。配列データは、通常、サンプルDNAの断片化によって、例えば、剪断、噴霧または制限酵素消化によって作成される。断片は、アダプターがライゲーションされている場合も、いない場合もある。アダプターは、いわゆる、識別子を使用して、断片またはサンプルの起源を同定するためにタグを含み得る。アダプターがライゲーションされた断片は、例えば、本質的に、本明細書において別の場所で記載されるように、3’末端で、1個または複数の選択的ヌクレオチドで伸長され得るアダプター相補性プライマーを使用するAFLPベースの技術を使用して、選択的に、または非選択的に増幅される。形はどうあれ、好ましくは、本明細書において別の場所で記載されるパイロシークエンシングベースの配列決定技術などのハイスループット配列決定技術を使用して配列リードが作製される。

次いで、配列リードをコンティグにアセンブルし、かつ/またはBACライブラリーから作製したコンティグに固定する。

好ましい実施形態では、2以上の配列決定技術を使用して、サンプルDNAから配列リードを作製する。図面におよび本文に概説されるように、種々の技術によって、好ましくは、延長されたコンティグを固定および作り上げるのに役立つ種々の長さのリードが提供される。

「直接」配列リードの使用は、BACコンティグを完了するだけでなく、BACによって作製されたコンティグによって残されたギャップを埋めることもできる。これは、実際には、本発明の主要な利点の1つである。従前の戦略では、さらなる配列データ(新規に作製したものであろうと、既知供給源からとったものであろうと)の使用が、種々のクローンコンティグを一緒に連結して、ゲノムの大きな部分をカバーするコンティグ(スキャフォールド)を作製するという関連ではなく、配列データをコンティグに固定して、BACコンティグの配列データを埋める可能性を考慮するだけで検討される。本発明はまた、ここで、図に示されるように、特定の実施形態では、BAC-コンティグを伸長する可能性を提供し、一方のBACと他方の配列リードによって作製されたコンティグの間に残されたギャップを埋め、ひいては、得られるドラフトゲノムの品質の改善につながる。

所望により、配列リードから得たデータも、Sanger-ジデオキシ配列決定技術によって得られた配列データによって補完され得るが、これは、高品質コンティグをアセンブルすることにおいてさらに役立ち得るからである。また、いわゆる、「次の次の世代の配列決定技術」、例えば、配列結果を最大多重のkbの長さを送達し得るPacific Biosciencesから得られる技術などによって、データは補完され得る。

配列リードを得ることでは、サンプルDNAは、好ましい実施形態では、配列決定複合体ゲノムのための、より再現性のある複雑性低減技術、例えば、複雑なゲノムを配列決定するためのAFLP(EP534858)および/またはAFLPベースの戦略など、例えば、AFLP技術において2種の異なる制限酵素の組合せが使用されて配列データのコンティグを作製するWO2006/137734に開示されるものに付され得る。

したがって、本発明は、二元配置経路に基づいてドラフトゲノム配列を決定する。第1の経路は、全ゲノムプロファイリング(WGP)を使用して人工染色体(BAC)クローンのコンティグを作製することである。好ましくは、BACプールの制限断片のランダムであるが、再現性のあるサブセットを使用することによって、比較的少量のカバー率データでコンティグを作製でき、「薄い」または「低密度」として記載され得るBACクローンのコンティグにつながる。BACのコンティグが、相対的に経済的な量の配列決定力および計算能力でアセンブルされるのを可能にする配列決定された制限断片間に相対的に大きな空間があるという点で薄い。結果として、WGPのプロセスにおいて配列決定される全ゲノムの画分は、比較的低い(WGPの目的が、クローンコンティグ作製(contiging)および非全ゲノム配列決定であるので)。

第2の経路は、Roche Applied Science(最大1kbのリードを生成する)および36〜125ntのリードを生成するIllumina(GS FLX)から、その他の製造供給元(例えば、Helicos、Intelligent Biosystems、Danaher Motion- Dover、Pacific Biosciencesなど)から知られるものなどのハイスループット配列機械および方法を使用して、好ましくは、同一(全DNA)サンプルの配列データを作製/収集することである。配列データは、BACコンティグに直接的に固定され得るが、まず、配列決定データからコンティグを作製するために使用され得る。その後のステップでは、これらの配列ベースのコンティグを、第1の経路のBACコンティグに固定できる。さらに、配列データおよび配列リードから得たコンティグを使用して、既存のBACコンティグを互いに連結できる、すなわち、スキャフォールド間およびスキャフォールド中のギャップを閉じることができる。技術を組み合わせることの利点は、添付の図面に示されるように、配列データが、互いに補完し得る異なる方法を使用して同一サンプルから得られるということである。WGPを、2つ以上の異なる(ハイスループット)配列決定技術と組み合わせることは特に有利である。本明細書に開示される戦略の特定の利点の1つは、WO03/027311などの強引なアプローチに頼ることが極めて多い先行技術戦略とは対照的に、比較的小さいデータベースが使用され、次いで、組み合わされるということである。

(全DNA)サンプルから得られたDNAの配列決定は、例えば、必要に応じて、その起源を示すためにタグがつけられ得る(バーコード化され得る)制限断片をもたらす制限エンドヌクレアーゼ消化DNAを使用することによって、全DNAの複雑性が低減された表現に基づいたものであり得る。次いで、これらの制限断片を、好ましくは、本明細書に置いて別の場所に記載されるものなどのハイスループット配列決定技術を使用する配列決定に付すことができる。その他の形態の複雑性低減、例えば、それだけには限らないが、ランダム断片化(噴霧、音波処理、剪断またはその他の的手段による)と、それに続く、特定のサイズ範囲の断片のサイズ選択、Cot選択(ユニーク対反復配列のディファレンシャルハイブリダイゼーション速度論に基づいた)または複雑性低減のためのその他の方法も考慮できる。原則として、通常、2〜3kbの長さの、制限断片、例えば、全DNAのEcoRIなどのレアカッターでの制限によって得られたもの(ATリッチゲノム中の)の使用および制限断片の末端のヌクレオチド配列(使用される配列決定技術に応じて、通常、末端あたり30〜400bp)を決定することは、コンティグを作製し、これらの断片をWGPコンティグ(物理的マップ)に固定するのに十分であり得る。同様に、その他の制限エンドヌクレアーゼ(フリークエントカッター、例えば、MseIなど)を使用できることおよび制限エンドヌクレアーゼの組合せ(例えば、EcoRI/MseI)を使用できることは明確となろう。全DNAから得られた配列データ(比較的短い断片)からコンティグを作製し、続いて、配列決定リードをBACコンティグに直ちに固定する代わりに、これらの(比較的長い)コンティグを、利用可能なBACコンティグに固定することが好ましい。やはり、利点は、「データ解析」におけるより良い効率、したがって、計算能力の点であまり厳しくない必要条件を可能にする比較的小さいサブセットのデータの使用にある。このようなアプローチはまた、計算またはその一部または要素が、苛酷な使用に耐える(heave duty)サーバーおよび大型汎用コンピュータの代わりに、デスクトップまたはラップトップコンピュータで実施されるのを可能にし得ることが有利である。この2経路アプローチの別の利点は、(第1の供給源としてのBACライブラ
リーの使用に対して)配列情報の第2の供給源としての全DNAの使用にある。BACライブラリーは、常に、ゲノムの完全なカバー率を欠く。DNAのさらなる供給源として全DNAを使用することによって、研究中のゲノムの全カバー率を達成する、または少なくともに近づくことが可能となり、有利である。

このような制限断片ベースの配列決定の例は、例えば、同様に、高品質ドラフトゲノム配列を作製するための、ハイスループット配列決定と組み合わせた、AFLPの複雑性低減技術としての使用を記載するWO2006/137734に記載されている。そのため、この実施形態では、BACコンティグは、上記で本明細書に概説されるように作製され、WO2006/137734に記載される方法を実行することから得られたコンティグと組み合わされる。

代替実施形態では、全DNAに基づいたDNAの配列決定は、「ランダム配列タグ」に基づいたものであり得る。とりわけ、Illumina製の公知のハイスループットシステムとの組合せでは、作製された配列情報もWGPから得られたBACコンティグに固定できる。この実施形態は、BACは、究極の「ペアエンド」であるという認識に由来する。この技術からの利点は、「ディープシーケンシング(deep sequencing)」(すなわち、より高品質のデータを得るために、いくつかのゲノム相当物(GE)を配列決定すること)は、ゲノムの主な順序付けは、BACコンティグによってすでに提供されている(また、配列データは、BACコンティグ中の間隙を埋めるために主に使用される)ので、高品質ゲノムアセンブリーを得るには、もはや必須ではないという事実にある。したがって、本方法論は、アセンブリー品質に影響を及ぼさずに、少ない配列データの使用を可能にする(「レスディープシーケンシング(less deep sequencing)」、すなわち、1または2、3のGEを配列決定することによって)。これは、「レスディープシーケンシング」が、本質的に、ディープシーケンシングよりも費用効率が高いので、より経済的なプロセスをもたらす。特定の領域の場合には、高品質配列データが必要であり、特定のBACクローンまたはBACコンティグを選択することによって、ディープシーケンシングを選択された領域中で実施できる。

したがって、本発明の一態様は、好ましくは、可変カバー率レベルで、ゲノムの一部の、または選択されたゲノム領域の選択的配列決定のための本明細書に記載される方法の使用に関する。

WO03/027311と比較して、本方法は、サブセットが、制限断片に、またはランダム剪断と組み合わせた制限断片に基づいて作製され、ランダム剪断単独には基づかない点で異なる。さらに、WO03/027311には反して、制限断片の配列決定は、極めて低いカバー率に基づいている。この低いカバー率に基づいて、極めて「薄い」、すなわち、比較的少量のデータしか含まないBACコンティグが作製される。この「薄い」コンティグは、次いで、配列リードから得られたデータで補完される。これは、物理的マップを作製するためのより効率的な方法であり、この規模のプロジェクトのための(制限された)計算能力の使用をより効率的にする。

ドラフトゲノムを作製することの結果は、所望により、デジタル形式で、
-BACライブラリーおよび関連BACコンティグと関連している配列データ;
-全DNAおよび関連コンティグの配列決定と関連している配列データ;
-BACコンティグ、DNAコンティグ、組み合わされたコンティグおよび全ドラフトゲノム配列レベルからヌクレオチドのレベルのドラフトゲノム配列および2つの断片間の重複をディスプレイするためのソフトウェア;
-別個の配列データからコンティグを作製するためのソフトウェア;
-種々のコンティグおよびマップ上に分子マーカーをディスプレイするためのアプリケーション;
-データ品質および配列中のギャップを可視化するためのソフトウェア;
を含む別個の生成物として提供され得る。

生成物は、フラッシュメモリーまたはハードディスク、CD-ROMまたはDVDなどといったリードオンリーデータ担体を備えたラップトップで提供され得る。あるいは、生成物は、生成物が、好ましくは安全なサーバーで、デジタル形式で提供されるウェブベースのサーバーの形態で提供され得る。

したがって、例示的生成物は、以下の構成要素のうち1つまたは複数を含み得る:
a)アセンブルされた物理的マップ(全ゲノムプロファイリング;WGP)。
マップは、バンドの移動性の代わりに、配列とともに使用に適合しているFingerPrinted Contigs(FPC)ソフトウェアなどのコンティグ構築ソフトウェアを使用してアセンブルされ得る。コンティグは、識別子配列に基づいたデコンボリューションによって個々のクローンに割り当てられているBACクローンなどのプールされたクローンに由来するヌクレオチド配列に基づいて構築され得る。
b)全ゲノム配列決定(WGS)のコンティグ、スーパーコンティグおよび/またはスキャフォールドを含むアセンブリー。
アセンブリーは、次世代配列決定(すなわち、ハイスループットパイロシークエンシング)および/またはSanger配列決定データに基づいて、Newbler(454 Life Sciences/Roche Applied SciencesおよびShort Oligonuleotide Analysis Package (SOAP) de novo (http://soap.genomics.org.cn)などのゲノムアセンブリーソフトウェアパッケージを使用して作製できる。
c)ドラフトゲノム配列。
ドラフトゲノム配列は、WGP(マップおよび(a)下のデータ)およびWGS((b)下のデータ)の統合に基づき得る。ドラフトゲノム配列は、fastaおよびタブ区切りファイルを含む種々の形式で提供され得る。
d)視覚化ソフトウェア。
WGPおよびWGSアセンブリー、配列および関連クローンならびにそれらの組合せを可視化するためのFPCなどの視覚化ソフトウェア;
e)配列データ。
物理的マップの作製または全ゲノム配列決定において使用された実際の配列データ。これは、データのさらなる改善において、データの検証のために、例えば、さらなるデータを得ることに基づいた改善された物理的マップの作製を可能にするために役立ち得る。
f)保存装置またはデータ担体。
装置および担体は、(a)〜(f)に記載される1つまたは複数のデータおよびソフトウェアを含むハードドライブまたはフラッシュディスクであり得る。
g)1つまたは複数の構成要素(a)〜(f)またはその一部を含む、ラップトップまたはネットブックなどのコンピュータ。

シロイヌナズナエコタイプコロンビア(Arabidopsis thaliana ecotype Columbia)
6144BAC(約5ゲノム相当物)を含有するBACライブラリーを使用した。

1回のIllumina Classicランを、制限酵素(EcoRIおよびMseI)断片化プールで実施し、その結果、EcoRI部位から約65,000の個々のデコンボリューション可能な配列リードが得られた。4599BAC(74.8%)へのリードのアセンブリー(FPC、Soderlund, C.、S. Humphrey、A. DunhumおよびL. French(2000年). Contigs built with fingerprints, markers and FPC V4.7. Genome Research 10:1772〜1787頁. )の結果、コンティグあたり2〜125BACを含む234のコンティグが得られた。配列リードのBLAST分析による公開ゲノム配列に対する確認は、約52,000リードが、100%のヒットを与え、ゲノムの99%をカバーし、125Kbpの最大ギャップを含むことを示した。50.000のユニークヒットがあり、タグ間で平均して2,355bpおよびEcoRI部位の80%が表された。

メロン
メロンは、推定450Mbpのゲノムサイズを有する。

EcoRIおよびHindIIIライブラリーから導いた47,616のBAC、合計して約13ゲノム相当物を分析した。すべてのリードの50%が、BACに対してデコンボリューション可能であり(40,063BAC;85%)、ユニークにタグがつけられた。コンティグ構築に利用可能:36塩基の9,417,2459のIllumina GA IIリード;5回のGA II配列決定ランで得られた。196,256のユニーク配列リードを、40,063のBACクローンに連結させ、平均して33のリードが固定された。これらのリードを、670のコンティグおよび8,213のシングルトンBACにアセンブルした。コンティグあたり平均して15BAC(>1.8Mbp)および>90%の推定ゲノムカバー率。コンティグサイズ分布については図3参照のこと。

メロン:
メロンWGSスキャフォールドを、WGP BACコンティグと統合した。メロンの推定されるゲノムサイズは、450Mbpである。
入力:

以下の配列データが、メロン株の核DNAからGS FLXチタンプラットフォームで得られた:
1)合計16,171,153リードを含む、17回のランダムショットガンラン
2)合計4,844,561リードを含む53-Kbペアエンドラン
3)合計3,448,598リードを含む3.5(-20Kb)長ジャンプペアエンドラン
4)合計789,048リードを含む、1回のEcoRI-ランダムエンドラン。

実施されたランの総数は、26,5であり、作製されたリードの総数は、25,253,360に相当する。これらのリードは、メロン核ゲノム(すなわち、葉緑体およびミトコンドリア配列およびペアエンドライブラリーのリンカー配列を含まない)の合計8,691,334,029塩基(8.69Gbp)に相当する。450Mbpの推定されるゲノムサイズで、これは、メロンゲノムの19.43倍のカバー率に相当する(分解:約12.44×ランダムショットガン;約3.72×3kb PE;約2.65×ロングジャンプ;および約0.61×EcoRI-ランダムエンド)。この方法は、WGSスキャフォールドをWGPコンティグと結び付ける。このプロセス中のステップのように、WGSスキャフォールド重複部分/マッチが単一のWGPコンティグを含むか、または複数のWGPコンティグを含むかが(WGSスキャフォールド中のWGPタグ配列の存在に基づいて)決定される。WGSスキャフォールドを、WGPコンティグと関連付けるための判定基準は、100%マッチする配列を有するWGPタグの数である。行われるすべてのマッチは、それらが少なくとも1、2または2を超えるマッチするWGPタグ配列に基づいているかどうかがわかるよう注釈がつけられる。全WGPコンティグをカバーするWGSスキャフォールドのために、4つの異なる状況が区別され、これらは、これらのWGSおよびWGPコンティグを関連付けるための4つの異なる信頼水準を反映する。77Mbpをカバーする5630のWGSスキャフォールドを838の単一BACコンティグと関連付けた。231Mbpをカバーする470のWGSスキャフォールドを、903の多重BACコンティグと関連付けた。これら2つのデータベースは、入手可能なBACコンティグの総数は、1088であり、これが838+903を下回るので重複する。シングルトンBAC(BACコンティグ中に配置されていない)は、分析に含まれなかった。ランダムBACコンティグは、BACコンティグおよびその関連付けられたWGSスキャフォールド中の、共有されるWGPタグ配列の存在に基づいてスーパースキャフォールドを構築するための「種」ととられる。以下の図5参照。本質的に、少なくとも1つのWGPタグ配列が、それらの間で共有され、矛盾するタグが同定されなかった場合には、WGPコンティグおよびWGSスキャフォールドは関連付けられた。種は、さらなる関連付けがなされ得なくなるまで、または枝分かれ部分が生じる場合に、例えば多重の重複するWGSスキャフォールドが、同一のBACコンティグに関連付けられる場合に成長する(図6)。上記の手順後、メロンゲノム配列の289Mbpを含む329つのスーパースキャフォールドを作製した。

Claims

ゲノム配列を決定する方法であって、
-プールされた人工染色体クローンの断片末端を配列決定することによってサンプルゲノムの物理的マップを提供するステップと;
-サンプルゲノムに由来する配列リードのセットを提供するステップと;
-ゲノム配列を構築するために物理的マップおよび配列リードのコンティグを作製するステップと
を含む方法。
ゲノム配列を決定する方法であって、
(a)サンプルDNAを提供するステップと;
(b)各人工染色体クローンがサンプルDNAの一部を含有する人工染色体(例えば、BAC、YAC)クローンバンクを作製するステップと;
(c)1つまたは複数のプール中で人工染色体クローンを組み合わせ、ここで、各クローンが2つ以上のプール中に存在するステップと;
(d)各プールに断片のセットを提供するステップと;
(e)アダプターを、断片の一端または両端とライゲーションするステップと;
(f)少なくともアダプターの一部および断片の一部の配列を決定するステップと;
(g)断片配列を、対応するクローンに割り当てるステップと;
(h)クローン-コンティグを構築し、それによってサンプルゲノムの物理的マップを作製するステップと;
(i)サンプルDNAから配列リードを作製するステップと;
(j)配列リード、および/または配列リードから得たコンティグもしくはスキャフォールドを、クローンコンティグに対してアラインし、それによって、ゲノム配列/スーパースキャフォールドを構築するステップと
を含む方法。
少なくとも1つのアダプターが、プール特異的識別子または縮重識別子セクションをそれぞれ含有し、識別子を含有するアダプターがライゲーションされた断片を提供する、請求項2に記載の方法。
-少なくとも識別子および断片の一部を増幅するプライマー、または
-アダプター中の縮重セクションと相補的であるセクションを含有し、識別子を増幅される断片中に導入するプライマー、または
-アダプターの少なくとも一部と相補的であり、増幅されたアダプターがライゲーションされた断片中に識別子を提供するプライマー
を使用して、アダプターがライゲーションされた断片が増幅される、請求項2から3に記載の方法。
プールをランダムに断片化することによって、および/またはプールの制限酵素断片化によって、プールの断片が作製される、請求項2から4に記載の方法。
配列リードが、断片化されたサンプルDNAから、および/またはサンプルDNAの1つまたは複数の人工染色体クローンから得られる、請求項2から5に記載の方法。
配列リードが、ランダムに断片化されたサンプルDNAから、および/またはサンプルDNAの1つまたは複数の人工染色体クローンから得られる、請求項2から6に記載の方法。
配列リードが、サンプルDNAの制限酵素断片化によって得られていた制限断片から、および/またはサンプルDNAの1つまたは複数の人工染色体クローンから得られる、請求項2から6に記載の方法。
制限断片が、アダプターがライゲーションされた制限断片である、請求項8に記載の方法。
アダプターがライゲーションされた制限断片が、選択的に、または非選択的に増幅される、請求項9に記載の方法。
配列決定が、ハイスループット配列決定によって実施される、請求項1から10のいずれか一項に記載の方法。
ハイスループット配列決定が固相支持体で実施される、請求項11に記載の方法。
ハイスループット配列決定が、合成時解読に基づく、請求項11または12に記載の方法。
配列決定が、パイロシークエンシングに基づく、請求項11から12に記載の方法。