JP2018504899A

JP2018504899A - 主鎖媒介性メイトペアシーケンシング

Info

Publication number: JP2018504899A
Application number: JP2017534216A
Authority: JP
Inventors: ミハエル・ヨゼフス・テレシア・ファン・アイク
Original assignee: キージーン・エン・フェー
Priority date: 2014-12-24
Filing date: 2015-12-23
Publication date: 2018-02-22
Also published as: EP3237616A1; US20180016631A1; WO2016105199A1

Abstract

(ロングレンジ)メイトペアシーケンシングに好適な方法であって、メイトペアが、お互いに同じヌクレオチド配列上のある一定の距離以内に位置している、方法が開示される。DNA断片を、識別子セクションを含有する主鎖にライゲーションすることによって、消化可能な環状化構築物が提供され、消化後にアダプターがそこへライゲーションされうる。増幅は、識別子セクションと断片の末端部分の組み合わせを含有するアンプリコンをもたらす。その後、両アンプリコン中の対応する識別子セクションを同定することによって、部分断片はお互いにメイティングされて、メイティングされたペアを得る。メイティングされたペアは、ゲノムスカフォールドの構築又はドラフトゲノム配列の生成において使用されうる。

Description

本発明は、(de novo)ゲノム配列の生成において使用されうるメイトペア配列の生成のための方法に関する。本発明は、特に、全ゲノム配列決定に適用されるロングレンジメイトペアシーケンシングの使用に関する。

全ゲノム(再)配列決定は、遺伝的相違を決定し理解するため及び遺伝子機能を解明しより良く理解するためのツールとしての基準ゲノムを創出するための、次世代シーケンシング技術の重要な応用である。多様な次世代シーケンシングプラットフォーム及びゲノムシーケンシングアプローチが発表され、ドラフトゲノム配列及び完成されたゲノム配列を創出するために使用されてきた。現行の全ゲノム配列決定戦略は、アセンブルされた配列コンティグを連結するスカフォールドを創出するために使用される配列リードを生成するためのサンプルDNAのメイトペアライブラリーの使用を含む。この目的のために、メイトペアライブラリーは、大きな断片(1〜15kb)を使用して作製されることが好ましく、それは、長い断片ほど大きなスカフォールド能力を有するからである。メイトペアライブラリー構築のための現行の上限は、10〜15kbの領域にある。

国際公開第WO2010/003316号に開示されたような公知の解決策は、制限部位を含まない改変された細菌人工クローン(BAC)ベクター中にサイズ選択された大きな挿入DNAをライゲーションし、制限酵素によって生成物を消化し、生成物の末端を再環状化し、再ライゲーションされた生成物を増幅し、アンプリコンのペアエンドシーケンシングを行うことに基づく。これらの方法が、(上述した10〜15kbの上限を有する)現行のメイトペアライブラリー調製プロトコルに伴うサイズ限度を、約125kbに増加させる(すなわち、典型的なBACの平均インサートサイズ)ことを目的とする一方、これらの方法は、制限酵素認識配列を除去し、増幅及び配列プライマー結合部位を組み込むために、BACベクターの大規模な改変を必要とする。更に、E.コリ(E.coli)宿主中での増殖及び選択に適合した選択マーカーを含む(改変された)BACベクターを使用することが必要であることと併せて、E.コリ宿主へのDNAインサートを含む改変されたBACベクターの形質転換が必要である。したがって、現行の方法は、これらの方法の範囲、信頼性及び単純性を更に高めるための改善を必要とする。本発明は、これら及び他の向上を提供する。

国際公開第2010/003316号

本発明者らは、メイトペア配列の生成のための方法を見出した。一態様では、本発明は、対となる2つの配列が決定される、ロングレンジ(又は長距離)メイトペアシーケンシングのための方法に関する。2つの配列は、お互いにある一定の距離以内に位置しており、同じヌクレオチド配列/DNA断片に由来する。DNA断片を用意すること及びそれを少なくとも1つの識別子セクション及び少なくとも1つのプライマー結合部位を含有する主鎖(backbone)にライゲーションすることによって、環状化断片が提供される。環状化断片は、制限酵素によって消化されて、主鎖及び2つの部分断片を含有する断片化構築物が得られる。プライマー結合部位を含有するアダプターによるアダプターライゲーションと増幅の組み合わせによって、アンプリコンが得られる。各断片化構築物について、アンプリコンは、識別子セクションと2つの部分断片の一方又は両方の組み合わせを含む。典型的に、各断片化構築物について2つのアンプリコンが得られ、ここで、典型的に、一方のアンプリコンが少なくとも1つの識別子セクション及び部分断片のうちの1つを含み、他方のアンプリコンは、少なくとも1つの識別子セクション及び他の部分断片を含む。その後、両アンプリコン中の対応する識別子セクションを同定することによって、部分断片はお互いに対となって、メイティングされた(mated)ペアが得られる。メイティングされたペアは、ゲノムスカフォールドの構築又はドラフトゲノム配列の生成において使用されうる。

断片(F)が、独立して付着(St)又は平滑(Bl)末端を有しうる2つの末端制限断片(F1、F2)を含有する、本発明の方法の概略図である。2つのタイプ(B1、B2)であってよい主鎖が提供される。一本鎖又は二本鎖であることのできる主鎖は、(二本鎖である場合には)付着(St)及び/又は平滑(Bl)末端を有しうる。B1は、2つのプライマー結合部位(PBS1、PBS2)に識別子セクション(ID)が組み込まれている構造を有し、すなわち、識別子セクション(ID)が2つのプライマー結合部位(PBS1、PBS2)の間に位置し、2つのプライマー結合部位に隣接していてもよい。B2は、プライマー結合部位(PBS)が2つの識別子セクション(ID1、ID2)の間に位置する構造を有する。識別子セクション(ID、ID1、ID2)は、構造Nxを含み、Nは、A、C、T及びGから成る群から選択される3つ又は4つのヌクレオチドである識別子のヌクレオチド(又はバーコード)を示し、xは、識別子中のヌクレオチドの数を示す整数である。ヌクレオチドの数、xは、一実施形態では、5から30までの間、したがって、5<x<30、好ましくは10<x<20である。よって、識別子Nxは、4つのヌクレオチドA、C、T又はGから作られ、好ましくは、5から30個までの間のヌクレオチドの長さを有する。よって、識別子の別の表記法は、Nx=[A、C、T、G]_5-30である。或いは、識別子は、4つのヌクレオチドのうちの3つだけを使用する。よって、10〜20ヌクレオチドを有し、A、T又はGのみから成る識別子の別の表記法は、Nx=[A、T、G]_10-20である。2つのプライマー結合部位(PBS1、PBS2)は、同じでもよく、同じでなくてもよい。断片(F)及び主鎖(B1又はB2)は、ライゲーションされて、構造F1-PBS1-ID-PBS2-F2又はF1-ID1-PBS-ID2-F2を有する環状化構築物(C)を提供し、ここで、下線は、図に示される環状化構造を記号で表す。環状化断片は、消化されて断片化構築物F1-PBS1-ID-PBS2-F2(B1F)又はF1-ID1-PBS-ID2-F2(B2F)を生じさせる。B1F又はB2Fは、独立していずれかの側で平滑及び/又は付着性(staggered)であるが、両末端が同じ構造(平滑又は付着性)を有することが好ましい(B1FSt、B2FSt、B1FBl、B2FBl)。これらの断片化構築物に、アダプターがライゲーションされる(一本鎖、平滑二本鎖、付着性二本鎖、平滑Y形、付着性Y形)。可能性のある組み合わせがTable 1(表1)に列挙される。断片(F)が、独立して付着(St)又は平滑(Bl)末端を有しうる2つの末端制限断片(F1、F2)を含有する、本発明の方法の概略図である。2つのタイプ(B1、B2)であってよい主鎖が提供される。一本鎖又は二本鎖であることのできる主鎖は、(二本鎖である場合には)付着(St)及び/又は平滑(Bl)末端を有しうる。B1は、2つのプライマー結合部位(PBS1、PBS2)に識別子セクション(ID)が組み込まれている構造を有し、すなわち、識別子セクション(ID)が2つのプライマー結合部位(PBS1、PBS2)の間に位置し、2つのプライマー結合部位に隣接していてもよい。B2は、プライマー結合部位(PBS)が2つの識別子セクション(ID1、ID2)の間に位置する構造を有する。識別子セクション(ID、ID1、ID2)は、構造Nxを含み、Nは、A、C、T及びGから成る群から選択される3つ又は4つのヌクレオチドである識別子のヌクレオチド(又はバーコード)を示し、xは、識別子中のヌクレオチドの数を示す整数である。ヌクレオチドの数、xは、一実施形態では、5から30までの間、したがって、5<x<30、好ましくは10<x<20である。よって、識別子Nxは、4つのヌクレオチドA、C、T又はGから作られ、好ましくは、5から30個までの間のヌクレオチドの長さを有する。よって、識別子の別の表記法は、Nx=[A、C、T、G]_5-30である。或いは、識別子は、4つのヌクレオチドのうちの3つだけを使用する。よって、10〜20ヌクレオチドを有し、A、T又はGのみから成る識別子の別の表記法は、Nx=[A、T、G]_10-20である。2つのプライマー結合部位(PBS1、PBS2)は、同じでもよく、同じでなくてもよい。断片(F)及び主鎖(B1又はB2)は、ライゲーションされて、構造F1-PBS1-ID-PBS2-F2又はF1-ID1-PBS-ID2-F2を有する環状化構築物(C)を提供し、ここで、下線は、図に示される環状化構造を記号で表す。環状化断片は、消化されて断片化構築物F1-PBS1-ID-PBS2-F2(B1F)又はF1-ID1-PBS-ID2-F2(B2F)を生じさせる。B1F又はB2Fは、独立していずれかの側で平滑及び/又は付着性(staggered)であるが、両末端が同じ構造(平滑又は付着性)を有することが好ましい(B1FSt、B2FSt、B1FBl、B2FBl)。これらの断片化構築物に、アダプターがライゲーションされる(一本鎖、平滑二本鎖、付着性二本鎖、平滑Y形、付着性Y形)。可能性のある組み合わせがTable 1(表1)に列挙される。断片化構築物とアダプターの好ましい組み合わせの概略図である。好ましい組み合わせは、DStB1FSDSt、DStB2FSDSt、YStB1FSYSt、YStB2FSYSt、すなわち、付着性二本鎖又はY形アダプターを使用するものである。断片を主鎖中にライゲーションするときの中間アダプター(IA)の使用の概略図である。中間アダプターは、断片及び主鎖の末端の構造次第で、いずれかの側に平滑又は付着末端を有する。 2つの部分断片(F1、F2)を連結(メイティング)する識別子セクション(ID、ID1、ID2)に基づく、メイティングされたペアの生成の概略図である。B1タイプの主鎖が使用されるとき、アンプリコンA1、A2は、F1とF2をメイティングする(配列リードにおいて同定される)同じ識別子セクション(ID)を含有する。B2タイプの主鎖が使用されるとき、アンプリコン1(A1)はID1を含有し、アンプリコン2はID2を含有する。配列リードからのID1及びID2の回収は、その後に連結されてメイティングされたペア(F1-F2)を形成する配列F1及びF2をそれぞれ提供する。

発明の詳細な説明
本発明は、メイトペアシーケンシングのための方法であって、
a. DNA断片(F)を用意する工程;
b. 1つの識別子セクション(ID)及び少なくとも1つの(第1の)プライマー結合部位(PBS)を含む主鎖(B)を用意する工程;
c. 断片(F)の両末端を主鎖(B)とライゲーションし、それによって、主鎖を環状化して、環状化構築物(C)を得る工程;
d. 少なくとも1つの酵素(E)によって環状化構築物(C)を消化して、主鎖(B)並びにDNA断片の第1(F1)及び第2(F2)の部分断片を含む断片化構築物を得る工程;
e. 少なくとも1つの(第2の)プライマー結合部位(PBS)を含有するアダプター(Ad)を、断片化構築物にライゲーションして、アダプターにライゲーションされた断片化構築物を得る工程;
f. 1つ又は複数のプライマー(P)を使用して、アダプターにライゲーションされた断片化構築物を増幅し、それによって、識別子セクション(ID)及び第1の部分断片(F1)を含む第1のアンプリコン(A1)並びに識別子セクション(ID)及び第2の部分断片(F2)を含む第2のアンプリコン(A2)を提供する工程;
g. アンプリコン(A1、A2)を配列決定して、各アンプリコンの主鎖の識別子セクション(ID)及び部分断片(F1、F2)の少なくとも一部のヌクレオチド配列を決定する工程;
h. アンプリコン(A1、A2)中の識別子セクション(ID)の存在に基づいて、第1(F1)及び第2(F2)の部分断片をメイティングし、それによって、DNA断片のメイティングされた第1(F1)及び第2(F2)の断片を同定する工程
を含む、方法に関する。

本発明の方法では、断片(核酸配列)及び主鎖が用意される。主鎖は、プライマー結合配列及び識別子セクションを含有する。断片及び主鎖は、お互いにライゲーションされ、それによって環状化構築物を生成する。環状化構築物においては、断片の2つの末端及び主鎖の2つの末端がお互いに接続される。ここで、環状化構築物は制限酵素によって部分(断片化構築物)に消化される。環状化構築物の部分のうちの1つは、その各側に断片の一部(部分断片、F1、F2)がある主鎖を含有する。これらの部分断片に、各々がプライマー結合配列を含有するアダプターがライゲーションされる。アダプターにライゲーションされた断片化構築物は、ここで、プライマーを使用して増幅される。プライマーのうちの1つは、主鎖中のプライマー結合配列を指向し、他のプライマーはアダプター中のプライマー結合配列を指向する。増幅は、アンプリコンをもたらす。各アンプリコンは、識別子セクション及び部分断片のうちの1つ(F1又はF2)を含有する。アンプリコンの配列決定は、識別子セクション(又は少なくとも識別子セクション中の識別子Nxであって、識別子セクション中若しくは主鎖の別個のセクション中にも含まれるサンプル特異的な識別子と任意選択的に組み合わせられた識別子Nx)及び部分断片を明らかにする。同じ主鎖由来の識別子セクションをメイティングすることによって、部分断片がメイティングされ、メイティングされたペアが得られる。そのようなメイティングされたペアは、配列スカフォールドの生成、拡張若しくは完成及び/又は物理地図等からのコンティグを連結するゲノム配列の完成のような多様な意図のために使用されうる。

更に、本発明は、E.コリ宿主へのDNAインサートを含有する改変BACベクターの形質転換を回避し、in vivoでの方法論とは対照的に、E.コリ宿主中での増殖及び選択に適合する選択マーカーを含有する(改変)BACベクターを使用する必要のないin vitroでの方法論を提供する。更に、本発明のメイトペアライブラリーは、メイト間の距離をBACライブラリーにとって典型的な平均125kbに制限することさえなく、メイトペア配列がそこに由来する必要のある標的DNA分子のサイズが制限されるのみである。

よって、本発明の原理は、同じ主鎖中の1つ又は複数の識別子セクションとより大きな断片由来の2つの部分断片との組み合わせにあり、1つ又は複数の識別子セクションは、部分断片をより大きな断片に連結する役割を果たし、それによってメイティングされたペアを生成する。

この包括的な原理は、本明細書中、以下に明らかとなる多種多様な実施形態及びその変形において具体化されうる。いくつかの変形及び実施形態は、特定の技術的特徴に焦点をあて、その特徴の範囲内でのみ記載され、本明細書に記載のすべての他の実施形態、変形及び並べ替えに関して必ずしも直接的に記載されない。それでも、明示的に述べられることなく、ある実施形態、変形又は並べ替えが、方法全体を再度記載せずとも、他の実施形態において同様に適用でき、そして適用されることは、当業者に明白である。例えば、アダプターの変形は、その組み合わせが請求項の従属による以外に明示的に記載されずとも、主鎖の変形と組み合わせられうる。

DNA断片(例えば、核酸配列の断片)は、サンプルから得られることが好ましい。サンプルは、ゲノムDNA、単離された染色体からのゲノムDNA、単離された染色体領域からのゲノムDNA、ミトコンドリアDNA、クロロプラストDNA、ウイルスDNA、微生物DNA、プラスチドDNA、合成DNA、DNA増幅のDNA産物及びcDNAから成る群から選択される1つ又は複数を含むDNAサンプル(S)であってよい。

断片は、サンプル中の核酸のうちの1つ又は複数の、(制限)酵素による消化によって得られうる。よって、核酸サンプルは、制限酵素消化部位を含有しうる。制限酵素消化部位の存在は、利用可能な配列情報からわかるかも知れないが、研究中のゲノムの統計学的分析/知見からも導き出せる。制限酵素認識配列は、典型的に4〜8ヌクレオチド長であるため、認識部位の統計学的な発生頻度は、平均して、Mselのような4bpカッターについて256ヌクレオチド毎である。そのような消化は、部分消化、すなわち、制限酵素による消化は、インキュベーション期間中にすべての制限部位が酵素によって切断されるには、短すぎる時間で行われ及び/又は酵素の濃度が意図的に低すぎる。制限酵素は、3〜5bpの認識配列を有しうるか(フリークエントカッター(frequent cutter))又は6〜8bpの認識配列を有しうる(レアカッター(rare cutter))。断片は、2つ以上のレア及び/又はフリークエントカッターの組み合わせによって提供されてもよい。断片は、好ましくは、DNAサンプルのせん断、超音波処理及び霧化から成る群から選択される、機械力の適用によって及び/又はランダムフラグメンテーションによって提供されてもよい。断片の長さ分布は、断片化プロセスの強度によって変化しうる。制限酵素及び/又は機械力に基づく断片化技術の組み合わせの選択は、所望の断片サイズ(の範囲)に依存することができ、当業者によって容易に決定されうる。得られた断片は、断片化技術次第で、付着末端及び/又は平滑末端を有しうる。付着末端を有する断片は、酵素、好ましくはエンドヌクレアーゼ、フラップエンドヌクレアーゼ又はポリメラーゼによる等の公知の技術によって平滑化されうる。断片は、公知の技術を使用してリン酸化もされうる。断片が付着末端を含有する場合、例えば、既知の末端を生成する(クラスII制限酵素のような)制限酵素が使用される場合、オーバーハングのヌクレオチド配列は既知でありうる。

サンプルから得られた断片は、例えば、ゲル上で又はサイズ選択のための他の一般的技術を使用して、サイズ選択されうる。本明細書に表される方法は、いずれの種、先の配列情報又は断片サイズにも依存しないという意味で包括的であるが、15キロ塩基対(kb)を超える、25kbを超える、50kbを超える、75kbを超える、100kbを超える又は150kbを超えるサイズを有する断片をもたらすために、サイズ選択が行われることが好ましい。その範囲内(すなわち、前述の断片サイズを超える)の断片によって、ロングレンジのスカフォールドを構築する目的のために適切なメイティングされたペアが生成されうる。それにもかかわらず、スカフォールド及びゲノム配列の生成においても使用されうる、より短いレンジのメイティングされたペアの生成に、同じ方法が使用可能である。よって、別の実施形態では、断片は、1kbを超える、5kbを超える又は10kbを超えるか、或いは(10kbから25kbまでの間、5から15kbまでの間、5から50kbまでの間等の)上述の断片長に挟まれた範囲の間であってよい。

本発明において使用される主鎖は、好ましくは合成の、すなわち、化学合成された、又は例えばアレイ上に、合成によって調製された個々の部分若しくはセクションから成り、該部分が酵素によって結合されて主鎖となりうる、ヌクレオチド配列(オリゴヌクレオチド)である。主鎖の長さは、変化しうるが、典型的には、30〜250ヌクレオチドの範囲にある。この長さは、主に、本明細書に記載のように主鎖に組み込まれる多様な官能基によって決定される。主鎖は、一本鎖又は二本鎖であってよく、付着及び/又は平滑末端を有してよい。好ましい実施形態では、主鎖は、後の環状化断片の消化工程において使用される制限酵素のための認識部位フリーである(を含有しない)、及び/又は4塩基以上の長さのパリンドローム配列を含まない。主鎖は、1つ、2つ又はそれを超える識別子セクションを含有する。主鎖中の識別子セクションは、xヌクレオチドのバーコードN(Nx)を含む。識別子セクションは、主鎖にライゲーションされた断片を同定する役割を果たす。主鎖及び/又は識別子セクションは、バーコードに類似する構造を有しうるサンプル特異的な識別子のような他の官能基を含有しうる。バーコードは、サンプル特異的な部分と断片特異的な部分から成ることもでき、又はバーコードは、各個別のバーコードがサンプルからの断片に割り当てられるようにデザインされ(すなわち、より長いバーコードを使用すること)てもよい。主鎖中のヌクレオチドNは、すべてのヌクレオチドから、好ましくは4つすべて(A、C、T、G)から、又はある一定の実施形態では、A、C、T若しくはGからの3つ(したがって、A、C、T;A、T、G;A、C、G;C、T、G)から選択されうる。後者の実施形態は、主鎖が、制限酵素のための認識配列を含まないという要求を取り除くか又は簡素化しうる。識別子中のヌクレオチドの数(x)は大きく変動する可能性があるが、典型的には、4から50までの間、好ましくはxは、5〜30、好ましくは10〜20である。好ましいタイプの識別子は、ホモポリマーエラーの傾向のある、すなわち、連続した同一のヌクレオチドの区間の配列決定におけるエラー率が増加するシーケンス化学(sequencing chemistries)による配列決定の間のリードスルーによる読み間違いを減少させるか又は防止するので、2つ以上の同
一の連続した塩基を含有しない(含まない)。

利用可能な特有の識別子の数及びしたがって、与えられる主鎖の数は、典型的なシーケンスランにおいて生成される配列リードの数を超えることが好ましい。主鎖の一実施形態では、主鎖は、主鎖の構造次第で、1つ又は複数の識別子(ID)を含有する。識別子は、配列決定工程後に第1及び第2の断片の起源を同定する役割を果たす。識別子は、第1及び第2の部分断片(F1、F2)を、同じ断片(F)に由来するものとして、お互いに連結する役割を果たす。同じ断片に由来する部分断片が、同じ主鎖に由来する1つ又は複数の識別子のおかげで、その断片に連結される。

一実施形態では、主鎖は、2つのプライマー結合部位の間に位置する識別子(ID)を含有する。別の実施形態では、主鎖は、2つの識別子セクション(ID1、ID2)の間に位置するプライマー結合部位を含有する。主鎖は人工的にデザインされるため、ID1はID2と同一であってもよく、又は異なってもよい。後者の場合、メイティングされる配列リードを適切に指定するためには、ID1及びID2のどの組み合わせが同じ主鎖分子の一部であるかがわかっていることが好ましい。

よって、本発明は、メイトペアシーケンシングのための方法であって:
a. DNA断片(F)を用意する工程;
b. 2つの識別子セクション(ID1、ID2)を含む主鎖(B)を用意する工程であって、少なくとも1つの(第1の)プライマー結合部位(PBS)が2つの識別子セクション(ID1、ID2)の間に好ましくは位置する、工程;
c. 断片(F)の両末端を主鎖(B)とライゲーションし、それによって、主鎖を環状化して、環状化構築物(C)を得る工程;
d. 少なくとも1つの酵素(E)によって環状化構築物(C)を消化して、主鎖(B)並びにDNA断片の第1(F1)及び第2(F2)の部分断片を含む断片化構築物を得る工程;
e. 少なくとも1つの(第2の)プライマー結合部位(PBS)を含有するアダプター(Ad)を、断片化構築物にライゲーションして、アダプターにライゲーションされた断片化構築物を得る工程;
f. 1つ又は複数のプライマー(P)を使用して、アダプターにライゲーションされた断片化構築物を増幅し、それによって、2つの識別子セクションのうちの一方(ID1)及び第1の部分断片(F1)を含む第1のアンプリコン(A1)並びに2つの識別子セクションのうちの他方(ID2)及び第2の部分断片(F2)を含む第2のアンプリコン(A2)を提供する工程;
g. アンプリコン(A1、A2)を配列決定して、各アンプリコンの主鎖の識別子セクション(ID1、ID2)及び部分断片(F1、F2)の少なくとも一部のヌクレオチド配列を決定する工程;
h. アンプリコン(A1、A2)中の識別子セクション(ID)の存在に基づいて、第1(F1)及び第2(F2)の部分断片をメイティングし、それによって、DNA断片のメイティングされた第1(F1)及び第2(F2)の断片を同定する工程
を含む、方法にも関する。

特有の識別子を含有する主鎖のライブラリーを生成するための方法論、すなわち、Nxの(別個の)ランダム合成及びその後の包括的な主鎖への組み込みを介する又は識別子を含む既知の予めデザインされた配列を含有する、意図的且つ予めデザインされた主鎖のライブラリーが構築される、アレイ上のような構造化オリゴ合成を介する方法論は、本分野で知られている。

いずれにしても、断片から得られる部分断片がお互いに連結され(メイティングされ)るように、主鎖は、それらがメイティングされたペア又はメイトペアを形成しうるように、どの第1の部分断片がどの第2の部分断片と一緒に断片中に存在するかがわかるという意味で、1つ又は複数の識別子の存在による主鎖内での同定手段を含有する。

識別子のライブラリーが使用可能である。例えば、サンプル由来の多数の断片を収容するために、そのようなライブラリーが使用可能である。そのような多数の断片は、2つ以上の断片であることができ、本明細書中の他所で開示されるような、ゲノム若しくは染色体若しくはBACライブラリー又はその一部を断片化することから得られる一組の断片のような10個を超える、100個を超える、1000個を超える又は更に10000個を超える断片であることもできる。他所で述べるように、ライブラリー中の識別子の数は、断片の数を超えることが好ましい。ライブラリーは、バーコード化DNAとして本分野で知られる技術によって又はライブラリー中の各識別子が特有のものである、すなわち、ライブラリー全体で1つしか存在しないように、ヌクレオチドの並べ替えを含むある一定の長さの識別子のライブラリーを構築することによって得られうる。4つのヌクレオチドすべてから作られた、15ヌクレオチド長の識別子のライブラリーは、(4exp15)1.07^*10exp9の特有の組み合わせを含むことができる。2つの連続したヌクレオチドがどれも同じでないという要件により、この数は減少するが、残っている特有の識別子の数はなお、ほとんどの目的のために適切である。このようにして、識別子セクション及びプライマー結合部位を含む、本明細書の他所で概説される構造を有する主鎖のライブラリーが、識別子によって構築できる。そのようなライブラリーは、2個超の異なる(すなわち、異なる識別子を含む)主鎖、好ましくは、100個を超える、1,000個を超える、5,000個を超える又は更に10,000個を超える主鎖を含むことができる。10,000より多い数も実行可能であり;実際に、制限されるのは識別子の長さのみであり、識別子の長さを増加させることは、主鎖ライブラリーの複雑性を増大させるために使用できる。ライブラリー中の主鎖は、各識別子がライブラリー中で唯一のものであって、好ましくは、主鎖中の識別子又は主鎖中の識別子の組み合わせのおかげで、主鎖がライブラリー内で唯一のものであるように、デザイン(構築)される。よって、ライブラリーの主鎖中の各識別子セクション又は識別子セクションの組み合わせは、主鎖のライブラリー中の識別子セクション又は識別子セクションの組み合わせを含むいかなる他の主鎖とも
異なる。ライブラリー中の各主鎖は、主鎖のライブラリーにおいて唯一のものである。

主鎖のライブラリー中のすべての識別子は、少なくとも2つのヌクレオチドによってお互いに異なり、識別子間の差別化、したがってライブラリー中の主鎖間の差別化を高める。

断片(F)は、主鎖とライゲーションされる。ライゲーションは、断片とともに主鎖を環状化する。それゆえに、断片はその両末端で主鎖の両末端とライゲーションし、それによって、環状化構築物(C)を提供する。主鎖とともに断片を環状化するための条件は、よく理解されており、本分野における慣用技術を使用して適用されうる。

用語「ライゲーション」は、2つの(二本鎖)DNA分子が共有結合によって結合される、リガーゼ酵素によって触媒される酵素反応をさす。一般に、二本鎖DNA鎖については、両DNA鎖が共有結合によって結合するが、鎖の末端のうちの1つの化学的又は酵素的修飾によって、2つの鎖のうちの1つのライゲーションを防ぐことも可能である。その場合、共有結合は、2つのDNA鎖のうちの1つのみにおいて起こる。

用語「ライゲーションすること」は、別個の(二本)鎖ヌクレオチド配列を結合させるプロセスをさす。二本鎖DNA分子は、平滑末端を有してよく、又はオーバーハングがお互いにハイブリダイズできるように、適合性のオーバーハング(粘着性オーバーハング)を有してもよい。或いは、DNA分子のうちの1つがオーバーハングを有する二本鎖であって、別の一本鎖DNA分子(一本鎖アダプター)がそのオーバーハングにアニールできるものであってもよい。DNA断片の結合は、リガーゼ酵素、DNAリガーゼによる酵素的なものであってよい。しかしながら、非酵素的な、すなわち、化学的ライゲーションも、DNA断片が結合される、すなわち、共有結合を形成する限り、使用されてよい。典型的に、別個の鎖のヒドロキシル及びリン酸基の間のホスホジエステル結合は、ライゲーション反応において形成される。二本鎖ヌクレオチド配列は、ライゲーションの前にリン酸化されなくてはならない可能性がある。

断片は、一方又は両方の末端において平滑及び/又は付着性であってよく、主鎖は、それにしたがってデザインされうる。例えば、断片の付着末端のためには、付着末端を有する主鎖の使用、断片の平滑末端のためには、平滑末端を有する主鎖の使用が可能である。その末端が独立して付着性又は平滑であることのできる複数の断片が、主鎖にライゲーションされる場合、主鎖のライブラリーも平滑及び/又は付着末端を有する主鎖を含んでよい。

断片は、中間アダプターとライゲーションされ、その後又は同時に主鎖にライゲーションされてもよい。これらのアダプターは、断片と主鎖の環状化の前に、中間アダプターとして機能する。中間アダプターの使用は、(例えば、ランダムフラグメンテーションを介する)断片が得られる方法の結果、断片の一方又は両方の末端が不明であるか又は平滑である(平滑化される)場合に有利である。そのとき、中間アダプターは、断片の末端とのライゲーションのための1つの末端において平滑であり、他の末端において付着性、例えば、(付着性の)主鎖の末端のうちの1つに特異的であってもよい。或いは、中間アダプター(又はその組)は、一方の末端において主鎖特異的であり、他方の末端には、断片のすべての可能性のある付着末端に適応するためにオーバーハングヌクレオチドの並べ替えを含有するオーバーハングを含有してもよい。これは、未知の又は少なくとも可変である主鎖の配列及びライブラリーの付着末端を提供する技術により得られた複数の断片を使用する場合には、特に実用的である。

よって、ある一定の実施形態では、断片は、主鎖へのライゲーションの前(又はそれと同時に)第1及び/又は第2の(中間)アダプターとライゲーションされる。アダプターは、主鎖にライゲーションされる第1の末端及び断片にライゲーションされる第2の末端を有しうる。ある一定の実施形態では、主鎖は、1つ又は2つの付着末端を有し、アダプターの第1の末端は、選択的に主鎖にライゲーションされるために付着性である。ある一定の実施形態では、主鎖はどちらも付着性である第1及び第2の末端を有し、第1及び第2の付着末端は、異なる配列のオーバーハングを有する。ある一定の実施形態では、各々が選択的に主鎖の第1及び第2の末端それぞれにライゲーションされうる第1の末端を有する、2つのアダプターが提供される。ある一定の実施形態では、第1及び/又は第2のアダプターの第2の末端は、平滑断片にライゲーションされるために平滑である。ある一定の実施形態では、(中間)アダプターの組が提供され、各々が、付着性断片にライゲーションされる並べ替えられたオーバーハングをアダプターの第2の末端に含有する。

或いは、並べ替えられたオーバーハング、すなわち、すべての可能性のあるヌクレオチドの組み合わせをそれらの末端に含有する、主鎖のライブラリーが提供されうる。

本発明において使用される中間アダプターは、8〜100bp、好ましくは10〜25bpの長さを有しうる。

本明細書中で使用される用語「アダプター」又は中間アダプターは、短い、典型的に二本鎖の限定数の塩基対、例えば、長さが約10〜約30塩基対のDNA分子をさし、それらは、(制限)断片の末端にライゲーションできるようにデザインされる。二本鎖アダプターは、一般に、お互いに部分的に相補的なヌクレオチド配列を有する2つの合成オリゴヌクレオチドから成る。アダプターは、平滑末端を有してもよく、又は付着末端を有してもよく、又は、平滑末端と付着末端を有してもよい。付着末端は、3'又は5'オーバーハングである。適切な条件下で溶液中の2つの合成オリゴヌクレオチドを混合する場合、それらはお互いにアニールして二本鎖構造を形成する。アダプターは、一本鎖であることもでき、その場合には、該一本鎖アダプターが(制限)断片にアニールできるように、一本鎖アダプターの末端のうちの1つが、少なくとも数個(2、3、4又は5個)のヌクレオチドに関して(制限)断片の末端のうちの1つの鎖のうちの1つに適合することが好都合且つ好ましいことがある。その目的を達成するために、断片は、断片の末端のうちの1つにヌクレオチドを付加することによって延長可能である。アダプター分子の一方の末端は、アニーリング後に(制限)断片の末端と適合し、そこへライゲーションできるように、デザインされうる。(一本鎖バージョン又は二本鎖バージョンのいずれかである)アダプターの他方の末端は、それがライゲーションされない(すなわち、ブロックされる)ようにデザインされうる。これは、アダプターの一方の末端のみがライゲーションされるか、二本鎖アダプターの鎖の一方のみがライゲーションされることを可能とする。しかしながら、アダプターがDNA断片の間にライゲーションされる場合(中間アダプター)、アダプターの鎖のうちの一方の両末端がライゲーション可能である。一般に、ライゲーション可能であることは、3'-ヒドロキシル又は5'-リン酸基が存在することを意味する。一般に、ライゲーションからブロックされていることは、必要な3'及び5'官能基がないか又はブロックされていることを意味する。ある一定の場合には、アダプターが、断片にライゲーションされて、アダプターにライゲーションされた断片のその後の操作のための、例えば、増幅又は配列決定のための開始点を提供することができる。後者の場合、
所謂シーケンシングアダプターが断片にライゲーションされうる。ライゲーションに適合性であることは、2つの(組み合わせた)方法において達成可能である:(二本鎖)アダプターの末端が、アダプターと制限断片がアニールしうるように、制限断片のオーバーハングしている末端に適合する、(オーバーハンギング)セクションを含有する。第2の方法は、アダプターの一方の鎖の末端に位置するヌクレオチドが、例えば、制限断片からの別のヌクレオチドに化学カップリングできるような方法で提供されることである。或いは、アダプターの末端のヌクレオチドは、それが別のヌクレオチドにカップリングできないように修飾(ブロック)されることもできる。二本鎖アダプターは、二本鎖アダプターが断片にアニールすることができ、鎖の一方又は両方が断片にカップリングできるように、これらの特徴を併せ持ってもよい。(二本鎖又は一本鎖にかかわらず)アダプターは、リガーゼを用いて(制限)断片の末端にライゲーションされる。その結果は、アダプターにライゲーションされた(制限)断片である。一実施形態では、少なくとも1つのアダプターのライゲーションが、(制限酵素によって消化された)断片の5'末端で起こる。一実施形態では、少なくとも1つのアダプターのライゲーションが、(制限酵素によって消化された)断片の3'末端で起こる。

(一本鎖であろうと二本鎖であろうと)アダプターライゲーションの別法として、一般に知られたヌクレオチド延長法を使用して、ヌクレオチドが断片、好ましくは3'末端に付加され、それによって、例えば、毎回1つのヌクレオチドを導入し(一ヌクレオチド延長)、それによって、3〜100ヌクレオチド、好ましくは5〜50ヌクレオチド、更に好ましくは18〜40ヌクレオチド、最も好ましくは10〜20ヌクレオチド、断片を伸長するという一連の工程によって、既知の配列による断片の伸長(ヌクレオチドが伸長された配列)を、好ましくは、既知の順番で導入する。断片のこの伸長は、ヌクレオチドが伸長された断片を結果として生じる。

よって、断片は、一方又は両方の末端において中間アダプターを使用して又は使用せずに、主鎖にライゲーションされて、断片の環状化構築物を提供する。主鎖は更に、反応混合物から主鎖を除去するために、(ビオチンのような)アフィニティータグを含有してよい。非環状化断片及び/又は主鎖が除去されうる。また、非環状化断片は、エキソヌクレアーゼ処理又は混合物からすべての線状DNAを除去するための別の処理によって除去されうる。或いは、主鎖は、アフィニティータグを使用して混合物から除去されうるか又は両方法の組み合わせが使用されうる。また、捕捉プローブが、環状化断片又は非環状化断片に対して使用されうる。

さらなる工程では、環状化構築物は、酵素(E)、好ましくは少なくとも1つの制限酵素によって消化されて、主鎖(B)並びにDNA断片(F)の第1(F1)及び第2(F2)の部分断片を含む断片化構築物を提供することができる。よって、酵素による環状化構築物の消化は、そのうちの1つが主鎖(断片化構築物)を含有する、一組の断片を提供する。典型的に、主鎖が(例えば、使用される酵素の認識配列がないために)酵素による影響を受けないままであるように構築されるか又はデザインされるため、主鎖及び主鎖のいずれかの末端に断片の一部、すなわち、断片の末端を含有する1つの断片が存在する。これらの末端は、部分断片(F1、F2)として示される。主鎖が本明細書の他所で概説された2つの識別子を含有する一実施形態では、主鎖は、2つの識別子の間に位置する制限酵素のための認識配列を含有しうる。その場合、主要構造がID-PBS-REsite-PBS-IDであるように、主鎖は2つのプライマー結合部位も含有することが好ましい。そのような主鎖を含む構築物の環状化に際しては、消化によるその後の分離がそれらを個別にするとしても、IDが連結され、それらの部分断片(F1、F2)も同様に連結される。部分断片(F1、F2)は、各々独立して、好ましくは30から20,000bpまでの長さ、より好ましくは30から5,000bpまでの長さ、更に好ましくは30から500bpまでの長さを有しうる。

酵素は、制限酵素であることが好ましい。本明細書中で使用される用語「制限酵素」又は「制限エンドヌクレアーゼ」(用語「制限酵素」及び「制限エンドヌクレアーゼ」は交換可能に使用される)は、二本鎖DNA分子中の特定のヌクレオチド配列(認識部位)を認識し、各認識部位において又はその近くでDNA分子の両鎖を切断し、平滑又は付着末端を残す酵素をさす。一本鎖又は二本鎖DNAのための認識部位を含有するが、その後、1つの鎖のみを切断する(切れ目を入れる)、所謂ニッキング制限酵素も包含される。

本明細書中で使用される用語「イソ制限酵素」は、同じ認識配列に特異的であり、同じ位置で切断する、一対の制限酵素をさす。例えば、SphI(GCATG^C)及びBbuI(GCATG^C)は、お互いにイソ制限酵素である。所与の配列を認識し、切断するための第1の酵素は、プロトタイプとして知られ、その配列を認識し、切断するすべての後続の酵素は、イソ制限酵素である。同じ配列を認識するが、それを異なる方法で切断する酵素は、ネオ制限酵素(neoschizomer)である。イソ制限酵素は、ネオ制限酵素の特定のタイプ(サブセット)である。例えば、SmaI(CCC^GGG)及びXmaI(C^CCGGG)は、お互いに(イソ制限酵素ではない)ネオ制限酵素である。イソ制限酵素及びネオ制限酵素は、本発明において使用可能である。同じ記述が、DNAサンプルからの断片を提供することにおいて使用されうる制限酵素及び環状化断片の消化において使用されうる制限酵素に当てはまる。

用語「クラスII制限エンドヌクレアーゼ」は、制限部位と同じ場所に位置する認識配列を有するエンドヌクレアーゼをさす。言い換えれば、クラスII制限エンドヌクレアーゼは、それらの認識配列内で切断する。その例としては、EcoRI(G/AATTC)及びSmaII(CCC/GGG)が挙げられる。

用語「クラスIIS制限エンドヌクレアーゼ」は、制限部位から遠く離れた認識配列を有するエンドヌクレアーゼをさす。言い換えれば、クラスIIS制限エンドヌクレアーゼは、それらの認識配列の外側の一方で切断する。その例としては、NmeAIII(GCCGAG(21/19)、FokI(GGATG9/13)及びAlwl(GGATC4/5)が挙げられる。「クラスIIB制限エンドヌクレアーゼ」は、制限部位から遠く離れた認識配列を有するエンドヌクレアーゼをさし、認識配列の両側に位置する2つの制限部位がある。言い換えれば、クラスIIB制限エンドヌクレアーゼは、それらの認識配列の外側の両側で切断する。

制限酵素は、3〜5bpの認識配列を有するもの(フリークエントカッター)又は6〜8bpの認識配列を有するもの(レアカッター)のような任意の制限酵素であることができる。環状化構築物の断片は、1つ又は複数のフリークエント及び/又はレアカッターの組み合わせによって環状化構築物を制限することによって得られることが好ましい。制限酵素は、好ましくはクラスII、IIB及びIIS、より好ましくはクラスIIである、多様なタイプのものであってよい。

主鎖を含有しない断片は、混合物から除去されるか又は主鎖を含有しない断片から、例えば、本明細書中で先に説明したとおり、サイズ分離工程及び主鎖を構成する断片化構築物を含有する画分のその後の単離によって、又は好ましくは主鎖中でビオチンのようなアフィニティータグを使用することによって、分離されうる。

断片化構築物(すなわち、断片化後に得られた、主鎖を含有する環状化構築物の断片)に、アダプターがライゲーションされる。アダプターは、本明細書の他所においても定義されている。1つ又は複数のアダプター(Ad)が、断片化構築物の一方又は両方の末端にライゲーションされうる。アダプターは同じでも異なってもよい。アダプターは、プライマー結合部位(PBS)を含有する。断片化構築物へのアダプターライゲーションの結果は、アダプターにライゲーションされた断片化構築物である。アダプター自体は、アダプターが一本鎖アダプター(S)、二本鎖アダプター(D)及びY形アダプター(Y)から成る群から選択されるように、多様な構造を有しうる。二本鎖又はY形アダプターは、部分断片の自由末端の構造次第で、平滑(Bl)又は付着(St)末端を有しうる。断片化構築物の各末端のために、別のアダプターがデザインされ及び/又は選択されうる。よって、一本鎖アダプター(S)、二本鎖アダプター(D)及びY形アダプター(Y)から独立して選択される2つのアダプター(Ad1、Ad2)がライゲーション可能であり、断片化構築物の各末端にライゲーションされうる。Y形アダプターの場合には、Y形アダプターのアーム(Y1、Y2)のうちの少なくとも1つが、プライマー結合部位(PBS)を含有する。主鎖とアダプターの組み合わせについては、Table 1(表1)を参照されたい。好ましいアダプターにライゲーションされた断片化構築物が、図2に示される。

ある一定の実施形態では、環状化構築物の(例えば、制限酵素による消化による)断片化及びアダプターのライゲーションは、同時に実行可能である。そのような実施形態では、アダプターのライゲーションは、制限酵素(E)の認識配列(RS)を回復しないことが好ましい。

断片化構築物、特に、部分断片(F1、F2)の末端にライゲーションされるアダプターは、プライマー結合部位を含有し、アダプター及び主鎖の両方にプライマー結合部位(一般に、PBSと表示され、個別にPBS1、PBS2、PBS3、PBS4と表示される)を含有する、アダプターにライゲーションされた断片化構築物を結果として生じる。アダプターにライゲーションされた断片化構築物中のプライマー結合部位(PBS1、PBS2、PBS3、PBS4)は、同じであるか又は異なり、最終的に1つ、2つ、3つ又は4つのプライマーが増幅工程において使用可能である。よって、ある一定の実施形態では、主鎖中の1つ又は2つのプライマー結合部位(PBS1、PBS2)及びアダプター中のプライマー結合部位(PBS3、PBS4)は同一であり(PBS1=PBS2=PBS3=PBS4)、アダプターにライゲーションされた構築物が1つのプライマー(P1)から増幅される。別の実施形態では、主鎖は、2つの同一のプライマー結合部位(PBS1、PBS2;PBS1=PBS2)を含有し、アダプターは2つの同一のプライマー結合部位(PBS3、PBS4;PBS3=PBS4)を含有し、アダプターにライゲーションされた構築物が2つのプライマー(P1、P2)から増幅される。更に別の実施形態では、主鎖は、2つの同一のプライマー結合部位(PBS1、PBS2;PBS1=PBS2)を含有し且つアダプターは2つの異なるプライマー結合部位(PBS3、PBS4;PBS3≠PBS4)を含有するか、又はアダプターは2つの同一のプライマー結合部位(PBS3、PBS4;PBS3=PBS4)を含有し且つ主鎖は2つの異なるプライマー結合部位(PBS1、PBS2;PBS1≠PBS2)を含有し、アダプターにライゲーションされた構築物が3つのプライマー(P1、P2、P3)から増幅される。別の実施形態では、主鎖は、2つの異なるプライマー結合部位(PBS1、PBS2;PBS1≠PBS2)を含有し、アダプターは2つの異なるプライマー結合部位(PBS3、PBS4;PBS3≠PBS4)を含有し、アダプターにライゲーションされた構築物は、4つのプライマー(P1、P2、P3、P4)から増幅される。

アダプターにライゲーションされた断片化構築物は、PCR又は等温増幅法のような、ヌクレオチドサンプルの増幅のための慣用方法を使用して増幅されうる。増幅の結果は、アンプリコン(A)である。実際に、アダプターにライゲーションされた断片化構築物が、複数の、アダプターにライゲーションされた断片化構築物である場合、例えば、本発明の方法が、その後断片が主鎖ライブラリーにライゲーションされている、断片化されたDNAサンプルからのもののような、複数の断片を使用した場合には、増幅は、アダプターにライゲーションされた断片化構築物の組全体(複数)において実行可能であるか又はアダプターにライゲーションされた断片化構築物は、2つ以上のサブサンプルに分割され、プライマーの異なる組み合わせを使用して別々に増幅可能である。

ある一定の実施形態では、主鎖が2つの識別子セクション(第1の識別子セクション(ID1)及び第2の識別子セクション(ID2))を含有する場合、第1のアンプリコン(A1)は、第1の識別子セクション(ID1)及び第1の部分断片(F1)を含有し、第2のアンプリコン(A2)は、第2の識別子セクション(ID2)及び第2の部分断片(F2)を含有する(図4を参照されたい)。

アンプリコンは、配列決定され、好ましくは、Synthesisプラットフォームによるか又はRoche社からの454シーケンシングテクノロジー(GSll又はGS FLX)によるIllumina社の配列決定或いは中でもQuailら、BMC Genomics 2012, 13;341に記載された、包括的に次々世代シーケンシング及び/又はSMRTシーケンシング(Pacific Biosciences社(PacBio))と表示される配列決定技術等のようなハイスループットシーケンシングを用いて配列決定されて、配列決定されたアンプリコンを提供する。よって、用語「ハイスループットシーケンシング」及び「次世代シーケンシング」は、大量の配列リード、典型的には、一回に数百というよりも、何千もの(すなわち、数万又は数十万)又は何百万もの配列リードを生成することができる配列決定技術をさす。ハイスループットシーケンシングは、慣用のSanger又はキャピラリーシーケンシングよりも優れ、且つ異なるものである。典型的に、ハイスループットシーケンシングの配列決定された産物は、約30から300塩基までの間の比較的短いリードを有する。そのような方法の例は、国際公開第03/004690号、同第03/054142号、同第2004/069849号、同第2004/070005号、同第2004/070007号、同第2005/003375号に開示されたピロシーケンスに基づく方法により、及びSeoら、(2004) Proc. Natl. Acad. Sci. USA 101 :5488〜93ページにより、与えられる。現在、PacBio RSプラットフォームは、20kb以下のリード長を生成する。これらのテクノロジーは、更に、リードアセンブリのための大規模且つ入念なデータ保存及びプロセシングワークフロー等を含む。ハイスループットシーケンシングが利用可能であるためには、生成されうるデータのタイプ及び質を適応させるために再設計されるべき多くの慣用のワークフロー及びゲノムの分析方法を必要とする。次世代ハイスループットシーケンシングは、「Next Generation Genome sequencing」、M. Janitz編、(Wiley-Blackwell、2008)にも詳しく記載されている。

ある一定のハイスループットシーケンシング法は、方法の不可欠な部分として増幅を使用する。この点において、本発明におけるアダプターにライゲーションされた断片化構築物の増幅の工程は、配列決定工程の不可欠な部分(すなわち、それと組み合わせられるか又はそれと同時に起こる)であり、増幅で使用される1つ又は複数のプライマーは、シーケンシング用プライマーであるか又はそれを含有する。この点におけるシーケンシング用プライマーは、ある一定のハイスループットシーケンシングプラットフォームに使用されるか又は直接適用可能なものであり、製造者によって提供されるか又は設計される。その例は、Illuminaシーケンシングにおいて使用されるP5及びP7プライマーである。(一般に、こうしてハイスループットシーケンシングの不可欠な部分としての増幅において並びに別個の増幅において)プライマーは、ビオチンのようなアフィニティープローブも含有してよい。

本発明によって提供される配列決定されたアンプリコンは、第1の部分断片(F1)と識別子(ID)の配列情報を含有するか又は第2の部分断片(F2)と識別子(ID)の配列情報を含有する。よって、それらは識別子配列(ID)を共有する。又は、2つの識別子(ID1、ID2)が主鎖中に存在する実施形態では、アンプリコンは、ID1又はID2のうちの一方と合わせたF1の配列情報又はID1又はID2のうちの他方と合わせたF2の配列情報を含有する。次いで、共有されるIDの存在(又は、それについては、ID1、ID2の合わせた存在)は、F1及びF2がメイティングされたペア(F1-F2)となるように、F1及びF2の配列を連結又はメイティングする。F1及びF2に関しては、研究中のDNA配列におけるそれらの間の距離にかかわらず、それらが同じ断片に由来することがわかる。よって、第1及び第2の部分断片のメイティングは、アンプリコン中の同一の識別子セクション(ID)の存在に基づく(又は連結された第1及び第2の識別子セクション、ID1、ID2に基づく)。

本発明の実施形態では、複数のサンプルが分析可能である(すなわち、2つ以上)。サンプル間で識別するためには、主鎖中に組み込まれたさらなる識別子が使用可能である。これは、各サンプルのために使用される主鎖(のライブラリー)中に別個の識別子を組み込むことによって達成されうる。この実施形態では、配列決定工程は、次いで、サンプル特異的な識別子の配列決定も組み入れてよい。すでに存在する識別子セクション(ID、ID1、ID2)も、サンプル特異的な部分を含有しうる。

本発明の方法によって得られたメイティングされたペアは、ゲノムスカフォールドの構築において、又は既存のコンティグを更に連結することによって物理地図を補足することによって使用されうる。本発明の技術的利益の1つは、慣用のBACベクター主鎖に比べてPCRアンプリコンサイズを低減し、したがって、ライブラリーの網羅する範囲のより広い、より規則正しい増幅をもたらしうる。更に、該方法は、両末端(F1、F2)が別々に増幅されるため、共有された又は合わされた識別子の発生数が2つであってそれを超えないことがメイティングされたペアを表すということで有益である。

略語のリスト
F:(核酸サンプルの)断片
F1、F2….:Fの部分断片
B、B1、B2…:主鎖
PBS、PBS1、PBS2,….:プライマー結合配列、プライマーと対となるように指定される核酸セクション
ID、ID1、ID2….:識別子
[Nx]:x個のヌクレオチドを含む主鎖中の識別子又はバーコード
x:整数(1、2、3、….)
C:環状化構築物
E:(制限)酵素
Bl:平滑末端
St:付着末端
Ad、Ad1、Ad2:アダプター
Ds又はD;二本鎖アダプター
S:一本鎖アダプター
Ys又はY:Y形アダプター
Pr、Pr1、Pr2、….:プライマー
A、A1、A2、….:アンプリコン
IA:中間アダプター

Claims

メイトペアシーケンシングのための方法であって、
a. DNA断片(F)を用意する工程;
b. 1つの識別子セクション(ID)及び少なくとも1つの(第1の)プライマー結合部位(PBS)を含む主鎖(B)を用意する工程;
c. 前記断片(F)の両末端を前記主鎖(B)とライゲーションし、それによって、前記主鎖を環状化して、環状化構築物(C)を得る工程;
d. 少なくとも1つの酵素(E)によって前記環状化構築物(C)を消化して、前記主鎖(B)並びに前記DNA断片の第1(F1)及び第2(F2)の部分断片を含む断片化構築物を得る工程;
e. 少なくとも1つの(第2の)プライマー結合部位(PBS)を含有するアダプター(Ad)を、前記断片化構築物にライゲーションして、アダプターにライゲーションされた断片化構築物を得る工程;
f. 1つ又は複数のプライマー(P)を使用して、前記アダプターにライゲーションされた断片化構築物を増幅し、それによって、前記識別子セクション(ID)及び前記第1の部分断片(F1)を含む第1のアンプリコン(A1)並びに前記識別子セクション(ID)及び前記第2の部分断片(F2)を含む第2のアンプリコン(A2)を提供する工程;
g. 前記アンプリコン(A1、A2)を配列決定して、各アンプリコンの前記主鎖の前記識別子セクション(ID)及び前記部分断片(F1、F2)の少なくとも一部のヌクレオチド配列を決定する工程;
h. 前記アンプリコン(A1、A2)中の前記識別子セクション(ID)の存在に基づいて、前記第1(F1)及び前記第2(F2)の部分断片をメイティングし、それによって、前記DNA断片のメイティングされた第1(F1)及び第2(F2)の断片を同定する工程
を含む、方法。
メイトペアシーケンシングのための方法であって:
a. DNA断片(F)を用意する工程;
b. 2つの識別子セクション(ID1、ID2)を含む主鎖(B)を用意する工程であって、少なくとも1つの(第1の)プライマー結合部位(PBS)が前記2つの識別子セクション(ID1、ID2)の間に好ましくは位置する、工程;
c. 前記断片(F)の両末端を前記主鎖(B)とライゲーションし、それによって、前記主鎖を環状化して、環状化構築物(C)を得る工程;
d. 少なくとも1つの酵素(E)によって前記環状化構築物(C)を消化して、前記主鎖(B)並びに前記DNA断片の第1(F1)及び第2(F2)の部分断片を含む断片化構築物を得る工程;
e. 少なくとも1つの(第2の)プライマー結合部位(PBS)を含有するアダプター(Ad)を、前記断片化構築物にライゲーションして、アダプターにライゲーションされた断片化構築物を得る工程;
f. 1つ又は複数のプライマー(P)を使用して、前記アダプターにライゲーションされた断片化構築物を増幅し、それによって、前記2つの識別子セクションのうちの一方(ID1)及び前記第1の部分断片(F1)を含む第1のアンプリコン(A1)並びに前記2つの識別子セクションのうちの他方(ID2)及び前記第2の部分断片(F2)を含む第2のアンプリコン(A2)を提供する工程;
g. 前記アンプリコン(A1、A2)を配列決定して、各アンプリコンの前記主鎖の前記識別子セクション(ID1、ID2)及び前記部分断片(F1、F2)の少なくとも一部のヌクレオチド配列を決定する工程;
h. 前記アンプリコン(A1、A2)中の前記識別子セクション(ID1、ID2)の存在に基づいて、前記第1(F1)及び前記第2(F2)の部分断片をメイティングし、それによって、前記DNA断片のメイティングされた第1(F1)及び第2(F2)の断片を同定する工程
を含む、方法。
前記DNA断片(F)が、ゲノムDNA、単離された染色体からのゲノムDNA、単離された染色体領域からのゲノムDNA、ミトコンドリアDNA、クロロプラストDNA、ウイルスDNA、微生物DNA、プラスチドDNA、合成DNA、DNA増幅産物、細菌人工染色体DNA、及びcDNAから成る群から選択される1つ又は複数を含むDNAサンプル(S)から得られる、請求項1又は2に記載の方法。
前記DNA断片(F)が、前記DNAサンプル(S)の(部分)ヌクレアーゼ酵素消化によって提供される、請求項3に記載の方法。
前記酵素が制限酵素(E)である、請求項4に記載の方法。
前記制限酵素(E)が、3〜5bpの認識配列(フリークエントカッター)を有する、請求項5に記載の方法。
前記制限酵素が、6〜8bpの認識配列(レアカッター)を有する、請求項5に記載の方法。
前記DNA断片(F)が、2つ以上のフリークエント及び/又はレアカッターの組み合わせによって前記DNAサンプル(S)を制限することによって得られる、請求項3から7のいずれか一項に記載の方法。
前記DNA断片(F)が、前記DNAサンプル(S)のせん断、超音波処理及び霧化から成る群から好ましくは選択される、機械力の適用によって及び/又はランダムフラグメンテーションによって提供される、請求項3から8のいずれか一項に記載の方法。
前記断片(F)が、付着末端(St)及び/又は平滑末端(Bl)を有する、請求項1から9のいずれか一項に記載の方法。
前記断片(F)の付着末端が平滑化される、請求項1から10のいずれか一項に記載の方法。
前記平滑化工程が、酵素、好ましくは、エンドヌクレアーゼ、フラップエンドヌクレアーゼ又はポリメラーゼによる、請求項11に記載の方法。
前記付着末端(のオーバーハング)が、既知の配列を有する、請求項10から12のいずれか一項に記載の方法。
前記断片がサイズ選択される、請求項1から13のいずれか一項に記載の方法。
前記断片が、15kbを超える、25kbを超える、50kbを超える、75kbを超える、100kbを超える又は150kbを超えるサイズを有する、請求項1から14のいずれか一項に記載の方法。
前記主鎖が、二本鎖である、請求項1から15のいずれか一項に記載の方法。
前記二本鎖の主鎖が、1つ又は複数の平滑末端を有する、請求項16に記載の方法。
前記二本鎖の主鎖が、1つ又は複数の付着末端を有する、請求項16又は17に記載の方法。
前記二本鎖の主鎖が、平滑及び付着末端を有する、請求項16から18のいずれか一項に記載の方法。
前記主鎖が、請求項1若しくは2の消化工程(d)において使用される制限酵素のための認識部位を含有しない、及び/又は4塩基以上の長さのパリンドローム配列を含まない、請求項1から19のいずれか一項に記載の方法。
前記主鎖中の前記識別子セクション(ID、ID1、ID2)が、xヌクレオチドの識別子(バーコード)N(Nx)を含む、請求項1から20のいずれか一項に記載の方法。
xが、5〜30、好ましくは10〜20である、請求項21に記載の方法。
識別子セクション(ID、ID1、ID2)中の各Nが、独立して、A、C、T及びGから成る群からの3つ以上のヌクレオチドから選択される、請求項21又は22に記載の方法。
前記識別子セクション(ID、ID1、ID2)が、2つ以上の同一の連続した塩基を含有しない、請求項21から23のいずれか一項に記載の方法。
前記主鎖が、2つのプライマー結合部位の間に位置する識別子セクションを含有する、請求項1、3から24のいずれか一項に記載の方法。
前記主鎖が、2つの識別子セクションの間に位置するプライマー結合部位を含有する、請求項2から24のいずれか一項に記載の方法。
前記2つの識別子セクションが同じである又は異なる、請求項26に記載の方法。
主鎖のライブラリーが提供される、請求項1から27のいずれか一項に記載の方法。
ライブラリーが、2個を超える、1000個を超える、5000個を超える又は10,000個を超える主鎖を含有する、請求項28に記載の方法。
各主鎖が、主鎖のライブラリー中のいずれかの他の主鎖に含まれる識別子セクション又は識別子セクションの組み合わせとは異なる、識別子セクション(ID)又は識別子セクション(ID1、ID2)の組み合わせを含む、請求項29に記載の方法。
主鎖のライブラリー中の識別子セクション(ID、ID1、ID2)中の識別子配列(又はバーコード)Nxが、少なくとも2つのヌクレオチドによってお互いに異なる、請求項1から30のいずれか一項に記載の方法。
前記断片が、前記主鎖へのライゲーションの前に、第1及び/又は第2の中間アダプターとライゲーションされる、請求項1〜31のいずれか一項に記載の方法。
前記中間アダプターが、前記主鎖にライゲーションされる第1の末端及び前記断片にライゲーションされる第2の末端を有する、請求項32に記載の方法。
前記主鎖が、1つ又は2つの付着末端を有し、前記中間アダプターの第1の末端が、前記主鎖に選択的にライゲーションされるために付着性である、請求項32に記載の方法。
前記主鎖が、その両方が付着性である第1及び第2の末端を有し、前記第1及び第2の付着末端が異なる配列オーバーハングを有する、請求項33に記載の方法。
その各々が前記主鎖の前記第1及び第2の末端それぞれに選択的にライゲーションされうる第1の末端を有する、2つの中間アダプターが提供される、請求項35に記載の方法。
前記第1及び/又は第2の中間アダプターの前記第2の末端が、平滑断片にライゲーションされるために平滑である、請求項33に記載の方法。
中間アダプター(IA)の組が提供され、各々が、付着性断片にライゲーションされる並べ替えられたオーバーハングを前記アダプターの前記第2の末端に含有する、請求項33に記載の方法。
前記中間アダプターが、8〜100bpである、請求項32から38のいずれか一項に記載の方法。
前記主鎖が、アフィニティータグ、好ましくはビオチンを含有する、請求項1から39のいずれか一項に記載の方法。
請求項1又は2の工程(d)において前記環状化構築物(C)を消化する前に、非環状化断片が除去される、請求項1から40のいずれか一項に記載の方法。
前記非環状化断片が、エキソヌクレアーゼ処理によって除去される、請求項41に記載の方法。
非環状化断片が、アフィニティータグを使用して除去される、請求項40に記載の方法。
請求項1又は2のステップ(d)における酵素が制限酵素である、請求項1から43のいずれか一項に記載の方法。
前記制限酵素が、3〜5bpの認識配列(フリークエントカッター)を有する、請求項44に記載の方法。
前記制限酵素が、6〜8bpの認識配列(レアカッター)を有する、請求項44に記載の方法。
前記断片化構築物が、1つ又は複数のフリークエント及び/又はレアカッターの組み合わせによって前記環状化構築物を制限することによって得られる、請求項44から46のいずれか一項に記載の方法。
前記制限酵素が、クラスII、クラスIIB又はIISである、請求項44から47のいずれか一項に記載の方法。
請求項1又は2の工程(d)における前記環状化構築物の消化後、主鎖を含有しない断片が除去される、請求項1から49のいずれか一項に記載の方法。
主鎖を含有する断片が、アフィニティータグを使用して又は捕捉プローブによって、前記主鎖を含有しない断片から分離される、請求項49に記載の方法。
前記断片化構築物にライゲーションされた1つ又は複数のアダプターが、独立して、平滑(Bl)又は付着性(St)である、請求項1〜50のいずれか一項に記載の方法。
前記アダプターが、一本鎖アダプター(S)、二本鎖アダプター(D)及びY形アダプター(Y)から成る群から選択される、請求項1から51のいずれか一項に記載の方法。
前記Y形アダプターのアーム(Y1、Y2)のうちの少なくとも1つが、プライマー結合部位(PBS)を含有する、請求項52に記載の方法。
一本鎖(S)、二本鎖(D)及びY形アダプター(Y)から独立して選択される2つのアダプター(Ad1、Ad2)がライゲーションされる、請求項1から53のいずれか一項に記載の方法。
請求項1又は2の工程(d)における前記環状化構築物の消化及びアダプターライゲーションが同時に実行される、請求項1から54のいずれか一項に記載の方法。
前記アダプターのライゲーションが、前記制限酵素(E)の認識配列(RS)を回復しない、請求項44から48のいずれか一項に記載の方法。
前記主鎖が、2つのプライマー結合部位(PBS1、PBS2)を含有する、請求項1から56のいずれか一項に記載の方法。
前記2つのアダプターが、プライマー結合部位(PBS3、PBS4)を含有する、請求項54に記載の方法。
前記主鎖中の1つ又は2つのプライマー結合部位(PBS1、PBS2)及び前記アダプター中のプライマー結合部位(PBS3、PBS4)が同一であり((PBS1=PBS2=PBS3=PBS4))、前記アダプターにライゲーションされた断片化構築物が1つのプライマー(P1)から増幅される、請求項57又は58に記載の方法。
前記主鎖が2つの同一のプライマー結合部位(PBS1、PBS2;PBS1=PBS2)を含有し、前記アダプターが2つの同一のプライマー結合部位(PBS3、PBS4;PBS3=PBS4)を含有し、前記アダプターにライゲーションされた断片化構築物が2つのプライマー(P1、P2)を使用して増幅される、請求項57又は58に記載の方法。
前記主鎖が2つの同一のプライマー結合部位(PBS1、PBS2;PBS1=PBS2)を含有し且つ前記アダプターが2つの異なるプライマー結合部位(PBS3、PBS4;PBS3≠PBS4)を含有するか、又は前記アダプターが2つの同一のプライマー結合部位(PBS3、PBS4;PBS3=PBS4)を含有し且つ前記主鎖が2つの異なるプライマー結合部位(PBS1、PBS2;PBS1≠PBS2)を含有し、前記アダプターにライゲーションされた断片化構築物が3つのプライマー(P1、P2、P3)を使用して増幅される、請求項57又は58に記載の方法。
前記主鎖が2つの異なるプライマー結合部位(PBS1、PBS2;PBS1≠PBS2)を含有し、前記アダプターが2つの異なるプライマー結合部位(PBS3、PBS4;PBS3≠PBS4)を含有し、前記アダプターにライゲーションされた断片化構築物が、4つのプライマー(P1、P2、P3、P4)を使用して増幅される、請求項57又は58に記載の方法。
前記アダプターにライゲーションされた断片化構築物が、2つのサブサンプル(Sub1、Sub2)に分割され、1つのサブサンプル(Sub1)が、主鎖特異的プライマー(PBS1、PBS2)の1つ又は複数と、アダプター特異的プライマー(PBS3、PBS4)のうちの一方とによって増幅され、サブサンプル(Sub2)が、主鎖特異的プライマー(PBS1、PBS2)と、アダプター特異的プライマー(PBS3、PBS4)のうちの他方とによって増幅される、請求項1から58のいずれか一項に記載の方法。
前記増幅がPCRによる、請求項1から63のいずれか一項に記載の方法。
前記増幅が、ローリングサークル増幅である、請求項1から63のいずれか一項に記載の方法。
前記増幅が等温性である、請求項1から63のいずれか一項に記載の方法。
前記配列決定が、ハイスループットシーケンシングである、請求項1から66のいずれか一項に記載の方法。
請求項1から66の増幅工程において使用されるプライマーのうちの少なくとも1つが、シーケンシング用プライマーであるか又はシーケンシング用プライマーを含有する、請求項1から67のいずれか一項に記載の方法。
請求項1から68において使用されるプライマーのうちの少なくとも1つがアフィニティープローブを含有する、請求項1から68のいずれか一項に記載の方法。
前記第1及び第2の部分断片のメイティングが、前記アンプリコン中の同一の識別子セクション(ID)の存在に基づくか、又は同じ主鎖由来の同一でない識別子セクション(ID1、ID2)に基づく、請求項1から69のいずれか一項に記載の方法。
メイティングされたペアが、ゲノムスカフォールドの構築において使用される、請求項1から70のいずれか一項に記載の方法。
複数のサンプルが、ゲノムDNA断片を生成するために使用され、前記サンプルを前記識別子セクションの存在に基づいて識別することができるように、各サンプルのために主鎖中の異なる識別子セクション又は異なる識別子セクションのライブラリーが使用される(識別子又は識別子のライブラリーが、サンプル特異的な識別子セクションを含有する)、請求項2から71のいずれか一項に記載の方法。
複数のサンプルが、ゲノムDNA断片を生成するために使用され、前記サンプルを前記プライマー中の識別子セクションの存在に基づいて識別することができるように、各サンプルのためにプライマー中の異なる識別子セクション又は異なる識別子セクションのライブラリーが使用される(識別子セクション又は識別子セクションのライブラリーが、サンプル特異的な識別子セクションを含有する)、請求項2から71のいずれか一項に記載の方法。
メイティングされたペアが、物理地図にアンカリングされる、請求項1から73のいずれか一項に記載の方法。
メイティングされたペアが、ドラフトゲノム配列にアンカリングされる、請求項1から74のいずれか一項に記載の方法。