JP6687605B2

JP6687605B2 - 配列決定プロセス

Info

Publication number: JP6687605B2
Application number: JP2017513371A
Authority: JP
Inventors: マリーバーク，キャサリン; アールダーリング，アーロン
Original assignee: ロンガステクノロジーズピーティーワイリミテッド
Priority date: 2014-05-23
Filing date: 2015-05-22
Publication date: 2020-04-22
Anticipated expiration: 2035-05-22
Also published as: WO2015177570A1; KR102363284B1; KR20230141873A; US20210403991A1; GB201409282D0; KR20220025213A; DK3146070T5; ES2697804T3; CN107002120A; SG11201609754QA; CN107002120B; CN116072218A; JP2017517282A; KR20170012390A; CA2949925A1; EP3146070B1; US11047002B2; EP3146070A1; KR102579902B1; AU2015263055B2

Description

本発明は、鋳型核酸分子の配列を生成する方法、少なくとも2つの鋳型核酸分子の配列を決定する方法、前記方法を実施するために適合されたコンピュータプログラム、及び前記コンピュータプログラムを記憶しているコンピュータ可読媒体に関する。

一般に、長い核酸配列(例えば、1Kbpを超える配列)を効果的かつ迅速に配列決定することは困難である。現在、配列決定技術は、大量の短い配列リード(read)(すなわち、短い核酸分子の配列)又は少数の長い配列リードのいずれかを生成することができる。現在、多数の長い配列リードを配列決定することは困難である。

16S rRNA遺伝子は、バクテリアと古細菌の異なる種間で高度に保存されているため、系統発生研究に使用されている。高度に保存されたプライマー結合部位に加えて、16S rRNA遺伝子配列は、細菌同定に有用な種特異的シグネチャー配列を提供し得る超可変領域を含む。結果として、16S rRNA遺伝子配列決定は、細菌同定の表現型方法に対する迅速かつ安価な代替手段として、医療微生物学において普及してきた。さらに、もともとは細菌を同定するために使用されたが、16S配列決定は、細菌をまったく新しい種又は属にさえ再分類できることがその後判明した。また、それは、実験室培養及び未培養環境サンプルの両方において、新しい細菌種を同定及び記載するために使用される主要な基準の1つとなっている。しかし、16S rRNA配列分析の使用は、1Kbpを超える多数の核酸分子の配列決定に関連する困難性のために妨げられている。これは、一般に、16S配列分析を行う研究者のほとんどが、16S遺伝子の短い(最大500bpの)領域に集中する傾向があることを意味している。このような短い領域の配列決定は、分類学的分解能の欠如をもたらす。

さらに、一般的な配列決定法は、配列決定プロセス中に起こり得る組換え事象に起因して精度を欠く傾向がある。配列決定は、配列決定される核酸分子を増幅するステップを含む。これらの増幅ステップの間、組換え事象が起こり得る。これは、核酸分子のサンプルが類似配列の遺伝子を含む場合、配列決定方法が、元の遺伝子の配列だけでなく、これらの類似の遺伝子間の組換えにより産生される核酸分子の配列も生成することを意味し得る。16S rRNA遺伝子は異なる種間で類似する傾向があるため、複数の異なる16S rRNA遺伝子由来の核酸分子を含む核酸分子のサンプル内の核酸鋳型分子は、配列決定中に組換わり得る。このような組換え事象は、サンプルを分析するのに必要な増幅の量が増加するにつれて、特に特定の宿主に関連する微生物叢及び法医学サンプルを分析するのに必要なレベルで、ますます頻繁になる。したがって、16S rRNA遺伝子を有するDNAのサンプルを配列決定する場合、組換えによって産生される核酸の配列を同定及び除去できることが有益である。

しかし、組換えを検出するための計算方法は限られている。それらが、実質的に異なる配列の2つの親分子の間で起こる組換え事象を検出することしかできないからである。非常に類似した配列間の組換え(例えば>97％同一性)は、計算方法を用いて真の生物多様性から区別することは困難なままである。計算による組換え検出の精度を高めるための分子的アプローチは現在存在しない。

ハイスループット配列決定機器のリード長を増加させるアプローチは、以前に記載されている。これらの中には、DNA分子100個のプールに固有のバーコードを割り当てるイルミナ(Illumina)のモレキュロ(Moleculo)などの複雑度低減アプローチ、及びサンプル中の各単一分子に固有のバーコードを加える分子タグ化法がある。両アプローチは、各バーコードに属する短いリードの集合を分析し、元の鋳型のコンセンサス配列を計算的に再構築することによって、元の鋳型分子を再構築する。両アプローチは、増幅に依存して、バーコード化プール又はタグ化単一分子の多くのコピーを作製する。しかし、これらの以前のアプローチのいずれも、増幅によって導入されたインビトロ組換えエラーを検出するための分子システムを使用しない。

本発明者らは、長い核酸配列の迅速かつ正確な配列決定を可能にする技術を開発した。この技術は、多くの異なる適用に使用することができるが、1.5Kbp遺伝子の全長にわたる大量の長いリードを生成するために使用できるため、16S rRNA遺伝子配列決定での使用に特に有利である。したがって、この技術は、16S rRNA遺伝子のより短い領域の配列決定を含む以前の方法よりも大きな分類学的分解能を提供する16S rRNA遺伝子全体の配列決定のために使用することができる。

さらに、本発明者らは、配列決定プロセス中に生成された組換え産物の配列が、同定され、無視されることを可能にする技術を開発した。これは、一般的な配列決定の感度及び精度を改善し、そのような精度は、16S配列決定を用いた系統発生研究にこの技術を用いる場合、分類学的分解能を改善する。

本発明の第1の態様では、サイズが1Kbpを超える少なくとも1つの個々の鋳型核酸分子の配列を生成する方法であって、
(a)サイズが1Kbpを超える少なくとも2つの鋳型核酸分子を含む核酸分子の少なくとも1つのサンプルを提供するステップ;
(b)該少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、該少なくとも2つの標的鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、固有の第1の分子タグ及び固有の第2の分子タグでタグ化される、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子を増幅して、該少なくとも2つのタグ化鋳型核酸分子の複数コピーを提供するステップ;
(d)該少なくとも2つのタグ化鋳型核酸分子の複数コピーの一部を単離し、該一部におけるタグ化鋳型核酸分子を断片化して、複数の断片化鋳型核酸分子を提供するステップ;
(e)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域を配列決定するステップ;
(f)該複数の断片化鋳型核酸分子を配列決定するステップ; 及び
(g)ステップ(f)において生成された配列の少なくともサブセットを含む配列から、該少なくとも2つの鋳型核酸分子の少なくとも1つについてのコンセンサス配列を再構築するステップ
を含む、方法が提供される。

本発明の第2の態様では、少なくとも1つの個々の標的鋳型核酸分子の配列を決定する方法であって、
(a)少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含むデータを得るステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含む、ステップ;
(b)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域の配列を含むデータを分析して、互いに相同である第1の分子タグ及び互いに相同である第2の分子タグを含む配列を同じクラスターに割り当てることによって、同じ個々の標的鋳型核酸分子に対応する可能性のある配列のクラスターを同定するステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を含むデータを得るステップであって、該断片のそれぞれは、該第1の分子タグ又は該第2の分子タグのいずれかを含む、ステップ;
(d)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を分析して、第1のクラスターの配列の第1の分子タグに相同である第1の分子タグ又は第1のクラスターの配列の第2の分子タグに相同である第2の分子タグを含む、該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を同定するステップ;
(e)ステップ(d)で同定された該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子の配列を再構築するステップ; 及び
(f)第2の及び/又はさらなる鋳型核酸分子に関してステップ(c)〜(e)を実施するステップ
を含む、方法が提供される。

本発明の第3の態様では、少なくとも1つの標的鋳型核酸分子の配列を決定する方法であって、
(a)配列のクラスターを含むデータを得るステップ、ここで:
(i)それぞれのクラスターは、少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含み、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、該少なくとも2つの標的鋳型核酸のそれぞれは、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含み;
(ii)それぞれのクラスターは、該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を含み、該断片のそれぞれは、該第1の分子タグ又は該第2の分子タグのいずれかを含み;
(iii)それぞれのクラスターにおける少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列は、互いに相同である第1の分子タグ及び第2の分子タグを含み;
(iv)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列は、そのクラスターにおける少なくとも2つ標的鋳型核酸分子の複数コピーの領域の配列の第1の分子タグに相同である第1の分子タグ、又はそのクラスターにおける該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列の第2の分子タグに相同である第2の分子タグを含む;
(b)第1のクラスターにおける該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の鋳型核酸分子の配列を再構築するステップ; 及び
(c)第2の及び/又はさらなる鋳型核酸分子に関してステップ(b)を実施するステップ
を含む、方法が提供される。

本発明の第4の態様では、少なくとも1つの個々の標的鋳型核酸分子の配列を生成する方法であって、
(a)少なくとも2つの鋳型核酸分子を含む核酸分子の少なくとも1つのサンプルを提供するステップ;
(b)該少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、該少なくとも2つの標的鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、固有の第1の分子タグ及び固有の第2の分子タグでタグ化される、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子を増幅して、該少なくとも2つのタグ化鋳型核酸分子の複数コピーを提供するステップ;
(d)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域を配列決定するステップ; 及び
(e)該少なくとも2つの標的鋳型核酸分子の少なくとも1つについてコンセンサス配列を再構築するステップ
を含み、ステップ(e)は、
(i)互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ標的鋳型核酸分子に対応する可能性のある該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列のクラスターを同定するステップ;
(ii)配列の少なくとも1つのクラスターを選択するステップであって、該選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく(commonly)関連している第1の分子タグ及び第2の分子タグを含む、ステップ;
(iii)ステップ(ii)で選択されたクラスターにおける少なくとも2つの鋳型核酸分子の配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子のコンセンサス配列を再構築するステップ; 及び
(iv)第2の及び/又はさらなる鋳型核酸分子に関してステップ(ii)〜(iii)を実施するステップ
を含む、方法が提供される。

本発明の第5の態様では、少なくとも1つの個々の標的鋳型核酸分子の配列を決定する方法であって、
(a)少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含むデータを得るステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含む、ステップ;
(b)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域の配列を含むデータを分析して、互いに相同である第1の分子タグ及び互いに相同である第2の分子タグを含む配列を同じクラスターに割り当てることによって、同じ鋳型核酸分子に対応する可能性のある配列のクラスターを同定するステップ;
(c)配列の少なくとも1つのクラスターを選択するステップであって、選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、ステップ;
(d)ステップ(c)で選択されたクラスターにおける分子の配列の少なくともサブセットを整列させ、これらの配列からコンセンサス配列を定義することによって、第1の鋳型核酸分子のコンセンサス配列を再構築するステップ; 及び
(e)第2の及び/又はさらなる鋳型核酸分子に関してステップ(c)〜(d)を実施するステップ
を含む、方法が提供される。

本発明の第6の態様では、少なくとも1つの標的鋳型核酸分子の配列を決定する方法であって、
(a)配列のクラスターを含むデータを得るステップ;
(b)選択されたクラスターにおける配列の少なくともサブセットの配列を整列させることによって、第1の鋳型核酸分子のコンセンサス配列を再構築するステップ;
を含み、選択されたクラスターにおける配列は、少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含み、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含み、選択されたクラスターにおけるそれぞれの配列は、
(i)そのクラスターにおける他の配列の第1の分子タグに相同である第1の分子タグ、及びそのクラスターにおける他の配列の第2の分子タグに相同である第2の分子タグを含み;
(ii)異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、方法が提供される。

本発明の第7の態様では、本発明の方法又は方法ステップを実施するために適合されたコンピュータプログラムであって、電子デバイス上で実行される、コンピュータプログラムが提供される。

本発明の第8の態様では、本発明のコンピュータプログラムを記憶している、コンピュータ可読媒体が提供される。

本発明の第9の態様では、
(i)第1の分子タグ若しくは第2の分子タグを含む部分と、少なくとも2つの鋳型核酸分子にハイブリダイズすることができる配列を有する部分とを含むプライマー;
(ii)本発明の方法をどのように実施するのかを記載した説明書
を含む、キットが提供される。

本発明の第10の態様では、
(i)第1の分子タグ若しくは第2の分子タグを含む部分と、少なくとも2つの鋳型核酸分子にハイブリダイズすることができる配列を有する部分とを含むプライマー;
(ii)本発明のコンピュータプログラムを記憶しているコンピュータ可読媒体
を含む、キットが提供される。
また本発明は以下の態様にも関する。
［１］少なくとも1つの個々の標的鋳型核酸分子の配列を生成する方法であって、
(a)少なくとも2つの標的鋳型核酸分子を含む核酸分子の少なくとも1つのサンプルを提供するステップ;
(b)該少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、該少なくとも2つの標的鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップであって、それぞれのタグ化鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化される、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子を増幅して、該少なくとも2つのタグ化鋳型核酸分子の複数コピーを提供するステップ;
(d)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域を配列決定するステップ; 及び
(e)該少なくとも2つの標的鋳型核酸分子の少なくとも1つについてコンセンサス配列を再構築するステップ
を含み、ステップ(e)は、
(i)互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ標的鋳型核酸分子に対応する可能性のある該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列のクラスターを同定するステップ;
(ii)配列の少なくとも1つのクラスターを選択するステップであって、該選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、ステップ;
(iii)ステップ(ii)で選択されたクラスターにおける少なくとも2つの鋳型核酸分子の配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子のコンセンサス配列を再構築するステップ; 及び
(iv)第2の及び/又はさらなる鋳型核酸分子に関してステップ(ii)〜(iii)を実施するステップ
を含む、方法。
［２］サイズが1Kbpを超える少なくとも1つの個々の標的鋳型核酸分子の配列を生成する方法であって、
(a)サイズが1Kbpを超える少なくとも2つの標的鋳型核酸分子を含む核酸分子の少なくとも1つのサンプルを提供するステップ;
(b)該少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、該少なくとも2つの標的鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、固有の第1の分子タグ及び固有の第2の分子タグでタグ化される、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子を増幅して、該少なくとも2つのタグ化鋳型核酸分子の複数コピーを提供するステップ;
(d)該少なくとも2つのタグ化鋳型核酸分子の複数コピーの一部を単離し、該一部における該タグ化鋳型核酸分子を断片化して、複数の断片化鋳型核酸分子を提供するステップ; (e)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域を配列決定するステップ;
(f)該複数の断片化鋳型核酸分子を配列決定するステップ; 及び
(g)ステップ(f)において生成された配列の少なくともサブセットを含む配列から、該少なくとも2つの標的鋳型核酸分子の少なくとも1つについてのコンセンサス配列を再構築するステップ
を含む、方法。
［３］前記複数の断片化鋳型分子を富化し、前記第1の分子タグ又は前記第2の分子タグを含む前記複数の断片化鋳型核酸分子の割合を増加させるステップをさらに含み、このステップは、ステップ(f)の前にある、上記［２］に記載の方法。
［４］ステップ(g)が、以下:
(i)互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ個々の標的鋳型核酸分子に対応する可能性のある前記少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列のクラスターを同定するステップ;
(ii)前記複数の断片化鋳型核酸分子の配列を分析して、第1のクラスターの配列の第1の分子タグに相同である第1の分子タグ又は第1のクラスターの配列の第2の分子タグに相同である第2の分子タグを含む、複数の断片化鋳型核酸分子の配列を同定するステップ;
(iii)ステップ(ii)で同定された複数の断片化鋳型核酸分子の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の鋳型核酸分子の配列を再構築するステップ; 及び
(iv)第2の及び/又はさらなる鋳型核酸分子に関してステップ(i)〜(iii)を実施するステップ
を含む、上記［２］又は［３］に記載の方法。
［５］少なくとも1つの個々の標的鋳型核酸分子の配列を決定する方法であって、以下のステップ:
(a)少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含むデータを得るステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含む、ステップ;
(b)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域の配列を含むデータを分析して、互いに相同である第1の分子タグ及び互いに相同である第2の分子タグを含む配列を同じクラスターに割り当てることによって、同じ個々の標的鋳型核酸分子に対応する可能性のある配列のクラスターを同定するステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を含むデータを得るステップであって、該断片のそれぞれは、該第1の分子タグ又は該第2の分子タグのいずれかを含む、ステップ;
(d)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を分析して、第1のクラスターの配列の第1の分子タグに相同である第1の分子タグ又は第1のクラスターの配列の第2の分子タグに相同である第2の分子タグを含む、該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を同定するステップ;
(e)ステップ(d)で同定された該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子の配列を再構築するステップ; 及び
(f)第2の及び/又はさらなる標的鋳型核酸分子に関してステップ(c)〜(e)を実施するステップ
を含む、方法。
［６］少なくとも1つの標的鋳型核酸分子の配列を決定する方法であって、以下のステップ:
(a)配列のクラスターを含むデータを得るステップ、ここで:
(i)それぞれのクラスターは、少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含み、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含み;
(ii)それぞれのクラスターは、該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を含み、該断片のそれぞれは、該第1の分子タグ又は該第2の分子タグのいずれかを含み;
(iii)それぞれのクラスターにおける少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列は、互いに相同である第1の分子タグ及び第2の分子タグを含み;
(iv)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列は、そのクラスターにおける少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列の第1の分子タグに相同である第1の分子タグ、又はそのクラスターにおける該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列の第2の分子タグに相同である第2の分子タグを含む;
(b)第1のクラスターにおける該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子の配列を再構築するステップ; 及び
(c)第2の及び/又はさらなる鋳型核酸分子に関してステップ(b)を実施するステップ
を含む、方法。
［７］ステップ(i)が、第1のクラスターの第1の分子タグ配列についてのコンセンサス配列及び第2の分子タグ配列についてのコンセンサス配列を決定することをさらに含み、ステップ(ii)が、該第1のクラスターの該第1の分子タグについての該コンセンサス配列又は該第2の分子タグについての該コンセンサス配列に相同である第1の分子タグ又は第2の分子タグを含む、複数の断片化鋳型核酸分子の配列を同定することを含む、上記［４］に記載の方法。
［８］ステップ(b)が、第1のクラスターの第1の分子タグ配列についてのコンセンサス配列及び第2の分子タグ配列についてのコンセンサス配列を決定することをさらに含み、ステップ(d)が、該第1のクラスターの該第1の分子タグについての該コンセンサス配列又は該第2の分子タグについての該コンセンサス配列に相同である第1の分子タグ又は第2の分子タグを含む、複数の断片化鋳型核酸分子の配列を同定することを含む、上記［５］に記載の方法。
［９］以下のステップ:
(v)互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ鋳型核酸分子に対応する可能性のある前記少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列のクラスターを同定するステップ;
(vi)配列の少なくとも1つのクラスターを選択するステップであって、選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含むステップ、
をさらに含み、前記第1の標的鋳型核酸分子の配列は、ステップ(vi)で選択されたクラスターにおける配列から再構築される、上記［２］〜［８］のいずれかに記載の方法。
［１０］ステップ(vi)が、前記少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列は、互いに相同である第1の分子タグを有する、ステップ、及び/又は前記少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列は、互いに相同である第2の分子タグを有する、ステップ、及び配列のクラスターの群からクラスターを選択するステップであって、選択されたクラスターは、最も大きい数の配列を含有する、ステップからなる、上記［９］に記載の方法。
［１１］少なくとも1つの個々の標的鋳型核酸分子の配列を決定する方法であって、以下のステップ:
(a)少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含むデータを得るステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含む、ステップ;
(b)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域の配列を含むデータを分析して、互いに相同である第1の分子タグ及び互いに相同である第2の分子タグを含む配列を同じクラスターに割り当てることによって、同じ鋳型核酸分子に対応する可能性のある配列のクラスターを同定するステップ;
(c)配列の少なくとも1つのクラスターを選択するステップであって、選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、ステップ;
(d)ステップ(c)で選択されたクラスターにおける分子の配列の少なくともサブセットを整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子のコンセンサス配列を再構築するステップ; 及び
(e)第2の及び/又はさらなる標的鋳型核酸分子に関してステップ(c)〜(d)を実施するステップ
を含む、方法。
［１２］前記少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列は、互いに相同である5'分子タグを有する、ステップ、及び/又は前記少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列は、互いに相同である3'分子タグを有する、ステップ、及び配列のクラスターの群からクラスターを選択するステップであって、選択されたクラスターは、最も大きい数の配列を含有する、ステップからなる、上記［１］(iv)の方法ステップ、又は上記［１１］(c)の方法ステップ。
［１３］少なくとも1つの標的鋳型核酸分子の配列を決定する方法であって、
(a)配列のクラスターを含むデータを得るステップ;
(b)選択されたクラスターにおける配列の少なくともサブセットの配列を整列させることによって、第1の鋳型核酸分子のコンセンサス配列を再構築するステップ;
を含み、選択されたクラスターにおける配列は、少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含み、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、該少なくとも2つの標的鋳型核酸分子のそれぞれは、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含み、
選択されたクラスターにおけるそれぞれの配列は、
(i)そのクラスターにおける他の配列の第1の分子タグに相同である第1の分子タグ、及びそのクラスターにおける他の配列の第2の分子タグに相同である第2の分子タグを含み; (ii)異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、方法。
［１４］同じクラスターの配列の第1の分子タグが、互いに少なくとも90％の配列同一性を有する、上記［４］〜［１３］のいずれかに記載の方法。
［１５］同じクラスターの配列の第2の分子タグが、互いに少なくとも90％の配列同一性を有する、上記［４］〜［１４］のいずれかに記載の方法。
［１６］ステップ(g)が、コンピュータによって実行される方法ステップである、上記［２］〜［４］のいずれかに記載の方法、又はステップ(e)が、コンピュータによって実行される方法ステップである、上記［１０］に記載の方法。
［１７］コンピュータによって実行される方法である、上記［４］又は［１０］に記載の方法。
［１８］前記領域が、前記第1の分子タグ又は前記第2の分子タグを含む25個を超える塩基対を含む、上記［１］〜［１７］のいずれかに記載の方法。
［１９］前記領域が、配列決定される前記少なくとも2つのタグ化鋳型核酸分子の全長を含む、上記［１］〜［１８］のいずれかに記載の方法。
［２０］ステップ(e)及び/又は(f)が、ブリッジPCRのステップを含む配列決定技術を用いて実施される、上記［２］〜［４］のいずれかに記載の方法、又はステップ(d)が、ブリッジPCRのステップを含む配列決定技術を用いて実施される、上記［１０］に記載の方法。
［２１］ブリッジPCRのステップが、15秒を超える伸長時間を用いて実施される、上記［２０］に記載の方法。
［２２］ステップ(e)及び(f)が、異なる配列決定ランで実施される、上記［２］〜［４］のいずれかに記載の方法。
［２３］前記第1の分子タグ及び前記第2の分子タグが、PCR、タグメンテーション(tagmentation)、及び前記少なくとも1つの鋳型核酸分子の物理的せん断若しくは制限消化とその後の5'分子タグ若しくは3'分子タグを含む核酸のライゲーションからなる群より選択される方法を用いて、前記少なくとも2つの鋳型核酸分子に導入される、上記［１］〜［２２］のいずれかに記載の方法。
［２４］前記第1の分子タグ及び前記第2の分子タグが、前記第1の分子タグ又は前記第2の分子タグを含む部分と、前記少なくとも2つの鋳型核酸分子にハイブリダイズすることができる配列を有する部分とを含むプライマーを用いたPCRによって、前記少なくとも2つの鋳型核酸分子に導入される、上記［２３］に記載の方法。
［２５］前記少なくとも2つの鋳型核酸分子が、微生物リボソーム16Sをコードする、上記［１］〜［２４］のいずれかに記載の方法。
［２６］前記少なくとも2つの鋳型核酸分子の少なくとも1つが、10Kbp未満のサイズである、上記［１］〜［２５］のいずれかに記載の方法。
［２７］上記［５］、［６］、［１１］若しくは［１３］に記載の方法、上記［２］の方法ステップ(g)、又は上記［１］の方法ステップ(e)を実施するために適合されたコンピュータプログラムであって、電子デバイス上で実行される、コンピュータプログラム。
［２８］上記［２３］に記載のコンピュータプログラムを記憶している、コンピュータ可読媒体。
［２９］ (i)第1の分子タグ若しくは第2の分子タグを含む部分と、少なくとも2つの鋳型核酸分子にハイブリダイズすることができる配列を有する部分とを含むプライマー;
(ii)上記［１］〜［２６］のいずれかに記載の方法をどのように実施するのかを記載した説明書
を含む、キット。
［３０］ (i)第1の分子タグ若しくは第2の分子タグを含む部分と、少なくとも2つの鋳型核酸分子にハイブリダイズすることができる配列を有する部分とを含むプライマー;
(ii)上記［２８］に記載の、コンピュータプログラムを記憶しているコンピュータ可読媒体
を含む、キット。

全長16S rRNA鋳型を配列決定するために、単一のMiSeq nanoランからのリードを処理するために使用される、完全自動化計算ワークフロー。全長鋳型及び「フィルイン(fill-in)」断片の両方を含有する分子のプールを、機器で配列決定し、示されたステップを用いてコンピュータ処理した。 16S遺伝子増幅及び配列決定に使用されるプライマーの配列の説明。図2aの続きである。図2bの続きである。図2cの続きである。組換え型を産生する前駆体分子の存在量(右)とともに、推定上の組換え体として同定されたバーコードクラスターの存在量(左欄)。親鋳型は、推定上の組換え型よりも平均して28〜35倍豊富である。アセンブルされた16S配列の長さ分布を示すグラフ。長い配列及び短い配列を使用するOTUの門レベルの分類学的割り当てを比較するグラフ。透明なバーは、ショートシーケンシング法の全12サンプルにわたる平均値を表す。黒いバーは、「ロング」法の全12サンプルにわたる平均値を表す。灰色のバーは、「ロング」シーケンシング法からアセンブルされたV4領域からの全12サンプルにわたる平均値を表す。長い配列及び短い配列を使用するOTUの属レベルの分類学的割り当てを比較するグラフ。透明なバーは、ショートシーケンシング法の全12サンプルにわたる平均値を表す。黒いバーは、「ロング」法の全12サンプルにわたる平均値を表す。灰色のバーは、ロングシーケンシング法からアセンブルされたV4領域からの全12サンプルにわたる平均値を表す。観察されたランダムバーコードの数、対、配列決定された鋳型分子の数を示す累積曲線。50倍及び100倍希釈物は、イルミナMiSeqでのフィルイン(fill-in)配列決定による全長鋳型分子の再構築を可能にするために、鋳型において適切なレベルの重複性を有すると予測された。一番上の線は1/10希釈を表し、上から2番目の線は1/50希釈を表す。上から3番目の線は、1/100希釈を表す。上から4番目の線は、1/500希釈を表し、一番下の線は、1/1000希釈を表す。本発明の方法を示すフローチャート。本発明の方法を示すフローチャート。本発明の方法を示すフローチャート。本発明の方法を示すフローチャート。

少なくとも1つの個々の標的鋳型核酸分子の配列の生成又は決定
本方法は、少なくとも1つの個々の標的鋳型核酸分子の配列を生成又は決定する方法を提供する。

用語「標的鋳型核酸分子」は、本方法の操作者が配列決定しようとする核酸分子を指す。「鋳型核酸分子」は、染色体などのより大きな核酸分子の部分を含み得る。「鋳型核酸分子」は、遺伝子、複数遺伝子又は遺伝子の断片を含み得る。「鋳型核酸分子」は、鋳型核酸分子にハイブリダイズすることができるプライマーを用いて単離することができる。

核酸分子のサンプル中に少なくとも2つの標的鋳型核酸分子が存在する。16S配列決定の場合、少なくとも2つの標的鋳型核酸分子は、それぞれが異なる16S rRNAをコードする複数の分子を含むことができる。例えば、少なくとも2つの標的鋳型核酸分子は、異なる細菌に由来する16S rRNAをコードする核酸、同じ細菌に由来する16s rRNAの異なる分子をコードする核酸、又はその両方を含むことができる。あるいは、少なくとも2つの標的鋳型核酸分子は、同じ遺伝子の複数コピーを含み得る。「標的鋳型核酸分子」は、16s rRNAの断片を含み得るが、断片は少なくとも1Kbpの長さであることが好ましい。これは、本発明者らが、16S配列決定を系統発生研究のために使用する場合、配列決定される16s rRNAの鎖が長いほど、得ることができる分類学的分解能のレベルが高いことを実証したからである。

本発明の一実施形態では、少なくとも1つの標的鋳型核酸分子は、1Kbpを超える、1.2Kbpを超える、1.3Kbpを超える、又は1.5Kbpを超えるサイズである。本発明のさらなる実施形態では、少なくとも1つの標的鋳型核酸分子は、100Kbp未満、50Kbp未満、25Kbp未満、15Kbp未満、10Kbp未満、5Kbp未満、3Kbp未満又は2Kbp未満のサイズである。

本発明のさらなる実施形態では、この方法は、少なくとも1つの標的鋳型核酸分子の配列を生成するためのハイスループット法である。

核酸の少なくとも1つのサンプルの提供
本発明のいくつかの態様は、少なくとも2つの標的鋳型核酸分子を含む核酸の少なくとも1つのサンプルを提供するステップを必要とする。場合により、少なくとも2つの標的鋳型核酸分子は、1Kbpを超えるサイズである。

一般に、用語「〜を含む」は、限定するものではないが、例えば「以下のステップを含む」という語句が、方法がこれらのステップを含むが付加的なステップを実行してもよいことを示すことを意味することが意図される。本発明のいくつかの実施形態では、「〜を含む」という単語は、「〜からなる」という単語で置き換えることができる。用語「〜からなる」は、例えば方法が「以下のステップからなる」場合、方法がそれらのステップを含み他のステップを含まないことを限定することが意図される。

サンプルは、核酸の任意のサンプルであってよい。核酸サンプルは、ヒト由来の核酸サンプル、例えば、ヒト患者の皮膚スワブから抽出されたサンプルであってもよい。あるいは、核酸サンプルは、水供給に由来するサンプルなど、他の供給源に由来するものであってよい。そのようなサンプルは、数十億の鋳型核酸分子を含有することができる。これらの数十億の鋳型核酸分子のそれぞれを、本発明の方法を用いて同時に配列決定することが可能であり、したがって、本発明の方法において使用され得る鋳型核酸分子には上限がない。

本発明のさらなる実施形態では、この方法は、複数の核酸サンプル、例えば2、3、4、5、6、7、8、9、10、11、15、20、25、50、75又は100個のサンプルを提供するステップを含む。場合により、100、75、50、25、20、15、11、10、9、8、7、6、5又は4個未満の核酸サンプルが提供される。さらなる実施形態では、2〜100、2〜75、2〜50、2〜25、5〜15又は7〜15個のサンプルが提供される。

第1の分子タグ及び第2の分子タグの導入、並びに少なくとも2つのタグ化鋳型核酸分子の増幅
本発明の方法のいくつかは、少なくとも2つの鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、少なくとも2つの鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップを含む。本発明の方法のいくつかは、少なくとも2つのタグ化鋳型核酸分子を増幅して、少なくとも2つの鋳型核酸分子の複数コピーを提供するステップを含む。

サンプル中の鋳型核酸分子が配列決定されることを可能にするために、鋳型核酸分子は、場合によりPCRによって増幅され、それぞれの鋳型核酸分子の複数コピーを提供するべきである(すなわち、鋳型核酸分子が配列決定反応のために十分な濃度であることを確実にするため)。一実施形態では、増幅は、ポリメラーゼ連鎖反応(PCR)によって行われる。増幅ステップはまた、標的鋳型核酸分子がサンプル中の他の核酸に対して富化されることを確実にする。増幅ステップは、標的鋳型核酸分子にハイブリダイズするプライマーを使用し、こうして、標的鋳型核酸のみを増幅し、サンプル中の他の核酸に対して標的鋳型核酸分子の濃度を増加させる(富化)。しかし、サンプルは一般に複数の標的鋳型核酸分子を含有するため、この増幅ステップは、複数の標的鋳型核酸分子を増幅し得る。例えば、16S配列決定では、サンプルは、複数の細菌に由来する16S DNA鋳型を含有することができ、増幅ステップで使用されるプライマーは、これらの16S遺伝子配列の全てにハイブリダイズすることができ、こうして、これらのDNA鋳型の全てが増幅される。これは、縮重プライマーを使用することによって達成することができ、この縮重プライマーは、配列がわずかに異なり得るため、縮重プライマーの群は、類似しているが同一ではない標的鋳型核酸配列にハイブリダイズすることができる(又は相補的である)。

配列決定ステップで生成された配列のうちのどれが同じ元の鋳型核酸分子に由来するかを決定することができることは有利である。したがって、用語「タグ化鋳型核酸分子」は、「標的鋳型核酸分子」及び各末端にタグを含む分子を指す。これにより、元の鋳型核酸のそれぞれの分子についてのコンセンサス配列を決定することが可能になる。これは、元の鋳型核酸分子のそれぞれの両端(5'及び3'末端)に分子タグを付加して(Lundberg et al; Nature Methods 10: 999-1002)、タグ化鋳型核酸分子を生成することによって達成することができる。第1及び/又は第2の分子タグは、それらが鋳型DNA分子の末端ヌクレオチド(配列中の最初又は最後のヌクレオチド)に配列において近接している限り、鋳型DNA分子の末端に導入されていると考えられる。一実施形態では、末端ヌクレオチドと第1の分子タグとの間に50、40、30、25、20、15、10又は5個未満のヌクレオチドが存在する。さらなる実施形態では、末端ヌクレオチドと第2の分子タグとの間に50、40、30、25、20、15、10又は5個未満のヌクレオチドが存在する。

本発明の方法は、第1の分子タグ及び第2の分子タグが固有であることを必要とする。この場合、用語「固有である」とは、塩基対のランダム配列を含む分子タグを指し、十分なランダムヌクレオチド配列が存在すると仮定して、使用されるそれぞれの第1の分子タグ及びそれぞれの第2の分子タグは、生成される全ての他のタグとは異なる配列を有する。しかし、いくつかの実施形態では、同一のタグ配列が2回以上出現してもよく、この実施形態では、第1の分子タグ及び第2の分子タグは、依然として「固有である」であると考えられる。さらなる実施形態では、それぞれの第1の分子タグ及びそれぞれの第2の分子タグは、他の全ての第1の分子タグ及び第2の分子タグのヌクレオチド配列とは異なるヌクレオチド配列を含む。さらなる実施形態では、第1の分子タグ及び第2の分子タグの少なくとも90％は、他の全ての第1の分子タグ及び第2の分子タグのヌクレオチド配列とは異なるヌクレオチド配列を含む。これは、第1及び第2の固有の分子タグの同じ対を共有する核酸分子の配列が、同じ元の鋳型核酸分子に由来している可能性があることを意味する(誕生日パラドックス)。さらに、標的鋳型核酸分子に結合した第1の分子タグ又は第2の分子タグのいずれかを含む核酸の断片の配列はまた、その標的鋳型DNA分子に由来している可能性がある。2つの固有の分子タグの使用はまた、本発明の方法の間に組換えによって生成される配列が、同定され、無視されることを可能にする。

第1の分子タグ及び第2の分子タグ配列はまた、標的鋳型核酸配列に由来するいくつかのヌクレオチド、例えば、標的鋳型核酸分子配列の50、40、35、30、25、20、15又は10塩基対未満を含み得る。

一実施形態では、第1の分子タグ及び第2の分子タグは、5bpを超える、6bpを超える又は7bpを超えるサイズである。さらなる実施形態では、第1の分子タグ及び第2の分子タグは、20bp未満、18bp未満、15bp未満、又は10bp未満のサイズである。

そのような固有の分子タグは、PCR、タグメンテーション(tagmentation)、及びその後のアダプターライゲーション(場合によっては粘着末端ライゲーション)と組み合わせた標的核酸の物理的せん断若しくは制限消化を含む、様々な技術を用いて導入され得る。例えば、PCRは、少なくとも2つの標的鋳型核酸分子にハイブリダイズすることができる(場合により相補的である)プライマーの第1セットを用いて、該少なくとも2つの標的鋳型核酸分子に対して実施され得る。本発明の一実施形態では、第1の分子タグ及び第2の分子タグは、第1の分子タグ又は第2の分子タグを含む部分(5'末端部分)と、少なくとも2つの標的鋳型核酸分子にハイブリダイズすることができる(場合により相補的である)配列を有する部分(3'末端部分)とを含むプライマーを用いたPCRによって、少なくとも2つの鋳型核酸分子のそれぞれに導入される。そのようなプライマーは、標的鋳型核酸分子にハイブリダイズし、次いで、PCRプライマー伸長は、第1の分子タグ又は第2の分子タグのいずれかを含む核酸分子を提供する。これらのプライマーを用いたPCRのさらなるラウンドは、一端に第1の分子タグ及び他端に第2の分子タグを含むタグ化鋳型核酸分子を提供する。さらなる実施形態では、プライマーは縮重しており、すなわち、プライマーの3'末端部分は類似しているが互いに同一ではない。例えば、本発明の方法が16Sリボソーム配列決定のために使用される場合、プライマーの3'末端部分はプライマー毎にわずかに変化し得るが、各3'末端部分は少なくとも1つの生物における16S配列に相補的である。これにより、起源が未知である16S配列の配列決定が可能となり、したがって、その起源(例えば、それが由来する細菌)に関係なく、任意の16S rRNA配列の配列決定が可能となる。次いで、このような配列は、系統発生研究で使用することができる。少なくとも2つの標的鋳型核酸分子が16S rRNA遺伝子である実施形態では、適切なプライマーは、27F(Weisberg et al, J Bacteriol. 1991 Jan; 173(2): 697-703)又は1391R(Turner et al, 1999)細菌プライマー配列を含む3'末端部分を有し得る。

本発明の別の実施形態では、第1の分子タグ及び第2の分子タグは、タグメンテーションを使用して導入され得る。第1の分子タグ及び第2の分子タグがタグメンテーションを使用して導入される実施形態では、直接タグメンテーションを用いて、又はタグメンテーションによる規定の配列の導入に続く、該規定の配列にハイブリダイズすることができる部分と、第1の分子タグ若しくは第2の分子タグを含む部分とを含むプライマーを用いた2ラウンドのPCRによって、それらを導入することができる。本発明のさらなる実施形態では、第1の分子タグ及び第2の分子タグは、元の核酸の制限消化に続く、第1又は第2の分子タグを含む核酸のライゲーションによって、導入することができる。消化が、配列決定される領域を含む分子(少なくとも1つの標的鋳型核酸分子)を生じるように、元の核酸の制限消化を実施すべきである。

第1の分子タグ及び第2の分子タグが、PCRによって少なくとも2つの標的鋳型核酸分子に導入される実施形態では、使用されるプライマーは、一定の「スタブ(stub)配列」を含むさらなる部分を含み得る。この一定のスタブ配列は、好ましくは、固有の分子タグの5'である。この実施形態では、提供されるタグ化鋳型核酸分子は、スタブ配列をさらに含む。

核酸の複数サンプルが提供される実施形態では、この方法は、各サンプル中の標的鋳型核酸分子の末端の1つにサンプルバーコードを導入するさらなるステップを含む。このさらなるステップは、本発明の方法において、少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、他端に第2の分子タグを導入するステップの前又は最中に生じる。これらのサンプルバーコードは、第1の分子タグ及び第2の分子タグを導入するのと同様の方法で導入することができ、例えば、使用されるプライマーが少なくとも2つの標的鋳型核酸分子にハイブリダイズし(又は相補的であり)、かつサンプルバーコードを含む部分(場合により3'部分)を含む、PCRのラウンドを、それぞれのサンプルに対して別々に行ってもよい。場合により、第1の分子タグ及び第2の分子タグがPCRによって少なくとも2つの鋳型核酸分子に導入される実施形態では、タグを導入するために使用されるプライマーは、サンプル特異的バーコードを含むさらなる部分を含み得る。この実施形態では、PCRの第1ラウンドが、核酸の各サンプルに対して別々に実施される。PCRの第1ラウンドは、第1の分子タグ若しくは第2の分子タグ、サンプル中の全ての核酸鋳型分子について同一であるサンプル特異的バーコード、鋳型核酸分子にハイブリダイズする領域、及び場合によりスタブ領域を含むプライマーを使用し得る。次いで、核酸のサンプルはプールされ、サンプル特異的バーコードを含まないプライマー(場合により、「スタブ」領域にハイブリダイズすることができるか又は相補的である)を用いるPCRのさらなるラウンドに供し得る。場合により、第2のサンプル特異的バーコードを含むプライマーを使用してPCRの第2ラウンドが実施され、この実施形態では、核酸のサンプルは、PCRの第2ラウンド後までプールされない。

少なくとも2つのタグ化鋳型核酸を増幅するステップは、プライマー伸長が、タグ化鋳型核酸分子の複数コピーをもたらし、第1の分子タグ及び第2の分子タグを維持するように、タグ化鋳型核酸分子の末端とハイブリダイズすることができるプライマーの第2のセットを用いたPCRを含み得る。プライマーの第1のセットがスタブ配列を含む実施形態では、プライマーの第2のセットは、タグ化鋳型核酸分子のスタブ配列にハイブリダイズすることができる領域を含み得る。

増幅された鋳型核酸分子の一部の単離、及び該一部における増幅された鋳型核酸分子の断片化
この方法は、増幅された鋳型核酸分子の一部を単離し、該一部における増幅された鋳型核酸分子を断片化して、複数の断片化鋳型核酸分子を提供するステップを含み得る。

用語「断片」は、核酸分子の短いセグメント、すなわち「完全長」配列の一部を形成するヌクレオチドのストリングを指す。本発明による断片は、少なくとも10、15、20、50、100、200、250又は500塩基対の長さである。場合により、本発明による断片は、2500、2200、2000又は1500塩基対未満の長さである。

断片化は、任意の適切な方法を用いて行うことができる。例えば、断片化は、制限消化を用いて、又はタグ化鋳型核酸分子の少なくとも1つの内部領域に相補的なプライマーを用いたPCRを用いて行うことができる。好ましくは、断片化は、任意の断片を生成する方法を用いて行われる。用語「任意の断片」は、ランダムに生成された断片、例えばタグメンテーションによって生成された断片を指す。制限酵素を用いて生成される断片は、「任意」ではない。制限消化が、使用される制限酵素によって規定される特定のDNA配列において起こるためである。さらにより好ましくは、断片化は、タグメンテーションによって行われる。断片化がタグメンテーションによって行われる場合、タグメンテーション反応は、場合により、断片化された鋳型核酸分子にアダプター領域を導入する。このアダプター領域は、例えば、断片化された鋳型核酸分子が、イルミナMiSeq技術を用いて配列決定されることを可能にする、アダプターをコードし得る短いDNA配列である。

典型的な実施形態では、このステップは、複数の断片化鋳型分子を富化し、第1の分子タグ又は第2の分子タグを含む複数の断片化鋳型核酸分子の割合を増加させるさらなるステップを含み得る。この好ましい実施形態では、複数の断片化鋳型核酸分子を富化するステップは、好ましくは、PCRによって行われる。好ましくは、PCRは、第1若しくは第2の分子タグのいずれかにハイブリダイズすることができる(場合により相補的である)プライマーと、少なくとも2つのタグ化鋳型核酸分子の内部領域にハイブリダイズすることができる(場合により相補的な)プライマーとを用いて実施される。このようなPCRステップは、第1の分子タグ又は第2の分子タグを含む断片の濃度を増加させる。

断片化がタグメンテーションによって行われ、そしてタグメンテーションが断片化された鋳型核酸分子にアダプター領域を導入する実施形態では、富化は、第1若しくは第2の分子タグのいずれかにハイブリダイズすることができる(場合により相補的な)プライマーと、アダプター配列にハイブリダイズすることができる(場合により相補的な)プライマーとを用いたPCRによって行われ得る。

少なくとも2つのタグ化鋳型核酸分子の領域の配列決定、及び/又は複数の断片化鋳型核酸分子の配列決定
一般に、配列決定ステップは、任意の配列決定法を用いて実施することができる。可能な配列決定法の例としては、マキサム・ギルバート配列決定(Maxam Gilbert Sequencing)、サンガー配列決定(Sanger Sequencing)、又はブリッジPCRを含む配列決定が挙げられる。典型的な実施形態では、配列決定ステップは、ブリッジPCRを含み、場合により、ブリッジPCRステップは、5、10、15又は20秒超の伸長時間を用いて行われる。ブリッジPCRの使用例は、イルミナゲノムアナライザーシーケンサー(Illumina Genome Analyzer Sequencer)におけるものである。

本発明の方法は、少なくとも2つのタグ化鋳型核酸分子の領域を配列決定するステップを含み得る。上記のように、本発明の方法は、第1及び第2の分子タグが少なくとも2つの標的鋳型核酸分子に導入され、少なくとも2つの鋳型核酸分子のそれぞれが固有のタグでタグ化されることを必要とする。タグ化された少なくとも2つの鋳型核酸分子のそれぞれが固有のタグを含むため、増幅ステップ後に少なくとも2つの鋳型核酸分子の複数コピーが生成されるが、どの配列がどの個々の標的鋳型核酸分子に対応するかを理解することが可能である。これを達成するために、操作者は、それぞれの元の標的鋳型核酸分子と関連している第1及び第2の固有の分子タグの配列を決定できなければならない。これは、少なくとも2つのタグ化鋳型核酸分子の領域を配列決定することによって達成され、ここで該領域は第1の分子タグ及び第2の分子タグを含む。このステップは、少なくとも2つのタグ化鋳型核酸分子の全長を配列決定することを含んでもよく、又は典型的には、少なくとも2つのタグ化鋳型核酸分子の末端のみを配列決定することを含む。

本発明の方法は、複数の断片化された鋳型核酸分子を配列決定するステップを含んでもよい。この方法が、複数の断片化された鋳型核酸分子を配列決定するステップを含む実施形態では、これは、少なくとも2つのタグ化鋳型核酸分子が配列決定される配列決定ランと同じ配列決定ランで行うことができる。一方、複数の断片化された鋳型核酸分子を、少なくとも2つのタグ化鋳型核酸分子とは別の配列決定ランで配列決定することは、より効率的かつ正確であり得る。

少なくとも2つの鋳型核酸分子の少なくとも1つについてのコンセンサス配列の再構築
本発明の方法は、少なくとも2つの鋳型核酸分子の少なくとも1つについてのコンセンサス配列を再構築するステップを含み得る。

場合により、コンセンサス配列を再構築するステップは、互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ鋳型核酸分子に対応する可能性のある、少なくとも2つのタグ化鋳型核酸分子の複数コピーの配列のクラスターを同定するステップを含む(例えば、ステップS2)。本発明の目的のために、「互いに相同である」という語句は、2つの配列が、最も長い配列の全長にわたり、互いに75％、80％、85％、90％、95％、98％、99％を超える又は100％の配列同一性を有することを必要とする。例えば、配列が10bpの分子タグを含む場合、タグが1つの塩基対のみで異なる場合に、2つの分子タグは互いに90％同一である。この差異は、塩基対の置換又は欠失であり得る。これは、分子タグの配列を整列させ、それらを「uclust」アルゴリズム又はCD-HITなどの任意の類似配列クラスタリングアルゴリズムを用いて比較することによって、決定することができる。

場合により、コンセンサス配列を再構築するステップは、少なくとも2つのタグ化鋳型核酸分子及び/又は複数の断片化鋳型核酸分子の配列を分析して、第1のクラスターの配列の第1の分子タグ又は第2の分子タグに相同である第1の分子タグ又は第2の分子タグを含む、少なくとも2つのタグ化鋳型核酸分子及び/又は複数の断片化鋳型核酸分子の配列を同定するステップを含む(例えば、ステップS4又はS7)。これは、クラスターの第1の分子タグ配列及び第2の分子タグ配列についてのコンセンサス配列を決定するステップを含み得る。上記のように、第1の分子タグ配列及び第2の分子タグ配列が互いに相同である場合、配列は同じクラスターに割り当てられる。第1の分子タグ及び第2の分子タグ配列は、本発明の方法の間に導入された配列のエラーのために、配列が同じ個々の標的鋳型核酸分子に由来した場合でさえ、互いにわずかに異なっていてもよい。したがって、これらの相同な第1の分子タグ及び第2の分子タグ配列からのコンセンサス配列を定義することができる。このコンセンサス配列は、タグの配列を表す可能性が高い。それが標的鋳型核酸分子に導入されたためである。クラスターについての第1の分子タグ及び第2の分子タグについてのコンセンサス配列が定義されると、これらのコンセンサス配列の1つと相同である第1の分子タグ又は第2の分子タグを含む複数の断片化された鋳型核酸分子の配列が同定され得る。これは、特定の元の鋳型核酸分子に対応する複数の断片化された鋳型核酸分子の同定においてより高い精度を提供する。

上記のように、それぞれのタグ化鋳型核酸分子は、第1の分子タグ及び第2の分子タグを含む。これらのタグ化鋳型核酸分子はコピーされ、コピーは断片化される。それぞれの断片は、個々の標的鋳型核酸分子の一部と同じ配列を有し(PCR増幅ステップの間の複製における何らかのエラーの可能性にもかかわらず)、したがって、元の個々の標的鋳型核酸分子の一部に「対応する」とみなすことができる。これらの断片の一部は、第1の分子タグ又は第2の分子タグを含む。したがって、配列決定されると、断片がどの個々の標的鋳型核酸分子に対応するのかを同定することができる。

場合により、コンセンサス配列を再構築するステップは、第1のクラスターの配列の第1の分子タグ又は第2の分子タグに相同である第1の分子タグ又は第2の分子タグを含むものとして同定された複数の断片化された鋳型核酸分子の配列の少なくともサブセットを整列させ、これらの配列からコンセンサス配列を定義することによって、第1の鋳型核酸分子の配列を再構築するステップを含む(例えば、ステップS4、S6又はS7)。

上記のように、それぞれの断片に関連している第1の分子タグ又は第2の分子タグの性質により、操作者が、断片がどの元の鋳型核酸分子に対応するのかを決定することが可能となる。同じ元の鋳型核酸分子に対応する、生成された複数の断片が存在する。これらの断片のそれぞれ1つの配列は、鋳型核酸分子の異なる(潜在的に重複する)領域に対応する。鋳型の配列は、これらの断片を整列させ、整列した断片からコンセンサス配列を算出することによって、再構築され得る。用語「整列させる」は、共通配列を共有する配列の領域を整列させるように、断片の配列を配置することを指す。これは、Clustal W2、IDBA-UD又はSOAPdenovoなどのソフトウェアを使用して実行され得る。配列が整列されると、コンセンサス配列が決定され得る。上記のように、配列決定反応の間に、突然変異が配列に導入され得るが、これらの突然変異した配列は、正確な配列より低い濃度にある。この理由のために、「コンセンサス配列」が定義される。用語「コンセンサス配列」は、本発明の文脈において、少なくとも1つの鋳型核酸分子に対応する全ての断片の配列を考慮した場合、少なくとも1つの個々の標的鋳型核酸分子について最も起こり得る配列を指すとみなすことができる。

一実施形態では、第1のクラスターの配列の第1の分子タグ又は第2の分子タグに相同な第1の分子タグ又は第2の分子タグを含むと同定された、複数の断片化された鋳型核酸分子の配列のそれぞれは、整列され、コンセンサス配列を定義するために使用される(定義されたコンセンサス配列は、第1の分子タグ又は第2の分子タグを含まない)。さらなる実施形態では、同定された複数の断片化された鋳型核酸分子配列の全てではないが少なくともサブセットが、整列され、コンセンサス配列を定義するために使用される。さらなる実施形態では、同定された複数の断片化された鋳型核酸分子配列の90％、92％、95％、98％、99％又は100％が整列され、コンセンサス配列を定義するために使用される。さらなる実施形態では、全長の少なくとも1つのタグ化鋳型核酸分子の配列もアライメントに含まれ、コンセンサス配列を定義するために使用される。

場合により、本発明の方法は、第2の又はさらなる鋳型核酸分子についてのコンセンサス配列を再構築するために必要なステップを行うことを含む。一般に、これは、互いに相同である第1の分子タグ及び互いに相同である第2の分子タグを有する配列の第2のクラスターについてのステップを繰り返すことを含む。

場合により、標的鋳型核酸分子の少なくとも1つについてのコンセンサス配列を再構築するこれらのステップは、コンピュータによって行われる。本発明のさらなる態様では、コンピュータ可読媒体に場合により記憶された、標的鋳型核酸分子の少なくとも1つについてのコンセンサス配列を再構築するこれらのステップを実行することができるコンピュータプログラムが提供される。

組換え産物の配列の無視
本発明の1つの態様において、配列の少なくとも1つのクラスターを選択することを含むか又はさらに含む、配列を生成する方法が提供され、ここで、選択されたクラスター内の配列は、第1の分子及び第2の分子タグを含み、これらは、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく(例えば、少なくとも2倍、少なくとも5倍、少なくとも8倍又は少なくとも10倍よりよく)関連している。

場合により、少なくとも1つのクラスターを選択するこのステップは、少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列が、互いに相同である第1の分子タグを有する、ステップ、又は、少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列は、互いに相同である第2の分子タグを有する、ステップからなる。そのような方法は、配列のクラスターの群からクラスターを選択するステップをさらに含んでよく、ここで、選択されたクラスターは最も大きい数の配列を含有し、第1の鋳型核酸分子の配列は、選択されたクラスターにおける配列から再構築される。これにより、組換え産物の検出が可能となる。そのような組換えは、元の鋳型核酸分子の一部に対応する配列と、生成された異なる元の鋳型核酸分子の一部に対応する配列とを含む核酸分子をもたらすことができる。しかし、このような組換え産物は、第1及び第2の固有の分子タグが鋳型核酸分子に導入された場合に検出され得る。組換え事象が生じる場合、固有の分子タグの対は、元のタグ化鋳型核酸分子のいずれかにおける固有の分子タグの対のいずれとも同じではない。これは、全ての配列が同じ第1の分子タグ又は第2の分子タグを含む場合には、配列の単一のクラスターが同定されると予想し得るが、少量の組換えが起こった場合、同じ第1の分子タグを有し、この第1の分子タグを少なくとも2つの異なる第2の分子タグと対にする2つ以上のクラスターが存在し得ることを意味する。しかし、これらのクラスターは、元の鋳型核酸分子と同じ第1の分子及び第2の分子タグの対を有するクラスターよりも少ない配列を含有する。元の鋳型核酸よりも少数の組換え産物コピーが存在する傾向があるためである。

実際に、本発明の方法を用いて、組換えが起こっている割合(又は配列決定プロセスで生成される組換え体の数)を決定することが可能である。例えば、互いに最もよく関連している第1の分子タグ及び第2の分子タグを有する配列を含むクラスターを同定することができる。同じ第1の分子タグを有するが異なる第2の分子タグを有する、又は同じ第2の分子タグを有するが異なる第1の分子タグを有する配列を含む他のクラスターは、おそらく組換え事象の結果であり、これらのクラスターは組換え産物クラスターと呼ばれ得る。これらの組換え産物クラスターにおける配列の数は定量され得る。配列の総数と比較した(組換えの結果である)これらの配列の割合が計算され得る。

本発明の方法は、
(a)少なくとも2つの標的鋳型核酸分子を含む核酸分子の少なくとも1つのサンプルを提供するステップ;
(b)該少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、該少なくとも2つの標的鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップであって、それぞれのタグ化鋳型核酸分子は固有の第1の分子タグ及び固有の第2の分子タグでタグ化される、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子を増幅して、該少なくとも2つのタグ化鋳型核酸分子の複数コピーを提供するステップ;
(d)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域を配列決定するステップ; 及び
(e)組換え事象の産物である配列を同定及び無視するステップ
を含み得る。

ステップ(e)は、互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ鋳型核酸分子に対応する可能性のある少なくとも2つのタグ化鋳型核酸分子の複数コピーの配列のクラスターを同定するステップを含み得る。ステップ(e)は、配列のクラスターを選択することをさらに含んでよく、ここで、選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む。ステップ(e)は、これらの選択されたクラスターの1つの中に存在しない任意の配列を無視することをさらに含み得る。

場合により、そのような方法は、選択されたクラスターの1つからコンセンサス配列を決定するステップをさらに含む。この方法はまた、組換えが起こる割合、又は組換え事象の結果であるDNAの総量のパーセンテージを決定するステップ(f)を含み得る。このようなステップ(f)を実施するためには、存在する配列の総数、及び無視された配列の数を決定すべきである。組換え事象の結果である総DNAのパーセンテージは、無視された配列の数/配列の総数×100に等しい。コンセンサス配列を生成する場合、クラスターについての推定組換え率は、大部分のコンセンサスとは異なるリードを除去するために適用され、ここで、異なる配列は組換え体断片について予想される割合で生じる。典型的には、以下の頻度のうちの1つで生じる配列は、無視され得る: 30％未満、20％未満、15％未満、12％未満又は11％未満。クラスターについての推定組換え率は、配列の品質基準として報告され得る。

少なくとも1つの鋳型核酸分子の配列を決定する方法
本発明はさらに、少なくとも2つの鋳型核酸分子の配列を決定する方法を提供する。

このような方法では、データが取得/入力され(S1、S3又はS5)、例えば、少なくとも2つの鋳型核酸分子の配列を含むデータ、及び/又は第1の分子タグ及び第2の分子タグを含む少なくとも2つの鋳型核酸分子の領域の配列を含むデータを、上記の方法ステップを使用して得ることができる。

特定の実施形態では、この方法はコンピュータによって実施される。さらなる態様では、プログラムが電子デバイス上で実行される場合、本発明の方法を実施するために適合されたコンピュータプログラムが提供される。さらなる態様では、本発明のコンピュータプログラムを記憶しているコンピュータ可読媒体が提供される。

上述したように、図8〜11に示す方法を含む、本明細書で論じた方法の態様は、コンピュータによって実施することができる。個々のコンピュータは、CPU、RAM、記憶デバイスなどの標準的なハードウェア要素を含むことができることはよく知られている。複数のコンピュータが一緒に接続され、共同でコンピュータタスクを実行するように協同できることもよく知られている(分散処理システムとして)。したがって、コンピュータによって実施される方法への言及は、独立して記載されたステップの1つ以上又は分散処理システムを実行することができるデータ処理システム(コンピュータ)を使用する方法を含むことが意図されるが、これに限定されないことを理解されたい。インターネット接続を介してクラウドコンピューティングシステムと連携するデスクトップPCは、分散処理システムの一例である。例えば、図8を参照すると、ステップS1及びS3で入力されるデータは、クラウドコンピューティングシステムにおける中央サーバに記憶され(これはクラウドストレージシステムと称され得る)、分析ステップS2、S4及びS5を実行するように構成されるデスクトップコンピュータによってアクセスされ得る。あるいは、ステップS1及びS3で入力されるデータは、デスクトップコンピュータによって提供されることができ、クラウドコンピューティングシステムは、分析ステップS2、S4及びS5を実行し、その結果をデスクトップコンピュータに返すように構成され得る。特定のアプリケーションのニーズに応じて、異なるコンピュータ間のデータ記憶及びデータ処理タスクの任意の他の分配を採用することができることは理解されよう。

さらなる開発
本発明の方法は、さらに長い配列について改変され得る。例えば、鋳型核酸分子を断片化することを含む方法において、さらなる分子タグ(例えば、第3及び第4の分子タグ)を断片化鋳型核酸分子に導入するさらなるステップが実施され得る。これにより、断片化された鋳型核酸分子がさらに断片化され、さらなる断片化された鋳型核酸分子が配列決定されることが可能になる。第3の分子タグ及び第4の分子タグの使用は、さらなる断片化された鋳型核酸分子からの全長配列の配列の再構築を可能にする。

本発明の方法は、核酸サンプル内の複数の異なる遺伝子を配列決定するために使用され得る。例えば、本発明の方法は、複数の遺伝子を含む核酸にハイブリダイズすることができる一連のプライマーを使用することによって、医学的に関連する病原体などの目的生物のゲノムの全部又は大部分を配列決定するために使用することができる。一実施形態では、これらのプライマーは、固体表面に連結されるか、又はビオチンなどの選択可能マーカーに結合される。

キット
本発明のいくつかの態様では、キットが提供される。場合により、これらのキットは、以下の1つ以上を含む:
(i)第1の分子タグ又は第2の分子タグを含む部分と、標的鋳型核酸分子にハイブリダイズすることができる配列を有する部分とを含むプライマーであって、場合により「スタブ領域」を含む、プライマー;
(ii)(i)のプライマーにハイブリダイズすることができる部分を含むプライマー、例えば、「スタブ領域」に相補的な領域を含むプライマー;
(iii)標的鋳型核酸分子を断片化することができる成分、例えば、トランスポザーゼ、制限酵素、又は標的鋳型核酸分子の内部領域に相補的なさらなるプライマー;
(iv)断片化された標的鋳型核酸分子にハイブリダイズすることができる部分を含むプライマー;
(v)例えばポリメラーゼ連鎖反応によって、増幅を行うための試薬;
(vi)本発明の方法をどのように実施するのかを記載した説明書; 及び/又は
(vii)本発明のコンピュータプログラムを記憶しているコンピュータ可読媒体。

[実施例1]
足の皮膚からの微生物DNAの抽出
6人の異なる健康な個体の足から採取した皮膚スワブからDNAを抽出した。計12サンプルを採取した。皮膚スワブは、0.15M NaCl及び0.1％Tween 20の溶液中で湿らせたレーヨンスワブを用いて左足又は右足の母指球又はかかと領域を拭くことによって収集した。綿棒を約30秒間皮膚にしっかりと擦った。綿棒の頭をビーズビーティングチューブに切断し、製造業者の説明書に従ってBiOstic Bacteriemia DNA Isolation Kit(Mo-Bio)を用いてDNAをスワブから抽出した。dsDNA HSアッセイ(Life Technologies)を用いてQubit上でDNAを定量した。

[実施例2]
イルミナシーケンシングのための短いリード16Sライブラリーの調製
以前に公表された方法(Caporaso et al, 2012, ISME 6(8))を使用して、微生物足皮膚DNAサンプルからイルミナシーケンシングのために、16S遺伝子のV4領域のライブラリーを調製した。簡潔に述べると、12bpではなく8bpサンプルバーコードを含み、フォワード及びリバースプライマーの両方にバーコードを含むように改変されたCaporasoデザインに基づくプライマーを用いてサンプルを増幅した(プライマー配列は図2に記載されている)。V4領域を、改変Caporasoプライマー(Caporaso_フォワード及びCaporaso_リバース)を用いた10サイクルのPCRを用いて、各サンプルについての異なるバーコード化プライマーを使用して、500pgの鋳型DNAから増幅した。磁気ビーズクリーンアップ(Agencourt)を介して余分なプライマーを除去した後、サンプルをプールし、プライマーイルミナ_E_1及びイルミナ_E_2を用いて、イルミナアダプターを含有するアンプリコンを富化するためにさらに20サイクルのPCRに供した(プライマーの詳細については図2を参照)。PCRは、Caporaso et al(2012, ISME 6(8))に記載の条件下で、TaqコアPCRキット(Qiagen)を用いて行った。アンプリコンは、Caporaso et al(2012, ISME 6(8))に記載される方法に従い、イルミナMiSeq上でナノフローセル及び500サイクルV2キットを用いて配列決定した。この方法は「ショートシーケンシング」と称され、この方法を用いて生成されたデータは今後「V4」データと称される。

[実施例3]
固有の分子タグを用いたイルミナ配列決定のための全長16Sライブラリーの調製
16S遺伝子の増幅のためのプライマーは、27F(Weisberg et al, J Bacteriol. 1991 Jan;173(2):697-703)又は1391R(Turner et al, Journal of Eukaryotic Microbiology, 1999, 46: 327-338)細菌プライマー配列、8bpバーコード配列、10bpの固有の分子タグ、及び部分的イルミナPEアダプター配列を含有した。プライマー配列(ロング_フォワード及びロング_リバース)を図2に示す。フォワードプライマーとリバースプライマーの両方に10bpの固有の分子タグ(各末端に100億個の可能性のある固有のタグ)を使用することにより、Lundberg et al (Nature Methods, 2013, 10: 999-1002)と同様の方法を用いて、本発明者らは、本発明者らのプール内のそれぞれの16S分子を固有にタグ化することが可能となった。鋳型DNAを、フォワードプライマーを用いた1サイクルのPCRに供し、その後、過剰プライマーを除去するためのビーズクリーンアップが続き、次いで、リバースプライマーを用いたもう1回のサイクルのPCRに供し、その後、もう1回のビーズクリーンアップが続いた。1回目のPCRは、フォワードプライマーからの16S遺伝子の伸長を行い、これは反応物中のそれぞれの異なる16S鋳型分子に固有の分子タグを導入する。2回目のPCRは、1回目のPCRからの伸長産物を鋳型として使用し、両端に固有の分子タグを有する分子を生成する。元の16S分子はまた、2回目のPCR反応において鋳型として作用し得るが、これらの産物は一端に部分的イルミナPEアダプター配列を含有するだけであり、したがって、富化PCRでは増幅されない。富化PCR(34サイクル)は、それぞれのタグ化16S分子の末端における部分的イルミナPEアダプター配列に相補的なプライマー(イルミナプライマーPE_1及びPE_2、図2)を用いて、タグ化16S分子プールを増幅する。

PCRをTaq PCRコアキット(Qiagen)を用いて行った。反応物は50μlであり、約500pgのDNA鋳型、0.25μMのFプライマー、250μMのdNTP、1×PCR緩衝液、1×Q溶液、及び1.25UのTaqポリメラーゼを含有した。PCRサイクル条件は、95℃で1分、50℃で2分、次いで72℃で3分であった。これにより、フォワードプライマーからの16S遺伝子の伸長が可能となり、これは、反応物中のそれぞれの16S分子に固有の分子タグを導入する。次いで、PCR反応物を、以下のように、Agencourt SPRIビーズを用いて磁気ビーズクリーンアップに供した。PCR反応物を、ピペッティングにより0.6容のビーズと混合し、室温で1分間インキュベートした。チューブを磁気ラック上に3分間置いて、ビーズをチューブの側面に集め、上清を除去した。ビーズを200μlの85％エタノールで30秒間洗浄し、その後、エタノールを除去し、ビーズを5分間空気乾燥させた。乾燥したら、チューブを磁気ラックから取り出し、ピペッティングによりビーズを35μlのヌクレアーゼフリー水に再懸濁させた。室温で1分間のインキュベーションの後、チューブを磁気ラック上に3分間戻し、続いてDNA含有溶液を新しいチューブに移した。0.25μMのリバースプライマーを使用したことを除いて上記のように2回目のPCRを設定し、鋳型は31μlのビーズ洗浄した第1ラウンドPCR反応物であった。用いたPCRサイクルは、95℃で1分、50℃で2分、及び72℃で3分であった。この2回目のPCRの間に、1回目のPCRからの固有にタグ化された伸長産物は鋳型として作用し、両端に固有の分子タグを有する16S分子を生成する。2回目のPCRの後に、上記のように別の磁気ビーズクリーンアップが続き、このステップのアウトプットを最終PCR反応の鋳型として使用した。最終PCR反応は、50μlの容量で設定され、0.5μMのPE_1及びPE_2の両プライマー(図2参照)、250μMのdNTP、1×PCR緩衝液、1×Q溶液、31μlの鋳型(2回目のビーズクリーンアップ由来)、及び1.25UのTaqポリメラーゼを含有した。PCRサイクリング条件は、95℃で2分、その後の34サイクルの95℃で1分、58℃で30秒、及び72℃で2分であった。これに、72℃で5分間の最終伸長が続いた。PCRを上記のビーズクリーンアップに再度供し、その後、Bioanalyser(Agilent)上の高感度DNAチップを用いて分析した。

[実施例4]
全長タグ化16S PCR産物のタグメンテーション
固有にタグ化された全長16S PCRアンプリコンを、タグメンテーションに供した。タグメンテーション手順は、イルミナプラットフォームで使用するためのアダプター配列を付加しながら、DNAを同時に断片化するためのトランスポザーゼを用いる。タグメンテーションを、Nextera-XTキットを使用し、PCR増幅ステップを除いて、製造業者の説明書に従って行った。ここで、本発明者らは、1つのタグメンテーション反応につき2つのPCRを行った。それぞれは、イルミナ提供のPCRプライマーの1つと、上記の伸長PCRからのプライマーの1つとの組み合わせを用い、目的断片のみを増幅した。本発明者らは、一端にPE_1(16Sアンプリコンのコード配列の5'末端)若しくはPE_2(16Sアンプリコンのコード配列の3'末端)配列、及び他端にi7若しくはi5イルミナアダプター(タグメンテーション反応の間に付加された)をそれぞれ用いて、DNA断片のプールを生成することを目的とした(図2)。これにより、16S遺伝子にわたって断片のプールがもたらされ、これを、全長16Sアンプリコンと共に、MiSeq上でいずれかの末端から配列決定することができる。同じ鋳型分子に由来する配列は、分子のいずれかの末端における固有の分子タグを介して同定され、再構築され、全長16S配列を提供することができる。タグメンテーション反応からのPCR産物を、製造業者の説明書に従って、1.8VのAmpure SPRIビーズを用いて最初に洗浄し、続くタグメンテーション反応では0.6Vビーズを用いて洗浄し、400bpより小さい断片を除去した。

[実施例5]
イルミナMiSeqでの全長及びタグメンテーションされた(tagmented)16Sアンプリコンの配列決定
全長16Sタグ化アンプリコン及びタグメンテーション産物の両方のモル濃度を、Bioanalyser高感度DNAチップを介して測定した。1回目の配列決定ランの間、タグメンテーション産物(1.8V Ampure SPRIビーズで洗浄された)のみを1.5pMの平均濃度でロードし、ナノフローセル上で、2×150bpペアエンドリード(paired end read)を用いて、MiSeq試薬キットv2で配列決定した。2回目の配列決定ランのために、全長16Sタグ化アンプリコンを、タグメンテーション産物(<400bpの断片を除去するために0.6V Ampure SPRIビーズで洗浄された)と1:9の比で組み合わせた。プールされたサンプルを6pMの平均モル濃度でロードし、ナノフローセル上で、2×250bpペアエンドリードを用いて、MiSeq試薬キットv2で配列決定した。

全長16Sタグ化アンプリコンを実行したとき、MiSeqのランニング条件に改変を行った。イルミナMiSeqのRecipeフォルダ中のChemistry.xmlファイルは、DNA断片のクラスタリング及び配列決定のための機器によって使用されるプロトコルを含有する。イルミナバージョン2配列決定キットに対応するそのChemistry.xmlファイルを修正して、「増幅1(Amplification 1)」、「再合成(Resyntheses)」及び「第1伸長(First extension)」ステップにおける「待機時間(WaitDuration)」を15秒に増加させた。これにより、個々の全長16Sタグ化アンプリコンの末端を配列決定することが可能なプロセスが得られた。

[実施例6]
タグ化イルミナリードからの全長16S配列の再構築
配列決定は、16S遺伝子全体にわたる断片(末端+末端断片)、及び16S遺伝子の一端を16S遺伝子の中央領域と対合させる断片(末端+内部断片)の2種類の断片に由来するデータを生成する。末端+末端断片に由来する配列は、ランダムバーコードとサンプルバーコードの対合をコードする。

配列をサンプルに割り当てるために、8ntサンプルバーコード領域を、最大1つのミスマッチを許容して、公知のサンプルバーコードのコレクションに対してマッチさせる。次いで、16S配列の内部領域がサンプルバーコードにマッチし得るため、潜在的なサンプルバーコードマッチを有する全てのリードを、サンプルバーコードの下流の近位又は遠位16Sプライマーアニーリング配列の存在についてスクリーニングする。一端における公知のサンプルバーコード又はプライマーアニーリング配列を欠いているリードは、末端+内部断片に由来すると推定される。

[実施例7]
コンセンサス固有分子タグ及び組換え体の除去
配列決定エラーのために、同じ鋳型分子に由来するリードは、わずかに異なる10ntの固有の分子タグ配列を有し得る。タグ化鋳型分子の元の10ntランダムバーコード配列を推定するために、本発明者らは、uclust(Edgar, R. C. (2010) Search and clustering orders of magnitude faster than BLAST, Bioinformatics 26(19), 2460-2461; Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature methods)アルゴリズムを適用して、>89％同一性(例えば、10塩基のうち1塩基はミスマッチが許容される)でマッチするランダムバーコード配列のクラスターを同定し、これらのクラスターのコンセンサス配列を報告する。本発明者らはまず、末端+末端断片のランダムバーコードのクラスターを同定する。本発明者らは、次いで、それぞれの10ntランダムバーコードを有する最も豊富なクラスターを同定し、異なる、より豊富なクラスターにおいて見出された10ntランダムバーコードを含有する任意のクラスターを破棄する。このステップは、インビトロ組換えにより生じたランダムバーコードの組み合わせを同定し、破棄することを目的とする。組換え型は、親鋳型よりも少ない量である可能性がある(図3)。本発明者らは、任意の2Kbp断片を配列決定する場合、そのようなインビトロ組換えは、鋳型分子プールの多様性のために非常に頻繁に起こるとは予想されないことに留意する。組換え検出は、16Sについてなど、アンプリコン配列決定プロトコルへの適用にとって最も重要である。

末端+末端断片は、サンプル中に存在する全てのランダムバーコードを捕捉しないかもしれない。残りのランダムバーコードは、末端+末端断片情報なしでサンプルに割り当てられることができないにもかかわらず、16S配列を再構築するために依然として使用され得る。したがって、本発明者らは、uclustを再度適用して、別々にそれぞれの末端におけるランダムバーコードのクラスターを同定し、末端+末端断片において以前に見出されなかった任意の新たなコンセンサス配列を付加する。

最後に、リードセット全体からのランダムバーコードを、コンセンサス配列のコレクションに対してマッチさせ、リードを後のアセンブリのためにクラスターにグループ化する。

[実施例8]
リードクラスターのアセンブリ
リードクラスターは、同じ鋳型分子に高い確率で由来するリードを含有する。本発明者らは、可能な限り多くの元の鋳型分子を再構築するために、リードクラスター上にデノボアセンブリアルゴリズムを適用する。リードを、A5-miseqパイプライン(Tritt et al (2012) An integrated pipeline for de Novo assembly of Microbial Genomes, PLoS One)を使用してアセンブルする。A5-miseqは元のA5パイプラインの改訂版であり、それを拡張して、最大500nt長までのリードのアセンブリをサポートし、アダプター配列を含有するリードを破棄するのではなく、リードからアダプター配列を取り除く。

この方法は「ロングシーケンシング」と称され、この方法を用いて生成されたデータは「ロング」データと今後称される。

[実施例9]
16Sリードの分析
12個の足サンプルを全長プロトコルを用いて配列決定し、そのうち6個を本方法で2回配列決定した。全12個のサンプルをまた、Caparoso et al(2012)の方法を用いて配列決定した。

V4及びロングリードの両方を、ソフトウエアパッケージQIIME(Caparoso et al (2010), QIME allows analysis of high-throughput community sequence data, Nature Methods 7: 335-335)を用いて分析した。V4リードを、248bp未満又は253bpを超えるリードを除去することにより、品質フィルタリングした。比較のために、対応するV4領域をロングデータセットから抽出し、V4領域を含むアセンブル配列のみを下流分析に含めた。これらの抽出された配列は、今後「ロング-V4」と称される。全ての配列を、閉鎖基準ピッキング法(closed reference picking method)を用いてOTUにクラスター化し、これは、キメラフリーデータベース(Greengenes)からの予めクラスター化されたOTUに配列を割り当てる。分類を、予めクラスター化されたOTUのデータベースへのメンバーシップに基づいて評価した。

ショートシーケンシング
合計296864個のペアエンドV4配列を、12個の足サンプル並びに陽性(大腸菌DNAのみ)及び陰性(綿棒のみ)対照から生成した。これらの配列のうち、11240個は、不正確なフォワード及びリバースバーコードの組み合わせのためにサンプルに割り当てることができず、このことは、少なくとも3.8％の組換え率を示した。240938個の配列を12個の足サンプルにマッピングし、これは、品質フィルタリング後に240426個に減少した(各サンプルに割り当てられた配列の数については以下の表1を参照)。QIIMEにおける閉鎖基準法を用いてクラスター化されたOTUは、2つ以上の配列を含有する97％の類似性で1177個のOTUを生じた。これらのOTUの分類学的分布は、皮膚コミュニティについて以前に報告されたものと同様であり、フィルミクテス(Firmicutes)(79.6％±25.7)、アクチノバクテリア(Actinobacteria)(9.3％±12.9)、及びプロテオバクテリア(Proteobacteria)(9.9％±22.2)が優位を占めた。

ロングシーケンス
3914個の16S配列をアセンブルし、これらのうちの2030個が1000bpよりも長かった(図4)。2957個の配列を足サンプルに割り当て、一方、957個の配列は、不正確な分子タグの組み合わせのために、サンプルに割り当てることができなかった。ショートシーケンシング法で配列決定されたものに対応するV4領域を含有するリードのみを下流分析に使用し、これらの配列を、700bpより短い配列及び1500bpより長い配列を除去することによってQIIMEで品質フィルタリングした。これにより、分析に使用される2351個の配列がもたらされた(各サンプルにいくつの配列が割り当てられたかについての詳細は、表1を参照)。

ロングリード(分析に使用される2351個)は72個のOTUにクラスター化し、一方、V4-ロングシーケンス(V4データセットと同じ領域に対応する)は48個のOTUにクラスター化した。これらのOTUは、V4配列データと同じ広い分類学的分布を示した(図5)。アクチノバクテリア(13.6％±21.6)及びプロテオバクテリア(11.4±26.7)の表示はわずかに増加したが、これらの差は有意ではなかった(両側t検定、p>0.05)。

同様の分類学的割り当てはまた、属のレベルで観察され(図6)、コミュニティはスタフィロコッカス(Staphylococcus)属が優位を占め、続いてコリネバクテリウム(Corynebacterium)属、エンハイドロバクター(Enhydrobacter)属及びアシネトバクター(Acinetobacter)属であった。コリネバクテリウム属は、ショートシーケンシング法と比較してロングデータセットで表示が増加したが、これは、アクチノバクテリア(Actinobacteria)門の表示における観察された差異を説明する可能性があるが、上記のように、この差異は有意ではなかった(両側t検定、p>0.05)。ショートシーケンシングとロング法の間の個々のサンプルの比較は、コリネバクテリアが、アセンブルされたデータセットにおいて一貫して過剰表示されなかったことを示し、コリネバクテリウムがV4サンプルにおいてわずかに0.03％の配列を示したが、アセンブルされたロングシーケンシングデータでは配列の46.67％を示した1つのサンプルによって、平均は強く影響を受けた(サンプルF2_B2)。

組換え率
OTUレベルでの比較
アセンブルされた16S配列(756から1375まで様々な長さ)を、QIIMEにおける閉鎖基準法を用いてOTUにクラスター化し、同様にクラスター化された、マッチしたサンプルV4データと平均30.1％(±6.8)のみのOTUを共有した。これは、異なる長さのデータセットを比較すること、及びOTUがQIIMEにおいてクラスター化される方法に起因し得る。配列を、97％の類似性でOTUに予めクラスター化されている配列のデータベースに対してベストマッチによってOTUに割り当てる。おそらく、データセットに由来する全長配列を用いてOTUをクラスター化し、全長16S遺伝子にわたって97％類似するクラスターは、V4領域のみでは97％類似しないかもしれない。16S遺伝子の異なる領域は異なる速度で進化するためである(Schloss PD (2010) The Effects of Alignment Quality, Distance Calculation Method, Sequence Filtering, and Region on the Analysis of 16S rRNA Gene-Based Studies. Plos Computational Biology 6)。したがって、本発明者らは、長い配列(ロング-V4配列)のV4領域のみからクラスター化されたOTUを分析した。この場合、92.2％(±12.1)のOTUが、マッチしたCaporasoサンプルOTUと共有された(表3)。ロングデータセットではより低カバレージの配列決定が得られ、続いて、全体でずっと少ないOTUであったが、このことは、得られたデータが短いV4配列を使用して得られたデータと広く一致している(concurrent)ことを示す。興味深いことに、長い配列は、ロング-V4配列よりも約50％多くのOTUにクラスター化し、このことは、16S分子あたりより多くの配列情報を用いて達成可能なより高感度の分類を実証している。

このデータは、この新たに開発された方法が、分類学及びOTUクラスタリングに関して広範に一致したコミュニティプロファイルを与え、より高感度の分類学的割り当てを可能にすることを示している。

[実施例10]
大腸菌(E. coli)K12 MG1655由来の長い断片の配列決定
大腸菌K12 MG1655由来のゲノムDNAをタグメンテーションし、アガロースゲル電気泳動を用いて1.5〜3kbpの断片をサイズ選択した。分子タギングを、ランダムバーコードを用いた2サイクルPCRを介して、これらの断片に適用した。プールの最初の配列決定は、全長鋳型の再構築が実行不可能であるほど、鋳型分子間の過剰な多様性を明らかにした。鋳型分子の集団が、全長鋳型の成功した配列決定及び再構築について妨げられる適切な程度を、希釈系列を使用して決定した(図7)。50倍希釈及び100倍希釈の両方をフィルイン(fill-in)リードで配列決定した。

Claims

少なくとも1つの個々の標的鋳型核酸分子の配列を決定する方法であって、
(a)少なくとも2つの標的鋳型核酸分子を含む核酸分子の少なくとも1つのサンプルを提供するステップ;
(b)該少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、該少なくとも2つの標的鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップであって、それぞれのタグ化鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化される、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子を増幅して、該少なくとも2つのタグ化鋳型核酸分子の複数コピーを提供するステップ;
(d)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域を配列決定するステップ; 及び
(e)該少なくとも2つの標的鋳型核酸分子の少なくとも1つについてコンセンサス配列を再構築するステップ
を含み、ステップ(e)は、
(i)互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ標的鋳型核酸分子に対応する可能性のある該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列のクラスターを同定するステップであって、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同であるの第2の分子タグが、互いに少なくとも90％の配列同一性を有する、ステップ;
(ii)配列の少なくとも1つのクラスターを選択するステップであって、該選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、ステップ;
(iii)ステップ(ii)で選択されたクラスターにおける少なくとも2つの鋳型核酸分子の配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子のコンセンサス配列を再構築するステップ; 及び
(iv)第2の及び/又はさらなる鋳型核酸分子に関してステップ(ii)〜(iii)を実施するステップ
を含む、方法。
サイズが1Kbpを超える少なくとも1つの個々の標的鋳型核酸分子の配列を決定する方法であって、
(a)サイズが1Kbpを超える少なくとも2つの標的鋳型核酸分子を含む核酸分子の少なくとも1つのサンプルを提供するステップ;
(b)該少なくとも2つの標的鋳型核酸分子のそれぞれの一端に第1の分子タグを導入し、該少なくとも2つの標的鋳型核酸分子のそれぞれの他端に第2の分子タグを導入して、少なくとも2つのタグ化鋳型核酸分子を提供するステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、固有の第1の分子タグ及び固有の第2の分子タグでタグ化される、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子を増幅して、該少なくとも2つのタグ化鋳型核酸分子の複数コピーを提供するステップ;
(d)該少なくとも2つのタグ化鋳型核酸分子の複数コピーの一部を単離し、該一部における該タグ化鋳型核酸分子を断片化して、複数の断片化鋳型核酸分子を提供するステップ; (e)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域を配列決定するステップ;
(f)該複数の断片化鋳型核酸分子を配列決定するステップ; 及び
(g)ステップ(f)において生成された配列の少なくともサブセットを含む配列から、該少なくとも2つの標的鋳型核酸分子の少なくとも1つについてのコンセンサス配列を再構築するステップ
を含み、
ここでステップ(g)は、
(i)互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ個々の標的鋳型核酸分子に対応する可能性のある前記少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列のクラスターを同定するステップであって、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する、ステップ;
(ii)前記複数の断片化鋳型核酸分子の配列を分析して、第1のクラスターの配列の第1の分子タグに相同である第1の分子タグ又は第1のクラスターの配列の第2の分子タグに相同である第2の分子タグを含む、複数の断片化鋳型核酸分子の配列を同定するステップであって、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する、ステップ;
(iii)ステップ(ii)で同定された複数の断片化鋳型核酸分子の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の鋳型核酸分子の配列を再構築するステップ; 及び
(iv)第2の及び/又はさらなる鋳型核酸分子に関してステップ(i)〜(iii)を実施するステップ;
を含む、方法。
(A)前記複数の断片化鋳型分子を富化し、前記第1の分子タグ又は前記第2の分子タグを含む前記複数の断片化鋳型核酸分子の割合を増加させるステップをさらに含み、このステップは、ステップ(f)の前にあり、及び／又は
(B)ステップ(g)が、コンピュータによって実行されるステップであり、及び／又は
(C)ステップ(e)及び/又は(f)が、ブリッジPCRのステップを含む配列決定技術を用いて実施される、及び／又は
(D)ステップ(e)及び(f)が、異なる配列決定ランで実施される、
請求項２に記載の方法。
少なくとも1つの個々の標的鋳型核酸分子の配列を決定するための、コンピューターによって実行される方法であって、以下のステップ:
(a)少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含むデータを得るステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含む、ステップ;
(b)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域の配列を含むデータを分析して、互いに相同である第1の分子タグ及び互いに相同である第2の分子タグを含む配列を同じクラスターに割り当てることによって、同じ個々の標的鋳型核酸分子に対応する可能性のある配列のクラスターを同定するステップであって、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する、ステップ;
(c)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を含むデータを得るステップであって、該断片のそれぞれは、該第1の分子タグ又は該第2の分子タグのいずれかを含む、ステップ;
(d)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を分析して、第1のクラスターの配列の第1の分子タグに相同である第1の分子タグ又は第1のクラスターの配列の第2の分子タグに相同である第2の分子タグを含む、該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を同定するステップであって、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する、ステップ;
(e)ステップ(d)で同定された該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子の配列を再構築するステップ; 及び
(f)第2の及び/又はさらなる標的鋳型核酸分子に関してステップ(c)〜(e)を実施するステップであって、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する、ステップ
を含む、方法。
少なくとも1つの標的鋳型核酸分子の配列を決定するための、コンピューターによって実行される方法であって、以下のステップ:
(a)配列のクラスターを含むデータを得るステップ、ここで:
(i)それぞれのクラスターは、少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含み、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含み;
(ii)それぞれのクラスターは、該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列を含み、該断片のそれぞれは、該第1の分子タグ又は該第2の分子タグのいずれかを含み;
(iii)それぞれのクラスターにおける少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列は、互いに相同である第1の分子タグ及び第2の分子タグを含み;
(iv)該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列は、そのクラスターにおける少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列の第1の分子タグに相同である第1の分子タグ、又はそのクラスターにおける該少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列の第2の分子タグに相同である第2の分子タグを含み、ここで、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する;
(b)第1のクラスターにおける該少なくとも2つのタグ化鋳型核酸分子の複数断片の配列の少なくともサブセットを含む配列を整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子の配列を再構築するステップ; 及び
(c)第2の及び/又はさらなる鋳型核酸分子に関してステップ(b)を実施するステップ
を含む、方法。
以下のステップ:
(v)互いに相同である第1の分子タグ配列及び互いに相同である第2の分子タグ配列を含む配列を同じクラスターに割り当てることによって、同じ鋳型核酸分子に対応する可能性のある前記少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列のクラスターを同定するステップ;
(vi)配列の少なくとも1つのクラスターを選択するステップであって、選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含むステップ、
をさらに含み、前記第1の標的鋳型核酸分子の配列は、ステップ(vi)で選択されたクラスターにおける配列から再構築される、
請求項２〜５のいずれか一項に記載の方法。
(A)ステップe)が、コンピュータによって実行されるステップであり、及び／又は (B)ステップd)が、ブリッジPCRのステップを含む配列決定技術を用いて実施される、
請求項１に記載の方法。
少なくとも1つの個々の標的鋳型核酸分子の配列を決定するための、コンピュータによって実行される方法であって、以下のステップ:
(a)少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含むデータを得るステップであって、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは一端に第1の分子タグ及び他端に第2の分子タグを含み、それぞれの標的鋳型核酸分子は、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含む、ステップ;
(b)該第1の分子タグ及び該第2の分子タグを含む該少なくとも2つのタグ化鋳型核酸分子の領域の配列を含むデータを分析して、互いに相同である第1の分子タグ及び互いに相同である第2の分子タグを含む配列を同じクラスターに割り当てることによって、同じ鋳型核酸分子に対応する可能性のある配列のクラスターを同定するステップであって、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する、ステップ;
(c)配列の少なくとも1つのクラスターを選択するステップであって、該選択されたクラスター内の配列は、異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、ステップ;
(d)ステップ(c)で選択されたクラスターにおける分子の配列の少なくともサブセットを整列させ、これらの配列からコンセンサス配列を定義することによって、第1の標的鋳型核酸分子のコンセンサス配列を再構築するステップ; 及び
(e)第2の及び/又はさらなる標的鋳型核酸分子に関してステップ(c)〜(d)を実施するステップ
を含む、方法。
配列の少なくとも1つのクラスターを選択する前記ステップであって、
前記少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列は、互いに相同である第1の分子タグを有する、ステップ、及び/又は前記少なくとも2つのタグ化鋳型核酸分子の配列のクラスターの群を同定するステップであって、それぞれの群のクラスター内の配列は、互いに相同である第2の分子タグを有する、ステップと、
配列のクラスターの群からクラスターを選択するステップであって、選択されたクラスターは、最も大きい数の配列を含有する、ステップと、
からなり、
ここで、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有する、請求項１又は請求項８の方法。
少なくとも1つの標的鋳型核酸分子の配列を決定するための、コンピュータによって実行される方法であって、
(a)配列のクラスターを含むデータを得るステップ;
(b)選択されたクラスターにおける配列の少なくともサブセットの配列を整列させることによって、第1の鋳型核酸分子のコンセンサス配列を再構築するステップ;
を含み、選択されたクラスターにおける配列は、少なくとも2つのタグ化鋳型核酸分子の複数コピーの領域の配列を含み、該少なくとも2つのタグ化鋳型核酸分子のそれぞれは、一端に第1の分子タグ及び他端に第2の分子タグを含み、該少なくとも2つの標的鋳型核酸分子のそれぞれは、固有の第1の分子タグ及び固有の第2の分子タグでタグ化され、該領域は、該第1の分子タグ及び該第2の分子タグを含み、
選択されたクラスターにおけるそれぞれの配列は、
(i)そのクラスターにおける他の配列の第1の分子タグに相同である第1の分子タグ、及びそのクラスターにおける他の配列の第2の分子タグに相同である第2の分子タグを含み、ここで、互いに相同である第1の分子タグが、互いに少なくとも90％の配列同一性を有し、及び、互いに相同である第2の分子タグが、互いに少なくとも90％の配列同一性を有し;
(ii)異なる第1の分子タグ又は第2の分子タグとよりも互いによりよく関連している第1の分子タグ及び第2の分子タグを含む、方法。
コンピュータによって実行される方法である、請求項３、６又は７に記載の方法。
(A)前記領域が、前記第1の分子タグ又は前記第2の分子タグを含む25個を超える塩基対を含む、及び／又は
(B)前記領域が、配列決定される前記少なくとも2つのタグ化鋳型核酸分子の全長を含む、及び／又は
(C)前記第1の分子タグ及び前記第2の分子タグが、PCR、タグメンテーション(tagmentation)、及び前記少なくとも1つの鋳型核酸分子の物理的せん断若しくは制限消化とその後の5'分子タグ若しくは3'分子タグを含む核酸のライゲーションからなる群より選択される方法を用いて、前記少なくとも2つの鋳型核酸分子に導入される、及び／又は
(D)前記少なくとも2つの鋳型核酸分子が、微生物リボソーム16Sをコードする、及び／又は
(E)前記少なくとも2つの鋳型核酸分子の少なくとも1つが、10Kbp未満のサイズである、請求項１〜１１のいずれか一項に記載の方法。
請求項４、５、８、若しくは１０に記載の方法を実施するために適合されたコンピュータプログラムであって、電子デバイス上で実行される、コンピュータプログラム。
請求項１３に記載のコンピュータプログラムを記憶している、コンピュータ可読媒体。