詳細な説明
本明細書及び例示的な実施形態は、限定的なものとして捉えられるべきではない。本明細書及び添付の特許請求の範囲の目的において、別途示されない限り、数量、割合、または比率を表す全ての数、ならびに明細書及び特許請求の範囲に使用される他の数値は、全ての場合において、それらが修正されすぎない程度まで「約」という用語によって修正されているものとして理解されるものとする。したがって、反対に示されない限り、以下の明細書及び添付の特許請求の範囲に記載される数値パラメータは、得ようとする所望の特性によって変化し得る近似値である。最低限、かつ特許請求の範囲への均等論の適用の限定の試みとしてではなく、各数値パラメータは少なくとも、報告される有効数字の観点から、かつ通常の切上げ法を適用することによって企図されるべきである。
本明細書及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」、及び「the」、ならびに任意の単語の任意の単数使用には、明確かつ疑いの余地なく1つの指示対象に限定されていない限り、複数の指示対象を含まれることに留意されたい。本明細書で使用される場合、「含む」という用語及びその文法的異形は、リスト中の項目の列挙が、列挙される項目と置き換えるか、またはそこに追加され得る他の同様の項目の除外するものではないように、非限定的であることが意図される。
本明細書で使用される場合、「増幅する」、「増幅すること」、「増幅」という用語、及び他の関連する用語は、元の生体分子の複数のコピーを産生することを含む。いくつかの実施形態では、核酸増幅は、元のポリヌクレオチド(例えば、ポリヌクレオチド)の複数のコピーを産生し、コピーは、鋳型配列または鋳型配列に対して相補的である配列を含む。いくつかの実施形態では、コピーは、鋳型配列と実質的に同一である配列を含むか、または鋳型配列に対して相補的な配列と実質的に同一である。
本明細書で使用される場合、「ハイブリダイズする」、「ハイブリダイズすること」「ハイブリダイゼーション」という用語、及び他の関連する用語は、二本鎖核酸を形成するための、2つの異なる核酸間または単一の核酸分子の2つの異なる領域間の水素結合を含む。ハイブリダイゼーションには、二本鎖核酸を形成するためのWatson−CrickまたはHoogstein結合が含まれる。2つの異なる核酸または単一の核酸の2つの異なる領域は、相補的または部分的に相補的であり得る。相補的塩基対は、標準A−TまたはC−G塩基対であってもよく、塩基対相互作用の他の形態であってもよい。二本鎖核酸には、ミスマッチ塩基対ヌクレオチドが含まれ得る。相補的核酸鎖は、その全長にわたって互いにハイブリダイズしなくてもよい。
いくつかの実施形態では、核酸ハイブリダイゼーションに好適な条件及び/または洗浄条件には、塩、緩衝液、pH、温度、ポリヌクレオチド及びプライマーの含有量のGC%、ならびに/または時間等のパラメータが含まれる。例えば、核酸(例えば、ポリヌクレオチド及びプライマー)をハイブリダイズまたは洗浄するために好適な条件には、NaCl、クエン酸ナトリウム、及び/またはリン酸ナトリウム等のナトリウム塩を有するハイブリダイゼーション溶液が含まれ得る。いくつかの実施形態では、ハイブリダイゼーションまたは洗浄溶液は、ホルムアミド(例えば、約10〜75%)及び/またはドデシル硫酸ナトリウム(SDS)(例えば、約0.01〜0.7%)を含み得る。いくつかの実施形態では、ハイブリダイゼーション溶液は、ホルムアミド(例えば、約50%)、5×SSC(例えば、約0.75M NaCl及び約0.075Mクエン酸ナトリウム)、リン酸ナトリウム(例えば、pH約6.8で約50mM)、ピロリン酸ナトリウム(例えば、約0.1%)、5Xデンハート液、SDS(例えば、約0.1%)、及び/または硫酸デキストラン(例えば、約10%)の任意の組み合わせを含み得るストリンジェントなハイブリダイゼーション溶液であり得る。いくつかの実施形態では、ハイブリダイゼーションまたは洗浄溶液は、BSA(ウシ血清アルブミン)を含み得る。いくつかの実施形態では、ハイブリダイゼーションまたは洗浄は、約15〜25℃、または約25〜35℃、または約35〜45℃、または約45〜55℃、または約55〜65℃、または約65〜75℃、または約75〜85℃、または約85〜95℃、または約95〜99℃、またはそれ以上の温度範囲で行われ得る。
いくつかの実施形態では、ハイブリダイゼーションまたは洗浄は、約1〜10分間、または約10〜20分間、または約20〜30分間、または約30〜40分間、または約40〜50分間、または約50〜60分間、または約1〜6時間、またはそれ以上の時間範囲にわたって行われ得る。
いくつかの実施形態では、ハイブリダイゼーションまたは洗浄条件は、約5〜10、またはpH約6〜9、またはpH約6.5〜8、またはpH約6.5〜7のpH範囲で行われ得る。
核酸ハイブリダイゼーション及び洗浄の方法は、当該技術分野で公知である。例えば、核酸の熱融解温度(Tm)は、規定された条件下で核酸鎖のうちの半分が二本鎖であり、半分が一本鎖である温度であり得る。いくつかの実施形態では、規定された条件には、水性反応条件におけるイオン強度及びpHが含まれ得る。規定された条件は、塩(例えば、ナトリウム)の濃度、温度、pH、緩衝液、及び/またはホルムアミドを変えることによって調節することができる。典型的には、計算された熱融解温度は、Tmより約5〜30℃低いか、またはTmより約5〜25℃低いか、またはTmより約5〜20℃低いか、またはTmより約5〜15℃低いか、またはTmより約5〜10℃低い。Tmを計算する方法は公知であり、Sambrook(1989「Molecular Cloning:A Laboratory Manual」,2nd edition,volumes1−3;Wetmur 1966,J.Mol.Biol.,31:349−370;Wetmur 1991 Critical Reviews in Biochemistry and Molecular Biology,26:227−259)に見出すことができる。核酸をハイブリダイズするかまたは変性させるためにTmを計算するための他の供給源には、OligoAnalyze(Integrated DNA Technologies)及びPrimer3(Whitehead Institute for Biomedical Researchによって供給される)が含まれる。
疾患、感染症、または遺伝子異常(例えば、体細胞変異)を有することが疑われる供給源から得られた核酸試料中の変異配列の種類を正確に検出及び特定することが重要である。しばしば、試料は、DNAまたはRNAの少数のコピーまたは単一のコピーにおいて現れる希事象から生じた変異配列を含有するため、変異配列は、非変異分子の混合物中に隠れている。ほとんど非変異分子を含有する試料中に存在する変異配列を確実に検出し、正確に特定することは難しい。
遺伝子変異体(多型配列及び変異配列を含む)は、しばしば、感染症、疾患、または遺伝子異常の診断に有用である。低い存在量で存在するかかる変異体の配列分析は、いくつかの変異体の存在量レベルが、約0.05〜1%の範囲、またはそれより低い範囲にあり、これは、大規模並列配列決定プラットホームのエラー率よりも低いため、課題を提起する。これらのエラーの発生源は、次世代配列決定データを生成するために典型的に用いられるワークフローの複数の段階で生じる。例えば、いくつかのライブラリ調製ワークフローは、物理的に剪断された核酸で開始し、剪断工程は、8−oxoG塩基の形成をもたらし得る酸化的損傷を導入し、それはアデニン塩基とのHoogstein塩基対形成を受け、最終的にC−to−A及びG−to−T塩基変化をもたらし得る。ポリメラーゼを用いる末端修復工程を含むライブラリ調製ワークフローは、ヌクレオチド取り込みの間にポリメラーゼによって導入されるエラーを生成し得る。多くのライブラリ調製ワークフローは、タグ配列を付加するため、かつ/または増幅のための少なくとも1つのプライマー伸長工程も含む。特に、高いエラー率は、増幅のために非テイルドプライマーを使用するか、またはアダプター配列をポリヌクレオチドに付加するためにテイルドプライマーを使用したプライマー伸長反応中の、ポリメラーゼによるヌクレオチド取り込みに由来する。この種類のエラーの例は、増幅前及び増幅工程から生じ得る。エラーの追加の源は、配列決定反応中のヌクレオチドの誤った取り込み、ならびに配列決定装置及び/またはソフトウェアによる塩基割り当てに辿られ得る。
いくつかの実施形態では、本開示は、全体として、生体試料中に変異配列を担持する低い存在量のDNA及び/またはRNA分子の存在を正確に確認するための方法であって、生体試料が、標的(例えば、変異体(mutant)または変異体(variant))及び非標的(例えば、非変異体(non-mutant)または非変異体(non-variant))配列の混合物を有する核酸を含有する方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。変異配列を担持する核酸分子は、0.0001〜1%でのみ試料中に存在し得る。本教示による方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、概して、1つ以上の、変異配列を有する存在量が極めて少ない核酸分子の存在を確認するための、分子タグ付け、配列決定、及び配列決定日の分析を含む。
いくつかの実施形態では、本開示は、全体として、複数のポリヌクレオチドに付加された複数のタグを用いる多重分子タグ付け手順を含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。タグは、それが付加されるポリヌクレオチド分子を一意的に特定し、タグ付けされた分子の混合物中で個々のタグ付けされた分子の追跡を可能にする、配列、長さ、及び/もしくは検出可能な部分、または任意の他の特徴を含む特徴を有する。例えば、タグ(例えば、一意のタグ配列を有する)は、それが付加される個々のポリヌクレオチドを一意的に特定し、混合物中の他のタグ付けされたポリヌクレオチドから個々のポリヌクレオチドを区別することができる。
いくつかの実施形態では、本開示は、全体として、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体及び/またはエラー修正された配列決定データは、一重または多重分子タグ付け手順を実施して、少なくとも1つの一意のタグを付加された複数の個々のポリヌクレオチドを生成することによって、生成される。いくつかの実施形態では、遺伝子変異体を検出し、遺伝子変異体を特定し、かつ/またはエラー修正された配列決定データを生成するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、タグ付きポリヌクレオチドを増幅して、複数のタグ付き増幅産物を生成することをさらに含む。いくつかの実施形態では、遺伝子変異体を検出し、遺伝子変異体を特定し、かつ/またはエラー修正された配列決定データを生成するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、タグ付き増幅産物を配列決定して、複数の配列リードを生成することをさらに含む。いくつかの実施形態では、遺伝子変異体を検出し、遺伝子変異体を特定し、かつ/またはエラー修正された配列決定データを生成するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、少なくとも1つの閾値を適用することを含み得、それにより配列リード中のエラーを低減し得る、配列リードを操作することをさらに含む。いくつかの実施形態では、配列リードの操作には、選別、分類、グループ化、グループ化されたリードのカウント、リードのファミリーのカウント、及び他の操作工程が含まれる。いくつかの実施形態では、操作工程は、タグ特異的参照配列及び/またはポリヌクレオチド特異的参照配列に基づき得る。得られたエラー修正された配列決定データは、ライブラリ調製及び/または配列決定ワークフロー中に典型的に生じる配列決定エラーの数が低減されている。配列決定データ中のエラー率を、核酸の混合物中の標的ポリヌクレオチド(例えば、低い存在量のアリル、変異体(variant)、または変異体(mutant))の頻度レベルに類似する(またはさらにより低い)レベルまで低減することによって、核酸の混合物中に存在する低い存在量の標的ポリヌクレオチドの検出及び特定が達成可能となる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、任意の種類の流体(例えば、生体液)、もしくは固形生体試料、もしくは任意の有機体から、または水、土、もしくは食物から得られた核酸試料において実行することができる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、生検組織から単離された核酸、新鮮もしくは凍結組織、保管用組織(例えば、FFPE保存された)、及び単一の細胞もしくは数十個の細胞を含有する生体液、無細胞核酸(DNA及び/もしくはRNA)、または循環腫瘍細胞から単離された核酸を含む、任意の種類の核酸試料において実行することができる。いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、DNA及びRNA、またはDNA及びRNAの混合物を含む、1〜100ngのポリヌクレオチドを有する核酸試料において実行することができる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%(または0.0001%より低い存在量範囲)で存在する低い存在量のポリヌクレオチドを正確に検出及び特定することができる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、初期核酸試料中に存在し得る異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)のうちの約85〜95%、または約95〜99%、または約100%を検出することができる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、一重または多重フォーマッタを使用する単一反応混合物(例えば、単管反応)を使用して核酸試料において実行することができる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、任意に酵素的ライゲーションによって、アダプターのレパートリーからの少なくとも1つのアダプターを、核酸試料中の個々のポリヌクレオチドに付加することによって実施され得る。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、任意にプライマー伸長によって、プライマーのレパートリーからの少なくとも1つのプライマーを使用して、少なくとも1つの一意のタグ配列を核酸試料中の個々のポリヌクレオチドに付加することによって実施され得る。プライマーは、初期核酸試料中の目的の異なる配列を選択的に標的とするように設計することができる。
いくつかの実施形態では、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、任意に少なくとも1つのランダムまたは縮重タグ配列を含む、少なくとも1つの一意のタグ配列を含有するアダプターまたはプライマーのレパートリーを使用して実施され得る。いくつかの実施形態では、タグ(例えば、ランダマータグ)は、少なくとも1つのランダム配列と少なくとも1つの固定配列とを含有するか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。
本教示に記載される分子タグ付け手順は、従来の固形組織生検手順に対する利点を提供する。分子タグ付け方法の検出のレベルは、初期核酸試料を得るために、血液等の生体液の使用を許容するのに十分に高感度である。血液試料(または他の生体液)を得ることは、非侵襲的なアプローチを提供し、もたらされるリスクを減らし、侵襲的な組織生検手順と比較してより低コストである。また、初期核酸試料の供給源として血液を使用する分子タグ付け方法は、組織生検での3週間以上と比較して、数日以内に結果を出すことができる。
いくつかの実施形態では、本開示は、全体として、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関し、以下について有用である。
(1)任意の種類の大規模並列配列決定手順によって生成された配列決定データの品質を向上することであって、大規模並列配列決定手順には、例えば、オリゴヌクレオチドプローブのライゲーション及び検出による配列決定(例えば、Life TechnologiesからのSOLiD(商標)、WO2006/084132)、プローブ−アンカーライゲーション配列決定(例えば、Complete GenomicsまたはPolonator(商標))、合成による配列決定(例えば、IlluminaからのGenetic Analyzer(商標)及びHiSeq(商標)(Bentley 2006 Current Opinion Genetics&Development 16:545−552、及びBentley,et al.,2008 Nature 456:53−59、及び米国特許第7,566,537号))、ピロリン酸配列決定(例えば、454 Life SciencesからのGenome Sequencer FLX(商標)(米国特許第7,211,390号、同第7,244,559号、及び同第7,264,929号))、イオン感応性配列決定(例えば、Ion Torrent Systems,Inc.からのPersonal Genome Machine(Ion PGM(商標))及びIon Proton(商標)Sequencer)、ならびに単分子配列決定プラットホーム(例えば、HelicosからのHeliscope(商標))が含まれる、向上すること。
(2)標的及び非標的ポリヌクレオチドを含有する核酸試料、または非標的ポリヌクレオチドを欠く核酸試料中の1つ以上の標的ポリヌクレオチドを検出、特定、及び/またはカウントすること。
(3)標的ポリヌクレオチドが初期核酸試料中に存在するかどうか、またはそれが試料調製及び/もしくは配列決定ワークフロー中に擬似事象から生じたかどうかを判定すること。
(4)核酸試料中の低い存在量の標的ポリヌクレオチドの検出の感度を増加させることであって、例えば、標的ポリヌクレオチドが、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、または0.0001%より低い存在量範囲で存在する、増加させること。
(5)初期核酸試料内に存在する標的ポリヌクレオチド及びその関連する多型形態の存在量レベルを判定することであって、多型形態には、アリル形態、変異体(variant)形態、及び/または変異体(mutant)形態が含まれ得る、判定すること。
(6)核酸試料中に存在する標的ポリヌクレオチドの数をカウントすることであって、これは例えば、対象由来の生体液(例えば、血液)中の無細胞循環DNA(または循環腫瘍細胞から単離されたDNA)のコピー数多型体分析のために使用することができ、無細胞DNA(または腫瘍細胞由来のDNA)は、胎児、腫瘍、または感染性生物を含む任意の供給源に由来する、カウントすること。
(7)対象由来の核酸試料中の標的ポリヌクレオチドの多型形態(例えば、野生型形態、アリル形態、変異体(variant)形態、及び/または変異体(mutant)形態)の存在を検出することであって、変異体(variant)形態及び/または変異体(mutant)形態は、感染症または疾患に関連付けられ(または関連付けられない)、検出することと、かつ任意に対象の感染症または疾患を診断すること。
(8)対象由来の核酸試料中の遺伝子変異体の出現及び/または消失を検出することによって、疾患の遺伝的変異における変化に関連付けられ得る感染症または疾患の進行を監視すること。
(9)核酸試料中の標的ポリヌクレオチドの異種性を判定すること。
(10)感染症または疾患のための治療の有効性を監視すること(例えば、療法監視)。
(11)発見された遺伝子変異体に基づいて療法を選択すること。
(12)対象における残存病変を検出すること。
(13)対象における疾患再発を検出すること。
(14)標的ポリヌクレオチドのコピー数多型を検出すること。
(15)移植レシピエントにおけるドナーDNAを検出することによって、器官移植レシピエントにおける移植片拒絶の兆候を検出すること。
(16)母体血液中に存在する無細胞循環胎児DNAを検出し、特性評価(例えば、配列決定)すること。
(17)年1回の幅広いスクリーニング(例えば、癌または他の疾患のため)。
当業者であれば、本教示の方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体が、多くの他の使用も有することを理解するであろう。
いくつかの実施形態では、本開示は、全体として、ポリヌクレオチドが少なくとも1つのタグを付加される分子タグ付け手順を用いる、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、タグ付加反応は、確率的である。いくつかの実施形態では、ポリヌクレオチドは、多様なタグ(例えば、複数のタグ)のレパートリーからランダムに選択された少なくとも1つのタグを付加されている。いくつかの実施形態では、タグ付加反応は、ポリヌクレオチド分子の数と比較して超過したタグを用いて実施することができる。例えば、タグの供給が実質的に非消耗性である場合に、1つのポリヌクレオチドのタグ付加事象は、異なるポリヌクレオチドのタグ付加事象とは独立してもよい。タグの多様性及同一のポリヌクレオチドのコピー数は、ランダム選択の統計と共に、一意のタグ付きポリヌクレオチドの頻度を規定することになる。例えば、ランダム選択は、ポリヌクレオチドをタグ担持アダプター(例えば、タグはランダマータグであり得る)にライゲーションすることによって生成されたか、またはタグ担持プライマーを使用してプライマー伸長によって生成された一意のタグ付きポリヌクレオチドの頻度に影響を及ぼし得る。タグ担持アダプターの多様性が、タグ付加反応中に存在するポリヌクレオチド分子の数を大幅に超えた場合、実質的に全てのタグ付き分子は、一意のタグを付加されることになる。一意的にタグ付けされたタグ付き分子の100%収率を得ることは難しいが、タグ付き分子の相当な割合が一意のタグを付加されることになり、タグ付加反応から生成されたタグ付きポリヌクレオチド分子のうちの約10〜30%、または約30〜50%、または約50〜70%、または約70〜80%、または約80〜90%、または約90〜95%、または約95〜99%が一意的にタグ付けされる。
いくつかの実施形態では、他の種類の分子タグ付け手順は、必ずしもランダム選択によって制御されていない。例えば、プライマー伸長反応(例えば、PCR)においてテイルドプライマーを用いて行われる分子タグ付け手順は、標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含有するテイルドプライマーの3’部分によって制御される選択的プロセスであり得る。テイルドプライマーの5’部分は、標的ポリヌクレオチドに実質的にハイブリダイズしない配列を含有し得る。テイルドプライマーの5’部分は、標的ポリヌクレオチドへの最小のハイブリダイゼーションを呈するように設計された少なくとも1つのタグ配列(例えば、ランダマータグ配列)を含有し得る。いくつかの実施形態では、テイルドプライマーのセットは、同じ3’標的特異的配列及び異なる5’ランダマータグ配列を含み得る。テイルドプライマーの3’領域の配列が、非標的ポリヌクレオチドへの最小のハイブリダイゼーションを呈するように設計されている場合、プライマー伸長反応は、プライマーの3’領域中の配列に対応する標的配列について選択的に濃縮されたタグ付きポリヌクレオチドの集団を生成することになる。テイルドプライマーの3’標的特異的領域は、その標的配列と完全な相補性を有し得るか、またはその標的配列との50%、60%、70%、80%、90%、95%、または99%の相補性を含む、その標的配列と部分的に相補的であり得る。必ずしもそうではないが、典型的には、プライマー伸長反応(例えば、PCR)において増幅産物(例えば、タグ付き増幅産物)を生成するために順方向及び逆方向プライマーが用いられる。したがって、プライマー伸長反応は、特定の選択された標的配列を有するタグ付きポリヌクレオチドを主に生成し、非標的ポリヌクレオチドの数を低減する濃縮工程の形態であり得る。いくつかの実施形態では、順方向及び逆方向プライマーの3’領域は、イントロン、エキソン、ジャンクションイントロン−エキソン、コード、非コード、または融合配列をスパニングするタグ付き増幅産物を生成するためにプライマー伸長反応(例えば、PCR)に使用され得る標的ポリヌクレオチド(例えば、標的DNAまたはRNAポリヌクレオチド)の領域に選択的にハイブリダイズすることができる。プライマー伸長反応は、ポリヌクレオチド分子の数と比較して超過したタグを用いて実施することができる。プライマー伸長反応は、同じ配列を有する異なるポリヌクレオチド分子が異なるタグ配列に付加され得るように、5’テイル領域中で一意のタグ配列を有するプライマーのレパートリーを使用して実施することができる。
いくつかの実施形態では、テイルドプライマーのセットは、特定の標的ポリヌクレオチドの特定の部分に選択的にハイブリダイズする共通の3’領域を有する数々のメンバーを含有し得る。いくつかの実施形態では、テイルドプライマーのセットは、複数の順方向及び逆方向のテイルドプライマーを含み得る。
テイルドプライマーのセットのメンバーは、同じタグ配列または異なるタグ配列を有する5’テイルを担持し得る。テイルドプライマーのセットが、その5’領域において共通の3’領域及び異なるタグ配列を担持する場合、プライマー伸長反応は同じ標的ポリヌクレオチド配列を有するタグ付きポリヌクレオチドの集団分子を生成することができ、多くのタグ付き分子は、異なるタグを付加されることになる。タグ担持プライマー(例えば、テイルドプライマー)の多様性が、タグ付け反応中に存在するポリヌクレオチド分子の数を大幅に超えた場合、実質的に全てのタグ付き分子は、一意のタグを付加されることになる。分子タグ付け手順においてこのプライマーの多様なセットを使用することで、プライマーの3’領域に対応する標的配列について選択的に濃縮されたタグ付きポリヌクレオチドの集団を生成することができるが、実質的に全てのタグ付きポリヌクレオチドは、一意のタグを担持する。対照的に、テイルドプライマーのセットが、その5’領域において共通の3’領域及び共通のタグ配列を担持する場合、プライマー伸長反応は、同じ標的ポリヌクレオチド配列を有するタグ付きポリヌクレオチドの集団を生成することができ、実質的に全てのタグ付き分子は、同じタグを付加されている。
いくつかの実施形態では、本開示は、全体として、(a)標的及び非標的ポリヌクレオチドを含む複数のポリヌクレオチドを含有する核酸試料または非標的ポリヌクレオチドを欠く核酸試料を提供することと、(b)複数のポリヌクレオチドからの個々のポリヌクレオチドに少なくとも1つの一意のタグを付加することによって、複数のタグ付きポリヌクレオチド(親タグ付きポリヌクレオチド)を生成することと、(c)複数のタグ付きポリヌクレオチド増幅することによって、タグ付き増幅産物を生成することであって、タグ付き増幅産物は、親タグ付きポリヌクレオチド分子から生じた子孫タグ付きポリヌクレオチド分子である、生成することとによって遺伝子変異体を検出し、遺伝子変異体を特定し、かつ/またはエラー修正された配列決定データを生成するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、一意のタグは、一段階タグ付け手順または複数段階タグ付け手順で核酸に付加される。いくつかの実施形態では、核酸試料は、生体試料、または合成された(例えば、改変された)試料、または両方の混合物から得られる。いくつかの実施形態では、核酸試料は、DNA、RNA、またはDNA及びRNAの混合物(例えば、全核酸試料)を含有する。いくつかの実施形態では、DNA及びRNAの混合物は、同じ生体試料から得られる。いくつかの実施形態では、核酸試料は、cfDNA、cfRNA、または両方の混合物を含有する。
いくつかの実施形態では、本開示は、全体として、増幅産物を配列決定して、複数の候補配列リードを生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。任意に、配列決定工程は、大規模並列配列決定手順またはサイズ分画手順(例えば、ゲル電気泳動)を使用して行うことができる。
いくつかの実施形態では、本開示は、全体として、候補配列リードを操作(例えば、分類、グループ化、選別、及びまたはカウント)して、特定のポリヌクレオチドが初期核酸試料中に存在することを判定し、特定のポリヌクレオチド(例えば、野生型、多型変異体(variant)または変異体(mutant))の配列を特定するために使用され得るエラー修正された配列リードのセットを生成することをさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。複数の候補配列リードは、1つ以上の一意のタグの共通の参照配列に基づいて、配列リードの異なるファミリーに分類/グループ化され得る。参照タグ配列と一致しない候補配列リードは、任意に破棄(例えば、選別)され得るか、または完全一致を要する基準が緩和された場合には配列リードのグループに割り当てられ得る。配列リードの任意の所与のファミリーに残った候補配列リードは、エラー修正された配列リードのセットを形成する。配列リードの任意の所与のファミリー内で、配列リードのポリヌクレオチド部分は、ポリヌクレオチド参照配列と比較され得る。配列リードをカウントして、任意の所与のファミリー内での、ポリヌクレオチド参照配列と実質的に同一であるポリヌクレオチド部分を有する配列リードの割合を判定することができる。ポリヌクレオチド参照配列と実質的に同一である配列リードの計算された割合が閾値レベルを超えた場合、ポリヌクレオチド(配列リードのファミリーによって表される)が、真陽性であり、初期核酸試料中に存在すると判定することができる。大規模並列配列決定手順と組み合わされた増幅工程は、特定のポリヌクレオチドが初期核酸試料中に存在するかどうかの判定の信頼性を増加させることができ、特定のポリヌクレオチドの配列の特定に使用することができるエラー修正された配列データを生成するための統計学的分析を可能にし得る配列リードの大規模な初期データセットを生成するために操作(例えば、分類、グループ化、選別、及び/またはカウント)され得る。
増幅工程の間、変異配列を担持する親タグ付きポリヌクレオチドは、同じ変異配列を担持する子孫分子を生じさせることになる。子孫分子のうちのいくつかはまた、親ポリヌクレオチドには見られないが、ワークフロー中に導入された擬似変異配列を担持し得る。擬似変異配列は、タグ及び/またはポリヌクレオチド中に見出され得る。擬似変異配列は、配列決定データのエラー率に寄与し得る。いくつかの実施形態では、候補配列リードを操作してエラー率を低減するために使用される1つ以上の閾値設定が適用され得る。
増幅工程の間、参照配列の配列と一致する配列を有する親タグ付きポリヌクレオチドは、変異配列(例えば、擬似変異)を担持する子孫分子を生じさせ得る。親ポリヌクレオチドに見られない擬似変異配列は、ワークフロー中に導入された可能性がある。擬似変異配列は、タグ及び/またはポリヌクレオチド中に見出され得る。擬似変異配列は、配列決定データのエラー率に寄与し得る。いくつかの実施形態では、候補配列リードを操作してエラー率を低減するために使用される1つ以上の閾値設定が適用され得る。
いくつかの実施形態では、本開示は、全体として、1つ以上の閾値を適用して、配列決定ワークフローの正確性及び/または感度を向上させるための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、閾値は、ポリヌクレオチドに付加された少なくとも1つのタグ(例えば、ランダマータグ)を含む少なくとも1つの参照配列の配列を使用するか、またはポリヌクレオチド自体の少なくとも一部を使用して確率することができる。タグの既知の配列は、候補配列リードのセット中のタグ配列と比較される参照タグ配列として使用することができる。同様に、ポリヌクレオチドの既知の配列は、候補配列リードのセット中のポリヌクレオチド配列と比較される参照ポリヌクレオチド配列として使用することができる。偽陽性の数が低減されたエラー修正された配列リードのセットを生成するために、1つ以上の閾値基準が候補配列リードのセットに任意の順序で適用され得る。いくつかの実施形態では、候補配列リードは、偽陽性の割合を低減しながら真陽性の高い割合を生むために、本明細書に記載される教示に従って操作され得る(図20A及びB)。例えば、候補配列リードのセットは、任意の順序で適用され得る選別閾値、グループ化閾値、グループ化されたリードカウント閾値、ファミリーカウント閾値、差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値のうちのいずれか1つまたは任意の組み合わせに供され得る(図18A、B、及びC)。任意に、候補配列リードに適用される閾値の順序には、(1)選別、グループ化、グループ化されたリードのカウント、及びファミリーカウント閾値、(2)グループ化、選別、グループ化されたリードのカウント、及びファミリーカウント閾値、(3)選別、グループ化、及びグループ化されたリードのカウント、(4)グループ化、選別、及びグループ化されたリードのカウント、(5)選別、グループ化、及びファミリーカウント閾値、または(6)グループ化、選別、及びファミリーカウント閾値が含まれる。いくつかの実施形態では、グループ化された候補配列リードのファミリーは、任意の順序で適用され得る差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値のうちのいずれか1つまたは任意の組み合わせに供され得る。いくつかの実施形態では、グループ化された候補配列リードのエラー修正されたファミリーは、ファミリーレベル閾値及びマルチファミリー閾値のうちのいずれか1つまたは任意の組み合わせに供され得る。当業者であれば、特定のポリヌクレオチドが初期核酸試料に存在することを判定するため、かつ特定のポリヌクレオチドの配列を特定するために、閾値の多くの他の組み合わせ及び順序を候補配列リードに適用することができることがわかるであろう。
いくつかの実施形態では、選別閾値は、参照配列とは異なる配列(例えば、擬似変異タグまたはポリヌクレオチド配列)を含有する候補配列(図18A、(100))を保持または除去する判断を導くために使用することができる。いくつかの実施形態では、タグエラーは、候補配列リード中で検出され得る(図18A、(300))。いくつかの実施形態では、選別閾値(図18A、(200))の基準は、候補配列リードが保持されるために、参照タグまたは参照ポリヌクレオチド配列と100%の配列同一性を有することを要する場合がある。いくつかの実施形態では、選別閾値のための基準は、参照配列と比較して、1、2、3、4、5、6、7、8、9、または10の塩基位置が異なる場合に、配列リードが破棄されることを要する場合がある。いくつかの実施形態では、選別閾値の基準は、候補配列リードが保持されるために、参照タグまたは参照ポリヌクレオチド配列と約50〜60%、または約60〜70%、または約70〜80%、または約80〜90%、または約90〜99%の配列同一性を有することを要する場合がある。候補配列リードのセットから少なくとも1つの配列リードを除去すること(図18A、(400))は、低減されたエラー率を有する配列リードのセットをもたらし得る(図18A、(500))。
いくつかの実施形態では、グループ化された閾値を使用して、グループ化された配列リードの少なくとも1つのファミリーを形成するために、タグベース及び/またはポリヌクレオチドベースの参照配列に基づいて、どの候補配列リードが共にグループ化されるかを導くことができる。例示的なタグベースのグループ化閾値は、図18A(600)に示される。例えば、配列リードの第1のグループは、共通の第1のタグ配列を共有することができ、配列リードの第2のグループは、共通の第2のタグ配列を共有することができ、第1及び第2のタグ配列は互いとは異なる。別の例において、配列リードの第1のグループは、共通の第1及び第2のタグ配列(例えば、第1のポリヌクレオチドの両端のタグ)を共有することができ、配列リードの第2のグループは、共通の第3及び第4のタグ配列(例えば、第2のポリヌクレオチドの両端のタグ)を共有することができ、タグ配列のうちの少なくとも2つは互いとは異なる。いくつかの実施形態では、グループ化閾値の基準は、配列リードのグループの全てのメンバーが、タグまたはポリヌクレオチド参照配列と100%の配列同一性を有することを要する場合がある。いくつかの実施形態では、グループ化閾値の基準は、配列リードのグループの全てのメンバーが、タグまたはポリヌクレオチド参照配列と異なる塩基位置が1、2、3、4、5、または6以下であることを要する場合がある。いくつかの実施形態では、グループ化閾値の基準は、配列リードのグループの全てのメンバーが、タグまたはポリヌクレオチド参照配列と約50〜60%、または約60〜70%、または約70〜80%、または約80〜90%、または約90〜99%の配列同一性を有することを要する場合がある。配列リードの少なくとも1つのグループを生成することは、低減されたエラー率を有する配列リードのセットをもたらし得る。
いくつかの実施形態では、配列リードのエラー修正されたファミリー(または、しばしば、エラー修正された配列リードのファミリーと呼ばれる)は、共通のタグベース及び/または標的ポリヌクレオチドベースの参照配列に基づいて共にグループ化された複数の配列リードを含有する。任意に、グループ化閾値の基準に満たないか、それを超える候補配列リードは破棄され、したがって、配列リードのファミリー内に置かれない。任意に、エラー(例えば、タグ及び/または標的ポリヌクレオチド領域中のエラー)を修正するために、グループ化閾値の基準に満たないか、それを超える候補配列リードにエラー修正アルゴリズムが適用され、訂正された配列リードは、配列リードのファミリー内に置かれる。図18A(700)中の例示的なブロック図は、共通のタグ配列に基づいてファミリーにグループ化されたタグ付き配列リードを示す。多くの異なるグループ化されたファミリーを生成するために、グループ化閾値が複数のタグ付き配列リードに適用される。図18A(800)中の例示的なブロック図は、所与の共通のタグ配列を有するタグ付き配列リードをグループ化することによって各々形成された配列リードの複数の異なるファミリーを示す。
いくつかの実施形態では、閾値に満たないか、またはそれを超える配列リードは、配列リードのグループから破棄することができる。いくつかの実施形態では、配列リードのグループ全体(例えば、グループ化された配列リードのファミリー)は、そのグループ内の単一の配列リードが、ポリヌクレオチド参照配列と2つ以上の塩基位置が異なる場合に、破棄され得る。
いくつかの実施形態では、グループ化されたリードカウント閾値を使用して、特定の配列を有するポリヌクレオチド分子が初期核酸試料中に存在したかどうかを判定することができる。例えば、ポリヌクレオチドが初期核酸試料中に存在したかどうかを判定するために、グループ化されたリードカウント閾値を使用してグループ化された配列リードのファミリーを分析することができる。グループ化された配列リードのファミリー内で、参照配列と一致する候補配列リードの数をカウントすることができ、そのカウントを割合に変換することができる。参照配列は、1つの特定の既知の標的ポリヌクレオチド配列、またはコンセンサス配列に基づき得る。候補配列リードと参照配列との間の一致は、100%の同一性であり得るか、または一致要件は、一致が約65〜75%、もしくは約75〜85%、もしくは約85〜95%、もしくは約95〜99%、もしくは約99〜100%の配列同一性であるように緩和され得る。そのグループ内で参照配列と一致する配列リードのパーセントは、グループ内のメンバーのうちの少なくとも1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、97%、98%、99%、または100%が、参照配列と一致することを要する場合がある閾値と比較され得、次いで、特定の配列リードが真陽性であり、その配列を有するポリヌクレオチドが初期核酸試料中に存在したと結論付けられ得る。いくつかの実施形態では、グループ化されたリードカウント閾値を使用して、配列リード(例えば、変異配列を含有する)が真陽性の配列であるかどうか、及び初期核酸試料中に存在するポリヌクレオチドと対応するかどうかを判定することができる。
いくつかの実施形態では、ファミリーカウント閾値を使用して、特定の配列を有するポリヌクレオチド分子が初期核酸試料中に存在したかどうかを判定することができる。例えば、分子タグ付け手順は、ファミリー内で、各異なるファミリーに固有の共通のタグ及び/または標的ポリヌクレオチド配列に基づいて配列リードが共にグループ化される配列リード複数のファミリーを生成することができる。複数のファミリーが同じ標的ポリヌクレオチドの配列リードを含有してもよい。例えば、初期核酸試料は、特定の標的ポリヌクレオチドの複数のコピーを含み得、特定の標的ポリヌクレオチドは各々、一意のタグを付加されている。増幅は子孫分子を生成し、それらの配列は、共通の一意のタグに基づいて(ファミリーに)共にグループ化され得る。同じ標的ポリヌクレオチド配列を有する異なるファミリーの数をカウントすることができ、この数がファミリーカウント閾値を超えた場合、標的ポリヌクレオチド配列は、初期核酸試料中に存在するポリヌクレオチドに対応する真陽性の配列リードを表すと見なされる。例えば、同じ標的ポリヌクレオチド配列を有する異なるファミリーの最小数は、2、3、4、5、6、7、8、9、10、11〜20、20〜30、またはそれより多い異なるファミリーを有するセットである。真陽性の配列リードを表すと推測される配列リードのファミリーは保持され得、さらなる分析に供され得る。同じ標的ポリヌクレオチド配列を有する異なるファミリーの数がファミリーカウント閾値を超えない場合、標的ポリヌクレオチド配列は、偽陽性の配列を表すと見なされ、初期核酸試料には存在しなかったと推測される。偽陽性の配列リードを表すと推測される配列リードのファミリーは、破棄され得る。いくつかの実施形態では、候補配列リードは、偽陽性の割合を低減しながら真陽性の高い割合を生むために、本明細書に記載される教示に従って操作され得る(図20A及びB)。
いくつかの実施形態では、グループ化閾値を使用して形成されたファミリー等のグループ化された配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長から生じるエラー、または他のエラーを含むタグ付加エラーに起因して、共通のタグ配列を含むが標的ポリヌクレオチドまたは非標的ポリヌクレオチドの異なる領域に対応する、誤ってタグ付けされた配列リードを含み得る(図16A及びB)。誤ってタグ付けされた配列リードは、ヌクレオチドがファミリーの参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる、1つ以上の塩基位置を含み得る。
誤ったタグ付け事象の一実施形態が図16Aに示され、標的配列A及びB、ならびに標的配列AまたはBの一部にハイブリダイズするように設計されたテイルドプライマーを含有する多重単一反応タグ付け混合物を示す。「gsA」は、標的配列Aの一部にハイブリダイズすることになるテイルドプライマーの領域を示し、「gsB」は、標的配列Bの一部にハイブリダイズすることになるテイルドプライマーの領域を示す。テイルドプライマーはまた、標的配列AまたはBへの実質的なハイブリダイゼーションを呈さない異なる5’タグ配列(タグ1、2、3、4、5、または6)を含有する。図16Aにおいて、ポリヌクレオチドBに特異的にハイブリダイズするように設計された3’遺伝子特異的領域を有するテイルドプライマー(例えば、テイルドプライマーgsB)は、代わりにポリヌクレオチドAの領域(標的配列A)にハイブリダイズする。誤ったタグ付け事象は、(*)で示される。gsBテイルドプライマーは、プライマー伸長を経て、タグ3配列を標的A配列に付加し、それにより、タグ3及び4を付加されたポリヌクレオチドAを有する擬似的な誤ってタグ付けされた産物を生成する。誤ってタグ付けされた産物は、増幅、配列決定、及び配列リードの操作(例えば、任意の順序で選別、分類、及びグループ化)を経る。グループ化された配列リードのタグ3ファミリーは、タグ3及び4に付加された標的配列Aを有する擬似ポリヌクレオチドを表す。テイルドプライマータグ3−gsBの第2のコピー(タグ付け反応中に存在する場合)は、標的配列Bにハイブリダイズしないため、グループ化された配列リードのタグ3ファミリーは、タグ3配列を付加された標的B配列を含まない。
誤ったタグ付け事象の別の実施形態が図16Bに示され、標的配列A及びB、ならびに標的配列AまたはBの一部にハイブリダイズするように設計されたテイルドプライマーを含有する多重単一反応タグ付け混合物を示す。「gsA」は、標的配列Aの一部にハイブリダイズすることになるテイルドプライマーの領域を示し、「gsB」は、標的配列Bの一部にハイブリダイズすることになるテイルドプライマーの領域を示す。テイルドプライマーはまた、標的配列AまたはBへの実質的なハイブリダイゼーションを呈さない異なる5’タグ配列(タグ1、2、3、4、または5)を含有する。図16Bにおいて、ポリヌクレオチドBに特異的にハイブリダイズするように設計された3’遺伝子特異的領域を有するテイルドプライマー(例えば、テイルドプライマーgsB)は、ポリヌクレオチドAの領域(標的配列A)、及びポリヌクレオチドBの領域(標的配列B)にハイブリダイズする。誤ったタグ付け事象は、(*)で示される。gsBテイルドプライマーの両方は、プライマー伸長を経て、タグ3配列を標的A配列及び標的B配列に付加し、それにより、(i)タグ3及び4に付加されたポリヌクレオチドAを有する擬似的な誤ってタグ付けされた産物、ならびに(ii)タグ3及び5に付加されたポリヌクレオチドBを有する正しいタグ付き産物の2種類のタグ付き産物を生成する。誤ってタグ付けされた産物及び正しいタグ付き産物は、増幅、配列決定、及び配列リードの操作(例えば、任意の順序で選別、分類、及びグループ化)を経る。グループ化された配列リードのタグ3ファミリーは、(i)タグ3及び4に付加された標的配列Aを有する擬似ポリヌクレオチド(誤ってタグ付けされた産物)、ならびに(ii)タグ3及び5に付加された標的配列Bを有するポリヌクレオチド(正しいタグ付き産物)の2種類のタグ付き分子を表す。
いくつかの実施形態では、差異カウント閾値(図18B、(900))を使用して、どの候補配列リードが誤ってタグ付けされた配列リードであり得るかを特定することができる(1200)。例えば、候補配列リードと標的ポリヌクレオチドのための参照配列との間で異なるヌクレオチドを判定し、その数を差異カウント閾値と比較することによって、誤ってタグ付けされた配列リードを特定することができる。差異カウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去すること(1300)は、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに差異カウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る(1400)。
いくつかの実施形態では、パターンカウント閾値(図18B、(1000))を使用して、どの候補配列リードが、変異体の共通パターンを有する誤ってタグ付けされた配列リードであり得るかを特定することができる(1200)。例えば、それらのポリヌクレオチド配列中に変異体の共通パターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することを使用して、誤ってタグ付けされた配列リードのグループを特定することができる。パターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去すること(1300)は、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る(1400)。
いくつかの実施形態では、非標的パターン閾値(図18B、(1100))を使用して、どの候補配列リードが誤ってタグ付けされた配列リードであり得るかを特定することができる(1200)。誤ってタグ付けされた配列リードは、標的ポリヌクレオチドのための参照配列と、非標的ポリヌクレオチドの予想配列または標的ポリヌクレオチドの異なる領域との間の予想差異のパターンと類似する差異のパターンを有し得る。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。非標的パターン閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去すること(1300)は、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る(1400)。
いくつかの実施形態では、ファミリーレベル閾値を使用して、エラー修正された配列リードのファミリー内の候補変異体を特定することができる。例えば、エラー修正された配列リードのファミリーは、差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値を使用して誤ってタグ付けされた配列リードを検出して除去することによって形成することができる。例えば、エラー修正された配列リードを、エラー修正されたファミリーのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、ファミリーレベル閾値(図18B、(1500))を使用して、エラー修正された配列リードのファミリーの候補変異体を特定することができる。例えば、エラー修正された配列リードのファミリーは、差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値(それぞれ、図18B(900)、(1000)、及び(1100))のうちのいずれか1つまたは任意の組み合わせを使用して誤ってタグ付けされた配列リードを検出して除去することによって形成することができる。例えば、エラー修正された配列リードを、エラー修正されたファミリーのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、ファミリーレベル閾値(図18B、(1500))を使用して、ファミリー参照配列を生成するための各塩基位置の代表的な塩基を判定することができる。例えば、エラー修正された配列リードのファミリーにおいて、アラインされた配列の各位置について、その位置で特定の塩基を有するアラインされた配列の数をカウントし(1600)、その位置の代表的な塩基を特定するためにファミリーレベル閾値を適用すること。ファミリーレベル閾値より低い数は、その特定のアラインされた配列中の位置における塩基エラーを示す。ファミリーレベル閾値に満たないグループ化された配列リードのファミリーは、破棄され得る(1700)。保持されたファミリーにおいて、各位置について特定された代表的な塩基を使用して、各位置の代表的塩基を含有するファミリー参照配列を生成することができる。ファミリー参照配列は、保持されたファミリーの配列リードの、エラー修正されかつ圧縮された代表である、単一の配列リード(1800)である。ファミリー参照配列は、メモリに保存することができる。
いくつかの実施形態では、ファミリー参照配列は、ファミリーベースの候補変異体を特定するために、ポリヌクレオチド特異的参照配列と比較され得る。所与の位置での代表的な塩基が、ポリヌクレオチド特異的参照配列中の対応する位置での塩基と異なる場合、所与の位置でのファミリーベースの候補変異体が特定される。
いくつかの実施形態では、マルチファミリー閾値(図18B、(2300))は、初期核酸試料中に存在し得る変異体を特定する判断を導くことができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列の異なるエラー修正されたファミリーに適用されたファミリーレベル閾値は、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、マルチファミリー閾値(2300)は、初期核酸試料中に存在し得る変異体を特定するために、複数のファミリーからのファミリー参照配列(2200)を使用して特定されたファミリーベースの候補変異体(2100)に適用され得る。いくつかの場合では、所与の標的ポリヌクレオチド配列について異なるエラー修正されたファミリーのファミリー参照配列を使用して特定されたファミリーベースの候補変異体は、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
図18Aは、例示的な実施形態に従ったエラー修正及びファミリーグループ化のために、複数の候補配列リードに適用される処理工程のブロック図である。メモリは、これらの工程を実行する動作を適用するように構成されたプロセッサによる分析のための複数の候補配列リード(100)を保存する。エラー修正動作の第1段階は、配列リードの対応する部分をタグ特異的参照配列及び/またはポリヌクレオチド特異的参照と比較し、選別閾値(200)を適用することによって、誤った配列リードを検出する。選別閾値の基準に満たない配列リード(300)は、メモリから除去される(400)。エラー修正の第1段階の後、候補配列リードのサブセットがさらなる処理のために残される(500)。グループ化動作(600)が、候補配列リードのタグ配列を参照タグ配列と比較する。共通のタグ配列を共有する候補配列リードは、所与のファミリーにグループ化され、共通のタグ配列はそのファミリー固有である(700)。グループ化動作は、タグ付き配列リードの複数のファミリーを生成する(800)。
図18Bは、図18Aに示される処理工程に続く追加の処理工程のブロック図である。処理工程は、例示的な実施形態に従って候補配列リードのファミリーに適用される。エラー修正動作の別の段階は、差異カウント閾値(900)、パターンカウント閾値(1000)、及び/または非標的パターン閾値(1100)のうちのいずれか1つまたは任意の組み合わせを適用することによって、候補配列リードのグループ化されたファミリー中に存在し得る誤ってタグ付けされた配列を特定する。グループ化されたファミリー中に含まれる特定された誤ってタグ付けされた配列は、メモリから除去される(1300)。
エラー修正のなお別の段階は、分析される各ファミリーのためのファミリー参照配列を生成することができる位置ベースの比較動作(1600)を含む。ファミリー参照配列(1800)は、保持されたファミリーの配列リードの、エラー修正されかつ圧縮された代表である、単一の配列リードである。分析される各塩基位置について、その位置で特定の塩基を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することにより、その位置の代表的塩基を特定することができる。ファミリーレベル閾値より低い数は、アラインされた配列中の所与の位置における塩基エラーを示す。ファミリーレベル閾値は、許容されるエラーのレベルに基づいて設定され得る。例えば、20%のエラーについて、ファミリーレベル閾値は、所与の位置の配列リードの80%に設定される。5または4つのグループ化された配列リードを含有するファミリーについて、所与の位置の配列リードの少なくとも80%は、両方について4に等しいファミリーレベル閾値をもたらす。3つのグループ化された配列リードを含有するファミリーについて、所与の位置の配列リードのうちの少なくとも80%は、両方について3に等しいファミリーレベル閾値をもたらす。
ファミリー参照配列(1800)は、各位置について判定された代表的な塩基をアレイ状に集めることによって生成される。候補配列リードのいずれかの特定の位置における塩基エラーは、ファミリー参照配列中に表れない。ファミリー参照配列は、ファミリーのためのエラー修正された配列を表す。ファミリーの候補配列リードはメモリから除去され得る(1700)一方で、ファミリー参照配列はメモリ内に保存される。候補配列リードを破棄しながらファミリー参照配列を保存することにより、メモリ内のスペースを節約し、N:1の圧縮率をもたらし、配列中、Nは、ファミリー内の候補配列リードの数である。
図18Bに戻ると、各位置でのファミリー参照配列(1800)をポリヌクレオチド特異的参照配列(1900)と比較し(2000)、所与の位置について異なる塩基を検出することにより、所与の位置でのファミリーベースの候補変異体(2100)を特定することができる。ポリヌクレオチド特異的参照に対応するファミリーの各々の比較を行うことにより、複数のファミリーベースの候補変異体(2200)を生成することができる。特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントし、エラー修正されたファミリーの数にマルチファミリー閾値(2300)を適用することにより、所与の位置での変異体を特定することができる(2400)。マルチファミリー閾値の値は、パーセント因子に同じ標的ポリヌクレオチドに対応する異なるファミリーの数を掛けた積に最も近い整数である。パーセント因子は、0.0001〜0.1%、0.001〜0.1%、0.01〜0.1%、0.02〜0.08%、0.03〜0.07%、0.04〜0.06%、0.045〜0.055%、0.0001〜2.5%、0.1〜2.5%、1〜2.5%、1.5〜2.5%、1.8〜2.2%、1.9〜2.1%、もしくは1.95%〜2.05%、またはこれらの範囲のうちの1つのサブ間隔の範囲にあり得る。
いくつかの実施形態では、図18Cに示される処理工程は、図18Aに示される処理工程に続く。図18Bと同様に、エラー修正の別の段階は、候補配列リードのグループ化されたファミリー中に存在し得る誤ってタグ付けされた配列リードを特定するための動作を含む。図18Cに示される例は、ファミリー参照配列を判定するための位置ベースの比較を含まない。ファミリーベースの変異体の判定のために、エラー修正されたファミリーの候補配列リードは各々、ポリヌクレオチド特異的参照配列と比較される。比較動作は、1つ以上のアラインされた配列リード及びポリヌクレオチド参照配列が異なる塩基を有する塩基位置を判定する。その塩基位置での特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することにより、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。複数のファミリーベースの候補変異体を使用して変異体を検出するための動作は、図18Bについて記載されるものと同じである。
図19A及びBは、分子タグ付けワークフローを示す非限定的な概略図である。図19Aの上部の2つの標的ポリヌクレオチドは、「X」で示される同じ変異配列を担持する。図19Bの上部の2つの標的ポリヌクレオチドは、同じ野生型配列を担持する。図19A及びBの上部の標的ポリヌクレオチドは各々、アダプターライゲーションまたはプライマー伸長を介して、同じタグ付加反応混合物中で両端に一意のタグ(例えば、ランダマータグ1〜8)を付加されている。タグ付き分子は同じ反応混合物中で増幅されて複数のタグ付き増幅産物を生成し、そのいくつかは増幅工程中に生成された擬似変異配列を担持する。図19A及びB中の擬似変異配列は、「O」で示される。複数のタグ付き増幅産物は配列決定されて、複数の候補タグ付き配列リードを生成する。したがって、元の2つの変異型及び野生型分子の配列が、複数の候補タグ付き配列リード中に含まれる。候補タグ付き配列リードは、複数の候補タグ付き配列リードを、エラー修正され、ファミリー内の複数の候補タグ付き配列リードの圧縮表現である単一の配列リード(例えば、ファミリー参照配列)まで低減するために、選別閾値、グループ化閾値、グループ化されたリードカウント閾値、ファミリーカウント閾値、差異カウント閾値、パターンカウント閾値非標的パターン閾値、及び/またはファミリーレベル閾値のうちのいずれか1つまたは任意の組み合わせを適用することによって操作される。変異候補タグ付き配列リードを表すファミリー参照配列は、図19Aの下部の破線の四角形のボックスによって示される。野生型候補タグ付き配列リードを表すファミリー参照配列は、図19Bの下部の破線の四角形のボックスによって示される。変異型及び野生型ファミリー参照配列は両方、メモリ内に保存することができる。
当業者であれば、任意の閾値は、生成される配列リードの数、選別及び/または保持される配列リードの割合、配列リードの異なるグループの数、ならびにグループのサイズを含む、1つの要因またはいくつかの要因に基づいて調節され得ることを理解するであろう。
マルチファミリー閾値は、核酸試料中に存在し得る変異体を特定する判断を導くことができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するファミリーの数をカウントし、マルチファミリー閾値を適用することは、核酸試料中に存在した変異体として候補変異体を特定することができる。マルチファミリー閾値の値は、パーセント因子に同じ標的ポリヌクレオチドに対応する異なるファミリーの数を掛けた積である。パーセント因子は、0.0001〜0.1%、0.001〜0.1%、0.01〜0.1%、0.02〜0.08%、0.03〜0.07%、0.04〜0.06%、0.045〜0.055%、0.0001〜2.5%、0.1〜2.5%、1〜2.5%、1.5〜2.5%、1.8〜2.2%、1.9〜2.1%、もしくは1.95%〜2.05%、またはこれらの範囲のうちの1つのサブ間隔の範囲にあり得る。
いくつかの実施形態では、本開示は、全体として、遺伝子変異体の検出、遺伝子変異体の特定、及び/または遺伝子変異体の検出及び特定のための感度の増加を可能にし得る、例えば、次世代配列決定プラットホームの大規模並列分析能力の活用による配列決定データのエラー率の低減のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、核酸試料内に存在し得る低い存在量の遺伝子変異体の、核酸試料中、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、または約5〜10%、または約0.05〜0.1%、または約0.048〜0.1%、または約0.046〜0.1%、または約0.044〜0.1%、または約0.042〜0.1%、または約0.040〜0.1%、または約0.025〜0.05%、または約0.0125〜0.025%、または0.0125%未満(またはより低い存在量範囲)の感度レベルでの検出のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、出発核酸試料は、約1〜7ng、または約5〜12ng、または約10〜105ng、または約100ng〜1ugのポリヌクレオチドを含有する。いくつかの実施形態では、出発核酸試料は、約0.0001〜5ngのポリヌクレオチドを含有する。任意に、出発核酸試料は、約1〜50ngであり得、生体液、固形生体試料、任意の有機体から、または水、土、もしくは食物から得られる。
いくつかの実施形態では、本開示は、全体として、(a)複数のポリヌクレオチドを含有する核酸試料を提供することと、(b)複数のポリヌクレオチドのうちの少なくともいくつかに少なくとも1つのタグを付加することによって複数のタグ付きポリヌクレオチドを生成することとを含む、遺伝子変異体の検出、遺伝子変異体の特定、及び/またはエラー修正された配列決定データの生成のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。タグ付きポリヌクレオチドは、一段階タグ付け反応または複数段階タグ付け反応を実施することによって生成することができる。いくつかの実施形態では、個々のポリヌクレオチドは、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列と全長ユニバーサル配列とを含有するタグを使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列または部分長ユニバーサル配列を含有するタグを使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列またはユニバーサル配列を含有するタグを使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。
いくつかの実施形態では、本開示は、全体として、(c)タグ付きポリヌクレオチドを増幅してタグ付き増幅産物を生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(d)タグ付き増幅産物のうちの少なくともいくつかの配列を判定して候補配列リードの集団を生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、候補配列リードを操作してエラー修正された配列リードを生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。任意に、操作は、候補配列リードに少なくとも1つの閾値を適用することを含む。任意に、操作された配列リードを使用して、特定のポリヌクレオチドが初期核酸試料中に存在することを判定し、特定のポリヌクレオチドの配列を特定することができる。
いくつかの実施形態では、本開示は、全体として、タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、候補配列リードの集団から1つ以上の候補配列リードを選別する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。候補配列リードは、選別閾値を適用することによって選別することができる。例えば、選別閾値を使用して、少なくとも1つの候補配列リードを保持または除去し、エラー修正された配列リードを生成することができる。
いくつかの実施形態では、本開示は、全体として、候補配列リードの集団のサブセットを候補配列リードの異なるファミリーにグループ化する工程であって、候補配列リードの異なるファミリーが共通のタグ配列を含む、グループ化する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。グループ化された配列リードを使用して、エラー修正された配列リードのファミリーを生成することができる。候補配列リードは、グループ化閾値を適用することによってグループ化することができる。例えば、グループ化閾値は、参照タグ配列または参照ポリヌクレオチド配列に基づき得る。配列リードの所与のファミリーにグループ化された異なる配列リードは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、本開示は、全体として、グループ化されたリードカウント閾値を使用して、グループ化されたファミリー内での参照配列と一致する(例えば、それと類似するかまたは同一である)配列リードの割合を判定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。例えば、グループ化されたリードカウント閾値は、特定のポリヌクレオチド配列またはタグ配列に基づき得る。グループ化されたファミリー内での、参照配列と一致する(例えば、それと類似するかまたは同一である)配列リードの割合がグループ化されたリードカウント閾値を満たすかまたはそれを超えた場合、配列リードは真陽性の配列リードであり、その配列を有するポリヌクレオチドが初期核酸試料に存在したと結論付けられ得る。
いくつかの実施形態では、本開示は、全体として、同じ標的ポリヌクレオチド配列を有する(配列決定グループ化された配列リードの)異なるファミリーの数をカウントし、ファミリーカウント閾値を適用する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。カウントされたファミリーの数がファミリーカウント閾値の超えた場合、標的ポリヌクレオチド配列は、初期核酸試料中に存在するポリヌクレオチドに対応する真陽性の配列リードを表すと見なされる。
いくつかの実施形態では、本開示は、全体として、候補配列リードのセットまたはグループ化された配列リードのファミリーから誤ってタグ付けされた配列リードを除去する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、本開示は、全体として、配列リードを標的ポリヌクレオチドのための参照配列と比較することによって誤ってタグ付けされた配列リードを特定し、差異カウント閾値を適用する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ったタグ付き配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。差異カウント閾値をグループ化された配列リードのファミリーに適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、本開示は、全体として、配列リードを他の配列リードと比較することによって変異体の共通パターンを有する誤ってタグ付けされた配列リードを特定し、パターンカウント閾値を適用する工程をさらに含む、方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。例えば、それらのポリヌクレオチド配列中の変異体の共通パターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。パターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、本開示は、全体として、配列リードを標的ポリヌクレオチドのための参照配列と比較することによって、誤ってタグ付けされた候補配列リードを特定し、差異カウント閾値を適用する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値及びパターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、本開示は、全体として、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。非標的パターン閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、本開示は、全体として、ファミリーベースの候補変異体を特定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、本開示は、全体として、遺伝子変異体を特定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、複数のポリヌクレオチドは、単一反応混合物中で少なくとも1つのタグを付加されている。
いくつかの実施形態では、単一反応混合物は、1〜6個の一意のタグ、または4〜105個の一意のタグ、または100〜510個の一意のタグ、または500〜1010個の一意のタグ、または1000〜5010個の一意のタグ、または5000〜10,010個の一意のタグ、または10,000個超の一意のタグを含有する。
いくつかの実施形態では、単一反応混合物中の複数のオリゴヌクレオチドタグは、核酸試料中の5〜105、または100〜205、または200〜305、または300〜405、または400〜505、またはそれ以上の異なる標的ポリヌクレオチドを検出する。
いくつかの実施形態では、少なくとも1つのタグに付加された標的ポリヌクレオチド配列を含有する増幅産物は、約30〜105塩基、または約100〜305塩基、または約300〜605塩基、または約600〜1,000塩基の長さである。
いくつかの実施形態では、核酸試料は、任意の種類の生体液もしくは固形生体試料、または任意の有機体から、または水、土、もしくは食物から得られる。いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。
いくつかの実施形態では、核酸試料には、DNA、RNA、RNA及びDNAの混合物、cfDNA、循環腫瘍細胞由来のDNA、またはcfRNAが含まれる。
いくつかの実施形態では、核酸試料は、少なくとも1つの標的ポリヌクレオチド及び1つ以上の非標的ポリヌクレオチドを含有するか、または核酸試料は、一切の非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、標的及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠く、約0.001ng〜100ugまたは約1〜500ngのポリヌクレオチドを含有する。
いくつかの実施形態では、標的ポリヌクレオチドの存在量レベルは、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、またはより低い存在量範囲で存在する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の標的ポリヌクレオチドを含有する。
いくつかの実施形態では、エラー修正された配列リードは、標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、配列リードのエラー修正されたファミリーは、核酸試料中に存在するポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、初期核酸試料中に存在し得る異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子のうちの少なくとも2つは一意的にタグ付けされ、すなわち、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子のうちの2つは異なるタグを付加されている。2つのタグ付きポリヌクレオチドは、同じまたは異なる配列を有する標的ポリヌクレオチドを含む。いくつかの実施形態では、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子の各々は、実質的に全ての他のタグ付きポリヌクレオチドに付加されているタグとは異なる。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の少なくとも2つのタグ付きポリヌクレオチドは、両端に異なるタグを付加されている。
いくつかの実施形態では、複数のポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を付加されている。
いくつかの実施形態では、実質的に全てのポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を付加されている。
いくつかの実施形態では、少なくとも1つのタグを付加されている実質的に全てのポリヌクレオチドは、複数のポリヌクレオチド内の個々のポリヌクレオチド分子のうちの約10〜30%、または約30〜50%、または約50〜70%、または約70〜80%、または約80〜90%、または約90〜95%、または約95〜99%が少なくとも1つのタグを付加されていることを含む。
いくつかの実施形態では、酵素的ライゲーションは、少なくとも1つのタグを複数のポリヌクレオチドに非選択的に付加する。例えば、少なくとも1つのタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加するために、平滑端ライゲーション反応を使用することができる。別の例では、酵素的ライゲーションを使用して、5’または3’突出末端を有するタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することができる。
いくつかの実施形態では、付加工程は、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に酵素的に連結して、複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、複数の別個のライゲーション反応(例えば、約1〜6)を実施して、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。任意に、少なくとも1つのアダプター(例えば、タグアダプター)は、酵素的ライゲーション反応の第1、第2、第3、またはその後のラウンドで、個々のポリヌクレオチドの一方または両方の末端に付加され得る。
いくつかの実施形態では、複数のポリヌクレオチドは、核酸試料内の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を有する少なくとも1つのタグプライマーを使用したプライマー伸長反応によって少なくとも1つのタグを付加され、少なくとも1つのタグプライマーは、少なくとも1つの一意のタグ配列を含む。任意に、タグプライマーは、標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、タグプライマーの3’領域は、標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含み、5’領域は、標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含む。
いくつかの実施形態では、プライマー伸長反応は、ポリメラーゼ及び複数のヌクレオチドをさらに含む。
いくつかの実施形態では、複数のポリヌクレオチドのサブセットは、プライマー伸長によって少なくとも1つのタグに付加されている。
いくつかの実施形態では、付加工程は、プライマー(例えば、タグプライマー)を用いてプライマー伸長反応を実施して、タグ配列を付加された少なくとも一方の末端を有する複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、プライマー伸長反応の複数の別個のラウンドを実施して、少なくとも1つのタグ配列を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。例えば、複数のタグ付きポリヌクレオチドを生成するために、タグプライマーのレパートリーを用いて2〜4ラウンドのプライマー伸長(例えば、PCR)が実施され、個々のタグ付きポリヌクレオチドは、各末端に一意のタグ配列を付加され、任意に個々のタグ付きポリヌクレオチドの一方または両方の末端はまた、同じまたは異なるユニバーサル配列を含み得る。追加の一意のタグ配列、バーコード配列、及び/またはユニバーサル配列を付加するために、テイルドプライマーを用いてプライマー伸長(例えば、PCR)の追加のラウンドを実施することができる。プライマー伸長の追加のラウンドに使用されるテイルドプライマーは、以前のプライマー伸長反応からのタグ配列にハイブリダイズする配列をその3’領域中に含み得る。プライマー伸長反応の約2〜40の追加のラウンドを実施することができる。任意に、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つのバーコード配列またはユニバーサル配列をポリヌクレオチドに付加することができ、続いて、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つの一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、タグアダプターを使用した酵素的ライゲーション及び/またはタグプライマーを使用したプライマー伸長(例えば、PCR)の組み合わせを使用して、一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、少なくとも1つのタグ(例えば、タグアダプターまたはプライマーに含まれる)は、少なくとも1つのランダム配列と少なくとも1つの固定配列とを有するランダマータグを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。
いくつかの実施形態では、タグは、固定配列が点在する少なくとも1つのランダム配列を有する配列を含む。いくつかの実施形態では、複数のタグにおける個々のタグは、構造(N)n(X)x(M)m(Y)yを有し、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表し、生じ得る別個のランダマータグの数は、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。
いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、増幅は、等温増幅もしくはサーモサイクリング増幅、または等温増幅及びサーモサイクリング増幅の組み合わせを含む。任意に、増幅は、リコンビナーゼアクセサリー因子(例えば、T4 uvsY及び/またはgp32タンパク質)を伴うかまたは伴わない、リコンビナーゼ(例えば、T4 uvsX)を含む。
いくつかの実施形態では、判定工程は、タグ付き増幅産物のうちの少なくとも2つを配列決定することを含む。
任意に、判定工程は、タグ付き増幅産物に対応する一方または両方の鎖を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及びポリヌクレオチドに付加された2つのタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を含有する候補配列リードの集団を生成することを含む。
任意に、判定工程は、エラー修正された配列リード内の配列リードの数をカウントすることを含む。エラー修正された配列リード内の配列リードの数が閾値を超えない場合、エラー修正された配列リードは、さらなるデータ分析に含まれないことになる。
任意に、判定工程は、選別工程の前に、候補配列リードと比べた、エラー修正された配列リード内の候補配列リードの割合を計算することを含む。
いくつかの実施形態では、本開示は、全体として、(a)少なくとも1つのタグを複数のポリヌクレオチドからの個々のポリヌクレオチドの各末端に付加することによって複数のタグ付きポリヌクレオチドを生成することを含む、核酸試料中の標的ポリヌクレオチドの検出のための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。任意に、核酸試料は、標的ポリヌクレオチド及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠いている。タグ付きポリヌクレオチドは、一段階タグ付け反応または複数段階タグ付け反応を実施することによって生成することができる。いくつかの実施形態では、個々のポリヌクレオチドは、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列と全長ユニバーサル配列とを含有するタグを使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列または部分長ユニバーサル配列を含有するタグを使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列またはユニバーサル配列を含有するタグを使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。
いくつかの実施形態では、本開示は、全体として、(b)複数のタグ付きポリヌクレオチドを増幅することによってタグ付き増幅産物の集団を生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(c)変異配列標的ポリヌクレオチドが核酸試料中に存在することを判定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を配列決定することを含む。
いくつかの実施形態では、判定工程は、ポリヌクレオチドの少なくとも一部及びポリヌクレオチドに付加された2つのタグの少なくとも一部を配列決定することを含む。
いくつかの実施形態では、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を含有する候補配列リードの集団を生成することを含む。
いくつかの実施形態では、判定工程は、例えば、選別閾値、グループ化閾値、グループ化されたリードカウント閾値、差異カウント閾値、パターンカウント閾値、及び/または非標的パターンのファミリーカウント閾値を含む1つ以上の閾値を適用することによって、候補配列リードの集団を操作して、エラー修正された配列リードを生成することを含む。任意に、操作は、候補配列リードに少なくとも1つの閾値を適用することを含む。任意に、操作された配列リードを使用して、特定のポリヌクレオチドが初期核酸試料中に存在することを判定し、特定のポリヌクレオチドの配列を特定することができる。任意に、例えば、ファミリーレベル閾値及び/またはマルチファミリー閾値を適用することによって、操作された配列リードを使用して、初期核酸試料中に存在し得る変異体を検出することができる。
いくつかの実施形態では、判定工程は、タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、1つ以上の候補配列リードを候補配列リードの集団から選別することを含む。候補配列リードは、選別閾値を適用することによって選別することができる。例えば、選別閾値を使用して、少なくとも1つの候補配列リードを保持または除去し、エラー修正された配列リードを生成することができる。
いくつかの実施形態では、判定工程は、候補配列リードの集団のサブセットを候補配列リードの異なるファミリーにグループ化することを含み、候補配列リードの異なるファミリーは、共通のタグ配列を含む。グループ化された配列リードを使用して、エラー修正された配列リードのファミリーを生成することができる。候補配列リードは、グループ化閾値を適用することによってグループ化することができる。例えば、グループ化閾値は、参照タグ配列または参照ポリヌクレオチド配列に基づき得る。配列リードの所与のファミリーにグループ化された異なる配列リードは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、グループ化されたリードカウント閾値を使用して、グループ化されたファミリー内での参照配列と一致する(例えば、それと類似するかまたは同一である)配列リードの割合を判定することを含む。例えば、グループ化されたリードカウント閾値は、特定のポリヌクレオチド配列またはタグ配列に基づき得る。グループ化されたファミリー内での、参照配列と一致する(例えば、それと類似するかまたは同一である)配列リードの割合がグループ化されたリードカウント閾値を満たすかまたはそれを超えた場合、配列リードは真陽性の配列リードであり、その配列を有するポリヌクレオチドが初期核酸試料に存在したと結論付けられ得る。
いくつかの実施形態では、判定工程は、同じ標的ポリヌクレオチド配列を有する(配列決定グループ化された配列リードの)異なるファミリーの数をカウントし、ファミリーカウント閾値を適用することを含む。カウントされたファミリーの数がファミリーカウント閾値の超えた場合、標的ポリヌクレオチド配列は、初期核酸試料中に存在するポリヌクレオチドに対応する真陽性の配列リードを表すと見なされる。
いくつかの実施形態では、判定工程は、候補配列リードのセットまたはグループ化された配列リードのファミリーから誤ってタグ付けされた配列リードを除去することを含む。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた配列リードを特定することを含む。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ったタグ付き配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。差異カウント閾値をグループ化された配列リードのファミリーに適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、概して、配列リードを他の配列リードと比較し、パターンカウント閾値を適用することによって変異体の共通のパターンを有する誤ってタグ付けされた配列リードを特定することを含む。例えば、それらのポリヌクレオチド配列中の変異体の共通のパターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。パターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた候補配列リードを特定することを含む。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値及びパターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定することを含む。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。非標的パターン閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、ファミリーベースの候補変異体を特定することを含む。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、判定工程は、遺伝子変異体を特定することを含む。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、複数のポリヌクレオチドからの個々のポリヌクレオチド各末端への少なくとも1つのタグの付加は、単一反応混合物中で行われる。
いくつかの実施形態では、単一反応混合物は、1〜4個の一意のタグ、または4〜100個の一意のタグ、または100〜500個の一意のタグ、または500〜1000個の一意のタグ、または1000〜5000個の一意のタグ、または5000〜10,000個の一意のタグ、または10,000個超の一意のタグを含有する。
いくつかの実施形態では、単一反応混合物中の複数のオリゴヌクレオチドタグは、核酸試料中の5〜100、または100〜200、または200〜300、または300〜400、または400〜500、またはそれ以上の異なる標的ポリヌクレオチドを検出する。
いくつかの実施形態では、少なくとも1つのタグに付加された標的ポリヌクレオチド配列を含有する増幅産物は、約30〜100塩基、または約100〜300塩基、または約300〜600塩基、または約600〜1,000塩基の長さである。
いくつかの実施形態では、核酸試料は、任意の種類の生体液もしくは固形生体試料、または任意の有機体から、または水、土、もしくは食物から得られる。いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。
いくつかの実施形態では、核酸試料には、DNA、RNA、RNA及びDNAの混合物、cfDNA、循環腫瘍細胞由来のDNA、またはcfRNAが含まれる。
いくつかの実施形態では、核酸試料は、少なくとも1つの標的ポリヌクレオチド及び1つ以上の非標的ポリヌクレオチドを含有するか、または核酸試料は、一切の非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、標的及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠く、約0.001ng〜100ugまたは約1〜500ngのポリヌクレオチドを含有する。
いくつかの実施形態では、標的ポリヌクレオチドの存在量レベルは、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、またはより低い存在量範囲で存在する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の標的ポリヌクレオチドを含有する。
いくつかの実施形態では、エラー修正された配列リードは、標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードは、核酸試料中のポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたはエラー修正された配列リードのファミリーは、初期核酸試料中に存在し得る異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子のうちの少なくとも2つは一意的にタグ付けされ、すなわち、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子のうちの2つは異なるタグを付加されている。2つのタグ付きポリヌクレオチドは、同じまたは異なる配列を有する標的ポリヌクレオチドを含む。いくつかの実施形態では、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子の各々は、実質的に全ての他のタグ付きポリヌクレオチドに付加されているタグとは異なる。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の少なくとも2つのタグ付きポリヌクレオチドは、両端に異なるタグを付加されている。
いくつかの実施形態では、複数のポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、実質的に全てのポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、少なくとも1つのタグを付加されている実質的に全てのポリヌクレオチドは、複数のポリヌクレオチド内の個々のポリヌクレオチド分子のうちの10〜30%、または約30〜50%、または約50〜70%、または約70〜80%、または約80〜90%、または約90〜95%、または約95〜99%が少なくとも1つのタグを付加されていることを含む。
いくつかの実施形態では、酵素的ライゲーションは、少なくとも1つのタグを複数のポリヌクレオチドに非選択的に付加する。例えば、少なくとも1つのタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加するために、平滑端ライゲーション反応を使用することができる。別の例では、酵素的ライゲーションを使用して、5’または3’突出末端を有するタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することができる。
いくつかの実施形態では、付加工程は、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に酵素的に連結して、複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、複数の別個のライゲーション反応(例えば、約1〜6)を実施して、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。任意に、少なくとも1つのアダプター(例えば、タグアダプター)は、酵素的ライゲーション反応の第1、第2、第3、またはその後のラウンドで、個々のポリヌクレオチドの一方または両方の末端に付加され得る。
いくつかの実施形態では、複数のポリヌクレオチドは、核酸試料内の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を有する少なくとも1つのタグプライマーを使用したプライマー伸長反応によって少なくとも1つのタグを各末端に付加され、少なくとも1つのタグプライマーは、少なくとも1つの一意のタグ配列を含む。任意に、タグプライマーは、標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、タグプライマーの3’領域は、標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含み、5’領域は、標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含む。
いくつかの実施形態では、プライマー伸長反応は、ポリメラーゼ及び複数のヌクレオチドを含む。
いくつかの実施形態では、複数のポリヌクレオチドのサブセットは、プライマー伸長によって少なくとも1つのタグに各末端で付加されている。
いくつかの実施形態では、付加工程は、プライマー(例えば、タグプライマー)を用いてプライマー伸長反応を実施して、タグ配列を付加された少なくとも一方の末端を有する複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、プライマー伸長反応の複数の別個のラウンドを実施して、少なくとも1つのタグ配列を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。例えば、複数のタグ付きポリヌクレオチドを生成するために、タグプライマーのレパートリーを用いて2〜4ラウンドのプライマー伸長(例えば、PCR)が実施され、個々のタグ付きポリヌクレオチドは、各末端に一意のタグ配列を付加され、任意に個々のタグ付きポリヌクレオチドの一方または両方の末端はまた、同じまたは異なるユニバーサル配列を含み得る。追加の一意のタグ配列、バーコード配列、及び/またはユニバーサル配列を付加するために、テイルドプライマーを用いてプライマー伸長(例えば、PCR)の追加のラウンドを実施することができる。プライマー伸長の追加のラウンドに使用されるテイルドプライマーは、以前のプライマー伸長反応からのタグ配列にハイブリダイズする配列をその3’領域中に含み得る。約2〜40の追加のラウンドのプライマー伸長反応を実施することができる。任意に、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つのバーコード配列またはユニバーサル配列をポリヌクレオチドに付加することができ、続いて、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つの一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、タグアダプターを使用した酵素的ライゲーション及び/またはタグプライマーを使用したプライマー伸長(例えば、PCR)の組み合わせを使用して、一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、少なくとも1つのタグ(例えば、タグアダプターまたはプライマーに含まれる)は、少なくとも1つのランダム配列と少なくとも1つの固定配列とを有するランダマータグを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。
いくつかの実施形態では、タグは、固定配列が点在する少なくとも1つのランダム配列を有する配列を含む。いくつかの実施形態では、複数のタグにおける個々のタグは、構造(N)n(X)x(M)m(Y)yを有し、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表し、生じ得る別個のランダマータグの数は、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。
いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、増幅は、等温増幅もしくはサーモサイクリング増幅、または等温増幅及びサーモサイクリング増幅の組み合わせを含む。任意に、増幅は、リコンビナーゼアクセサリー因子(例えば、T4 uvsY及び/またはgp32タンパク質)を伴うかまたは伴わない、リコンビナーゼ(例えば、T4 uvsX)を含む。
いくつかの実施形態では、判定工程は、タグ付き増幅産物のうちの少なくとも2つを配列決定することを含む。
任意に、判定工程は、タグ付き増幅産物に対応する一方または両方の鎖を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及びポリヌクレオチドに付加された2つのタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を含有する候補配列リードの集団を生成することを含む。
任意に、判定工程は、エラー修正された配列リード内の配列リードの数をカウントすることを含む。エラー修正された配列リード内の配列リードの数が閾値を超えない場合、エラー修正された配列リードは、さらなるデータ分析に含まれないことになる。
任意に、判定工程は、選別工程の前に、候補配列リードと比べた、エラー修正された配列リード内の候補配列リードの割合を計算することを含む。
いくつかの実施形態では、本開示は、全体として、(a)(i)第1のポリヌクレオチド及び第2のポリヌクレオチドを含む複数のポリヌクレオチドを、(ii)第1、第2、第3、及び第4のタグを含む複数のタグと接触させ、第1のタグを第1のポリヌクレオチドの一方の末端に付加し、第2のタグを第1のポリヌクレオチドの他方の末端に付加し、第3のタグを第2のポリヌクレオチドの一方の末端に付加し、第4のタグを第2のポリヌクレオチドの他方の末端に付加することによって、複数のタグ付きポリヌクレオチドを生成することを含む、核酸試料中の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、核酸試料は、標的ポリヌクレオチド及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠いている。タグ付きポリヌクレオチドは、一段階タグ付け反応または複数段階タグ付け反応を実施することによって生成することができる。いくつかの実施形態では、個々のポリヌクレオチド(例えば、第1及び第2のポリヌクレオチド)は、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列(例えば、第1、第2、第3、または第4の一意のタグ)及びユニバーサルタグ配列(例えば、第1、第2、第3、または第4のユニバーサルタグ)を付加されている。
いくつかの実施形態では、個々のポリヌクレオチド(例えば、第1のポリヌクレオチド)は、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列(例えば、第1及び第2の一意のタグ)及びユニバーサルタグ配列(例えば、第1及び第2のユニバーサルタグ)を付加されている。いくつかの実施形態では、個々のポリヌクレオチド(例えば、第2のポリヌクレオチド)は、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列(例えば、第3及び第4の一意のタグ)及びユニバーサルタグ配列(例えば、第3及び第4のユニバーサルタグ)を付加されている。
例えば、一段階タグ付け手順は、(i)第1の一意のタグ配列と第1の全長ユニバーサル配列とを含有する第1のタグ、及び(ii)第2の一意のタグ配列と第2の全長ユニバーサル配列とを含有する第2のタグを使用して、第1のポリヌクレオチドでのライゲーションまたはプライマー伸長反応を行うことを含む。
同じ反応混合物中で、一段階タグ付け手順は、(i)第3の一意のタグ配列と第3の全長ユニバーサル配列とを含有する第3のタグ、及び(ii)第4の一意のタグ配列と第4の全長ユニバーサル配列とを含有する第4のタグを使用して、第2のポリヌクレオチドでのライゲーションまたはプライマー伸長反応を行うことを含む。第1、第2、第3、及び第4のタグは、同じまたは異なるユニバーサル配列を含有する。
例えば、二段階タグ付け手順は、(i)第1の一意のタグ配列と任意に第1のユニバーサル配列の少なくとも一部とを含有する第1のタグ、及び(ii)第2の一意のタグ配列と任意に第2のユニバーサル配列の少なくとも一部とを含有する第2のタグを使用して、第1のポリヌクレオチドでの第1のライゲーションまたはプライマー伸長反応を行うことを含む。
同じ反応混合物中で、第1のライゲーションまたはプライマー伸長反応は、(i)第3の一意のタグ配列と任意に第3のユニバーサル配列の少なくとも一部とを含有する第3のタグ、及び(ii)第4の一意のタグ配列と任意に第4のユニバーサル配列の少なくとも一部とを含有する第4のタグを使用して、第2のポリヌクレオチドによって行われる。
第2のライゲーションまたはプライマー伸長反応は、第1のポリヌクレオチド(タグ付けされている)、ならびに(iii)第1のユニバーサル配列の少なくとも一部を含有するタグ及び(iv)第2のユニバーサル配列の少なくとも一部を含有するタグを使用して行われる。
第2のライゲーションまたはプライマー伸長反応は、第2のポリヌクレオチド(タグ付けされている)、ならびに(iii)第3のユニバーサル配列の少なくとも一部を含有するタグ及び(iv)第4のユニバーサル配列の少なくとも一部を含有するタグを使用して行われる。
第1、第2、第3、及び第4のタグは、同じまたは異なるユニバーサル配列を含有する。
いくつかの実施形態では、本開示は、全体として、(b)第1のタグ付きポリヌクレオチドを増幅することによって第1のタグ付き増幅産物の集団を生成し、第2のタグ付きポリヌクレオチドを増幅することによって第2のタグ付き増幅産物の集団を生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(c)第1の標的ポリヌクレオチド及び/または第2の標的ポリヌクレオチドが核酸試料中に存在することを判定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、判定工程は、第1のポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を配列決定することを含み、第1及び第2のタグは、第1のポリヌクレオチドに付加されている。
いくつかの実施形態では、判定工程は、第2のポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を配列決定することを含み、第3及び第4のタグは、第2のポリヌクレオチドに付加されている。
いくつかの実施形態では、判定工程は、第1のポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を含有する候補配列リードの集団を生成することを含む。
いくつかの実施形態では、判定工程は、第2のポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を含有する候補配列リードの集団を生成することを含む。
いくつかの実施形態では、判定工程は、例えば、選別閾値、グループ化閾値、グループ化されたリードカウント閾値、ファミリーカウント閾値、差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値を含む1つ以上の閾値を適用することによって、候補配列リードの集団を操作して、エラー修正された配列リードを生成することを含む。任意に、操作は、候補配列リードに少なくとも1つの閾値を適用することを含む。任意に、操作された配列リードを使用して、特定のポリヌクレオチドが初期核酸試料中に存在することを判定し、特定のポリヌクレオチドの配列を特定することができる。任意に、例えば、ファミリーレベル閾値及び/またはマルチファミリー閾値を適用することによって、操作された配列リードを使用して、初期核酸試料中に存在し得る変異体を検出することができる。
いくつかの実施形態では、判定工程は、タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、1つ以上の候補配列リードを候補配列リードの集団から選別することを含む。候補配列リードは、選別閾値を適用することによって選別することができる。例えば、選別閾値を使用して、少なくとも1つの候補配列リードを保持または除去し、エラー修正された配列リードを生成することができる。任意に、選別閾値を使用して、第1のタグ付きポリヌクレオチドに対応する第1の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、選別閾値を使用して、第2のタグ付きポリヌクレオチドに対応する第2の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。
いくつかの実施形態では、判定工程は、候補配列リードの集団のサブセットを候補配列リードの異なるファミリーにグループ化することを含み、候補配列リードの異なるファミリーは、共通のタグ配列を含む。グループ化された配列リードを使用して、エラー修正された配列リードのファミリーを生成することができる。候補配列リードは、グループ化閾値を適用することによってグループ化することができる。例えば、グループ化閾値は、参照タグ配列または参照ポリヌクレオチド配列に基づき得る。配列リードの所与のファミリーにグループ化された異なる配列リードは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、候補配列リードは、グループ化された配列リードの第1のファミリーを生成するために、グループ化閾値を適用することによってグループ化することができ、グループ化された配列リードの第1のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、候補配列リードは、グループ化された配列リードの第2のファミリーを生成するために、グループ化閾値を適用することによってグループ化することができ、グループ化された配列リードの第2のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、グループ化されたリードカウント閾値を使用して、グループ化されたファミリー内での参照配列と一致する(例えば、それと類似するかまたは同一である)配列リードの割合を判定することを含む。例えば、グループ化されたリードカウント閾値は、特定のポリヌクレオチド配列またはタグ配列に基づき得る。グループ化されたファミリー内での、参照配列と一致する(例えば、それと類似するかまたは同一である)配列リードの割合がグループ化されたリードカウント閾値を満たすかまたはそれを超えた場合、配列リードは真陽性の配列リードであり、その配列を有するポリヌクレオチドが初期核酸試料に存在したと結論付けられ得る。任意に、グループ化された配列リードの第1のファミリーが真陽性の配列リードを含有するかどうかを判定するために、グループ化された配列リードの第1のファミリーは、参照配列と一致する(例えば、それと類似するかまたは同一である)第1のグループ化された配列リードの割合を判定するために、グループ化されたリードカウント閾値に供され得る。任意に、グループ化された配列リードの第2のファミリーが真陽性の配列リードを含有するかどうかを判定するために、グループ化された配列リードの第2のファミリーは、参照配列と一致する(例えば、それと類似するかまたは同一である)第2のグループ化された配列リードの割合を判定するために、グループ化されたリードカウント閾値に供され得る。
いくつかの実施形態では、判定工程は、同じ標的ポリヌクレオチド配列を有する(配列決定グループ化された配列リードの)異なるファミリーの数をカウントし、ファミリーカウント閾値を適用することを含む。カウントされたファミリーの数がファミリーカウント閾値の超えた場合、標的ポリヌクレオチド配列は、初期核酸試料中に存在するポリヌクレオチドに対応する真陽性の配列リードを表すと見なされる。
いくつかの実施形態では、判定工程は、候補配列リードのセットまたはグループ化された配列リードのファミリーから誤ってタグ付けされた配列リードを除去することを含む。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた配列リードを特定することを含む。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ったタグ付き配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。差異カウント閾値をグループ化された配列リードのファミリーに適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。任意に、差異カウント閾値を使用して、第1のタグ付きポリヌクレオチドに対応する第1の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、差異カウント閾値を使用して、第2のタグ付きポリヌクレオチドに対応する第2の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、グループ化された配列リードの第1のファミリーは、第1のファミリー中の誤ってタグ付けされた配列リードを特定するために、差異カウント閾値に供することができ、グループ化された配列リードの第1のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、グループ化された配列リードの第2のファミリーは、第2のファミリー中の誤ってタグ付けされた配列リードを特定するために、差異カウント閾値に供することができ、グループ化された配列リードの第2のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、概して、配列リードを他の配列リードと比較し、パターンカウント閾値を適用することによって変異体の共通のパターンを有する誤ってタグ付けされた配列リードを特定することを含む。例えば、それらのポリヌクレオチド配列中の変異体の共通のパターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。パターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。任意に、パターンカウント閾値を使用して、第1のタグ付きポリヌクレオチドに対応する第1の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、パターンカウント閾値を使用して、第2のタグ付きポリヌクレオチドに対応する第2の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、グループ化された配列リードの第1のファミリーは、第1のファミリー中の誤ってタグ付けされた配列リードを特定するために、パターンカウント閾値に供することができ、グループ化された配列リードの第1のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、グループ化された配列リードの第2のファミリーは、第2のファミリー中の誤ってタグ付けされた配列リードを特定するために、パターンカウント閾値に供することができ、グループ化された配列リードの第2のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた候補配列リードを特定することを含む。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値及びパターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。任意に、差異カウント閾値及びパターンカウント閾値を使用して、第1のタグ付きポリヌクレオチドに対応する第1の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、差異カウント閾値及びパターンカウント閾値を使用して、第2のタグ付きポリヌクレオチドに対応する第2の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、グループ化された配列リードの第1のファミリーは、第1のファミリー中の誤ってタグ付けされた配列リードを特定するために、差異カウント閾値及びパターンカウント閾値に供することができ、グループ化された配列リードの第1のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、グループ化された配列リードの第2のファミリーは、第2のファミリー中の誤ってタグ付けされた配列リードを特定するために、差異カウント閾値及びパターンカウント閾値に供することができ、グループ化された配列リードの第2のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定することを含む。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。非標的パターン閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。任意に、非標的パターン閾値を使用して、第1のタグ付きポリヌクレオチドに対応する第1の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、非標的パターン閾値を使用して、第2のタグ付きポリヌクレオチドに対応する第2の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、グループ化された配列リードの第1のファミリーは、第1のファミリー中の誤ってタグ付けされた配列リードを特定するために、非標的パターン閾値に供することができ、グループ化された配列リードの第1のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、グループ化された配列リードの第2のファミリーは、第2のファミリー中の誤ってタグ付けされた配列リードを特定するために、非標的パターン閾値に供することができ、グループ化された配列リードの第2のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、ファミリーベースの候補変異体を特定することを含む。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。任意に、グループ化された配列リードの第1のエラー修正されたファミリーは、第1のファミリー中の第1の候補変異体を特定するために、ファミリーレベル閾値に供することができ、グループ化された配列リードの第1のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、グループ化された配列リードの第2のエラー修正されたファミリーは、第2のファミリー中の第2の候補変異体を特定するために、ファミリーレベル閾値に供することができ、グループ化された配列リードの第2のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、遺伝子変異体を特定することを含む。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。任意に、特定の第1の候補変異体を指示するグループ化された配列リードのエラー修正されたファミリーの第1のセットは、ファミリーの第1のセット中の第1の変異体を特定するために、マルチファミリー閾値に供することができ、グループ化された配列リードの第1のセットのファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、特定の第2の候補変異体を指示するグループ化された配列リードのエラー修正されたファミリーの第2のセットは、ファミリーの第2のセット中の第2の候補変異体を特定するために、マルチファミリー閾値に供することができ、グループ化された配列リードの第2のセットのファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、付加工程は、単一反応混合物中で行われ、第1のタグが第1のポリヌクレオチドの一方の末端に付加され、第2のタグが第1のポリヌクレオチドの他方の末端に付加され、第3のタグが第2のポリヌクレオチドの一方の末端に付加され、第4のタグが第2のポリヌクレオチドの他方の末端に付加される。
いくつかの実施形態では、単一反応混合物は、1〜4個の一意のタグ、または4〜100個の一意のタグ、または100〜500個の一意のタグ、または500〜1000個の一意のタグ、または1000〜5000個の一意のタグ、または5000〜10,000個の一意のタグ、または10,000個超の一意のタグを含有する。
いくつかの実施形態では、単一反応混合物中の複数のオリゴヌクレオチドタグは、核酸試料中の5〜100、または100〜200、または200〜300、または300〜400、または400〜500、またはそれ以上の異なる標的ポリヌクレオチドを検出する。
いくつかの実施形態では、第1及び第2のタグに付加された第1の標的ポリヌクレオチド配列を含有する増幅産物は、約30〜100塩基、または約100〜300塩基、または約300〜600塩基、または約600〜1,000塩基の長さである。いくつかの実施形態では、第3及び第4のタグに付加された第2の標的ポリヌクレオチド配列を含有する増幅産物は、約30〜100塩基、または約100〜300塩基、または約300〜600塩基、または約600〜1,000塩基の長さである。
いくつかの実施形態では、核酸試料は、任意の種類の生体液もしくは固形生体試料、または任意の有機体から、または水、土、もしくは食物から得られる。いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。
いくつかの実施形態では、核酸試料には、DNA、RNA、RNA及びDNAの混合物、cfDNA、循環腫瘍細胞由来のDNA、またはcfRNAが含まれる。
いくつかの実施形態では、核酸試料は、少なくとも1つの標的ポリヌクレオチド及び1つ以上の非標的ポリヌクレオチドを含有するか、または核酸試料は、一切の非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、標的及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠く、約0.001ng〜100ugまたは約1〜500ngのポリヌクレオチドを含有する。
いくつかの実施形態では、標的ポリヌクレオチドの存在量レベルは、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、またはより低い存在量範囲で存在する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の標的ポリヌクレオチドを含有する。
いくつかの実施形態では、エラー修正された配列リードは、標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、配列リードのエラー修正されたファミリーは、核酸試料中のポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたはエラー修正された配列リードのファミリーは、初期核酸試料中に存在し得る異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、実質的に全ての他のタグ付きポリヌクレオチドに付加されている他のタグとは異なるタグ(例えば、第1及び第2のタグ)を各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、実質的に全ての他のタグ付きポリヌクレオチドに付加されている他のタグとは異なるタグ(例えば、第3及び第4のタグ)を各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、異なるタグ(例えば、第1及び第2のタグ)を各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、異なるタグ(例えば、第3及び第4のタグ)を各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、互いとは異なる第1のタグ及び第2のタグを付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、互いとは異なる第3のタグ及び第4のタグを付加されている。
いくつかの実施形態では、第1のポリヌクレオチドは、酵素的ライゲーションによって第1及び第2のタグ(例えば、第1及び第2のタグアダプター)を付加されている。
いくつかの実施形態では、第2のポリヌクレオチドは、酵素的ライゲーションによって第3及び第4のタグ(例えば、第3及び第4のタグアダプター)を付加されている。
いくつかの実施形態では、第1及び第2のポリヌクレオチドを含む実質的に全てのポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、各末端に少なくとも1つのタグを付加された実質的に全てのポリヌクレオチド(第1及び第2のポリヌクレオチドを含む)は、少なくとも1つのタグを各末端に付加された複数のポリヌクレオチド内の個々のポリヌクレオチド分子のうちの約10〜30%、または約30〜50%、または約50〜70%、または約70〜80%、または約80〜90%、または約90〜95%、または約95〜99%を含む。
いくつかの実施形態では、酵素的ライゲーションは、少なくとも1つのタグを複数のポリヌクレオチドの各末端に非選択的に付加する。例えば、少なくとも1つのタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加するために、平滑端ライゲーション反応を使用することができる。別の例では、酵素的ライゲーションを使用して、5’または3’突出末端を有するタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することができる。
いくつかの実施形態では、付加工程は、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に酵素的に連結して、複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、複数の別個のライゲーション反応(例えば、約1〜6)を実施して、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。任意に、少なくとも1つのアダプター(例えば、タグアダプター)は、酵素的ライゲーション反応の第1、第2、第3、またはその後のラウンドで、個々のポリヌクレオチドの一方または両方の末端に付加され得る。
いくつかの実施形態では、第1の標的ポリヌクレオチドは、第1及び第2のタグプライマーを使用したプライマー伸長反応によって第1及び第2のタグプライマーを付加され、第1及び第2のタグプライマーは、核酸試料内の第1の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を含み、第1のタグプライマーは、少なくとも第1の一意のタグ配列を含み、第2のタグプライマーは、少なくとも第2の一意のタグ配列を含む。第1及び第2のタグプライマーは、第1の標的ポリヌクレオチドの異なる領域にハイブリダイズすることができる。任意に、第1のタグプライマーは、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。任意に、第2のタグプライマーは、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、第1のタグプライマーの3’領域は、第1の標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含み、5’領域は、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含む。第2のタグプライマーの3’領域は、第1の標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含み、5’領域は、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含む。任意に、第1及び第2のタグプライマーの3’領域は、第1のポリヌクレオチドの異なる部分にハイブリダイズする。
いくつかの実施形態では、第2の標的ポリヌクレオチドは、第3及び第4のタグプライマーを使用したプライマー伸長反応によって第3及び第4のタグプライマーを付加され、第3及び第4のタグプライマーは、核酸試料内の第2の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を含み、第3のタグプライマーは、少なくとも第3の一意のタグ配列を含み、第4のタグプライマーは、少なくとも第4の一意のタグ配列を含む。第3及び第4のタグプライマーは、第2の標的ポリヌクレオチドの異なる領域にハイブリダイズすることができる。任意に、第3のタグプライマーは、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。任意に、第4のタグプライマーは、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、第3のタグプライマーの3’領域は、第2の標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含み、5’領域は、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含む。第4のタグプライマーの3’領域は、第2の標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含み、5’領域は、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含む。任意に、第3及び第4のタグプライマーの3’領域は、第1のポリヌクレオチドの異なる部分にハイブリダイズする。
いくつかの実施形態では、プライマー伸長反応は、ポリメラーゼ及び複数のヌクレオチドを含む。
いくつかの実施形態では、複数のポリヌクレオチドのサブセットであって、サブセットが第1及び第2の標的ポリヌクレオチドを含むサブセットは、プライマー伸長によって少なくとも1つのタグを各末端に付加されている。
いくつかの実施形態では、付加工程は、プライマー(例えば、タグプライマー)を用いてプライマー伸長反応を実施して、タグ配列を付加された少なくとも一方の末端を有する複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、プライマー伸長反応の複数の別個のラウンドを実施して、少なくとも1つのタグ配列を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。例えば、複数のタグ付きポリヌクレオチドを生成するために、タグプライマーのレパートリーを用いて2〜4ラウンドのプライマー伸長(例えば、PCR)が実施され、個々のタグ付きポリヌクレオチドは、各末端に一意のタグ配列を付加され、任意に個々のタグ付きポリヌクレオチドの一方または両方の末端はまた、同じまたは異なるユニバーサル配列を含み得る。追加の一意のタグ配列、バーコード配列、及び/またはユニバーサル配列を付加するために、テイルドプライマーを用いてプライマー伸長(例えば、PCR)の追加のラウンドを実施することができる。プライマー伸長の追加のラウンドに使用されるテイルドプライマーは、以前のプライマー伸長反応からのタグ配列にハイブリダイズする配列をその3’領域中に含み得る。約2〜40の追加のラウンドのプライマー伸長反応を実施することができる。任意に、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つのバーコード配列またはユニバーサル配列をポリヌクレオチドに付加することができ、続いて、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つの一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、タグアダプターを使用した酵素的ライゲーション及び/またはタグプライマーを使用したプライマー伸長(例えば、PCR)の組み合わせを使用して、一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、少なくとも1つのタグ(例えば、タグアダプターに含まれるか、または第1、第2、第3、及び第4のプライマーに含まれる)は、ランダマータグであって、ランダムタグが少なくとも1つのランダム配列と少なくとも1つの固定配列とを有するランダマータグを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。
いくつかの実施形態では、タグは、固定配列が点在する少なくとも1つのランダム配列を有する配列を含む。いくつかの実施形態では、複数のタグにおける個々のタグは、構造(N)n(X)x(M)m(Y)yを有し、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表し、生じ得る別個のランダマータグの数は、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。
いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、増幅は、等温増幅もしくはサーモサイクリング増幅、または等温増幅及びサーモサイクリング増幅の組み合わせを含む。任意に、増幅は、リコンビナーゼアクセサリー因子(例えば、T4 uvsY及び/またはgp32タンパク質)を伴うかまたは伴わない、リコンビナーゼ(例えば、T4 uvsX)を含む。
いくつかの実施形態では、判定工程は、第1及び第2のタグ付き増幅産物を含むタグ付き増幅産物のうちの少なくとも2つを配列決定することを含む。
任意に、判定工程は、タグ付き増幅産物に対応する一方または両方の鎖を配列決定することを含む。任意に、判定工程は、第1及び第2のタグ付き増幅産物の一方または両方の鎖を配列決定することを含む。
任意に、判定工程は、第1のタグ付きポリヌクレオチドの少なくとも一部を配列決定することを含む。任意に、判定工程は、第1の標的ポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を配列決定することを含み、第1及び第2のタグは、第1のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、第2のタグ付きポリヌクレオチドの少なくとも一部を配列決定することを含む。任意に、判定工程は、第2の標的ポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を配列決定することを含み、第3及び第4のタグは、第2のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、第1のタグ付きポリヌクレオチドの少なくとも一部を含有する候補配列リードの集団を生成することを含む。任意に、判定工程は、第1の標的ポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を含有する候補配列リードの集団を生成することを含み、第1及び第2のタグは、第1のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、第2のタグ付きポリヌクレオチドの少なくとも一部を含有する候補配列リードの集団を生成することを含む。任意に、判定工程は、第2の標的ポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を含有する候補配列リードの集団を生成することを含み、第3及び第4のタグは、第2のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、エラー修正された配列リード内の配列リードの数をカウントすることを含む。エラー修正された配列リード内の配列リードの数が閾値を超えない場合、エラー修正された配列リードは、さらなるデータ分析に含まれないことになる。
任意に、判定工程は、選別工程の前に、候補配列リードと比べた、エラー修正された配列リード内の候補配列リードの割合を計算することを含む。
いくつかの実施形態では、本開示は、全体として、(a)(i)複数のポリヌクレオチド及び(ii)複数のタグを含有する単一反応混合物を形成することと、(b)少なくとも1つのタグを複数のポリヌクレオチド内の個々のポリヌクレオチドに付加することによって、単一反応混合物内で複数のタグ付きポリヌクレオチドを生成することとを含む、核酸試料中の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、核酸試料は、標的ポリヌクレオチド及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠いている。いくつかの実施形態では、複数のポリヌクレオチド及び複数のタグは、タグ付加反応を実施するために1つの反応混合物中に置かれる。いくつかの実施形態では、別個の反応容器を設置してもよく、各反応容器は、複数のポリヌクレオチド及び/または複数のタグを含有し、1つ以上の組み合わせ混合物を精製するために、別個の反応容器を任意の組み合わせで混合してもよく、組み合わせ混合物は、タグ付加反応を実施するための単一反応混合物として使用される。
タグ付きポリヌクレオチドは、一段階タグ付け反応または複数段階タグ付け反応を実施することによって単一反応混合物中で生成することができる。いくつかの実施形態では、個々のポリヌクレオチドは、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列と全長ユニバーサル配列とを含有するタグを使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列または部分長ユニバーサル配列を含有するタグを使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列またはユニバーサル配列を含有するタグを使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。
いくつかの実施形態では、本開示は、全体として、(c)複数のタグ付きポリヌクレオチドを増幅することによってタグ付き増幅産物の集団を生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(d)変異配列標的ポリヌクレオチドが核酸試料中に存在することを判定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、判定工程は、1つ以上のポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を配列決定することを含む。
いくつかの実施形態では、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を含有する候補配列リードの集団を生成することを含む。
いくつかの実施形態では、判定工程は、例えば、選別閾値、グループ化閾値、グループ化されたリードカウント閾値、ファミリーカウント閾値、差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値を含む1つ以上の閾値を適用することによって、候補配列リードの集団を操作して、エラー修正された配列リードを生成することを含む。任意に、操作は、候補配列リードに少なくとも1つの閾値を適用することを含む。任意に、操作された配列リードを使用して、特定のポリヌクレオチドが初期核酸試料中に存在することを判定し、特定のポリヌクレオチドの配列を特定することができる。任意に、例えば、ファミリーレベル閾値及び/またはマルチファミリー閾値を適用することによって、操作された配列リードを使用して、初期核酸試料中に存在し得る変異体を検出することができる。
いくつかの実施形態では、判定工程は、タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、1つ以上の候補配列リードを候補配列リードの集団から選別することを含む。候補配列リードは、選別閾値を適用することによって選別することができる。例えば、選別閾値を使用して、少なくとも1つの候補配列リードを保持または除去し、エラー修正された配列リードを生成することができる。
いくつかの実施形態では、判定工程は、候補配列リードの集団のサブセットを候補配列リードの異なるファミリーにグループ化することを含み、候補配列リードの異なるファミリーは、共通のタグ配列を含む。グループ化された配列リードを使用して、エラー修正された配列リードのファミリーを生成することができる。候補配列リードは、グループ化閾値を適用することによってグループ化することができる。例えば、グループ化閾値は、参照タグ配列または参照ポリヌクレオチド配列に基づき得る。配列リードの所与のファミリーにグループ化された異なる配列リードは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、グループ化されたリードカウント閾値を使用して、グループ化されたファミリー内での参照配列と一致する(例えば、類似または同一である)配列リードの割合を判定することを含む。例えば、グループ化されたリードカウント閾値は、特定のポリヌクレオチド配列またはタグ配列に基づき得る。グループ化されたファミリー内での、参照配列と一致する(例えば、類似または同一である)配列リードの割合がグループ化されたリードカウント閾値を満たすかまたはそれを超えた場合、配列リードは真陽性の配列リードであり、その配列を有するポリヌクレオチドが初期核酸試料に存在したと結論付けられ得る。
いくつかの実施形態では、判定工程は、同じ標的ポリヌクレオチド配列を有する(配列決定グループ化された配列リードの)異なるファミリーの数をカウントし、ファミリーカウント閾値を適用することを含む。カウントされたファミリーの数がファミリーカウント閾値の超えた場合、標的ポリヌクレオチド配列は、初期核酸試料中に存在するポリヌクレオチドに対応する真陽性の配列リードを表すと見なされる。
いくつかの実施形態では、判定工程は、候補配列リードのセットまたはグループ化された配列リードのファミリーから誤ってタグ付けされた配列リードを除去することを含む。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた配列リードを特定することを含む。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ったタグ付き配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。差異カウント閾値をグループ化された配列リードのファミリーに適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、概して、配列リードを他の配列リードと比較し、パターンカウント閾値を適用することによって変異体の共通のパターンを有する誤ってタグ付けされた配列リードを特定することを含む。例えば、それらのポリヌクレオチド配列中の変異体の共通のパターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。パターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた候補配列リードを特定することを含む。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値及びパターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定することを含む。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。非標的パターン閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、ファミリーベースの候補変異体を特定することを含む。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、判定工程は、遺伝子変異体を特定することを含む。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、単一反応混合物は、1〜4個の一意のタグ、または4〜100個の一意のタグ、または100〜500個の一意のタグ、または500〜1000個の一意のタグ、または1000〜5000個の一意のタグ、または5000〜10,000個の一意のタグ、または10,000個超の一意のタグを含有する。
いくつかの実施形態では、単一反応混合物中の複数のオリゴヌクレオチドタグは、核酸試料中の5〜100、または100〜200、または200〜300、または300〜400、または400〜500、またはそれ以上の異なる標的ポリヌクレオチドを検出する。
いくつかの実施形態では、少なくとも1つのタグに付加された標的ポリヌクレオチド配列を含有する増幅産物は、約30〜100塩基、または約100〜300塩基、または約300〜600塩基、または約600〜1,000塩基の長さである。
いくつかの実施形態では、核酸試料は、任意の種類の生体液もしくは固形生体試料、または任意の有機体から、または水、土、もしくは食物から得られる。いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。
いくつかの実施形態では、核酸試料には、DNA、RNA、RNA及びDNAの混合物、cfDNA、循環腫瘍細胞由来のDNA、またはcfRNAが含まれる。
いくつかの実施形態では、核酸試料は、少なくとも1つの標的ポリヌクレオチド及び1つ以上の非標的ポリヌクレオチドを含有するか、または核酸試料は、一切の非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、標的及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠く、約0.001ng〜100ugまたは約1〜500ngのポリヌクレオチドを含有する。
いくつかの実施形態では、標的ポリヌクレオチドの存在量レベルは、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、またはより低い存在量範囲で存在する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の標的ポリヌクレオチドを含有する。
いくつかの実施形態では、エラー修正された配列リードは、標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、配列リードのエラー修正されたファミリーは、核酸試料中のポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたはエラー修正された配列リードのファミリーは、初期核酸試料中に存在し得る異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子のうちの少なくとも2つは一意的にタグ付けされ、すなわち、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子のうちの2つは異なるタグを付加されている。2つのタグ付きポリヌクレオチドは、同じまたは異なる配列を有する標的ポリヌクレオチドを含む。いくつかの実施形態では、複数のタグ付きポリヌクレオチド中のタグ付きポリヌクレオチド分子の各々は、実質的に全ての他のタグ付きポリヌクレオチドに付加されているタグとは異なる。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の少なくとも2つのタグ付きポリヌクレオチドは、両端に異なるタグを付加されている。
いくつかの実施形態では、複数のポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、実質的に全てのポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、少なくとも1つのタグを付加されている実質的に全てのポリヌクレオチドは、複数のポリヌクレオチド内の個々のポリヌクレオチド分子のうちの約10〜30%、または約30〜50%、または約50〜70%、または約70〜80%、または約80〜90%、または約90〜95%、または約95〜99%が少なくとも1つのタグを付加されていることを含む。
いくつかの実施形態では、酵素的ライゲーションは、少なくとも1つのタグを複数のポリヌクレオチドに非選択的に付加する。例えば、少なくとも1つのタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加するために、平滑端ライゲーション反応を使用することができる。別の例では、酵素的ライゲーションを使用して、5’または3’突出末端を有するタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することができる。
いくつかの実施形態では、付加工程は、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に酵素的に連結して、複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、複数の別個のライゲーション反応(例えば、約1〜6)を実施して、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。任意に、少なくとも1つのアダプター(例えば、タグアダプター)は、酵素的ライゲーション反応の第1、第2、第3、またはその後のラウンドで、個々のポリヌクレオチドの一方または両方の末端に付加され得る。
いくつかの実施形態では、複数のポリヌクレオチドは、核酸試料内の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を有する少なくとも1つのタグプライマーを使用したプライマー伸長反応によって少なくとも1つのタグを各末端に付加され、少なくとも1つのタグプライマーは、少なくとも1つの一意のタグ配列を含む。任意に、タグプライマーは、標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、タグプライマーの3’領域は、標的ポリヌクレオチドの一部に選択的にハイブリダイズする標的特異的配列を含み、5’領域は、標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含む。
いくつかの実施形態では、プライマー伸長反応は、ポリメラーゼ及び複数のヌクレオチドを含む。
いくつかの実施形態では、複数のポリヌクレオチドのサブセットは、プライマー伸長によって少なくとも1つのタグに各末端で付加されている。
いくつかの実施形態では、付加工程は、プライマー(例えば、タグプライマー)を用いてプライマー伸長反応を実施して、タグ配列を付加された少なくとも一方の末端を有する複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、プライマー伸長反応の複数の別個のラウンドを実施して、少なくとも1つのタグ配列を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。例えば、複数のタグ付きポリヌクレオチドを生成するために、タグプライマーのレパートリーを用いて2〜4ラウンドのプライマー伸長(例えば、PCR)が実施され、個々のタグ付きポリヌクレオチドは、各末端に一意のタグ配列を付加され、任意に個々のタグ付きポリヌクレオチドの一方または両方の末端はまた、同じまたは異なるユニバーサル配列を含み得る。追加の一意のタグ配列、バーコード配列、及び/またはユニバーサル配列を付加するために、テイルドプライマーを用いてプライマー伸長(例えば、PCR)の追加のラウンドを実施することができる。プライマー伸長の追加のラウンドに使用されるテイルドプライマーは、以前のプライマー伸長反応からのタグ配列にハイブリダイズする配列をその3’領域中に含み得る。約2〜40の追加のラウンドのプライマー伸長反応を実施することができる。任意に、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つのバーコード配列またはユニバーサル配列をポリヌクレオチドに付加することができ、続いて、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つの一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、タグアダプターを使用した酵素的ライゲーション及び/またはタグプライマーを使用したプライマー伸長(例えば、PCR)の組み合わせを使用して、一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、少なくとも1つのタグ(例えば、タグアダプターまたはプライマーに含まれる)は、少なくとも1つのランダム配列と少なくとも1つの固定配列とを有するランダマータグを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。
いくつかの実施形態では、タグは、固定配列が点在する少なくとも1つのランダム配列を有する配列を含む。いくつかの実施形態では、複数のタグにおける個々のタグは、構造(N)n(X)x(M)m(Y)yを有し、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表し、生じ得る別個のランダマータグの数は、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。
いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、増幅は、等温増幅もしくはサーモサイクリング増幅、または等温増幅及びサーモサイクリング増幅の組み合わせを含む。任意に、増幅は、リコンビナーゼアクセサリー因子(例えば、T4 uvsY及び/またはgp32タンパク質)を伴うかまたは伴わない、リコンビナーゼ(例えば、T4 uvsX)を含む。
いくつかの実施形態では、判定工程は、タグ付き増幅産物のうちの少なくとも2つを配列決定することを含む。
任意に、判定工程は、タグ付き増幅産物に対応する一方または両方の鎖を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及びポリヌクレオチドに付加された2つのタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、ポリヌクレオチドの少なくとも一部及び/またはポリヌクレオチドに付加された少なくとも1つのタグの少なくとも一部を含有する候補配列リードの集団を生成することを含む。
任意に、判定工程は、エラー修正された配列リード内の配列リードの数をカウントすることを含む。エラー修正された配列リード内の配列リードの数が閾値を超えない場合、エラー修正された配列リードは、さらなるデータ分析に含まれないことになる。
任意に、判定工程は、選別工程の前に、候補配列リードと比べた、エラー修正された配列リード内の候補配列リードの割合を計算することを含む。
いくつかの実施形態では、本開示は、全体として、(a)(i)少なくとも第1のポリヌクレオチド及び第2のポリヌクレオチドを含む複数のポリヌクレオチド及び(ii)複数のタグを含有する単一反応混合物を形成することと、(b)第1のタグ対を第1のポリヌクレオチドに付加することによって第1のタグ付きポリヌクレオチドを含む複数のタグ付きポリヌクレオチドを単一反応混合物内で生成し、第2のタグ対を第2のポリヌクレオチドに付加ことによって第2のタグ付きポリヌクレオチドを単一反応混合物内で生成することとを含む、核酸試料中の第1の標的ポリヌクレオチド及び第2の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、核酸試料は、標的ポリヌクレオチド及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠いている。タグ付きポリヌクレオチドは、一段階タグ付け反応または複数段階タグ付け反応を実施することによって生成することができる。いくつかの実施形態では、個々のポリヌクレオチド(例えば、第1及び第2のポリヌクレオチド)は、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列及び任意の全長ユニバーサル配列を各々含有するタグ対を使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列及び任意の部分長ユニバーサル配列を各々含有する1つのタグ対を使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列または任意のユニバーサル配列を各々含有する1つのタグ対を使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。
いくつかの実施形態では、本開示は、全体として、(c)第1のタグ付きポリヌクレオチドを増幅することによって第1のタグ付き増幅産物の集団を生成し、第2のタグ付きポリヌクレオチドを増幅することによって第2のタグ付き増幅産物の集団を生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(d)第1の標的ポリヌクレオチド及び/または第2の標的ポリヌクレオチドが核酸試料中に存在することを判定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、判定工程は、第1のタグ付きポリヌクレオチドの少なくとも一部及び/または第1のポリヌクレオチドに付加された第1のタグ対のうちの一方または両方の少なくとも一部を配列決定することを含む。
いくつかの実施形態では、判定工程は、第2のタグ付きポリヌクレオチドの少なくとも一部及び/または第2のポリヌクレオチドに付加された第2のタグ対のうちの一方または両方の少なくとも一部を配列決定することを含む。
いくつかの実施形態では、判定工程は、第1のタグ付きポリヌクレオチドの少なくとも一部及び/または第1のポリヌクレオチドに付加された第1のタグ対からのタグの一方または両方の少なくとも一部を含有する候補配列リードの集団を生成することを含む。
いくつかの実施形態では、判定工程は、第2のタグ付きポリヌクレオチドの少なくとも一部及び/または第2のポリヌクレオチドに付加された第2のタグ対からのタグの一方または両方の少なくとも一部を含有する候補配列リードの集団を生成することを含む。
いくつかの実施形態では、判定工程は、例えば、選別閾値、グループ化閾値、グループ化されたリードカウント閾値、ファミリーカウント閾値、差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値を含む1つ以上の閾値を適用することによって、候補配列リードの集団を操作して、エラー修正された配列リードを生成することを含む。任意に、操作は、候補配列リードに少なくとも1つの閾値を適用することを含む。任意に、操作された配列リードを使用して、特定のポリヌクレオチドが初期核酸試料中に存在することを判定し、特定のポリヌクレオチドの配列を特定することができる。任意に、例えば、ファミリーレベル閾値及び/またはマルチファミリー閾値を適用することによって、操作された配列リードを使用して、初期核酸試料中に存在し得る変異体を検出することができる。
いくつかの実施形態では、判定工程は、タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、1つ以上の候補配列リードを候補配列リードの集団から選別することを含む。候補配列リードは、選別閾値を適用することによって選別することができる。例えば、選別閾値を使用して、少なくとも1つの候補配列リードを保持または除去し、配列リードのエラー修正されたファミリーを生成することができる。
いくつかの実施形態では、判定工程は、候補配列リードの集団のサブセットを候補配列リードの異なるファミリーにグループ化することを含み、候補配列リードの異なるファミリーは、共通のタグ配列を含む。グループ化された配列リードを使用して、エラー修正された配列リードのファミリーを生成することができる。候補配列リードは、グループ化閾値を適用することによってグループ化することができる。例えば、グループ化閾値は、参照タグ配列または参照ポリヌクレオチド配列に基づき得る。配列リードの所与のファミリーにグループ化された異なる配列リードは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、グループ化されたリードカウント閾値を使用して、グループ化されたファミリー内での参照配列と一致する(例えば、類似または同一である)配列リードの割合を判定することを含む。例えば、グループ化されたリードカウント閾値は、特定のポリヌクレオチド配列またはタグ配列に基づき得る。グループ化されたファミリー内での、参照配列と一致する(例えば、類似または同一である)配列リードの割合がグループ化されたリードカウント閾値を満たすかまたはそれを超えた場合、配列リードは真陽性の配列リードであり、その配列を有するポリヌクレオチドが初期核酸試料に存在したと結論付けられ得る。
いくつかの実施形態では、判定工程は、同じ標的ポリヌクレオチド配列を有する異なるファミリーの数をカウントし、ファミリーカウント閾値を適用することを含む。カウントされたファミリーの数がファミリーカウント閾値の超えた場合、標的ポリヌクレオチド配列は、初期核酸試料中に存在するポリヌクレオチドに対応する真陽性の配列リードを表すと見なされる。
いくつかの実施形態では、判定工程は、候補配列リードのセットまたはグループ化された配列リードのファミリーから誤ってタグ付けされた配列リードを除去することを含む。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた配列リードを特定することを含む。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ったタグ付き配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。差異カウント閾値をグループ化された配列リードのファミリーに適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、概して、配列リードを他の配列リードと比較し、パターンカウント閾値を適用することによって変異体の共通のパターンを有する誤ってタグ付けされた配列リードを特定することを含む。例えば、それらのポリヌクレオチド配列中の変異体の共通のパターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。パターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた候補配列リードを特定することを含む。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値及びパターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定することを含む。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。非標的パターン閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、ファミリーベースの候補変異体を特定することを含む。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、判定工程は、遺伝子変異体を特定することを含む。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、単一反応混合物は、1〜4個の一意のタグ、または4〜100個の一意のタグ、または100〜500個の一意のタグ、または500〜1000個の一意のタグ、または1000〜5000個の一意のタグ、または5000〜10,000個の一意のタグ、または10,000個超の一意のタグを含有する。
いくつかの実施形態では、単一反応混合物中の複数のオリゴヌクレオチドタグは、核酸試料中の5〜100、または100〜200、または200〜300、または300〜400、または400〜500、またはそれ以上の異なる標的ポリヌクレオチドを検出する。
いくつかの実施形態では、核酸試料は、任意の種類の生体液もしくは固形生体試料、または任意の有機体から、または水、土、もしくは食物から得られる。いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。
いくつかの実施形態では、核酸試料には、DNA、RNA、RNA及びDNAの混合物、cfDNA、循環腫瘍細胞由来のDNA、またはcfRNAが含まれる。
いくつかの実施形態では、核酸試料は、少なくとも第1の標的ポリヌクレオチド及び1つ以上の非標的ポリヌクレオチドを含有するか、または核酸試料は、一切の非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、少なくとも第2の標的ポリヌクレオチド及び1つ以上の非標的ポリヌクレオチドを含有するか、または核酸試料は、一切の非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、第1の標的及び非標的ポリヌクレオチドを含む、約0.001ng〜100ugまたは約1〜500ngのポリヌクレオチドを含有するか、または核酸試料は非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、第2の標的及び非標的ポリヌクレオチドを含む、約0.001ng〜100ugまたは約1〜500ngのポリヌクレオチドを含有するか、または核酸試料は非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、第1の標的ポリヌクレオチドの存在量レベルは、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜5%、または約0.1〜1%、またはより低い存在量範囲で存在する。
いくつかの実施形態では、第2の標的ポリヌクレオチドの存在量レベルは、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、またはより低い存在量範囲で存在する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の標的ポリヌクレオチド(例えば、第1の標的ポリヌクレオチド)を含有する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の標的ポリヌクレオチド(例えば、第2の標的ポリヌクレオチド)を含有する。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、第1の標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第1の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、第2の標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第2の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、核酸試料中のポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第1の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、核酸試料中のポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第2の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、初期核酸試料中に存在し得る第1のポリヌクレオチドの異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、初期核酸試料中に存在し得る第2のポリヌクレオチドの異なるポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、実質的に全ての他のタグ付きポリヌクレオチドとは異なる第1のタグ対(各末端に1つのタグ)を付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、実質的に全ての他のタグ付きポリヌクレオチドとは異なる第2のタグ対(各末端に1つのタグ)を付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、異なるタグを各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、異なるタグを各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、互いとは異なる第1のタグ対を付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、互いとは異なる第2のタグ対を付加されている。
いくつかの実施形態では、複数のポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、第1のポリヌクレオチドは、酵素的ライゲーションによって第1のタグ対(例えば、第1のタグアダプター対)を付加されている。
いくつかの実施形態では、第2のポリヌクレオチドは、酵素的ライゲーションによって第2のタグ対(例えば、第2のタグアダプター対)を付加されている。
いくつかの実施形態では、単一反応混合物中の実質的に全てのポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、少なくとも1つのタグを付加されている単一反応混合物中の実質的に全てのポリヌクレオチド(例えば、第1のタグ付きポリヌクレオチド及び第2のタグ付きポリヌクレオチド)は、複数のポリヌクレオチド内の個々のポリヌクレオチド分子のうちの約10〜30%、または約30〜50%、または約50〜70%、または約70〜80%、または約80〜90%、または約90〜95%、または約95〜99%が少なくとも1つのタグを付加されていることを含む。
いくつかの実施形態では、酵素的ライゲーションは、第1のタグ対を第1のポリヌクレオチドに非選択的に付加する。
いくつかの実施形態では、酵素的ライゲーションは、第2のタグ対を第2のポリヌクレオチドに非選択的に付加する。
例えば、少なくとも1つのタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加するために、平滑端ライゲーション反応を使用することができる。別の例では、酵素的ライゲーションを使用して、5’または3’突出末端を有するタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することができる。
いくつかの実施形態では、付加工程は、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に酵素的に連結して、複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、複数の別個のライゲーション反応(例えば、約1〜6)を実施して、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。任意に、少なくとも1つのアダプター(例えば、タグアダプター)は、酵素的ライゲーション反応の第1、第2、第3、またはその後のラウンドで、個々のポリヌクレオチドの一方または両方の末端に付加され得る。
いくつかの実施形態では、第1のポリヌクレオチドは、プライマー伸長反応によって第1のタグ対(例えば、各末端に1つのタグ)を付加され、第1のタグ対の一方または両方のタグは、第1の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を含み、第1のタグ対の一方または両方のタグは、少なくとも1つの一意のタグ配列を含む。任意に、第1のタグ対の一方または両方のタグは、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、第1のタグプライマー対の両方のタグプライマーの3’領域は、第1の標的ポリヌクレオチドの異なる部分に選択的にハイブリダイズする標的特異的配列を含み、任意に、第1のタグプライマー対の一方または両方のタグプライマーは、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含有する5’領域を含む。
いくつかの実施形態では、第2のポリヌクレオチドは、プライマー伸長反応によって第2のタグ対(例えば、各末端に1つのタグ)を付加され、第2のタグ対の一方または両方のタグは、第2の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を含み、第2のタグ対の一方または両方のタグは、少なくとも1つの一意のタグ配列を含む。任意に、第2のタグ対の一方または両方のタグは、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、第2のタグプライマー対の両方のタグプライマーの3’領域は、第2の標的ポリヌクレオチドの異なる部分に選択的にハイブリダイズする標的特異的配列を含み、任意に、第2のタグプライマー対の一方または両方のタグプライマーは、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含有する5’領域を含む。
いくつかの実施形態では、プライマー伸長反応は、ポリメラーゼ及び複数のヌクレオチドを含む。
いくつかの実施形態では、複数のポリヌクレオチドのサブセットは、プライマー伸長によって少なくとも1つのタグに各末端で付加されている。
いくつかの実施形態では、付加工程は、プライマー(例えば、タグプライマー)を用いてプライマー伸長反応を実施して、タグ配列を付加された少なくとも一方の末端を有する複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、プライマー伸長反応の複数の別個のラウンドを実施して、少なくとも1つのタグ配列を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。例えば、複数のタグ付きポリヌクレオチドを生成するために、タグプライマーのレパートリーを用いて2〜4ラウンドのプライマー伸長(例えば、PCR)が実施され、個々のタグ付きポリヌクレオチドは、各末端に一意のタグ配列を付加され、任意に個々のタグ付きポリヌクレオチドの一方または両方の末端はまた、同じまたは異なるユニバーサル配列を含み得る。追加の一意のタグ配列、バーコード配列、及び/またはユニバーサル配列を付加するために、テイルドプライマーを用いてプライマー伸長(例えば、PCR)の追加のラウンドを実施することができる。プライマー伸長の追加のラウンドに使用されるテイルドプライマーは、以前のプライマー伸長反応からのタグ配列にハイブリダイズする配列をその3’領域中に含み得る。約2〜40の追加のラウンドのプライマー伸長反応を実施することができる。任意に、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つのバーコード配列またはユニバーサル配列をポリヌクレオチドに付加することができ、続いて、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つの一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、タグアダプターを使用した酵素的ライゲーション及び/またはタグプライマーを使用したプライマー伸長(例えば、PCR)の組み合わせを使用して、一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、少なくとも1つのタグ(例えば、タグアダプターまたはプライマーの第1の対に含まれる)は、少なくとも1つのランダム配列と少なくとも1つの固定配列とを有するランダマータグを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。
いくつかの実施形態では、少なくとも1つのタグ(例えば、タグアダプターまたはプライマーの第2の対に含まれる)は、少なくとも1つのランダム配列と少なくとも1つの固定配列とを有するランダマータグを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。
いくつかの実施形態では、タグは、固定配列が点在する少なくとも1つのランダム配列を有する配列を含む。いくつかの実施形態では、複数のタグにおける個々のタグは、構造(N)n(X)x(M)m(Y)yを有し、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表し、生じ得る別個のランダマータグの数は、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。
いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、増幅は、等温増幅もしくはサーモサイクリング増幅、または等温増幅及びサーモサイクリング増幅の組み合わせを含む。任意に、増幅は、リコンビナーゼアクセサリー因子(例えば、T4 uvsY及び/またはgp32タンパク質)を伴うかまたは伴わない、リコンビナーゼ(例えば、T4 uvsX)を含む。
いくつかの実施形態では、判定工程は、第1のタグ付き増幅産物のうちの少なくとも2つを配列決定することを含む。
いくつかの実施形態では、判定工程は、第2のタグ付き増幅産物のうちの少なくとも2つを配列決定することを含む。
任意に、判定工程は、第1のタグ付き増幅産物に対応する一方または両方の鎖を配列決定することを含む。
任意に、判定工程は、第2のタグ付き増幅産物に対応する一方または両方の鎖を配列決定することを含む。
任意に、判定工程は、第1のポリヌクレオチドの少なくとも一部及び/または第1のポリヌクレオチドに付加された第1のタグ対の一方または両方のタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、第2のポリヌクレオチドの少なくとも一部及び/または第2のポリヌクレオチドに付加された第2のタグ対の一方または両方のタグの少なくとも一部を配列決定することを含む。
任意に、判定工程は、第1のポリヌクレオチドの少なくとも一部及び/または第1のポリヌクレオチドに付加された第1のタグ対のタグの一方または両方の少なくとも一部を含有する候補配列リードの集団を生成することを含む。
任意に、判定工程は、第2のポリヌクレオチドの少なくとも一部及び/または第2のポリヌクレオチドに付加された第2のタグ対のタグの一方または両方の少なくとも一部を含有する候補配列リードの集団を生成することを含む。
任意に、判定工程は、配列リードのエラー修正されたファミリー内の配列リードの数をカウントすることを含む。
任意に、判定工程は、エラー修正された配列リード内の配列リードの数をカウントすることを含む。エラー修正された配列リード内の配列リードの数が閾値を超えない場合、エラー修正された配列リードは、さらなるデータ分析に含まれないことになる。
任意に、判定工程は、選別工程の前に、候補配列リードと比べた、エラー修正された配列リード内の候補配列リードの割合を計算することを含む。
いくつかの実施形態では、本開示は、全体として、(a)(i)少なくとも第1のポリヌクレオチド及び第2のポリヌクレオチドを含む複数のポリヌクレオチド、ならびに(ii)少なくとも第1、第2、第3、及び第4のタグを含む複数のタグを含有する単一反応混合物を形成することと、(b)第1のタグを第1のポリヌクレオチドの一方の末端に付加し、第2のタグを第1のポリヌクレオチドの他方の末端に付加することによって第1のタグ付きポリヌクレオチドを単一反応混合物内で生成し、第3のタグを第2のポリヌクレオチドの一方の末端に付加し、第4のタグを第2のポリヌクレオチドの他方の末端に付加することによって第2のタグ付きポリヌクレオチドを生成することとを含む、核酸試料中の第1の標的ポリヌクレオチド及び第2の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、核酸試料は、標的及び非標的ポリヌクレオチドを含有するか、または非標的ポリヌクレオチドを欠いている。タグ付きポリヌクレオチドは、一段階タグ付け反応または複数段階タグ付け反応を実施することによって生成することができる。
いくつかの実施形態では、個々のポリヌクレオチド(例えば、第1のポリヌクレオチド)は、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列(例えば、第1及び第2の一意のタグ)及びユニバーサルタグ配列(例えば、第1及び第2のユニバーサルタグ)を付加されている。いくつかの実施形態では、個々のポリヌクレオチド(例えば、第2のポリヌクレオチド)は、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列(例えば、第3及び第4の一意のタグ)及びユニバーサルタグ配列(例えば、第3及び第4のユニバーサルタグ)を付加されている。
例えば、一段階タグ付け手順は、(i)第1の一意のタグ配列と第1の全長ユニバーサル配列とを含有する第1のタグ、及び(ii)第2の一意のタグ配列と第2の全長ユニバーサル配列とを含有する第2のタグを使用して、第1のポリヌクレオチドでのライゲーションまたはプライマー伸長反応を行うことを含む。
同じ反応混合物中で、一段階タグ付け手順は、(i)第3の一意のタグ配列と第3の全長ユニバーサル配列とを含有する第3のタグ、及び(ii)第4の一意のタグ配列と第4の全長ユニバーサル配列とを含有する第4のタグを使用して、第2のポリヌクレオチドでのライゲーションまたはプライマー伸長反応を行うことを含む。第1、第2、第3、及び第4のタグは、同じまたは異なるユニバーサル配列を含有する。
例えば、二段階タグ付け手順は、(i)第1の一意のタグ配列と任意に第1のユニバーサル配列の少なくとも一部とを含有する第1のタグ、及び(ii)第2の一意のタグ配列と任意に第2のユニバーサル配列の少なくとも一部とを含有する第2のタグを使用して、第1のポリヌクレオチドでの第1のライゲーションまたはプライマー伸長反応を行うことを含む。
同じ反応混合物中で、第1のライゲーションまたはプライマー伸長反応は、(i)第3の一意のタグ配列と任意に第3のユニバーサル配列の少なくとも一部とを含有する第3のタグ、及び(ii)第4の一意のタグ配列と任意に第4のユニバーサル配列の少なくとも一部とを含有する第4のタグを使用して、第2のポリヌクレオチドによって行われる。
第2のライゲーションまたはプライマー伸長反応は、第1のポリヌクレオチド(タグ付けされている)、ならびに(iii)第1のユニバーサル配列の少なくとも一部を含有するタグ及び(iv)第2のユニバーサル配列の少なくとも一部を含有するタグを使用して行われる。
第2のライゲーションまたはプライマー伸長反応は、第2のポリヌクレオチド(タグ付けされている)、ならびに(iii)第3のユニバーサル配列の少なくとも一部を含有するタグ及び(iv)第4のユニバーサル配列の少なくとも一部を含有するタグを使用して行われる。
第1、第2、第3、及び第4のタグは、同じまたは異なるユニバーサル配列を含有する。
いくつかの実施形態では、本開示は、全体として、(c)第1のタグ付きポリヌクレオチドを増幅することによって第1のタグ付き増幅産物の集団を生成し、第2のタグ付きポリヌクレオチドを増幅することによって第2のタグ付き増幅産物の集団を生成する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(d)第1の標的ポリヌクレオチド及び/または第2の標的ポリヌクレオチドが核酸試料中に存在することを判定する工程をさらに含む方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、判定工程は、第1の標的ポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を配列決定することを含み、第1及び第2のタグは、第1の標的ポリヌクレオチドに付加されている。
いくつかの実施形態では、判定工程は、第2の標的ポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を配列決定することを含み、第3及び第4のタグは、第2の標的ポリヌクレオチドに付加されている。
いくつかの実施形態では、判定工程は、第1のポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を含有する候補配列リードの第1の集団を生成することを含む。
いくつかの実施形態では、判定工程は、第2のポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を含有する候補配列リードの第2の集団を生成することを含む。
いくつかの実施形態では、判定工程は、例えば、選別閾値、グループ化閾値、グループ化されたリードカウント閾値、ファミリーカウント閾値、差異カウント閾値、パターンカウント閾値、及び/または非標的パターン閾値を含む1つ以上の閾値を適用することによって、候補配列リードの第1及び/または第2の集団を操作して、エラー修正された配列リードを生成することを含む。任意に、操作は、候補配列リードに少なくとも1つの閾値を適用することを含む。任意に、操作された配列リードを使用して、特定のポリヌクレオチドが初期核酸試料中に存在することを判定し、特定のポリヌクレオチドの配列を特定することができる。任意に、例えば、ファミリーレベル閾値及び/またはマルチファミリー閾値を適用することによって、操作された配列リードを使用して、初期核酸試料中に存在し得る変異体を検出することができる。
いくつかの実施形態では、判定工程は、タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、1つ以上の候補配列リードを候補配列リードの第1及び/または第2の集団から選別することを含む。候補配列リードは、選別閾値を適用することによって選別することができる。例えば、選別閾値を使用して、少なくとも1つの候補配列リードを保持または除去し、エラー修正された配列リードを生成することができる。任意に、選別閾値を使用して、第1のタグ付きポリヌクレオチドに対応する第1の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。任意に、選別閾値を使用して、第2のタグ付きポリヌクレオチドに対応する第2の候補配列リードを保持または除去して、エラー修正された配列リードを生成することができる。
いくつかの実施形態では、判定工程は、候補配列リードの第1及び/または第2の集団のサブセットを候補配列リードの異なるファミリーにグループ化することを含み、候補配列リードの異なるファミリーは、共通のタグ配列を含む。グループ化された配列リードを使用して、エラー修正された配列リードのファミリーを生成することができる。候補配列リードは、グループ化閾値を適用することによってグループ化することができる。例えば、グループ化閾値は、参照タグ配列または参照ポリヌクレオチド配列に基づき得る。配列リードの所与のファミリーにグループ化された異なる配列リードは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、候補配列リードは、グループ化された配列リードの第1のファミリーを生成するために、グループ化閾値を適用することによってグループ化することができ、グループ化された配列リードの第1のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。任意に、候補配列リードは、グループ化された配列リードの第2のファミリーを生成するために、グループ化閾値を適用することによってグループ化することができ、グループ化された配列リードの第2のファミリーのメンバーは、共通のタグ及び/またはポリヌクレオチド配列を共有する。
いくつかの実施形態では、判定工程は、グループ化されたリードカウント閾値を使用して、グループ化されたファミリー内での参照配列と一致する(例えば、類似または同一である)配列リードの割合を判定することを含む。例えば、グループ化されたリードカウント閾値は、特定のポリヌクレオチド配列またはタグ配列に基づき得る。グループ化されたファミリー内での、参照配列と一致する(例えば、それと類似するかまたは同一である)配列リードの割合がグループ化されたリードカウント閾値を満たすかまたはそれを超えた場合、配列リードは真陽性の配列リードであり、その配列を有するポリヌクレオチドが初期核酸試料に存在したと結論付けられ得る。任意に、グループ化された配列リードの第1のファミリーが真陽性の配列リードを含有するかどうかを判定するために、グループ化された配列リードの第1のファミリーは、参照配列と一致する(例えば、それと類似するかまたは同一である)第1のグループ化された配列リードの割合を判定するために、グループ化されたリードカウント閾値に供され得る。任意に、グループ化された配列リードの第2のファミリーが真陽性の配列リードを含有するかどうかを判定するために、グループ化された配列リードの第2のファミリーは、参照配列と一致する(例えば、それと類似するかまたは同一である)第2のグループ化された配列リードの割合を判定するために、グループ化されたリードカウント閾値に供され得る。
いくつかの実施形態では、判定工程は、同じ標的ポリヌクレオチド配列を有する(配列決定グループ化された配列リードの)異なるファミリーの数をカウントし、ファミリーカウント閾値を適用することを含む。カウントされたファミリーの数がファミリーカウント閾値の超えた場合、標的ポリヌクレオチド配列は、初期核酸試料中に存在するポリヌクレオチドに対応する真陽性の配列リードを表すと見なされる。
いくつかの実施形態では、判定工程は、候補配列リードのセットまたはグループ化された配列リードのファミリーから誤ってタグ付けされた配列リードを除去することを含む。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた配列リードを特定することを含む。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ったタグ付き配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。差異カウント閾値をグループ化された配列リードのファミリーに適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、概して、配列リードを他の配列リードと比較し、パターンカウント閾値を適用することによって変異体の共通のパターンを有する誤ってタグ付けされた配列リードを特定することを含む。例えば、それらのポリヌクレオチド配列中の変異体の共通のパターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。パターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた候補配列リードを特定することを含む。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値及びパターンカウント閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定することを含む。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。非標的パターン閾値は、グループ化閾値の前、またはその後に適用され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、ファミリーベースの候補変異体を特定することを含む。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、判定工程は、遺伝子変異体を特定することを含む。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、付加工程は、単一反応混合物中で行われ、第1のタグが第1のポリヌクレオチドの一方の末端に付加され、第2のタグが第1のポリヌクレオチドの他方の末端に付加される。
いくつかの実施形態では、付加工程は、単一反応混合物中で行われ、第3のタグが第2のポリヌクレオチドの一方の末端に付加され、第4のタグが第2のポリヌクレオチドの他方の末端に付加される。
いくつかの実施形態では、単一反応混合物は、1〜4個の一意のタグ、または4〜100個の一意のタグ、または100〜500個の一意のタグ、または500〜1000個の一意のタグ、または1000〜5000個の一意のタグ、または5000〜10,000個の一意のタグ、または10,000個超の一意のタグを含有する。
いくつかの実施形態では、単一反応混合物中の複数のオリゴヌクレオチドタグは、核酸試料中の5〜100、または100〜200、または200〜300、または300〜400、または400〜500、またはそれ以上の異なる標的ポリヌクレオチドを検出する。
いくつかの実施形態では、第1及び第2のタグに付加された第1の標的ポリヌクレオチド配列を含有する増幅産物は、約30〜100塩基、または約100〜300塩基、または約300〜600塩基、または約600〜1,000塩基の長さである。いくつかの実施形態では、第3及び第4のタグに付加された第2の標的ポリヌクレオチド配列を含有する増幅産物は、約30〜100塩基、または約100〜300塩基、または約300〜600塩基、または約600〜1,000塩基の長さである。
いくつかの実施形態では、核酸試料は、任意の種類の生体液もしくは固形生体試料、または任意の有機体から、または水、土、もしくは食物から得られる。いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。
いくつかの実施形態では、核酸試料には、DNA、RNA、RNA及びDNAの混合物、cfDNA、循環腫瘍細胞由来のDNA、またはcfRNAが含まれる。
いくつかの実施形態では、核酸試料は、少なくとも1つの標的ポリヌクレオチド及び1つ以上の非標的ポリヌクレオチドを含有するか、または核酸試料は、一切の非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、核酸試料は、標的及び非標的ポリヌクレオチドを含む、約0.001ng〜100ugまたは約1〜500ngのポリヌクレオチドを含有するか、または核酸試料は非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、標的ポリヌクレオチドの存在量レベルは、核酸試料中に約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%、またはより低い存在量範囲で存在する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の第1の標的ポリヌクレオチドを含有する。
いくつかの実施形態では、核酸試料は、野生型形態、ならびにアリル形態、変異体(variant)形態、及び/または変異体(mutant)形態を含むその関連する多型を含む複数の第2の標的ポリヌクレオチドを含有する。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、第1の標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第1の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、第2の標的ポリヌクレオチドに関連し、核酸試料中に存在する多型ポリヌクレオチドの集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第2の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、核酸試料中のポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第1の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードまたは配列リードのエラー修正されたファミリーは、核酸試料中のポリヌクレオチドの全集団と比べて、約0.0001〜1%、または約0.001〜1%、または約0.01〜1%、または約0.1〜1%、または約0.1〜5%の存在量レベル、またはより低い存在量範囲で核酸試料中に存在する第2の標的ポリヌクレオチドを検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードは、初期核酸試料中に存在し得る第1のポリヌクレオチドの異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、エラー修正された配列リードは、初期核酸試料中に存在し得る第2のポリヌクレオチドの異なる標的ポリヌクレオチド(例えば、遺伝子変異体を含む)の約85〜95%、または約95〜99%、または約100%を検出及び特定するために使用される。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、実質的に全ての他のタグ付きポリヌクレオチドに付加されている他のタグとは異なる第1及び第2のタグを付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、実質的に全ての他のタグ付きポリヌクレオチドに付加されている他のタグとは異なる第3及び第4のタグを付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、異なるタグ(例えば、第1及び第2のタグ)を各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、異なるタグ(例えば、第3及び第4のタグ)を各末端に付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第1のタグ付きポリヌクレオチドは、互いとは異なる第1のタグ及び第2のタグを付加されている。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中の第2のタグ付きポリヌクレオチドは、互いとは異なる第3のタグ及び第4のタグを付加されている。
いくつかの実施形態では、複数のポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、第1のポリヌクレオチドは、酵素的ライゲーションによって第1及び第2のタグ(例えば、第1及び第2のタグアダプター)を付加されている。
いくつかの実施形態では、第2のポリヌクレオチドは、酵素的ライゲーションによって第3及び第4のタグ(例えば、第3及び第4のタグアダプター)を付加されている。
いくつかの実施形態では、第1及び第2のポリヌクレオチドを含む実質的に全てのポリヌクレオチドは、酵素的ライゲーションによって少なくとも1つのタグ(例えば、タグアダプター)を各末端に付加されている。
いくつかの実施形態では、各末端に少なくとも1つのタグを付加された実質的に全てのポリヌクレオチド(第1及び第2のポリヌクレオチドを含む)は、少なくとも1つのタグを各末端に付加された複数のポリヌクレオチド内の個々のポリヌクレオチド分子のうちの約10〜30%、または約30〜50%、または約50〜70%、または約70〜80%、または約80〜90%、または約90〜95%、または約95〜99%を含む。
いくつかの実施形態では、酵素的ライゲーションは、第1及び第2のタグを第1のポリヌクレオチドに非選択的に付加する。
いくつかの実施形態では、酵素的ライゲーションは、第3及び第4のタグを第2のポリヌクレオチドに非選択的に付加する。
例えば、少なくとも1つのタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加するために、平滑端ライゲーション反応を使用することができる。別の例では、酵素的ライゲーションを使用して、5’または3’突出末端を有するタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することができる。
いくつかの実施形態では、付加工程は、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に酵素的に連結して、複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、複数の別個のライゲーション反応(例えば、約1〜6)を実施して、少なくとも1つのアダプター(例えば、タグアダプター)を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。任意に、少なくとも1つのアダプター(例えば、タグアダプター)は、酵素的ライゲーション反応の第1、第2、第3、またはその後のラウンドで、個々のポリヌクレオチドの一方または両方の末端に付加され得る。
いくつかの実施形態では、第1の標的ポリヌクレオチドは、第1及び第2のタグプライマーを使用したプライマー伸長反応によって第1及び第2のタグプライマーを付加され、第1及び第2のタグプライマーは、核酸試料内の第1の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を含み、第1のタグプライマーは、少なくとも第1の一意のタグ配列を含み、第2のタグプライマーは、少なくとも第2の一意のタグ配列を含む。第1及び第2のタグプライマーは、第1の標的ポリヌクレオチドの異なる領域にハイブリダイズすることができる。任意に、第1のタグプライマーは、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。任意に、第2のタグプライマーは、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、第1及び第2のタグプライマーの3’領域は、第1の標的ポリヌクレオチドの異なる部分に選択的にハイブリダイズする標的特異的配列を含み、第1及び/または第2のタグプライマーは、第1の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含有する5’領域を含む。
いくつかの実施形態では、第2の標的ポリヌクレオチドは、第3及び第4のタグプライマーを使用したプライマー伸長反応によって第3及び第4のタグプライマーを付加され、第3及び第4のタグプライマーは、核酸試料内の第2の標的ポリヌクレオチドの少なくとも1つの領域に選択的にハイブリダイズする標的特異的配列を含み、第3のタグプライマーは、少なくとも第3の一意のタグ配列を含み、第4のタグプライマーは、少なくとも第4の一意のタグ配列を含む。第3及び第4のタグプライマーは、第2の標的ポリヌクレオチドの異なる領域にハイブリダイズすることができる。任意に、第1のタグプライマーは、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。任意に、第2のタグプライマーは、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない部分を含む。例えば、第3及び第4のタグプライマーの3’領域は、第2の標的ポリヌクレオチドの異なる部分に選択的にハイブリダイズする標的特異的配列を含み、第3及び/または第4のタグプライマーは、第2の標的ポリヌクレオチドに選択的にハイブリダイズしない一意のタグ配列を含有する5’領域を含む。
いくつかの実施形態では、プライマー伸長反応は、ポリメラーゼ及び複数のヌクレオチドを含む。
いくつかの実施形態では、複数のポリヌクレオチドのサブセットであって、サブセットが第1の標的ポリヌクレオチドを含むサブセットは、プライマー伸長によって少なくとも1つのタグを各末端に付加されている。
いくつかの実施形態では、複数のポリヌクレオチドのサブセットであって、サブセットが第2の標的ポリヌクレオチドを含むサブセットは、プライマー伸長によって少なくとも1つのタグを各末端に付加されている。
いくつかの実施形態では、付加工程は、プライマー(例えば、タグプライマー)を用いてプライマー伸長反応を実施して、タグ配列を付加された少なくとも一方の末端を有する複数のタグ付きポリヌクレオチドを生成することを含む。任意に、分子タグ付け手順は、プライマー伸長反応の複数の別個のラウンドを実施して、少なくとも1つのタグ配列を個々のポリヌクレオチドの少なくとも一方の末端に付加することを含む。例えば、複数のタグ付きポリヌクレオチドを生成するために、タグプライマーのレパートリーを用いて2〜4ラウンドのプライマー伸長(例えば、PCR)が実施され、個々のタグ付きポリヌクレオチドは、各末端に一意のタグ配列を付加され、任意に個々のタグ付きポリヌクレオチドの一方または両方の末端はまた、同じまたは異なるユニバーサル配列を含み得る。追加の一意のタグ配列、バーコード配列、及び/またはユニバーサル配列を付加するために、テイルドプライマーを用いてプライマー伸長(例えば、PCR)の追加のラウンドを実施することができる。プライマー伸長の追加のラウンドに使用されるテイルドプライマーは、以前のプライマー伸長反応からのタグ配列にハイブリダイズする配列をその3’領域中に含み得る。約2〜40の追加のラウンドのプライマー伸長反応を実施することができる。任意に、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つのバーコード配列またはユニバーサル配列をポリヌクレオチドに付加することができ、続いて、プライマー伸長反応の1つ以上のラウンドを実施して、少なくとも1つの一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、タグアダプターを使用した酵素的ライゲーション及び/またはタグプライマーを使用したプライマー伸長(例えば、PCR)の組み合わせを使用して、一意のタグ配列をポリヌクレオチドに付加することができる。
いくつかの実施形態では、少なくとも1つのタグ(例えば、タグアダプターに含まれるか、または第1、第2、第3、及び第4のプライマーに含まれる)は、ランダマータグであって、ランダムタグが少なくとも1つのランダム配列と少なくとも1つの固定配列とを有するランダマータグを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。
いくつかの実施形態では、タグは、固定配列が点在する少なくとも1つのランダム配列を有する配列を含む。いくつかの実施形態では、第1、第2、第3、及び第4のタグを含む、複数のタグにおける個々のタグは、構造(N)n(X)x(M)m(Y)yを有し、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表し、生じ得る別個のランダマータグの数は、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。
いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、増幅は、等温増幅もしくはサーモサイクリング増幅、または等温増幅及びサーモサイクリング増幅の組み合わせを含む。任意に、増幅は、リコンビナーゼアクセサリー因子(例えば、T4 uvsY及び/またはgp32タンパク質)を伴うかまたは伴わない、リコンビナーゼ(例えば、T4 uvsX)を含む。
いくつかの実施形態では、判定工程は、第1及び第2のタグ付き増幅産物を含むタグ付き増幅産物のうちの少なくとも2つを配列決定することを含む。
任意に、判定工程は、タグ付き増幅産物に対応する一方または両方の鎖を配列決定することを含む。任意に、判定工程は、第1及び第2のタグ付き増幅産物の一方または両方の鎖を配列決定することを含む。
任意に、判定工程は、第1のタグ付きポリヌクレオチドの少なくとも一部を配列決定することを含む。任意に、判定工程は、第1の標的ポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を配列決定することを含み、第1及び第2のタグは、第1のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、第2のタグ付きポリヌクレオチドの少なくとも一部を配列決定することを含む。任意に、判定工程は、第2の標的ポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を配列決定することを含み、第3及び第4のタグは、第2のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、第1のタグ付きポリヌクレオチドの少なくとも一部を含有する候補配列リードの集団を生成することを含む。任意に、判定工程は、第1の標的ポリヌクレオチドの少なくとも一部、及び/または第1のタグの少なくとも一部、及び/または第2のタグの少なくとも一部を含有する候補配列リードの集団を生成することを含み、第1及び第2のタグは、第1のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、第2のタグ付きポリヌクレオチドの少なくとも一部を含有する候補配列リードの集団を生成することを含む。任意に、判定工程は、第2の標的ポリヌクレオチドの少なくとも一部、及び/または第3のタグの少なくとも一部、及び/または第4のタグの少なくとも一部を含有する候補配列リードの集団を生成することを含み、第3及び第4のタグは、第2のタグ付きポリヌクレオチドの一部である。
任意に、判定工程は、エラー修正された配列リード内の配列リードの数をカウントすることを含む。エラー修正された配列リード内の配列リードの数が閾値を超えない場合、エラー修正された配列リードは、さらなるデータ分析に含まれないことになる。
任意に、判定工程は、選別工程の前に、候補配列リードと比べた、エラー修正された配列リード内の候補配列リードの割合を計算することを含む。
いくつかの実施形態では、本開示は、全体として、(a)標的及び非標的ポリヌクレオチドを含むか、非標的ポリヌクレオチドを欠く複数のポリヌクレオチドを含有する核酸試料を提供することと、(b)少なくとも1つの一意のタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することによって複数のタグ付きポリヌクレオチド(例えば、親タグ付きポリヌクレオチド)を生成することであって、付加が単一反応混合物内で実施される、生成することと、(c)複数のタグ付きポリヌクレオチドを増幅することによってタグ付き増幅産物を生成することであって、タグ付き増幅産物は、親タグ付きポリヌクレオチドから生じた子孫タグ付きポリヌクレオチドである、生成することと、(d)タグ付き増幅産物のうちの少なくともいくつかの配列を判定して、候補配列リードの集団を生成することと、(e)タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて1つ以上の候補配列リードを候補配列リードの集団から除去することによって、候補配列リードのうちの少なくともいくつかを選別して、エラー修正された配列リードのファミリーを生成することと、(f)エラー修正された配列リードのファミリーのサブセットを候補配列リードの異なるファミリーにグループ化することであって、候補配列リードの異なるファミリーの各々は、候補配列リードの所与のファミリーに固有である共通のタグ配列を含む、グループ化することと、(g)配列リードのエラー修正されたファミリーを使用することによって、所与のポリヌクレオチドが核酸試料中に存在することを判定することとを含む、核酸試料中の第1の標的ポリヌクレオチド及び第2の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、個々のポリヌクレオチドは、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列とユニバーサル配列とを含有するタグを使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列またはユニバーサル配列を含有するタグを使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列またはユニバーサル配列を含有するタグを使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。いくつかの実施形態では、一意のタグは、少なくとも1つのランダム配列と少なくとも1つの固定配列とを含むランダマー配列(例えば、ランダマータグ)を含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表す。いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、本開示は、全体として、(a)標的及び非標的ポリヌクレオチドを含むか、非標的ポリヌクレオチドを欠く複数のポリヌクレオチドを含有する核酸試料を提供することと、(b)少なくとも1つの一意のタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することによって複数のタグ付きポリヌクレオチド(例えば、親タグ付きポリヌクレオチド)を生成することであって、付加が単一反応混合物内で実施される、生成することと、(c)複数のタグ付きポリヌクレオチドを増幅することによってタグ付き増幅産物を生成することであって、タグ付き増幅産物は、親タグ付きポリヌクレオチドから生じた子孫タグ付きポリヌクレオチドである、生成することと、(d)タグ付き増幅産物のうちの少なくともいくつかの配列を判定して、候補配列リードの集団を生成することと、(e)タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて1つ以上の候補配列リードを候補配列リードの集団から除去することによって、候補配列リードのうちの少なくともいくつかを選別して、エラー修正された配列リードのファミリーを生成することと、(f)エラー修正された配列リードのファミリーのサブセットを候補配列リードの異なるファミリーにグループ化することであって、候補配列リードの異なるファミリーの各々は、候補配列リードの所与のファミリーに固有である共通のタグ配列を含む、グループ化することと、(g)配列リードのエラー修正されたファミリーを使用することによって、所与のポリヌクレオチドが核酸試料中に存在することを判定することとを含む、核酸試料中の第1の標的ポリヌクレオチド及び第2の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、個々のポリヌクレオチドは、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列とユニバーサル配列とを含有するタグを使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列またはユニバーサル配列を含有するタグを使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列またはユニバーサル配列を含有するタグを使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。いくつかの実施形態では、一意のタグは、少なくとも1つのランダム配列と少なくとも1つの固定配列とを含むランダマー配列(例えば、ランダマータグ)を含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表す。いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。いくつかの実施形態では、選別工程は、誤ってタグ付けされた配列リードを候補配列リードのセットから除去することを含む。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、選別工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた配列リードを特定することを含む。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。候補配列リードのセットに差異カウント閾値を適用し、特定された誤ったタグ付き配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。
いくつかの実施形態では、選別工程は、概して、配列リードを他の配列リードと比較し、パターンカウント閾値を適用することによって変異体の共通のパターンを有する誤ってタグ付けされた配列リードを特定することを含む。例えば、それらのポリヌクレオチド配列中の変異体の共通のパターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。候補配列リードのセットにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。
いくつかの実施形態では、選別工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた候補配列リードを特定することを含む。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。候補配列リードのセットに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。
いくつかの実施形態では、選別工程は、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定することを含む。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。候補配列リードのセットに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのセットをもたらし得る。
いくつかの実施形態では、判定工程は、ファミリーベースの候補変異体を特定することを含む。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、判定工程は、遺伝子変異体を特定することを含む。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、本開示は、全体として、(a)標的及び非標的ポリヌクレオチドを含むか、非標的ポリヌクレオチドを欠く複数のポリヌクレオチドを含有する核酸試料を提供することと、(b)少なくとも1つの一意のタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することによって複数のタグ付きポリヌクレオチド(例えば、親タグ付きポリヌクレオチド)を生成することであって、付加が単一反応混合物内で実施される、生成することと、(c)複数のタグ付きポリヌクレオチドを増幅することによってタグ付き増幅産物を生成することであって、タグ付き増幅産物は、親タグ付きポリヌクレオチドから生じた子孫タグ付きポリヌクレオチドである、生成することと、(d)タグ付き増幅産物のうちの少なくともいくつかの配列を判定して、候補配列リードの集団を生成することと、(e)候補配列リードの集団のサブセットを候補配列リードの異なるファミリーにグループ化することであって、候補配列リードの異なるファミリーの各々が、候補配列リードの所与のファミリーに固有である共通のタグ配列を含む、グループ化することと、(f)タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、1つ以上の候補配列リードを候補配列リードのファミリーから除去することによって候補配列リードのうちの少なくとも1つを選別して、エラー修正された配列リードのファミリーを生成することと、(g)エラー修正された配列リードのファミリーを使用することによって、ポリヌクレオチドが核酸試料中に存在することを判定することとを含む、核酸試料中の第1の標的ポリヌクレオチド及び第2の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、個々のポリヌクレオチドは、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列とユニバーサル配列とを含有するタグを使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列またはユニバーサル配列を含有するタグを使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列またはユニバーサル配列を含有するタグを使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。いくつかの実施形態では、一意のタグは、少なくとも1つのランダム配列と少なくとも1つの固定配列とを含むランダマー配列(例えば、ランダマータグ)を含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表す。いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
いくつかの実施形態では、本開示は、全体として、(a)標的及び非標的ポリヌクレオチドを含むか、非標的ポリヌクレオチドを欠く複数のポリヌクレオチドを含有する核酸試料を提供することと、(b)少なくとも1つの一意のタグを複数のポリヌクレオチドからの個々のポリヌクレオチドに付加することによって複数のタグ付きポリヌクレオチド(例えば、親タグ付きポリヌクレオチド)を生成することであって、付加が単一反応混合物内で実施される、生成することと、(c)複数のタグ付きポリヌクレオチドを増幅することによってタグ付き増幅産物を生成することであって、タグ付き増幅産物は、親タグ付きポリヌクレオチドから生じた子孫タグ付きポリヌクレオチドである、生成することと、(d)タグ付き増幅産物のうちの少なくともいくつかの配列を判定して、候補配列リードの集団を生成することと、(e)候補配列リードの集団のサブセットを候補配列リードの異なるファミリーにグループ化することであって、候補配列リードの異なるファミリーの各々が、候補配列リードの所与のファミリーに固有である共通のタグ配列を含む、グループ化することと、(f)タグ特異的参照配列に基づいて、かつ/またはポリヌクレオチド特異的参照配列に基づいて、1つ以上の候補配列リードを候補配列リードのファミリーから除去することによって候補配列リードのうちの少なくとも1つを選別して、エラー修正された配列リードのファミリーを生成することと、(g)エラー修正された配列リードのファミリーを使用することによって、ポリヌクレオチドが核酸試料中に存在することを判定することとを含む、核酸試料中の第1の標的ポリヌクレオチド及び第2の標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、個々のポリヌクレオチドは、一段階または複数段階(例えば、二段階)タグ付け手順を使用して一意のタグ配列及びユニバーサルタグ配列を付加されている。例えば、一段階タグ付け手順は、一意のタグ配列とユニバーサル配列とを含有するタグを使用してライゲーションまたはプライマー伸長反応を行うことを含む。二段階タグ付け手順は、一意のタグ配列またはユニバーサル配列を含有するタグを使用して第1のライゲーションまたはプライマー伸長反応を行い、一意のタグ配列またはユニバーサル配列を含有するタグを使用してその後のライゲーションまたはプライマー伸長反応を行うことを含む。いくつかの実施形態では、一意のタグは、少なくとも1つのランダム配列と少なくとも1つの固定配列とを含むランダマー配列(例えば、ランダマータグ)を含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さである固定配列を含み得る。ランダマータグは、2〜2000ヌクレオチドまたは塩基対の長さであるランダム配列を含み得る。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって表され得る。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、ランダマータグは、配列
を含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表す。いくつかの実施形態では、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。いくつかの実施形態では、選別工程は、誤ってタグ付けされた配列リードを候補配列リードのセットから除去することを含む。いくつかの場合では、所与の配列リードのファミリーは、タグアダプターライゲーションもしくはタグプライマー伸長を含むタグ付加エラー、または他のエラーに起因して、共通のタグ配列を含むが、標的ポリヌクレオチドの異なる領域にまたは非標的ポリヌクレオチドに対応する、誤ってタグ付けされた配列リードを含み得る。誤ってタグ付けされた配列リードは、ヌクレオチドが参照ポリヌクレオチド配列または正しくタグ付けされた配列リードと異なる1つ以上の塩基位置を含むことになる。
いくつかの実施形態では、選別工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた配列リードを特定することを含む。例えば、配列リードと参照ポリヌクレオチドとの間で異なるヌクレオチドの数を判定し、その数を差異カウント閾値と比較することにより、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。差異カウント閾値をグループ化された配列リードのファミリーに適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、選別工程は、概して、配列リードを他の配列リードと比較し、パターンカウント閾値を適用することによって変異体の共通のパターンを有する誤ってタグ付けされた配列リードを特定することを含む。例えば、それらのポリヌクレオチド配列中の変異体の共通のパターンを有する配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを識別することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。グループ化された配列リードのファミリーにパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、選別工程は、配列リードを標的ポリヌクレオチドのための参照配列と比較し、差異カウント閾値を適用することによって誤ってタグ付けされた候補配列リードを特定することを含む。誤ってタグ付けされた候補配列リードを1つ以上の他の特定された誤ってタグ付けされた候補配列リードと比較し、パターンカウント閾値を適用することにより、誤ってタグ付けされた候補配列中に存在し得る変異体の共通パターンを検出することができる。例えば、それらのポリヌクレオチド配列中に変異体の特定のパターンを有する誤ってタグ付けされた候補配列リードの数を判定し、その数をパターンカウント閾値と比較することにより、誤ってタグ付けされた配列リードのグループを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。グループ化された配列リードのファミリーに差異カウント閾値及びパターンカウント閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、選別工程は、誤ってタグ付けされた候補配列リード中の差異のパターンを、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドもしくは標的ポリヌクレオチドの異なる領域のための予想配列との間の予想差異のパターンと比較することによって、誤ってタグ付けされた配列リードを特定することを含む。例えば、標的ポリヌクレオチドのための参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンは、予め決定され、ルックアップテーブル内に保存され得る。任意に、配列リードを参照配列と比較し、差異カウント閾値を適用することにより、誤ってタグ付けされた候補配列リードを特定することができる。誤ってタグ付けされた候補配列リードにおける差異のパターンを予想差異のパターンと比較し、非標的パターン閾値を適用することで、誤ってタグ付けされた配列リードを特定することができる。誤ってタグ付けされた配列リードは、保持または除去され得る。グループ化された配列リードのファミリーに非標的パターン閾値を適用し、特定された誤ってタグ付けされた配列リードを除去することは、低減されたエラー率を有する配列リードのファミリーをもたらし得る。
いくつかの実施形態では、判定工程は、ファミリーベースの候補変異体を特定することを含む。配列リードのエラー修正されたファミリーを使用して、初期核酸試料に存在し得る変異体を検出及び特定することができる。例えば、所与のエラー修正されたファミリーについて、配列リードを標的ポリヌクレオチドのための参照配列にアラインし、1つ以上のアラインされた配列リード及び参照配列が異なる塩基を有する塩基位置を判定し、塩基位置において特定の塩基差異を有するアラインされた配列の数をカウントし、ファミリーレベル閾値を適用することによって、ファミリーベースの候補変異体を特定することができる。塩基差異の数がファミリーレベル閾値より低い場合、ファミリーベースの候補変異体は特定されない。いくつかの場合では、ファミリーレベル閾値を適用することは、1つ以上の候補変異体を特定し得る。
いくつかの実施形態では、判定工程は、遺伝子変異体を特定することを含む。複数のエラー修正されたファミリー由来の候補変異体を使用して、初期核酸試料中に存在し得る変異体を特定することができる。例えば、ファミリーカウント閾値を適用することにより、同じ標的ポリヌクレオチド配列を有する異なるエラー修正されたファミリーの数を特定することができる。いくつかの場合では、所与の標的ポリヌクレオチド配列のための異なるエラー修正されたファミリーは、特定の候補変異体を特定し得る。特定の候補変異体を支持するエラー修正されたファミリーの数をカウントし、マルチファミリー閾値を適用することにより、初期核酸試料中に存在した変異体として候補変異体を特定することができる。
いくつかの実施形態では、本教示に記載される分子タグ付け方法を使用して、モノソミー、トリソミー、またはより高次の異数性等の異数性を含むコピー数多型を検出することができる。例としては、遺伝子型BC及びBBを有する親ならびに重複遺伝子型BBCを担持するその子孫が挙げられる。いくつかの実施形態では、ポリヌクレオチド試料は、親及びその子孫の両方から得ることができ(例えば、血液または組織試料からのcfDNAまたはDNA)、3つの試料は各々、一意のタグのレパートリー及び親または子孫のいずれかから得られたポリヌクレオチドを特定/区別する試料特異的バーコードタグを使用して、本教示に記載される分子タグ付け方法に別個に供される。3つの別個にタグ付け試料は、共にプールされ、配列決定データ(例えば、配列リード)を生成するために配列決定され得る。例えば、タグ付けされた試料は、大規模並列配列決定方法またはゲル電気泳動もしくはマイクロアレイを用いるものを使用して配列決定され得る。配列リードは、エラー修正された配列決定データをもたらすために、選別、分類、グループ化、グループ化されたリードのカウント、リードのファミリーのカウント、及び他の操作工程を適用することによって操作され得る。ヘテロ接合型親BCについて、標的配列アリルB及び標的配列アリルCに関連付けられる一意のタグ配列の数をカウントし、比較することができる。Bアリル対Cアリルの予想比率は、総アリルカウントの半分がアリルBに由来し、半分がアリルCに由来するため、BC親について約1:1である。BB親についての同様の分析において、アリルBに関連付けられる一意のタグ配列の数をカウントし、比較することができる。BB親はホモ接合型であるため、アリルカウントの全てがアリルBに由来するため、Bアリル対Cアリルの予想比率は2:0である。異数性子孫について、アリルB及びアリルCに関連付けられる一意のタグ配列をカウントし、比較することができる。アリルB及びアリルCの1つがアリルカウントに貢献し、追加のアリルBもアリルカウントに貢献するため、Bアリル対Cアリルの予想比率は2:1である。
いくつかの実施形態では、本開示は、全体として、本明細書に記載されるランダマータグのいずれかを含む一意の識別タグを任意の種類の高分子に結合させるための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。タグ付き高分子は、異なるタグ付き高分子を互いから区別するため、及びワークフロー中または高分子の混合物中で個々のタグ付き高分子の追跡を可能にするために有用であり得る。例えば、タグ付けされる高分子には、糖、炭水化物、脂質、リン脂質、オリゴヌクレオチド、ポリヌクレオチド、ペプチド、ポリペプチド、ペプチド、及びホルモンが含まれる。高分子にはまた、薬物候補、プロドラッグ、薬物、医薬品候補、及び薬物代謝物も含まれる。高分子には、抗体、抗原、細胞シグナル伝達分子、血清タンパク質、糖タンパク質、コレステロール、糖脂質、多糖類、レクチン、成長因子、サイトカイン、ステロイド、及びビタミンが含まれる。ランダマータグには、一本鎖オリゴヌクレオチドプライマー及び二本鎖アダプター等の様々な形態が含まれる。ランダマータグは、両側で固定配列に隣接するランダム配列または両側でランダム配列に隣接する固定配列を含む、固定配列が点在する少なくとも1つのランダム配列を含有する。ランダマータグは、糖の化学修飾を使用して、2’−フルオロ、2’−O−メチル、2’−メトキシエチル置換基、及び二環式糖ロックト核酸(LNA)等の1つ以上の修飾された2’糖を担持する、オリゴヌクレオチドペプチド複合体を作製するためのオリゴヌクレオチドを生成することを含む、当業者に公知の手順を使用して高分子に結合させることができる。オリゴヌクレオチドペプチド複合体を生成するための他の方法には、ペプチド核酸(PNA)を使用するかまたは(2−アミノエチル)−グリシンペプチド骨格を導入し、対応するリボースまたはデオキシリボース環を置き換えることが含まれる。オリゴヌクレオチドを高分子と複合するための多くの方法が公知である(米国特許第6,444,806号、米国特許出願公開第2010/0167290号及び同第2004/0038331号、Winkler 2013 Therapeutic Delivery 4(7):791−809、ならびにJuliano,Ming and Nakagawa 2012 Accounts of Chemical Research 45(7):1067−1076)。
いくつかの実施形態では、本開示は、全体として、標的ポリヌクレオチドについて濃縮するための濃縮手順を行うための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、濃縮手順は、タグ付加手順の前、またはその後に実施され得る。
例えば、濃縮には、標的ポリヌクレオチドについて濃縮するための固相捕捉手順が含まれ得る。いくつかの実施形態では、標的ポリヌクレオチドは、核酸試料(例えば、少なくとも1つの標的ポリヌクレオチドを含有するもの)を支持体(例えば、平らな支持体またはビーズ)に結合した捕捉プライマーにハイブリダイズすることによって選択的に捕捉され得る。核酸試料中のポリヌクレオチドは、一方もしくは両方の末端に付加された少なくとも1つのユニバーサル配列を含み得るか、または核酸はユニバーサル配列を欠いている。支持体は、同じ配列または異なるプライマー配列を有する固定化プライマーを含み得る。支持体に結合した捕捉プライマーを、標的ポリヌクレオチドの一部またはユニバーサル配列の一部に選択的にハイブリダイズするのに好適な条件下で核酸試料と接触させることができる。ハイブリダイズされていないポリヌクレオチドは、洗浄または酵素的分解によって任意に除去され得、標的ポリヌクレオチドは捕捉プライマーにハイブリダイズされたままとなる。捕捉ポリヌクレオチドは、支持体から任意に溶出され得る。溶出したポリヌクレオチドは、タグ付きポリヌクレオチドを生成するために、本教示に記載される分子タグ付け手順のいずれか1つに供され得る。
別の例では、濃縮には、標的ポリヌクレオチドについて濃縮するための溶液中捕捉手順が含まれ得る。いくつかの実施形態では、標的ポリヌクレオチドは、核酸試料(例えば、少なくとも1つの標的ポリヌクレオチドを含有するもの)を可溶性捕捉プライマーにハイブリダイズすることによって選択的に捕捉され得る。任意に、可溶性捕捉プライマーは、親和性部分(例えば、ビオチン)に結合している。核酸試料中のポリヌクレオチドは、一方もしくは両方の末端に付加された少なくとも1つのユニバーサル配列を含み得るか、または核酸はユニバーサル配列を欠いている。可溶性捕捉プライマーは、同じ配列または異なる配列を含み得る。可溶性捕捉プライマーを、標的ポリヌクレオチドの一部またはユニバーサル配列の一部に選択的にハイブリダイズするのに好適な条件下で核酸試料と接触させることができる。ハイブリダイズされていないポリヌクレオチドは、洗浄または酵素的分解によって任意に除去され得、標的ポリヌクレオチドは可溶性捕捉プライマーにハイブリダイズされたままとなる。捕捉ポリヌクレオチドは、可溶性捕捉プライマーから任意に溶出され得る。溶出したポリヌクレオチドは、タグ付きポリヌクレオチドを生成するために、本教示に記載される分子タグ付け手順のいずれか1つに供され得る。任意に、捕捉ポリヌクレオチドは、可溶性捕捉プライマーに結合した親和性部分(例えば、ビオチン)を、その同源親和性受容体(例えば、アビジン様分子)と接触させて、可溶性捕捉プライマー/親和性複合体を形成することによって、非捕捉ポリヌクレオチドから除去され得る。可溶性捕捉プライマー/親和性複合体は、非捕捉ポリヌクレオチドを除去するために洗浄され得る。同源親和性受容体が常磁性ビーズに結合している場合、可溶性捕捉プライマー/親和性複合体は、常磁性ビーズを引きつける磁気源を使用して、非捕捉ポリヌクレオチドから除去され得る。
いくつかの実施形態では、本開示は、全体として、ポリヌクレオチドに少なくとも1つのタグを付加するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。タグ付きポリヌクレオチドを生成するために、少なくとも1つのタグがポリヌクレオチドに付加され得る。タグ付きポリヌクレオチドは、少なくとも1つのタグと共有結合もしくは非共有結合しているか、またはそれに関連付けられるポリヌクレオチドを含有する。ポリヌクレオチドは、共有結合、イオン結合、水素結合、双極子双極子結合、親水性結合、疎水性結合、親和性結合、またはファンデルワールス力を伴う結合もしくは対合を介して少なくとも1つのタグに付加され得る。
いくつかの実施形態では、1つ以上のタグ配列を含有する少なくとも1つのプライマーは、ポリヌクレオチドへのハイブリダイゼーションによってポリヌクレオチドに付加され得る。例えば、プライマーは、ポリヌクレオチドの一部にハイブリダイズする標的特異的3’領域と、ポリヌクレオチドにハイブリダイズしない5’領域(5’テイル)とを有するテイルドプライマーであり得る。5’テイルは、少なくとも1つのタグ配列を含み得る。
いくつかの実施形態では、例えば、1つ以上のプライマー、少なくとも1種類のポリメラーゼ、及び複数のヌクレオチドを使用したプライマー伸長反応を実施することによって、少なくとも1つのタグがポリヌクレオチドに付加され得る。プライマーは、少なくとも1つのタグ配列(例えば、一意のタグ配列)を含み得る。プライマーは、ポリヌクレオチドの一部に選択的にハイブリダイズする領域(例えば、プライマーの3’領域中の標的特異的配列)を含み得る。プライマーはまた、ポリヌクレオチドの一部への最小のハイブリダイゼーションを呈するように設計された領域(例えば、プライマーの5’領域中の非標的特異的配列)も含み得る。例えば、プライマーは、テイルドプライマーであり得る。プライマーは、5’テイル領域中に少なくとも1つのタグ配列を含み得る。
いくつかの実施形態では、1つ以上のタグを含有する少なくとも1つのアダプターは、例えば、T4 DNAリガーゼ、T7 DNAリガーゼ、Taqリガーゼ、Quick Ligase(商標)Kit(New England Biolabs)からのリガーゼ、またはElectroLigase(商標)(New England Biolabs)を含むDNAリガーゼを使用して、酵素的ライゲーションを介してポリヌクレオチドに付加され得る。いくつかの実施形態では、1つ以上のタグを含有する少なくとも1つのアダプターは、例えば、T4 RNAリガーゼ1もしくは2、切断されたT4リガーゼ2(例えば、K227QもしくはKQ)、または熱安定AppDNA/RNAリガーゼを含むRNAを使用して、酵素的ライゲーションを介してポリヌクレオチドに付加され得る。
いくつかの実施形態では、トランスポゾン媒介タグメンテーション(tagmentation)反応を使用して、タグ配列をランダムな位置でポリヌクレオチドに挿入し、ポリヌクレオチド中に二本鎖切断を作り、一方または両方の末端に少なくとも1つのタグを付加されたポリヌクレオチド断片をもたらすことができる。例えば、各々が少なくとも1つのタグを含有する2つのトランスポゾン末端配列に結合したトランスポザーゼにポリヌクレオチドを接触させることによって、トランスポゾン複合体を形成することができる。トランスポゾン複合体は、タグメンテーション反応が生じることを可能にする条件下でインキュベートされ得る。トランスポザーゼ及びトランスポゾン末端配列は、MuA(米国特許出願第13/553,395号及び同第14/480,419号、もしくはPCT出願第PCT/EP2014/079473号、もしくは米国特許第6,593,113号)、またはTn5(米国特許出願公開第2014/0162897号、同第2014/0031261号、同第2013/0196860号、同第2011/0287435号、及び同第2010/0120098号)から得ることができる。
いくつかの実施形態では、少なくとも1つのタグは、結合パートナー間の相互作用によってポリヌクレオチドに付加され得る。例えば、ビオチン化タグは、ストレプトアビジンに複合されたポリヌクレオチドに結合し得るか、またはポリヌクレオチドがビオチン化され、タグがストレプトアビジンに複合され得る。ビオチン/ストレプトアビジン結合パートナーは、多くの他の結合パートナーのうちの1つで置き換えることができる。
いくつかの実施形態では、本開示は、全体として、インビトロトランスポゾン媒介断片化及びタグ付け(例えば、「タグメンテーション」)を使用してポリヌクレオチドに少なくとも1つのタグを付加するために、遺伝子変異体を検出し、遺伝子変異体を特定し、かつ/またはエラー修正された配列決定データを生成するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(a)第1及び第2のトランスポソソーム複合体を含む複数のトランスポソソーム複合体を提供することであって、個々のトランスポソソーム複合体が、(i)複数のトランスポザーゼと、(ii)第1のトランスポゾン末端配列であって、第1のトランスポゾン末端配列が、複数のトランスポザーゼからのトランスポザーゼに結合することができ、固定タグ配列と交互になっている異なるランダムタグ配列を有する第1のタグ配列を含み、第1のトランスポゾン末端配列が、少なくとも1つのニック、隙間、アプリン酸部位、アピリミジン部位を任意に含有する、第1のトランスポゾン末端配列と、(iii)第2のトランスポゾン末端配列であって、第2のトランスポゾン末端配列が、複数のトランスポザーゼからのトランスポザーゼに結合することができ、固定タグ配列と交互になっている異なるランダムタグ配列を有する第2のタグ配列を含み、第2のトランスポゾン末端配列が、少なくとも1つのニック、隙間、アプリン酸部位、アピリミジン部位を任意に含有する、第2のトランスポゾン末端配列とを含み、第1及び第2のタグ配列が、異なるランダムタグ配列を含有する、提供することを含む、インビトロ反応中で核酸試料からの核酸を断片化及びタグ付けするための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、核酸を断片化及びタグ付けする方法は、(b)単一反応混合物中で、複数のトランスポソソーム複合体を、少なくとも第1の標的ポリヌクレオチドを含む核酸試料からの複数のポリヌクレオチドに接触させることをさらに含み、接触は、(i)第1及び第2のトランスポゾン末端配列または第1及び第2のトランスポソソーム複合体(それぞれ)の、第1の標的ポリヌクレオチドの異なる位置への転位を含む、複数のトランスポソソーム複合体の複数のポリヌクレオチドへの転位、(ii)及び第1の標的ポリヌクレオチドの断片化を含む、複数のポリヌクレオチドの断片化に好適な条件下で行われる。
いくつかの実施形態では、本方法は、(c)両端に異なるタグ配列を付加された複数のタグ付きポリヌクレオチドを生成することをさらに含み、複数のタグ付きポリヌクレオチドのうちの少なくとも2つは、互いとは異なるタグ配列を付加されている。単一反応混合物中で生成された複数のタグ付きポリヌクレオチド、第1のタグ付きポリヌクレオチドを含み、第1のタグ付き標的ポリヌクレオチドは、第1のトランスポゾン末端配列を第1の位置で第1の標的ポリヌクレオチドに転位及び断片化し、第1のトランスポゾン末端配列を断片化された第1の標的ポリヌクレオチドの末端に結合させ、第2のトランスポゾン末端配列を第2の位置で第1の標的ポリヌクレオチドに転位及び断片化し、第2のトランスポゾン末端配列を断片化された第1の標的ポリヌクレオチドの他方の末端に結合させることによって生成され、複数のタグ付きポリヌクレオチドは、少なくとも1つのニック、隙間、アプリン酸部位、アピリミジン部位を有する第1のトランスポゾン末端配列と、少なくとも1つのニック、隙間、アプリン酸部位、アピリミジン部位を有する第2の末端とを含む。
いくつかの実施形態では、(i)第1のトランスポソソーム複合体は、二本鎖トランスポゾン末端配列の第1の対を含み、第1の対の二本鎖トランスポゾン末端配列は第1のランダムタグ配列を有し、(ii)第2のトランスポソソーム複合体は、二本鎖トランスポゾン末端配列の第2の対を含み、第2の対の二本鎖トランスポゾン末端配列は、第2のランダムタグ配列を有し、第1のランダムタグ配列は、第2のランダムタグ配列とは異なる。
いくつかの実施形態では、本方法は、(d)第1のタグ付き標的ポリヌクレオチドを増幅することによって第1のタグ付き増幅産物の集団を生成することを含む、複数のタグ付きポリヌクレオチドを増幅することによってタグ付き増幅産物の集団を生成することをさらに含む。
いくつかの実施形態では、本方法は、(e)標的ポリヌクレオチド及びその上に付加されたタグを配列決定することを含む、タグ付き増幅産物の集団を配列決定することをさらに含み、これには、第1の標的ポリヌクレオチド領域及び負荷された第1及び第2のタグ領域を配列決定することを含む、第1のタグ付き増幅産物の集団を配列決定することが含まれる。
いくつかの実施形態では、本方法は、(f)第1の標的ポリヌクレオチドが、0.05〜5%の存在量レベルで核酸試料中に存在することを判定することをさらに含む。
いくつかの実施形態では、WO2015/113725に記載される本方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体を使用して、MuAまたはTn5トランスポソソームとのトランスポソソーム複合体の集団を生成することができ、個々のトランスポソソーム複合体は、2つの二本鎖トランスポゾン末端配列を含有し、各二本鎖トランスポゾン末端配列は、固定配列が点在する少なくとも1つのランダム配列を含み、構造(N)n(X)x(M)m(Y)yを有する。例えば、二本鎖トランスポゾン末端配列は、構造(N)n(X)x(M)m(Y)yを含み、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
いくつかの実施形態では、二本鎖トランスポゾン末端配列は、「N」によって表されるランダム配列と、「X」によって表される固定配列とを含む。したがって、二本鎖トランスポゾン末端配列は、N
1N
2N
3X
1X
2X
3によって、または
によって表され得るランダマータグを含む。任意に、ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
いくつかの実施形態では、二本鎖トランスポゾン末端配列は、配列
を含むランダマータグを含み、配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表し、生じ得る別個のランダマータグの数は、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、分子タグ付け手順は、限定された数のプライマー伸長サイクルを使用して行うことができる。例えば、タグ付きポリヌクレオチドに潜在的に導入されるヌクレオチドの誤った取り込みエラーを低減させるために、標的ポリヌクレオチドは、限定された数のプライマー伸長サイクルを使用して少なくとも1つのタグを付加され得る。例えば、少なくとも1つのタグは、プライマー伸長反応の数を2〜4サイクルに限定する条件下で、標的ポリヌクレオチド(例えば、テイルドタグプライマーを用いたプライマー伸長を介して)に付加される。任意に、タグを一方の末端に付加し、第2のタグを標的ポリヌクレオチドの他方の末端に付加するために、PCR反応は約2サイクルに限定され得る。任意に、ポリヌクレオチドに付加された第1及び第2のタグは、同じまたは異なるタグ配列を有する。いくつかの実施形態では、約1〜100のPCRサイクル、または約1〜50のPCRサイクル、または約1〜25のPCRサイクル、または約1〜15のPCRサイクルを用いて、標的ポリヌクレオチドに少なくとも1つのタグを付加することができる。
いくつかの実施形態では、本教示に記載される分子タグ付け手順のいずれかを行う場合、タグ付きポリヌクレオチドのみが配列決定されることになる。したがって、タグが付いていないポリヌクレオチドは検出されない。タグ付加条件を最適化することにより、初期核酸試料中のより多くのポリヌクレオチドが配列決定によって検出される可能性が増加する。タグ付加条件を最適化することにより、約5〜10%、または約10〜25%、または約25〜50%、または約50〜75%、または約75〜90%、または約90〜99.99%のポリヌクレオチドが少なくとも1つのタグを付加されるように、最大数のポリヌクレオチド分子が少なくとも1つのタグを付加されることを確実にすることができる。タグ付きポリヌクレオチドの数を増加させる1つの方法は、インプット核酸の量を増加させることであるが、これは、低い存在量の変種を有するわずかな量の核酸を含有する生体試料の場合には必ずしも適さない。タグ付け反応は、インプットポリヌクレオチドの量と比較して超過したタグを含有し得る。タグ付きポリヌクレオチドの収率を増加させる別の方法は、タグ付加条件を改善することである。例えば、酵素的ライゲーション反応を介してタグをポリヌクレオチドに付加する場合、平滑端対結合末端(sticky−end)ライゲーション、ポリヌクレオチドに対するタグ濃度、及び温度等のパラメータを調節して、タグ付けされるポリヌクレオチドの割合を増加させることができる。別の例では、目的の標的ポリヌクレオチドは、プライマー伸長反応(サーモサイクリングまたは等温)において、テイルドプライマーを使用して1つ以上のタグを選択的に付加され得る。テイルドプライマーの標的特異的部分と標的ポリヌクレオチドとの間のハイブリダイゼーションの特異性は、時間、温度、塩(例えば、一価カチオン)、有機溶媒(例えば、ホルムアミド)、pH、ならびに標的特異的領域の長さ、及びテイルドプライマー及びインプットポリヌクレオチドの濃度等のパラメータを調節することによって最適化することができる。タグ付きポリヌクレオチドの収率を増加させるなお別の方法は、アダプタータグまたはタグプライマーの濃度に対する、タグ付加反応中の核酸の濃度を低減することである。例えば、核酸試料は、2〜20またはそれ以上の別個のプールに分けることができ、各プール内の核酸は、単一反応混合物中に置かれる。単一反応混合物を使用して、少なくとも1つのタグ(例えば、アダプターまたはプライマー)を核酸試料内のポリヌクレオチドに付加することができる。各プールがタグの異なるセットを有するか、または各プールがタグの同じもしくは重複したセットを有するように、各プール内で、ポリヌクレオチド(核酸試料由来)を異なるタグ(例えば、アダプターまたはプライマー)の混合物のセットと接触させることができる。いくつかの実施形態では、初期核酸試料が異なるポリヌクレオチドの混合物を含有する場合、同じ配列を有する任意の2つのポリヌクレオチドが同じ1つのタグを付加されている可能性は極めて低く、同じ配列を有する任意の2つのポリヌクレオチドが同じ2つのタグを付加されている可能性はさらに低い。したがって、タグの同じセットを使用して別個のプールにおいて行われるタグ付加反応は、実質的に全てのタグ付きポリヌクレオチドが異なるタグを付加されている、タグ付きポリヌクレオチドを生成する可能性が高い。
いくつかの実施形態では、本開示は、全体として、各反応容器中で別個のタグ付加反応を行うために、2つ以上の別個の反応容器内に一定分量の核酸試料を堆積させるための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。例えば、各反応容器は、複数のタグ付きポリヌクレオチドを生成するため、かつ任意に、タグ付き増幅産物を生成するための、核酸試料由来の別個の一定分量のポリヌクレオチドを受ける別個の単一反応混合物を含有する。いくつかの実施形態では、各反応容器は、タグ(例えば、ランダマータグ)の同じまたは異なるレパートリーを含有し得る。いくつかの実施形態では、別個にタグ付けされたポリヌクレオチドは、別個に増幅され、次いで、プールされ得る。いくつかの実施形態では、別個にタグ付けされたポリヌクレオチドは、別個にプールされ、次いで、増幅され得る。いくつかの実施形態では、別個にタグ付けされた増幅産物は、プールされ、次いで、配列決定され得る。
いくつかの実施形態では、本開示は、全体として、プライマー伸長反応(例えば、PCR)の実施後に標的ポリヌクレオチドにハイブリダイズしていない超過したプライマー(例えば、タグプライマー)を除去する工程をさらに含む方法、ならびに関連する組成物、システム、キット、装置、及びコンピュータ可読媒体に関する。例えば、一本鎖オリゴヌクレオチドを分解する任意の酵素を使用することができ、これには、例えば、RecJf、T5エキソヌクレアーゼ、ラムダエキソヌクレアーゼ、E.coliエキソヌクレアーゼI、E.coliエキソヌクレアーゼIII、エキソヌクレアーゼVII、またはrecBCDヌクレアーゼを含む一本鎖エキソヌクレアーゼが含まれる。
いくつかの実施形態では、本開示は、少なくとも1つの洗浄工程をさらに含む方法、ならびに関連する組成物、システム、キット、装置、及びコンピュータ可読媒体に関する。洗浄工程は、ワークフロー中の任意の時点で、例えば、任意のタグ付加または増幅工程の前、その間、またはその後に実施することができる。いくつかの実施形態では、洗浄工程は、付加、増幅、及び/または判定工程の超過または未反応成分を除去することができる。
いくつかの実施形態では、付加、増幅、及び/または増幅工程のうちのいずれも、手動的に、または自動化によって実施することができる。いくつかの実施形態では、(1)単一反応混合物の形成、(2)少なくとも1つのタグのポリヌクレオチドへの付加、(3)増幅、(4)洗浄、及び/または(5)判定を含む工程のうちのいずれか1つまたは任意の組み合わせは、主導的に、または自動化によって実施することができる。例えば、単一反応混合物の形成、付加、増幅、または洗浄工程のための任意の試薬は、手動または自動化モードを介して反応容器内に堆積されるか、またはそこから除去され得る。いくつかの実施形態では、核酸合成のための試薬には、タグ、核酸試料、ポリヌクレオチド、酵素(例えば、リガーゼもしくはポリメラーゼ)、ヌクレオチド、二価カチオン、結合パートナー、及び/または緩衝液のうちのいずれか1つまたは任意の組み合わせが含まれる。
いくつかの実施形態では、本教示の方法、システム、組成物、またはキットを使用して生成された任意のタグ付き増幅産物を使用して、
から選択される遺伝子のうちの少なくとも1つに位置する癌に関連付けられる変異を検出することができる。
いくつかの実施形態では、本教示の方法、システム、組成物、またはキットを使用して生成された任意のタグ付き増幅産物を使用して、
から選択される遺伝子のうちの少なくとも1つに位置する癌に関連付けられる変異を検出することができる。
いくつかの実施形態では、本教示の方法、システム、組成物、またはキットを使用して生成されたタグ付き増幅産物を使用して、例えば、EGFR(Leu858Arg)、TP53(Arg158Leu)、TP53(Tyr220Cys)、MET(Thr1010Ile)、及び/またはKRAS(Gly12Cys)のうちの少なくとも1つを含む変異を検出することができる。
いくつかの実施形態では、本開示は、全体として、支持体を含む組成物、ならびに関連する方法、システム、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、支持体は、対象の外層もしくは最上層、または境界である表面を含み得る。いくつかの実施形態では、表面は、支持体の境界の内側であり得る。
いくつかの実施形態では、支持体は、実質的に平らな支持体、ならびに凹状、凸状、またはその任意の組み合わせであり得る。いくつかの実施形態では、支持体は、ビーズ、粒子、微小粒子、球体、フィルター、フローセル、ウェル、マイクロウェル、溝、チャネルリザーバ、ゲル、または毛細管の内壁であり得る。いくつかの実施形態では、支持体は、毛細管の内壁、チャネル、ウェル、マイクロウェル、溝、チャネル、リザーバを含む。いくつかの実施形態では、支持体は、テクスチャ(例えば、エッチング、空洞化、細孔、三次元スカフォールド、または隆起)を含み得る。いくつかの実施形態では、支持体は、整理されたアレイまたはランダムアレイに編成された複数の反応部位を含む。いくつかの実施形態では、複数の反応部位は、ランダムパターン、整理されたパターン、直線パターン、六角形パターン、またはアドレス指定されたアレイパターンで支持体上に編成され得る。例えば、複数の反応部位は、固相増幅(例えば、増幅反応部位)または配列決定(例えば、配列決定反応部位)のために使用することができる。
いくつかの実施形態では、支持体は、多孔性、半多孔性、または非多孔性であり得る。
いくつかの実施形態では、粒子は、球状、半球状、円筒状、樽形、トロイダル形、棒状、円盤状、円錐状、三角形、立方体、多角形、管状、ワイヤ上、または不規則形の形状を有し得る。
いくつかの実施形態では、支持体は、ガラス、ホウケイ酸ガラス、シリカ、石英、溶融石英、雲母、ポリアクリルアミド、可塑性ポリスチレン、ポリカーボネート、ポリメタクリレート(PMA)、ポリメチルメタクリレート(PMMA)、ポリジメチルシロキサン(PDMS)、シリコン、ゲルマニウム、黒鉛、セラミックス、シリコン、半導体、高屈折率誘電体、水晶、ゲル、ポリマー、または膜(例えば、金、銀、アルミニウム、またはダイアモンドの膜)を含む任意の材料から作製することができる。
いくつかの実施形態では、支持体は、磁性または常磁性であり得る。いくつかの実施形態では、支持体は、ストレプトアビジンが結合した常磁性のビーズ(粒子)、例えば、DYNABEADS M−270(Invitrogen、Carlsbad,CA)であり得る。ビーズは鉄心を有し得るか、またはヒドロゲルもしくはアガロース(例えば、SEPHAROSE)を含み得る。
いくつかの実施形態では、支持体(ビーズまたは粒子の内部スカフォールドを含む)は、複数の捕捉プライマーと結合され得る。支持体は、核酸(例えば、捕捉プライマー)を結合するために、アクリルアミド、カルボン酸、またはアミン化合物でコーティングされ得る。いくつかの実施形態では、アミノ修飾された核酸(例えば、プライマー)は、カルボン酸でコーティングされた支持体に結合され得る。いくつかの実施形態では、カルボン酸でコーティングされた支持体(N−ヒドキシスクシンイミド(hydoxysuccinimide)(NHS)を含むかまたは含まない)への結合のために、アミノ修飾された核酸は、エチル(ジメチルアミノプロピル)カルボジイミド(EDC)またはEDACと反応させることができる。捕捉プライマーは、支持体上のアクリルアミド化合物コーティングに固定化され得る。粒子は、ビオチン化核酸の結合のために、アビジン様化合物(例えば、ストレプトアビジン)でコーティングされ得る。
いくつかの実施形態では、支持体は、ウェル、マイクロウェル、溝、チャネルリザーバ、ゲル、または毛細管の内壁であり得る。支持体の表面は、半金属もしくは金属、またはその酸化物もしくは窒化物セラミックから形成することができる。例示的な金属または半金属には、シリコン、ガリウム、アルミニウム、ハルフニウム(halfnium)、チタン、タングステン、タンタル、ジルコニウム、またはその任意の合金もしくは組み合わせが含まれる。かかる例示的な金属または半金属も、セラミック酸化物、窒化物、または酸化窒化物を形成することができる。特定の例では、表面は、ホスフェート、ホスホネート、カテコール、ニトロカテコール、ボロネート、フェニルボロネート、イミダゾール、シラノール、またはシラン官能性等の官能性を含む界面活性剤を用いてさらに処理され得る。
いくつかの実施形態では、支持体は、ピロリン酸、水素イオン、プロトン、電荷移動、または熱等のヌクレオチド取り込み副産物のシグナル検出を高める界面活性剤で処理またはコーティングされ得る。
一例では、シラン官能性を含む界面活性剤は、式R−[(CH2)n]−Si−[X1X2X3]を有し得、式中、Rは、有機官能基であり、[(CH2)n]は、炭化水素リンカー(n=1〜20)であり、Siは、ケイ素原子であり、[X1X2X3]は、アルコキシ基またはハロゲン基を含む1つ以上の独立した加水分解性の基を含む。別の実施形態では、シラン基は、R−[(C2H4O)n]−Si−[X1X2X3]であり得、式中、Rは、有機官能基であり、[(C2H4O)n](n=1〜100)は、ポリエーテルリンカーであり、Siは、ケイ素原子であり、[X1X2X3]は、アルコキシ基またはハロゲン基を含む1つ以上の加水分解性の基を含む。いずれの実施形態でも、有機官能基Rには、メチル、メチレン、フェニル、ベンジル、アニリノ、アミノ、アミド、ヒドロキシル、アルデヒド、アルコキシ、ハロ、メルカプト、カルボキシ、アシル、ビニル、アリル、スチリル、エポキシ、イソシアナート、グリシドキシ、及びアクリルオキシが含まれるが、これらに限定されない。例えば、参照により本明細書に組み込まれる米国特許第8,647,577号を参照されたい。
別の例では、界面活性剤は、1つ以上の表面上を単層として結合することができる。特に、界面活性剤は、表面上に形成されたBronsted塩基またはLewis酸官能性と反応性である官能基を含む。例えば、参照により本明細書に組み込まれる米国特許出願公開第2016/0003768号を参照されたい。界面活性剤の例示的な界面反応性官能基には、シラン、ホスフェート、ホスホン酸、ホスフィン酸、ビスホスホン酸、多座ホスフェートもしくはホスホネート、ポリホスフェート/ホスホネート、イソシアネート、カテコール、ヒドロキサメート、それらのアルコキシ誘導体、またはそれらの任意の組み合わせが含まれる。例示的なアルコキシ基には、メトキシ、エトキシ、またはそれらの組み合わせが含まれる。別の例では、クロドロン酸及び官能化一級アミンの組み合わせを界面反応性官能基の代わりに使用することができる。一例では、シランは、多くのセラミック及び金属表面を官能化することができる。特定の例では、シラン、イソシアネート、ヒドロキサメ−ト、及びクロドロン酸は、シリカ表面を官能化することができる。別の例では、ホスフェート、カテコール、及びヒドロキサメートを使用して、チタニア表面を官能化することができる。さらなる例では、特定の界面反応性官能基は、他の金属またはセラミック表面に対し、1つ以上の金属またはセラミック表面上に優先的に堆積し得る。
官能基から末端に、界面活性剤は、電子のドナー対を含まないか、またはBronsted塩基もしくは酸活性を欠く官能基を含み得る。末端官能基は、正電荷を有する官能基であるか、または中性官能基であり得る。例示的な中性官能基には、アルキル、分岐アルキル、または環状芳香族基が含まれる。電子のドナー対を欠く例示的な正電荷を有する基には、窒素を含有する二級アミン、三級アミン、または複素環基に由来する四級アンモニウムイオンの塩が含まれる。別の例では、末端官能基は、ニトロソ官能基であり得る。窒素を含有する例示的な複素環基には、ピロリジン、ピロール、イミダゾールピペリジン、ピリジン、ピリミジン、プリン、トリアゾリウム、またはそれらの組み合わせが含まれる。特に、塩には、四級アンモニウムイオンのハロゲン塩、例えば臭化物塩が含まれ得る。二級、三級、または四級アミンは、メチル、エチル、プロピル、ブチル、またはtert−ブチルアルキル基を含むアルキル基に複合され得る。別の例では、末端官能基には、一級、二級、または三級ヒンダードアミン、例えば、近位ホスフェート、ホスホネート、ホスフィネート、またはシラン基、またはそれらの組み合わせによって妨げられるアミンが含まれ得る。特定の例では、末端官能基には、ビオチンまたはその誘導体が含まれ得る。
一例では、末端官能基は、アミド、アルキル、アルコキシ、アリール、またはポリエーテルもしくはチオエーテル部分、またはそれらの組み合わせによって界面反応性官能基と結合し得る。例えば、末端官能基は、1〜16個の炭素、例えば1〜12個の炭素を有するアルキル部分によって界面反応性官能基から分離され得る。一例では、アルキル部分は、8〜12個の炭素、例えば10〜12個の炭素を有し得る。別の例では、アルキル部分は、1〜6個の炭素、例えば1〜4個の炭素、または1〜3個の炭素を有し得る。特に、ヒンダードアミン末端官能性含む界面活性剤は、1〜6個の炭素、例えば1〜4個の炭素、または1〜3個の炭素を有するアルキル部分を有し得る。別の例では、アルコキシ部分は、アルキル部分のものと同様の範囲にある炭素の数を有し得る。追加的な例では、ポリエーテル部分は、各々が1〜4個の炭素、例えば1〜3個の炭素を有する、1〜10個のエーテルユニットを有し得る。例えば、ポリエーテル部分は、1〜6個のエーテルユニット、例えば1〜4個のエーテルユニットを有し得る。
特定の例では、界面活性剤は、シラン界面反応性官能基を含む。例示的な界面活性剤には、アルキルトリアルコキシシラン、例えば、オクチルデシルトリエトキシシラン、オクチルデシルトリメトキシシラン、プロピルトリメトキシシラン、もしくはそれらの組み合わせ;四級アンモニウムアルキルアルコキシシランの塩、例えば、ブチルアンモニウムトリメトキシシラン、メチルアンモニウムベンゾトリメトキシシラン、ウロニウムシランもしくはチオウロニウムシラン、メトキシ−Nシラン、短ブチルアンモニウムトリメトキシシラン、もしくはそれらの組み合わせ;それらのフッ素化もしくは塩素化誘導体;それらの誘導体;またはそれらの組み合わせが含まれる。例示的な四級塩には、かかる四級アンモニウムアルキルトリアルコキシシランの塩素塩または臭素塩が含まれる。かかるシラン界面活性剤は、半金属または金属酸化物に結合し得る。いくつかのシランベースの界面活性剤は、側壁表面またはセンサ表面に無差別に結合し得る。
別の例では、界面活性剤は、ホスホン酸ベースの界面活性剤であり得る。例示的な界面活性剤には、アルキルホスホン酸、例えば、オクタデシルホスホン酸;四級アミノホスホン酸の塩素塩もしくは臭素塩、例えば、イミダゾールホスホン酸(例えば、1−メチル−3−(ドデシルホスホン酸)イミダゾリウム、もしくは1−メチル−3−(ヘキシルホスホン酸)イミダゾリウム)、(12−ドデシルホスホン酸)トリメチルアンモニウムブロミド、メチルアンモニウムホスホン酸、エチルアンモニウムホスホン酸、(12−ドデシルホスホン酸)トリプロピルアンモニウムブロミド、(12−ドデシルホスホン酸)トリブチルアンモニウムブロミド;(12−ドデシルホスホン酸)メチルトリアゾリウムブロミド;(6−ヘキシルホスホン酸)イミダゾリウム;ピリジンアルキルホスホン酸;ベンゾアルキルホスホン酸;(1−アミノ−1−フェニルメチル)ホスホン酸;それらのフッ素化もしくは塩素化誘導体;それらの誘導体;またはそれらの任意の組み合わせが含まれる。別の例では、界面活性剤は、ビオチンアルキルホスホン酸であり得る。一例では、ホスフェート及びホスホネートは、センサ表面に優先的に結合し得る。
さらなる例では、ホスホン酸ベースの界面活性剤は、複数のホスホン酸界面活性官能基を含み得る。例えば、界面活性剤は、2つのホスホン酸界面活性官能基を含むビスホスホン酸、例えば、アレンドロン酸またはその誘導体であり得る。特に、界面活性剤は、例えば、三級アミンまたはアルキルジアミン等の末端基として機能する中心部分に結合した複数のホスホン酸官能基を含む多座ホスホン酸ベースの界面活性剤であり得る。例えば、界面活性剤は、官能化アミノビス(アルキルホスホン酸)、例えば、ビオチン官能化アミノビス(メチレンホスホン酸)、ニトリロトリス(アルキルホスホン酸)、例えば、ニトリロトリス(メチレンホスホン酸)、それらのエーテル誘導体、またはそれらの組み合わせであり得る。別の例では、界面活性剤は、アルキルジアミンテトラキス(アルキルホスホン酸)、例えば、エチレンジアミンテトラキス(メチレンホスホン酸)であり得る。さらなる例では、界面活性剤は、ジエチレントリアミンペンタ(メチレンホスホン酸)、ヘキサメチレンジアミンテトラ(メチレンホスホン酸)、テトラメチレンジアミンテトラ(メチレンホスホン酸)、またはそれらの任意の組み合わせであり得る。追加的な例では、界面活性剤は、フェニルジホスホン酸、その官能化誘導体、またはそれらの組み合わせである。
さらなる例では、界面活性剤は、カテコール、例えば、カテコールアミン、ニトロカテコール、ニトロカテコールアミン、それらの誘導体、またはそれらの組み合わせであり得る。例えば、カテコールには、ドーパミン、ニトロドーパミン、ノルエピネフリン、エピネフリン、それらのエステル、またはそれらの組み合わせが含まれ得る。特定の例では、カテコールは、ドーパミンまたはニトロドーパミンである。
追加的な例では、界面活性剤は、イソシアネートまたはヒドロキサメート界面活性官能性を含み得る。
特定の実施形態では、高分子材料等の支持材料は、ウェル、マイクロウェル、溝、チャネルリザーバ、ゲル、または毛細管の内壁等の表面指示構造内に堆積され得る。例えば、ポリマービーズは、ウェル、マイクロウェル、溝、チャネル、または毛細管内に堆積され得る。別の例では、ポリマーは、かかる表層構造上にコーティングされ得る。例えば、高分子マトリックスは、表層構造上に形成することができる。例えば、参照により本明細書に組み込まれる米国特許出願公開第2015/0160153号を参照されたい。
例えば、高分子マトリックスは、ラジカル重合性モノマー、例えば、ビニルベースモノマー等のマトリックス前駆体から形成することができる。特に、モノマーには、親水性モノマー、例えば、アクリルアミド、酢酸ビニル、ヒドロキシアルキルメタクリレート、それらの変異もしくは誘導体、それらのコポリマー、またはそれらの任意の組み合わせが含まれ得る。特定の例では、親水性モノマーは、アクリルアミド、例えば、ヒドロキシル基、アミノ基、カルボキシル基、ハロゲン基、またはそれらの組み合わせを含むように官能化されたアクリルアミドである。一例では、親水性モノマーは、アミノアルキルアクリルアミド、アミン末端ポリアルキルグリコールで官能化されたアクリルアミド、アクリロピペラジン(acrylopiperazine)、またはそれらの組み合わせである。別の例では、アクリルアミドは、ヒドロキシアルキルアクリルアミド、例えば、ヒドロキシエチルアクリルアミドであり得る。特に、ヒドロキシアルキルアクリルアミドには、N−トリス(ヒドロキシメチル)メチル)アクリルアミド、N−(ヒドロキシメチル)アクリルアミド、またはそれらの組み合わせが含まれ得る。アミン末端ポリアルキルグリコールで官能化されたアクリルアミドには、1〜20ユニットのアルキルグリコール、例えば、エチレングリコール、プロピレングリコール、またはそれらの組み合わせが含まれ得る。別の例では、コモノマーには、ハロゲン修飾アクリレートまたはアクリルアミド、例えば、N−(5−ブロモアセトアミジルペンチル(bromoacetamidylpentyl))アクリルアミド(BRAPA)が含まれ得る。BRAPAは、ブロモアセトアミド基を含むように示されるが、2〜20個の炭素のアルキル基を含むブロモアルキルアミドを使用してもよい。さらに、BRAPAのペンチル基は、2〜20の範囲の炭素の長さを有する別のアルキル基と置き換えてもよい。別の例では、コモノマーには、オリゴヌクレオチド修飾アクリレートまたはアクリルアミドモノマーが含まれ得る。さらなる例では、モノマーの混合物、例えば、ヒドロキシアルキルアクリルアミドとアミン官能化アクリルアミドとの混合物またはアクリルアミドとアミン官能化アクリルアミドとの混合物を使用してもよい。一例では、アミン官能化アクリルアミドは、100:1〜1:1の範囲、例えば、100:1〜2:1の範囲、50:1〜3:1の範囲、50:1〜5:1の範囲、またさらには50:1〜10:1の範囲のヒドロキシアルキルアクリルアミド:アミン官能化アクリルアミドまたはアクリルアミド:アミン官能化アクリルアミドの比率で含まれ得る。別の例では、アミン官能化アクリルアミドは、100:1〜1:1の範囲、例えば、100:1〜2:1の範囲、50:1〜3:1の範囲、50:1〜5:1の範囲、またさらには50:1〜10:1の範囲のヒドロキシアルキルアクリルアミド:臭素官能化アクリルアミドまたはアクリルアミド:臭素官能化アクリルアミドの比率で含まれ得る。
さらなる例では、オリゴヌクレオチドを重合体マトリックスに取り込むために、オリゴヌクレオチド官能化アクリルアミドまたはアクリレートモノマー、例えば、Acrydite(商標)モノマーが含まれ得る。
別の例示的なマトリックス前駆体は、架橋剤を含む。一例では、架橋剤は、15:1〜1:2の範囲、例えば、10:1〜1:1の範囲、6:1〜1:1の範囲、またさらには4:1〜1:1の範囲のモノマー対架橋剤の質量比で含まれる。特に、架橋剤は、ジビニル架橋剤であり得る。例えば、ジビニル架橋剤には、ジアクリルアミド、例えば、N,N’−(エタン−1,2−ジイル)ビス(2−ヒドロキシルエチル)アクリルアミド、N,N’−(2−ヒドロキシプロパン−1,3−ジイル)ジアクリルアミド、またはそれらの組み合わせが含まれ得る。別の例では、ジビニル架橋剤には、エチレングリコールジメタクリレート、ジビニルベンゼン、ヘキサメチレンビスアクリルアミド、トリメチロールプロパントリメタクリレート、それらの保護化誘導体、またはそれらの組み合わせが含まれる。
重合は、溶液内の開始剤によって開始することができる。例えば、開始剤は、水系であり得る。別の例では、開始剤は、疎水性開始剤であり得、優先的には、疎水性相に存在する。例示的な開始剤には、過硫酸アンモニウム及びTEMED(テトラメチルエチレンジアミン)が含まれる。TEMEDは、過硫酸塩からのフリーラジカルの形成速度を加速させることができ、転じて重合を触媒する。過硫酸塩フリーラジカルは、例えば、アクリルアミドモノマーを、未反応モノマーと反応するフリーラジカルに変換して、重合連鎖反応を開始する。伸長ポリマー鎖は、ランダムに架橋され得、重合条件及びモノマー濃度に左右される特有の多孔性を有するゲルをもたらす。リボフラビン(またはリボフラビン−5’−リン酸)も、しばしばTEMED及び過硫酸アンモニウムと組み合わせて、フリーラジカルの源として使用することができる。光及び酸素の存在下で、リボフラビンは、重合の開始に活性であるそのロイコ形態に変換され、これは通常、光化学的重合と呼ばれる。
別の例では、アゾ開始剤を使用して、重合を開始することができる。とりわけ、アゾ開始剤は、アゾビスイソブチロニトリル(AIBN)であり得る。
さらなる例では、重合マトリックスの前駆体は、表面との結合を増強するための表面反応性添加剤を含み得る。例示的な添加剤には、官能化アクリルモノマーまたは官能化アクリルアミドモノマーが含まれる。例えば、アクリルモノマーを官能化して、ウェルの底部または側壁を形成するセラミック材料等の表面材料と結合させることができる。一例では、添加剤には、メタクリルホスホネート等のアクリルホスホネートが含まれ得る。別の例では、添加剤には、ジメチルアクリルアミドまたはポリジメチルアクリルアミドが含まれ得る。さらなる例では、添加剤には、アクリレート基等の重合性基で修飾されたポリリジンが含まれ得る。
別の例では、重合は、原子移動ラジカル重合(ATRP)を使用して促進することができる。ATRP系は、連鎖移動剤(CTA)、モノマー、遷移金属イオン、及びリガンドを含み得る。例示的な遷移金属イオン錯体には、銅系錯体が含まれる。例示的なリガンドには、2,2’−ビピリジン、4,4’−ジ−5−ノニル−2,2’−ビピリジン、4,4’,4’’−トリス(5−ノニル)−2,2’:6’,2’’−ターピリジン、N,N,N’,N’,N’’−ペンタメチルジエチレントリアミン、1,1,4,7,10,10−ヘキサメチルトリエチレンテトラミン、トリス(2−ジメチルアミノエチル)アミン、N,N−ビス(2−ピリジルメチル)オクタデシルアミン、N,N,N’,N’−テトラ[(2−ピリジル)メチル]エチレンジアミン、トリス[(2−ピリジル)メチル]アミン、トリス(2−アミノエチル)アミン、トリス(2−ビス(3−ブトキシ−3−オキソプロピル)アミノエチル)アミン、トリス(2−ビス(3−(2−エチルヘキソキシ)−3−オキソプロピル)アミノエチル)アミン、トリス(2−ビス(3−ドデコキシ−3−オキソプロピル)アミノエチル)アミン、脂肪族、芳香族、及び複素環式/ヘテロ芳香族アミン、それらの変異及び誘導体、またはそれらの組み合わせが含まれる。例示的なCTAには、2−ブロモプロパニトリル、エチル2−ブロモイソブチレート、エチル2−ブロモプロピオネート、メチル2−ブロモプロピオネート、1−フェニルエチルブロミド、塩化トシル、1−シアノ−1−メチルエチルジエチルジチオカルバメート、2−(N,N−ジエチルジチオカルバミル)−イソブチル酸エチルエステル、ジメチル2,6−ジブロモヘプタンジオエート、及び他の官能化アルキルハライド、それらの変異もしくは誘導体、またはそれらの任意の組み合わせが含まれる。任意に、BRAPAモノマーは、ATRP系の存在下で、分岐剤として機能し得る。
一例では、ATRPが表面で開始されて、ポリマーを表面に直接結合させる。例えば、アクリレートモノマー、アクリルアミドモノマー、Acrydite(商標)モノマー、スクシンイミジルアクリレート、ビス−アクリレートもしくはビス−アクリルアミドモノマー、それらの誘導体、またはそれらの組み合わせは、遷移金属イオン/リガンド錯体の存在下で、開始表面に溶液として適用することができる。
別の例では、修飾されたホスホネート、スルホネート、シリケート、チタネート、またはジルコネート化合物を使用してポリマーをウェルの表面に結合させるために、ATRP系を使用することができる。特に、アミンもしくはヒドロキシル末端アルキルホスホネート、またはそれらのアルコキシ誘導体を表面に適用し、開始剤を使用して開始することができる。触媒錯体及びモノマーを適用し、表面化合物を伸長することができる。
例示的な方法では、重合マトリックスへの前駆体を含む水溶液は、ウェルのアレイを画定する構造のウェル内に適用され得る。ウェル中の水溶液は、ウェル上に非混和性流体を提供し、ウェル内の溶液内でポリマー前駆体の重合を開始することによって単離され得る。
ヌクレオチド取り込み副産物のシグナル検出を増強するものであり得る少なくとも1つの界面活性剤で処置またはコーティングされた支持体を調製するための方法の多くの例は、2012年2月23日公開の米国特許出願公開第2012/0045368号、2016年2月4日公開の同第2016/0032371号、及び2016年1月7日公開の同第2016/0003768号に見出すことができる。
いくつかの実施形態では、本開示は、全体として、ポリメラーゼ連鎖反応(PCR)(米国特許第4,683,195号及び同第4,683,202号(いずれもMullisに付与される)、リガーゼ連鎖反応(LCR)(Barany 1991 Proceedings National Academy of Science USA 88:189−193、Barnes 1994 Proceedings National Academy of Science USA91:2216−2220)、または等温自家持続配列決定反応(Kwoh 1989 Proceedings National Academy of Science USA 86:1173−1177、WO1988/10315、及び米国特許第5,409,818号、同第5,399,491号、及び同第5,194,370号)、またはリコンビナーゼポリメラーゼ増幅(RPA)(米国特許第5,223,414号(Zarling)、米国特許第5,273,881号及び同第5,670,316号(いずれもSena)、ならびに米国特許第7,270,981号、同第 7,399,590号、同第7,435,561号、同第7,666,598号、同第7,763,427号、同第8,017,339号、同第8,030,000号、同第8,062,850号、及び同第8,071,308)を含む、核酸増幅反応を使用してポリヌクレオチドに少なくとも1つのタグを付加するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、環状化核酸を使用してポリヌクレオチドに少なくとも1つのタグを付加するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、核酸試料由来のポリヌクレオチドは、例えば、分子内ライゲーションまたはスプリント分子またはパドロック構造の使用によって環状化され得る。環状化分子を使用して、ローリングサークル増幅、ベクター媒介手順、パドロック構造形成、またはヘアピンアダプター媒介手順によってタグ付き増幅産物を生成することができる。
いくつかの実施形態では、核酸増幅反応には、ローリングサークル増幅(RCA)が含まれる。例えば、環状ポリヌクレオチドの一部にハイブリダイズする3’領域と5’一意的テイルを有するテイルドプライマーを使用して、それらの5’領域中にタグを有するコンカテマーを生成するために増幅反応を実施することができる。ローリングサークル増幅の例は、Fire and Xu 1995 Proceedings of the National Academy of Science 92:4641−4645、Lizardi 1998 Nature Genetics 19:225、Baner 1998 Nucleic Acids Research 26:5073、Zhao 2008 Agnewandte Chemie International Edition 47:6330−6337、及びNilsson 2008 Trends in Biochemistry 24:83−88に記載されている。
いくつかの実施形態では、核酸増幅反応には、標的ポリヌクレオチド(標的配列)の一部がベクター内に挿入され、標的配列が一方または両側で一意のタグと結合して、環状分子を生成する、ベクター媒介法が含まれる。環状分子は、順方向及び逆方向コンカテマーを生成するために、標的配列に選択的にハイブリダイズする順方向及び逆方向プライマーを使用して両方向RCAに供される(Bielas and Ericson、米国特許出願公開第2015/0126376号)。コンカテマーは配列決定され得、配列リードは、本教示に記載される方法を使用して操作され得る。あるいは、環状分子は、タグ配列または標的配列に特異的なプライマーを使用して、一方向RCAに供される(米国特許第6,287,824号、同第6,480,791号、同第8,221,982号、同第8,383,345号、同第8,865,410号)。
いくつかの実施形態では、核酸増幅反応は、標的ポリヌクレオチドを少なくとも1つのタグにライゲーションして、環状分子を形成することを含む。RCAは、タグまたは標的配列にハイブリダイズするプライマーを使用して行われる(米国特許第6,480,791号、同第7,537,897号、同第8,003,330号、同第8,383,345号、同第8,497,069号、同第8,835,358号、及び同第8,865,410号)。
いくつかの実施形態では、核酸増幅反応は、少なくとも1つのタグを含有するプレサークルプローブを使用してパドロック構造を形成することを含む。プレサークルプローブは、標的ポリヌクレオチドにハイブリダイズされて、ニックを有するパドロック構造を形成する。ニックは、リガーゼによって閉じられ、プライマー伸長は、タグまたは標的配列に特異的なプライマーによって行われる(米国特許第6,830,884号、同第7,498,131号、及び同第7,790,388号)。
いくつかの実施形態では、核酸増幅反応は、ヘアピンアダプターを二本鎖標的ポリヌクレオチドの両端にライゲーションすることを含み、ヘアピンアダプターは、少なくとも1つのタグを含有する。得られたライゲーション産物は、RCAを経ることができる一本鎖環状分子を形成し得る(米国特許第8,309,330号)。
いくつかの実施形態では、核酸増幅反応は、LoxP配列が少なくとも1つのタグに結合し、タグ挿入を有する環状分子を生成するためにCreリコンビナーゼが使用される、LoxP/Cre系を使用することを含む。環状分子は、RCAに供され得る(米国特許第6,448,017号)。
いくつかの実施形態では、本開示は、全体として、インバースPCR反応を使用してポリヌクレオチドに少なくとも1つのタグを付加するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。例えば、インバースPCR反応は、(a)複数のポリヌクレオチドを含有する核酸試料を提供することと、(b)複数のポリヌクレオチドをランダムに断片化して、(i)未知の配列に隣接する既知の配列を有する少なくとも1つの領域、及び(ii)一意の配列を有する末端を有する断片を生成することと、(c)例えば、アダプターライゲーションによって、第1のユニバーサル配列を断片化されたポリヌクレオチドの一方の末端に付加し、第2のユニバーサル配列を断片化されたポリヌクレオチドの他方の末端に付加して、アダプター結合断片を生成することと、(d)PCR及びアダプター結合断片の第1または第2のユニバーサル配列にハイブリダイズするプライマーを使用してアダプター結合断片を増幅して、アダプター結合増幅産物を生成することと、(e)アダプター結合増幅産物を環状化して、(i)未知の配列に隣接する既知の配列を有する少なくとも1つの領域、(ii)第1のユニバーサル配列に結合した第1の一意の配列を有する第1の末端、及び(iii)第2のユニバーサル配列に結合した第2の一意の配列を有する第2の末端を含有する複数の環状分子を生成することと、(f)既知の配列にハイブリダイズするテイルドプライマーを使用して、ローリングサイクルによって環状分子を増幅して、(i)第1のユニバーサル配列に結合した第1の一意の配列を有する第1の末端、(ii)第2のユニバーサル配列に結合した第2の一意の配列を有する第2の末端、(iii)未知の配列に隣接する既知の配列を有する領域を有する直鎖状分子(例えば、コンカテマー)を生成することと、(g)直鎖状分子を配列決定して、複数の候補配列リードを生成することとを含む。いくつかの実施形態では、方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体は、配列リードを操作し、少なくとも1つの閾値を適用することをさらに含み、これは、配列リードにおけるエラーを低減し得る。いくつかの実施形態では、候補配列リードの操作には、選別、分類、グループ化、グループ化されたリードのカウント、リードのファミリーのカウント、及び他の操作工程が含まれる。いくつかの実施形態では、ランダム断片化工程は、剪断、またはトランスポゾン媒介タグメンテーションによって実施され得る。いくつかの実施形態では、操作工程は、タグ特異的参照配列及び/またはポリヌクレオチド特異的参照配列に基づき得る。いくつかの実施形態では、U.S.2014/0227705(Vogelstein)、Ochman 1988 Genetics 120:621−623、Triglia 1988 Nucleic Acids Research 16:8186、またはSilver and Keerikatte 1989 Journal of Virology 63:1924−1928)に記載される方法に基づき、インバースPCR法の他の変形が実施され得る。
いくつかの実施形態では、本教示に従って生成された任意のタグ付き標的ポリヌクレオチド(タグ付き増幅産物を含む)は、固体支持体に結合し得る。例えば、ブリッジ増幅反応を実施して、タグ付き標的核酸を実質的に平らな支持体(例えば、フローセル)またはビーズに結合することができる。個々のタグ付き標的核酸は、少なくとも1つのタグアダプター配列及び第1のユニバーサルアダプター配列を一方の末端に含み、少なくとも別のタグアダプター配列及び第2のユニバーサルアダプター配列を他方の末端に含む。いくつかの実施形態では、第1及び第2のタグアダプターのタグ部分は、異なる配列を有する。いくつかの実施形態では、第1及び/または第2のタグアダプターは、ユニバーサル増幅及び/または配列決定プライマー配列を含む。いくつかの実施形態では、タグ付き標的核酸のうちの少なくとも2つは、異なる配列を有する標的配列部分を含む。タグ付き核酸の集団は増幅されて、タグ付き標的増幅産物の集団を生成する。タグ付き標的増幅産物の集団は、一本鎖になり、一本鎖タグ付き標的核酸の集団を生成する。一本鎖タグ付き標的核酸の集団の少なくとも一部はハイブリダイズされて、支持体に結合したプライマーを捕捉する。支持体は、異なる配列を有する複数の第1及び第2の捕捉プライマーを含み得、例えば、第1の捕捉プライマーは、第1のユニバーサル配列にハイブリダイズし、第2の捕捉プライマーは、第2のユニバーサル配列にハイブリダイズする。ハイブリダイゼーション工程において、第1のユニバーサルアダプター(例えば、第1のポリヌクレオチドに結合した)は、第1の捕捉プライマーにハイブリダイズし、プライマー伸長反応は、第1の捕捉プライマーを伸長させて、一方の末端に第2のアダプターの相補配列を有する第1の捕捉プライマー伸長産物を生成する。プライマー伸長反応は、捕捉標的核酸を鋳型として用いる。鋳型分子は除去される。第1の捕捉プライマー伸長産物は、第2のアダプター配列が近くの第2の捕捉プライマーにハイブリダイズし得るように湾曲し(例えば、弓形になり)、プライマー伸長反応は、第2の捕捉プライマーを伸長させて、一方の末端に第1のアダプターの相補配列を有する第2の捕捉プライマー伸長産物を生成し、二本鎖ブリッジ分子を形成する。二本鎖ブリッジは、変性されて、2つの一本鎖固定化標的核酸をもたらす。一本鎖固定化標的核酸のうちの1つは、支持体に結合した第1のプライマー(またはその相補配列)を有し、分子の他方の末端は、第2のプライマー配列(またはその相補配列)を有し、第2のプライマー配列は、近くの第2の捕捉プライマーにハイブリダイズして、別のブリッジ増幅反応を開始することができる。他方の一本鎖固定化標的核酸は、支持体に結合した第2のプライマー(またはその相補配列)を有し、分子の他方の末端は、第1のプライマー配列(またはその相補配列)を有し、第1のプライマー配列は、近くの第1の捕捉プライマーにハイブリダイズして、別のブリッジ増幅反応を開始することができる。ブリッジ増幅の反復サイクルは、支持体に結合した複数の増幅標的核酸を生成する。ブリッジ増幅のサイクルは、等温条件下で実施することができる。ブリッジ増幅のための組成物及び方法の例は、米国特許第7,790,418号、同第7,985,565号、同第8,143,008号、及び同第8,895,249号に見出される。
いくつかの実施形態では、本教示に従って生成された任意のタグ付き標的ポリヌクレオチド(タグ付き増幅産物を含む)は、固体支持体に結合し得る。例えば、テンプレートウォーキング反応を実施して、タグ付き標的核酸を実質的に平らな支持体(例えば、フローセル)またはビーズに結合することができる。個々のタグ付き標的核酸は、少なくとも1つのタグ配列及び第1のユニバーサルアダプター配列を一方の末端に含み、少なくとも別のタグ配列及び第2のユニバーサルアダプター配列を他方の末端に含む。いくつかの実施形態では、第1及び第2のユニバーサルアダプターは、異なる配列を有する。いくつかの実施形態では、第1及び/または第2のアダプターは、ユニバーサル増幅プライマー配列を含む。いくつかの実施形態では、第1及び/または第2のアダプターは、ユニバーサル配列決定プライマー配列を含む。いくつかの実施形態では、タグ付き標的核酸のうちの少なくとも2つは、異なる標的配列を有する。いくつかの実施形態では、テンプレートウォーキング反応は、複数の捕捉プライマーが結合された支持体を提供することを含む。支持体は、それらの5’末端によって支持体に結合した複数の捕捉プライマーを含み得る。支持体は、複数の固定化捕捉プライマーを含み得、捕捉プライマーの3’末端は、同じ配列を含む。いくつかの実施形態では、捕捉プライマーの3’末端は、低いTm(融解温度)の配列を有する配列を含む。複数の捕捉プライマーは、第1のユニバーサルアダプター配列の少なくとも一部にハイブリダイズし得る。いくつかの実施形態では、テンプレートウォーキング反応は、タグ付き標的核酸の集団を一本鎖にすることを含む。いくつかの実施形態では、テンプレートウォーキング反応は、一本鎖タグ付き標的核酸の集団の少なくとも一部を、支持体に結合した捕捉プライマーにハイブリダイズすることを含む。ハイブリダイゼーション工程において、第1のユニバーサルアダプターは、第1の固定化捕捉プライマーにハイブリダイズし、プライマー伸長反応は、第1の捕捉プライマーを伸長させて、一方の末端に第2のアダプターの相補配列を有する第1の捕捉プライマー伸長産物を生成する。プライマー伸長反応は、タグ付き標的核酸を鋳型として用いる。鋳型分子(その長さに沿って第1の伸長産物にハイブリダイズされている)は、低いTm領域を含有する第1のアダプター領域で局所変性を経験し、第1のユニバーサルアダプター領域は、近くの捕捉プライマー(例えば、第2の捕捉プライマー)に再ハイブリダイズする一方、鋳型分子の残りは第1の伸長産物にハイブリダイズされる。第2の捕捉プライマーのプライマー伸長は、第1の伸長産物にハイブリダイズされたままの鋳型分子の部分を変性させるように働き、第2の捕捉プライマー伸長産物を生成する。テンプレートウォーキングの反復サイクルは、支持体に結合した複数の増幅された標的核酸を生成するための、第1のユニバーサルアダプター領域を近くの捕捉プライマーにハイブリダイズすること、プライマー伸長、低いTm領域を含有する第1のユニバーサルアダプター領域での局所変性、異なる近くの捕捉プライマーでの再ハイブリダイゼーション、及びプライマー伸長を含む。テンプレートウォーキングのサイクルは、等温条件下で実施することができる。
例えば、テンプレートウォーキングのための方法は、以下の工程を含む。
(a)支持体に、第1及び第2の捕捉プライマーを含む固定化された複数の捕捉プライマーを提供する工程であって、複数の捕捉プライマーは、同一の配列を有するかまたは同一の3’部分を有し、複数の捕捉プライマーの5’末端は、支持体に結合し、複数の捕捉プライマーは、低い融解温度配列を有する領域を含有する、提供する工程と、
(b)第1の一本鎖タグ付き標的核酸を含む複数の一本鎖タグ付き標的核酸を提供する工程であって、複数の一本鎖タグ付き標的核酸は、(i)標的核酸の一方の末端に結合した第1のユニバーサルアダプター及び第1のタグ、ならびに(ii)標的核酸の他方の末端に結合した第2のユニバーサルアダプター及び第2のタグを有する、提供する工程と、
(c)第1の捕捉プライマーを、第1の一本鎖タグ付き標的核酸の第1のユニバーサルアダプターにハイブリダイズする工程と、
(d)プライマー伸長反応を実施する工程によって第1の捕捉プライマーを伸長して、第1の伸長産物の長さに沿ってハイブリダイズされた二本鎖の第1の伸長産物を生成する工程と、
(e)局所変性によって、第1の捕捉プライマーの一部(例えば、低い融解温度配列を含む)をハイブリダイズされた第1のユニバーサルアダプターから分離する工程と、
(f)二本鎖の第1の伸長産物は二本鎖形態のままである一方、第1のユニバーサルアダプターを第2の捕捉プライマーに再ハイブリダイズする工程と、
(g)二本鎖の第1の伸長産物の残りを分離し、第2の伸長産物の長さに沿ってハイブリダイズされた二本鎖の第2の伸長産物を生成するプライマー伸長反応を実施することによって第2の捕捉プライマーを伸長する工程と、
(h)局所変性によって、第2の捕捉プライマーの一部(例えば、低い融解温度配列を含む)をハイブリダイズされた第1のユニバーサルアダプターから分離する工程と、
(i)二本鎖の第2の伸長産物は二本鎖形態のままである一方、第1のユニバーサルアダプターを別の固定化捕捉プライマーに再ハイブリダイズする工程と、
(j)二本鎖の第2の伸長産物の残りを分離し、第3の伸長産物の長さに沿ってハイブリダイズされた二本鎖の第3の伸長産物を生成するプライマー伸長反応を実施することによって固定化捕捉プライマーを伸長する工程。いくつかの実施形態では、工程(a)〜(j)は、等温条件下で実施することができる。
核酸テンプレートウォーキングのための組成物及び方法の例は、米国特許出願公開第2012/0156728号及び同第2013/0203607号に見出される。
いくつかの実施形態では、本教示に従って生成された任意のタグ付き標的ポリヌクレオチド(タグ付き増幅産物を含む)は、固体支持体に結合し得る。例えば、リコンビナーゼ−ポリメラーゼ増幅(RPA)反応は、タグ付け標的核酸を、実質的に平らな支持体(例えば、フローセル)またはビーズを含む任意の種類の支持体に結合させるために水性条件下で実施することができる。個々のタグ付き標的核酸は、少なくとも1つのタグ配列及び第1のユニバーサルアダプター配列を一方の末端に含み、少なくとも別のタグ配列及び第2のユニバーサルアダプター配列を他方の末端に含む。いくつかの実施形態では、第1及び第2のアダプターは、異なる配列を有する。いくつかの実施形態では、第1及び/または第2のアダプターは、ユニバーサル配列決定プライマー配列を含む。いくつかの実施形態では、第1のアダプターは、第2のアダプターのユニバーサル増幅配列とは異なるユニバーサル増幅プライマー配列を含む。いくつかの実施形態では、タグ付き標的核酸のうちの少なくとも2つは、異なる標的配列を有する。タグ付き標的核酸の集団は、一本鎖になる。単一反応混合物(水性反応混合物)中で、一本鎖タグ付き核酸は、(i)その上に複数の捕捉プライマーが結合した複数の支持体(例えば、ビーズ)であって、複数の支持体上の捕捉プライマーは、同じ配列を有し、タグ付き核酸の第1のユニバーサルアダプター配列にハイブリダイズし得る、複数の支持体、(ii)第2のユニバーサルアダプター配列を同一であるか、またはそれにハイブリダイズし得る複数の可溶性逆方向プライマー、(iii)ポリメラーゼ、及び(iv)複数のヌクレオチドと反応/接触される。いくつかの実施形態では、単一反応混合物は、リコンビナーゼ(例えば、T4 uvsX)、ならびに任意に、リコンビナーゼ負荷因子(例えば、T4 uvsY)及び/または一本鎖結合タンパク質(T4 gp32)を含むアクセサリータンパク質をさらに含む。単一反応混合物は、核酸増幅の実施に好適な条件下でインキュベートされ得る。リコンビナーゼ及びアクセサリータンパク質は、第1のユニバーサルアダプター配列と捕捉プライマーとの間のDループ形成を媒介することができる。一本鎖タグ付き標的核酸の第1のユニバーサルアダプター配列領域は、支持体(例えば、ビーズ)上の複数の捕捉プライマーのうちの1つにハイブリダイズし、プライマー伸長は、捕捉プライマー伸長産物を生成する。可溶性逆方向プライマーは、捕捉プライマー伸長産物の第2のユニバーサルアダプター領域にハイブリダイズし、プライマー伸長反応は、逆方向プライマー伸長産物を生成する。リコンビナーゼ及びアクセサリータンパク質は、第2のユニバーサルアダプター配列と可溶性逆方向プライマーとの間のDループ形成を媒介することができる。逆方向プライマー伸長産物は、捕捉プライマー伸長産物から解離(例えば、変性)し、別のプライマー伸長反応のために同じ支持体(例えば、ビーズ)上の異なる捕捉プライマーに再ハイブリダイズすることができる。RPA−ビーズ増幅反応の反復サイクルは、1つのタグ付き標的核酸の実質的にモノクローナルなコピーに結合した個々のビーズをもたらすために、タグ付き標的核酸の複数のコピーに結合したビーズをもたらす。任意に、異なるビーズは、異なるタグ付き標的核酸のコピーに結合される(例えば、多クローン性)。
いくつかの実施形態では、捕捉プライマーは、支持体(例えば、平面状の支持体)に結合され、リコンビナーゼ−ポリメラーゼ反応は、RPA−ビーズ法と類似の方法で実施され、水性単一反応混合物は、結合した捕捉プライマーを有する支持体の表面に接触し、水性単一反応混合物は、鋳型核酸、融合プライマー(または融合プライマーを欠く)、逆方向プライマー、ポリメラーゼ、ヌクレオチド、リコンビナーゼ及びアクセサリータンパク質を含有する。
任意に、RPA単一反応混合物はまた、捕捉プライマーにハイブリダイズし得るスプリント分子として働く順方向融合プライマーとタグ付き核酸に結合した第1のユニバーサルアダプター配列とを含む。順方向融合プライマーを使用する実施形態では、第1のユニバーサルアダプター配列(標的核酸に結合している)は、融合プライマーの一部にハイブリダイズすることができるが、第1のアダプターは、支持体(例えば、ビーズ)上の捕捉プライマーにハイブリダイズし得るアダプターを欠く。いくつかの実施形態では、融合プライマーは、第1のユニバーサルアダプター配列にハイブリダイズし、プライマー伸長反応は、支持体(例えば、ビーズ)上の捕捉プライマーにハイブリダイズし得る配列を含む融合プライマー伸長産物をもたらす。可溶性逆方向プライマーは、融合プライマー伸長産物にハイブリダイズし、プライマー伸長反応は、逆方向プライマー伸長産物をもたらす。逆方向プライマー伸長産物は、支持体(例えば、ビーズ)上の複数の捕捉プライマーのうちの1つにハイブリダイズすることができ、プライマー伸長反応は、支持体(例えば、ビーズ)に結合し、逆方向プライマー伸長産物に対して相補的な配列を含む捕捉プライマー伸長産物をもたらす。
いくつかの実施形態では、RPA−ビーズ法は、水及び油乳剤を含み、水性反応混合物の液滴は、水性の液滴が、捕捉プライマーに結合した1つ以上のビーズ、鋳型核酸、融合プライマー(または融合プライマーを欠く)、逆方向プライマー、ポリメラーゼ、ヌクレオチド、ならびにリコンビナーゼ及びアクセサリータンパク質を含有する区分された反応混合物を提供するように、非混和性流体(例えば、油)に囲まれている。
いくつかの実施形態では、ビーズまたは支持体を使用し、乳剤を含むかまたは含まないRPA反応のサイクルは、等温増幅条件下で実施することができる。リコンビナーゼ−ポリメラーゼ増幅(RPA)反応のための組成物及び方法の例は、米国特許出願公開第2013/0225421号及び同第2014/0080717号、ならびに米国特許第7,399,590号、同第7,666,598号、同第8,637,253号、同第8,809,021号、及び同第9,057,097号に見出される。
いくつかの実施形態では、本教示に従って生成された任意のタグ付き標的ポリヌクレオチド(タグ付き増幅産物を含む)は、固体支持体に結合し得る。例えば、乳剤PCR反応を実施して、タグ付き標的核酸を、粒子またはビーズを含む任意の種類の支持体に結合することができる。個々のタグ付き標的核酸は、少なくとも1つのタグ配列及び第1のユニバーサルアダプター配列を一方の末端に含み、少なくとも別のタグ配列及び第2のユニバーサルアダプター配列を他方の末端に含む。いくつかの実施形態では、第1及び第2のアダプターは、異なる配列を有する。いくつかの実施形態では、第1及び/または第2のアダプターは、ユニバーサル配列決定プライマー配列を含む。いくつかの実施形態では、第1のアダプターは、第2のアダプターのユニバーサル増幅配列とは異なるユニバーサル増幅プライマー配列を含む。いくつかの実施形態では、タグ付き標的核酸のうちの少なくとも2つは、異なる標的配列を有する。
emPCR−ビーズ法は、水及び油乳剤中で実施され、水性反応混合物の液滴は、個々の水性の液滴が、捕捉プライマーに結合した1つ以上のビーズ、鋳型核酸(例えば、タグ付き核酸)、融合プライマー(または融合プライマーを欠く)、逆方向プライマー、ポリメラーゼ、及びヌクレオチドを含有する区分された反応混合物を提供するように、非混和性流体(例えば、油)に囲まれている。任意に、タグ付き核酸は、個々の水性の液滴が1つのタグ付き核酸分子のみを含有するように、希釈される。乳剤PCR反応は、タグ付き標的核酸を一本鎖にするために、サーモサイクリング条件下で実施される。乳剤PCR中、一本鎖タグ付き核酸は、(i)その上に複数の捕捉プライマーが結合した複数の支持体(例えば、ビーズ)であって、複数の支持体上の捕捉プライマーは、同じ配列を有し、タグ付き核酸の第1のユニバーサルアダプター配列にハイブリダイズし得る、複数の支持体、(ii)第2のユニバーサルアダプター配列を同一であるか、またはそれにハイブリダイズし得る複数の可溶性逆方向プライマー、(iii)ポリメラーゼ、及び(iv)複数のヌクレオチドと反応/接触される。一本鎖タグ付き標的核酸の第1のユニバーサルアダプター配列領域は、支持体(例えば、ビーズ)上の複数の捕捉プライマーのうちの1つにハイブリダイズし、プライマー伸長は、捕捉プライマー伸長産物を生成する。可溶性逆方向プライマーは、捕捉プライマー伸長産物の第2のユニバーサルアダプター領域にハイブリダイズし、プライマー伸長反応は、逆方向プライマー伸長産物を生成する。逆方向プライマー伸長産物は、捕捉プライマー伸長産物から解離(例えば、変性)し、別のプライマー伸長反応のために同じ支持体(例えば、ビーズ)上の異なる捕捉プライマーに再ハイブリダイズすることができる。emPCR−ビーズ増幅反応の反復サイクルは、1つのタグ付き標的核酸の実質的にモノクローナルなコピーに結合した個々のビーズをもたらすために、タグ付き標的核酸の複数のコピーに結合したビーズをもたらす。任意に、異なるビーズは、異なるタグ付き標的核酸のコピーに結合される(例えば、多クローン性)。増幅の完了に際し、乳剤の液滴は、液滴を破裂/破断し、タグ付き核酸に結合したビーズを放出するために、破断溶液と接触させることができる。
任意に、emPCR−ビーズ増幅反応混合物はまた、捕捉プライマーにハイブリダイズし得るスプリント分子として働く順方向融合プライマーと標的核酸に結合した第1のユニバーサルアダプター配列とを含む。順方向融合プライマーを使用する実施形態では、第1のユニバーサルアダプター配列(タグ付き核酸に結合している)は、融合プライマーの一部にハイブリダイズすることができるが、第1のアダプターは、支持体(例えば、ビーズ)上の捕捉プライマーにハイブリダイズし得るアダプターを欠き、したがって、タグ付き核酸は、支持体上の捕捉プライマーに結合することができない。いくつかの実施形態では、融合プライマーは、第1のユニバーサルアダプター配列にハイブリダイズし、プライマー伸長反応は、支持体(例えば、ビーズ)上の捕捉プライマーにハイブリダイズし得る配列を含む融合プライマー伸長産物をもたらす。可溶性逆方向プライマーは、融合プライマー伸長産物にハイブリダイズし、プライマー伸長反応は、逆方向プライマー伸長産物をもたらす。逆方向プライマー伸長産物は、支持体(例えば、ビーズ)上の複数の捕捉プライマーのうちの1つにハイブリダイズすることができ、プライマー伸長反応は、支持体(例えば、ビーズ)に結合し、逆方向プライマー伸長産物に対して相補的な配列を含む捕捉プライマー伸長産物をもたらす。emPCR−ビーズ増幅反応のための組成物及び方法の例は、米国特許第7,323,305号、同第7,638,276号、同第7,842,457号、同第8,012,690号、同第8,153,402号、同第8,158,359号、同第8,748,102号、同第8,765,380号、及びPCT公開公報第WO2012/138926号に見出される。
いくつかの実施形態では、本開示は、全体として、サーモサイクリングもしくは等温条件、または両方の種類の条件の組み合わせの下で実施され得る核酸合成または核酸増幅反応(増幅条件)を含む組成物、ならびに関連する方法、システム、キット、装置、及びコンピュータ可読媒体に関する。例えば、増幅条件は、サーモサイクリング及び等温増幅条件を任意の順序で交互に行うことを含み得る。
いくつかの実施形態では、サーモサイクリング増幅条件は、二本鎖標的核酸の少なくとも約30〜95%を変性させるのに十分な時間にわたって高温に供され、次いで、一本鎖標的核酸とプライマーのいずれか(例えば、捕捉プライマー、逆方向溶液相プライマー、または融合プライマー)との間のハイブリダイゼーションを許容するのに十分な時間にわたってより低い温度に供される核酸増幅反応混合物を含む。いくつかの実施形態では、温度の増減サイクルは、少なくとも1回繰り返される。
いくつかの実施形態では、等温増幅条件は、増幅の少なくとも一部の間に限定された範囲内に限られる温度変化に供される核酸増幅反応混合物を含み、例えば、温度変化は、約20℃まで、または約10℃、または約5℃、または約1〜5℃、または約0.1〜1℃、または約0.1℃未満である。
いくつかの実施形態では、等温核酸増幅反応は、約2、5、10、15、20、30、40、50、60、120分間、またはそれ以上にわたって実施され得る。
いくつかの実施形態では、等温核酸増幅反応は、約15〜30℃、または約30〜45℃、または約45〜60℃、または約60〜75℃、または約75〜90℃、または約90〜93℃、または約93〜99℃で実施され得る。
いくつかの実施形態では、等温増幅反応混合物は、リコンビナーゼアクセサリー因子(例えば、T4 uvsY及び/またはgp32タンパク質)を伴うかまたは伴わない、リコンビナーゼ(例えば、T4 uvsX)を含む。
いくつかの実施形態では、複数のタグ付きポリヌクレオチド中に存在する任意の標的ポリヌクレオチドが配列リードのセット中に表され、それにより検出され得る可能性を確実にするために、十分な数のタグ付き標的核酸(その増幅産物を含む)が配列決定(サンプリング)され得る。この目的を達成するために、数千、数万、または数百万のタグ付き増幅産物を配列決定する必要があり、これは任意に、大規模並列配列決定手順を用いることによって達成することができる。数千、数万、または数百万のタグ付き増幅産物を配列決定する能力は、タグ付きポリヌクレオチドが配列リードのセット中に表され、それにより検出及び分析され得る可能性を約10〜25%、または約25〜50%、または約50〜75%、または約75〜90%、または約90〜99.99%増加させる。
いくつかの実施形態では、本開示は、配列決定反応をさらに含む方法、ならびに関連する組成物、システム、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、本教示に従って調製される任意のタグ付き標的核酸(その増幅産物を含む)は、配列決定され得る。
いくつかの実施形態では、任意の種類の配列決定プラットホームを用いてもよく、これには、大規模並列配列決定プラットホームまたは古いバージョンの配列決定、例えば、Sanger配列決定法、オリゴヌクレオチドプローブのライゲーション及び検出による配列決定(例えば、Life TechnologiesからのSOLiD(商標)、WO2006/084132)、プローブ−アンカーライゲーション配列決定(例えば、Complete GenomicsまたはPolonator(商標))、合成による配列決定(例えば、IlluminaからのGenetic Analyzer(商標)及びHiSeq(商標)(Bentley 2006 Current Opinion Genetics&Development 16:545−552、及びBentley,et al.,2008 Nature 456:53−59、及び米国特許第7,566,537号))、ピロリン酸配列決定(例えば、454 Life SciencesからのGenome Sequencer FLX(商標)(米国特許第7,211,390号、同第7,244,559号、及び同第7,264,929号))、イオン感応性配列決定(例えば、Ion Torrent Systems,Inc.からのPersonal Genome Machine(Ion PGM(商標))及びIon Proton(商標)Sequencer)、ならびに単分子配列決定プラットホーム(例えば、HelicosからのHeliscope(商標))が含まれる。
いくつかの実施形態では、合成による配列決定法を用いる配列決定プラットホームは、複数のタグ付きポリヌクレオチドを支持体(例えば、固定化タグ付きポリヌクレオチド)に結合させることを含む。タグ付きポリヌクレオチドは、ユニバーサル捕捉配列(例えば、ユニバーサル増幅配列)を含み得、支持体は、その上に結合した捕捉プライマーを含み得る。タグ付きポリヌクレオチドは、タグ付きポリヌクレオチドの捕捉配列が支持体上の捕捉プライマーに結合することによって支持体に結合し得る。複数のタグ付きポリヌクレオチドは、本明細書に記載されるブリッジ増幅反応を介して支持体に共有結合し得る。支持体は、フローセルの一部であり得、支持体には、アレイ状に編成された実質的に平らな表面、溝、または複数のウェル(例えば、マイクロウェルまたはナノウェル)が含まれる。配列決定反応部位には、配列決定反応が実施される支持体上の任意の部位が含まれる。複数の配列決定反応部位は、平らな表面上、溝の任意の領域上、またはウェルのいずれかの内部の任意の位置に位置付けられ得る。配列決定プライマーは、複数の固定化タグ付きポリヌクレオチドにハイブリダイズされ得る。1、2、3、または4種類のヌクレオチド(例えば、デオキシリボース三リン酸ヌクレオチド)を含有する水溶液は、複数の固定化タグ付きポリヌクレオチド上に流され、タグ付きポリヌクレオチドに結合しヌクレオチド取り込みを触媒するポリメラーゼの存在下で、配列決定反応を開始する。鋳型鎖に相補的なヌクレオチドはプライマー上に取り込まれ、任意の洗浄工程が非取り込みヌクレオチドを除去し、取り込まれたヌクレオチドの同一性が判定される。いくつかの実施形態では、流れの中のヌクレオチドは、光学的に検出可能な標識に結合される。例えば、異なる種類のヌクレオチド(例えば、A、G、C、及びT)は、1種類のヌクレオチドを他の種類と区別する異なる標識に結合され得る。光学的に検出可能な標識は、ヌクレオチドの塩基に結合され得る。異なる種類のヌクレオチドはまた、任意に、さらなるヌクレオチド取り込みを阻害または遮断する能力を付与する遮断部分(例えば、ターミネーター遮断部分)に結合され得る。遮断部分は、2’または3’糖位置に結合され得る。標識を塩基に結合するリンカーと、遮断部分を糖に結合するリンカーは、同じ種類または異なる種類のリンカーであり得る。ヌクレオチドが取り込まれた後、取り込まれたヌクレオチドを放射エネルギー(例えば、光)に曝露することによって、取り込まれたヌクレオチドの同一性が判定され、標識から放出されたシグナルが検出される。光学的に検出可能な標識及び/または遮断部分は、リンカーを切断剤と反応させることによって、取り込まれたヌクレオチドから除去される。同じ種類のリンカーを使用して標識を塩基に結合し、遮断部分を糖に結合した場合、1種類の切断剤を使用して標識及び遮断部分を除去することができる。異なる種類のリンカーを使用して標識を塩基に結合し、遮断部分を糖に結合した場合、2種類の切断剤を使用して標識及び遮断部分を除去することができる。次の配列決定サイクルは、その後のヌクレオチドの流れを行うことによって開始し、洗浄工程、特定工程、及びリンカー切断工程が繰り返される。いくつかの実施形態では、合成による配列決定法には、Illumina(米国特許第7,057,026号、同第7,566,537、同第7,785,796、同第8,158,346、同第7,541,444、同第7,057,026、同第7,592,435、同第7,414,116、同第7,427,673、及び同第8,399,188号)、ならびにJingyu Ju(米国特許第7,713,698号、同第7,790,869号、同第8,088,575号、同第7,635,578号、及び同第7,883,869)によって記載されるものが含まれ、これらは全て、全体が記載されているかのように参照により本明細書に明白に組み込まれる。
本明細書に記載されるタグ付き標的核酸は、好適な電気検出器または光学検出器を使用して検出または配列決定され得る。いくつかの実施形態では、本教示に従って合成されたタグ付き標的核酸(及びその増幅産物)のいずれかは、合成による配列決定法、電界効果トランジスタ(FET及びISFET)を使用した配列決定副産物の検出を伴うイオンベースの配列決定、化学分解配列決定、ライゲーションベースの配列決定、ハイブリダイゼーション配列決定、パイロシーケンスまたはピロリン酸検出配列決定、キャピラリー電気泳動、ゲル電気泳動、次世代大規模並列配列決定プラットホーム、水素イオンまたは他の配列決定副産物を検出する配列決定プラットホーム、及び単分子配列決定プラットホームを検出し得る配列決定プラットホームを含む、任意の配列決定法または検出手段によって配列決定または検出され得る。いくつかの実施形態では、配列決定反応は、核酸アダプター(例えば、ユニバーサル配列)または標的ポリヌクレオチド配列を含むタグ付き増幅産物の任意の部分にハイブリダイズし得る少なくとも1つの配列決定プライマーを使用して実施され得る。
いくつかの実施形態では、本開示は、全体として、センサに連結した1つ以上の反応部位を有する支持体上で配列決定反応を実施するための方法、ならびに関連するシステム、組成物、キット、及び装置に関する。
いくつかの実施形態では、本教示に従って生成された任意のタグ付き標的核酸は、本明細書に記載される技術のいずれかを使用した検出システムにおいてその存在について検出され得る。例えば、CMOS技術を使用したアレイを使用して、qPCRまたはdPCR等の特定の核酸配列の存在を平易に検出することができる。核酸配列の存在は、非光学的(反応副産物の検出)または光学的方法を通して検出され得る。光学的方法は、配列上または配列にハイブリダイズされた任意のヌクレオチド上の色素標識タグを含み得る。
いくつかの実施形態では、本教示に従って生成された任意のタグ付き標的核酸は、ヌクレオチド取り込みの1つ以上の副産物を検出する方法を使用して配列決定され得る。例えば、その全体が参照により本明細書に組み込まれる米国特許第7,948,015号(Rothberg et al.)及び米国特許出願公開第2009/0026082号(Rothberg et al)に記載されるように、伸長反応の生理化学的副産物の検出によるポリメラーゼ伸長の検出には、ピロリン酸、水素イオン、電荷移動、熱等が含まれる。ポリメラーゼベースの伸長の検出方法の他の例は、例えば、Pourmand et al,Proc.Natl.Acad.Sci.,103: 6466−6470(2006)、Purushothaman et al.,IEEE ISCAS,IV−169−172、Anderson et al,Sensors and Actuators B Chem.,129:79−86(2008)、Sakata et al.,Angew.Chem.118:2283−2286(2006)、米国特許出願公開第2008/01666727号(Esfandyapour et al.)、及びSakurai et al.,Anal.Chem.64:1996−1997(1992)に見出すことができる。さらに、検出は、電気容量、インピーダンス、または伝導性、またはボルタメトリーにおける変化に基づき得る。
イオンの生成及び検出を伴う反応が広く行われる。かかる反応の進行を監視するための直接イオン検出法の使用は、現在の多くの生物学的アッセイを容易にすることができる。例えば、ポリメラーゼによる鋳型依存性核酸合成は、ポリメラーゼによって触媒されたヌクレオチド取り込みの天然副産物として生成される水素イオンを検出することによって監視することができる。イオン感応性配列決定(「pHベース」または「イオンベース」の核酸配列決定とも呼ばれる)は、ヌクレオチド取り込みの副産物として生成された水素イオン等のイオン性副産物の直接検出を利用する。イオンベースの配列決定の1つの例示的なシステムにおいて、配列決定される核酸は、マイクロウェル内に捕捉され、ヌクレオチドを、ヌクレオチド取り込み条件下で1つずつ、または2つ以上の異なる種類をウェル上に流すことができる。ポリメラーゼは、伸長する鎖内に適切なヌクレオチドを取り込み、放出される水素イオンは、溶液中のpHを変えることができ、これは、ウェルに連結したイオンセンサによって検出され得る。この技術は、ヌクレオチドの標識または高価な光学的要素を必要とせず、配列決定ランのはるかに速い完了を可能にする。かかるイオンベースの核酸配列決定法及びプラットホームの例としては、Ion PGM(商標)、Ion Proton(商標)、及びIon S5シーケンサー(Ion Torrent(商標)Systems、Thermo Fisher Scientific)が挙げられる。
いくつかの実施形態では、本教示の方法、システム、組成物、またはキットを使用して精製された任意のタグ付き標的核酸は、電界効果トランジスタ(FET)を含むセンサによって検出及び/または監視される生物学的または化学的反応のための気質として使用することができる。様々な実施形態では、FETは、chemFET、FinFET、またはISFETである。「chemFET」または化学的電界効果トランジスタは、化学的センサとして作用する電界効果トランジスタの1種である。これはMOSFETトランジスタの構造類似体であり、ゲート電極上の電荷は化学的反応によって印加される。「ISFET」またはイオン感応性電界効果トランジスタは、溶液中のイオン濃度を測定するために使用され、イオン濃度(例えば、H+)が変化すると、それに応じてトランジスタ内の電流が変化する。ISFETの操作の詳細な理論は、「Thirty years of ISFETOLOGY:what happened in the past 30 years and what may happen in the next 30 years」P.Bergveld,Sens.Actuators,88(2003),pp.1−20に提供されている。フィン電界効果トランジスタまたは「FinFET」は、非平面状または三次元トランジスタの1種である。さらに、ナノワイヤが単独で、またはFETと併せて使用され得る。
いくつかの実施形態では、FETは、FETアレイであり得る。本明細書で使用される場合、「アレイ」とは、センサまたはウェル等のヨウ素の平面編成である。アレイは、一次元または二次元であり得る。一次元アレイは、第1の次元において要素の1つのカラム(または列)を有し、第2の次元において複数のカラム(または列)を有するアレイであり得る。第1及び第2の次元におけるカラム(または列)の数は、同じであるか、または同じでない。FETまたはアレイは、102個、103個、104個、105個、106個、107個、またはそれ以上のFETを含み得る。
いくつかの実施形態では、生物学的または化学的反応の抑制及び/または制限を提供するために、FETセンサアレイ上に1つ以上のマイクロ流体構造が組み立てられ得る。例えば、1つの実施例では、マイクロ流体構造は、その上に所与のウェルが配置された1つ以上のセンサが所与のウェル内の分析物の存在、レベル、及び/または濃度を検出及び測定するように、アレイの1つ以上のセンサ上に配置された1つ以上のウェル(またはマイクロウェル、または反応チャンバ、または反応ウェル(これらの用語は本明細書において互換的に使用される)として構成され得る。いくつかの実施形態では、FETセンサ及び反応ウェルの1:1の対応があり得る。FETセンサアレイの例示的な実施形態は、米国特許第7,948,015号、同第8,262,900号、同第8,776,573号、同第8,208,712号に見出すことができる。
例えば、以下の参考文献、Doering and Nishi,Editors,Handbook of Semiconductor Manufacturing Technology,Second Edition(CRC Press,2007)、Saliterman,Fundamentals of BioMEMS and Medical Microdevices(SPIE Publications,2006)、Elwenspoek et al,Silicon Micromachining(Cambridge University Press,2004)等に開示されるように、マイクロウェルまたは反応チャンバは、典型的には、基質に作製され得、従来の微細加工技術を使用して加工され得る、明確に画定された形状及び容積を有する中空またはウェルである。マイクロウェルまたは反応チャンバの構成(例えば、間隔、形状、及び容積)の例は、米国特許出願公開第2009/0127589号(Rothberg et al)、英国特許出願第GB24611127号(Rothberg et al)に開示されている。
いくつかの実施形態では、生物学的または化学的反応は、chemFET、FinFET、またはISFET等のFETと接触しているか、動作可能に連結しているか、または容量的に連結している溶液または反応チャンバ中で行われ得る。FET(FinFET、もしくはchemFET、もしくはISFET)及び/または反応チャンバは、それぞれFETまたは反応チャンバのアレイであり得る。
いくつかの実施形態では、生物学的または化学的反応は、反応チャンバの二次元または三次元アレイにおいて行われ得、各反応チャンバは、FETに連結され得、各反応チャンバは、10μm3(すなわち、1pL)未満の容積である。いくつかの実施形態では、各反応チャンバは、0.34pL、0.096pL、またはさらに0.012pL未満の容積である。反応チャンバは、任意に、上部の断面積が2、5、10、15、22、32、42、52、62、72、82、92、または102平方ミクロン未満であり得る。好ましくは、アレイは、少なくとも102個、103個、104個、105個、106個、107個、108個、109個、またはそれ以上の反応チャンバを有する。いくつかの実施形態では、反応チャンバのうちの少なくとも1つは、FETのうちの少なくとも1つと動作可能に連結している。
本開示に従って様々な実施形態で使用されるFETアレイは、従来のCMOS加工技術、ならびに修正されたCMOS加工技術及びCMOS加工に従来用いられるもの以外の他の半導体加工技術に従って加工され得る。さらに、アレイ加工プロセスの一部として様々な露光技術が用いられ得る。
開示される方法、ならびにマイクロウェル及び付随流体、及びそれらの製造方法における使用に好適な例示的なFETアレイは、例えば、米国特許出願公開第20100301398号、米国特許出願公開第20100300895号、米国特許出願公開第20100300559号、米国特許出願公開第20100197507号、米国特許出願公開第20100137143号、米国特許出願公開第20090127589号、及び米国特許出願公開第20090026082号に開示され、これらはそれらの全体が参照により組み込まれる。
一態様では、開示される方法、組成物、システム、装置、及びキットは、ラベルフリーの核酸配列決定、とりわけ、イオンベースの核酸配列決定を行うために使用され得る。ヌクレオチド取り込みのラベルフリー検出の概念は、参照により組み込まれる以下の参考文献、米国特許出願公開第2009/0026082号(Rothberg et al)、Anderson et al,Sensors and Actuators B Chem.,129:79−86(2008)、及びPourmand et al,Proc.Natl.Acad.Sci.,103: 6466−6470(2006)を含む文献において記載されてきた。簡潔には、核酸配列決定の用途において、ヌクレオチド取り込みは、水素イオン、ポリリン酸、PPi、及びPiを含むポリメラーゼ触媒伸長反応の天然副産物を測定する(例えば、 ピロホスファターゼの存在下で)ことによって判定される。かかるイオンベースの核酸配列決定法及びプラットホームの例としては、Ion PGM(商標)、またはIon Proton(商標)、またはIon S5(登録商標)シーケンサー(Ion Torrent(商標)Systems、Thermo Fisher Scientific)が挙げられる。
いくつかの実施形態では、本開示は、全体として、本明細書に提供される教示によって生成されたタグ付き増幅産物のいずれかを配列決定するための方法に関する。1つの例示的な実施形態では、本開示は、全体として、(a)タグ付き標的核酸(またはその増幅産物)を生成することと、(b)工程(a)中に生成されたタグ付き標的核酸または増幅産物のうちの少なくとも1つを鋳型として使用する鋳型依存性核酸合成によってタグ付き標的核酸または増幅産物を配列決定することとを含む、タグ付き増幅産物から配列情報を得るための方法に関する。増幅は、任意に、本明細書に記載される増幅方法のいずれかに従って行われ得る。
いくつかの実施形態では、鋳型依存性合成は、1つ以上のヌクレオチドを、鋳型依存性様式で新規に合成された核酸鎖内に取り込むことを含む。
任意に、本方法は、かかるヌクレオチド取り込みの1つ以上のイオン性副産物を生成することをさらに含み得る。
いくつかの実施形態では、本方法は、配列決定プライマーへの1つ以上のヌクレオチドの取り込みを検出することをさらに含み得る。任意に、検出は、水素イオンの放出を検出することを含み得る。
別の実施形態では、本開示は、全体として、(a)本明細書に開示される教示に従い、配列決定粒子の存在下でタグ付き標的核酸を増幅することによってタグ付き標的核酸を配列決定粒子に結合して、タグ付き標的核酸のうちの1つの一部を含有する実質的にモノクローナルなポリヌクレオチド集団と結合した少なくとも1つの粒子を生成することと、(b)粒子を反応チャンバ内に配置することであって、反応チャンバのうちの1つ以上が電界効果トランジスタ(FET)に接触している、配置することとを含む、核酸を配列決定するための方法に関する。任意に、本方法は、反応チャンバのうちの1つの内部に配置された実質的にモノクローナルなポリヌクレオチド集団をポリメラーゼと接触させ、それにより、1つ以上のヌクレオチドを核酸分子内に取り込むことによって新規の核酸鎖を合成することをさらに含む。任意に、本方法は、かかるヌクレオチド取り込みの副産物として1つ以上の水素イオンを生成することをさらに含む。任意に、本方法は、FETを使用して1つ以上の水素イオンの生成を検出することによって、1つ以上のヌクレオチドの取り込みを検出することをさらに含む。
いくつかの実施形態では、検出は、1つ以上の水素イオンの生成に応じた、アレイ内の少なくとも1つのFETでの電圧及び/または電流の変化を検出することを含む。
いくつかの実施形態では、FETは、イオン感応性FET(ISFET)及び化学的感応性FET(chemFET)からなる群より選択され得る。
いくつかの実施形態では、本開示は、全体として、本明細書に開示される方法のいずれかに従い、核酸鋳型中の一連の連続するヌクレオチドを特定することを含む、核酸配列決定のための方法(ならびに関連する組成物、システム、キット、及び装置)に関する。
ヌクレオチド取り込みのイオン性副産物の検出を介した配列決定を伴う1つの例示的なシステムは、Ion PGM(商標)、またはIon Proton(商標)、またはIon S5(登録商標)シーケンサー(Ion Torrent System、Thermo Fisher Scientific)であり、これらはヌクレオチド取り込みの副産物として生成された水素イオンを検出することによって核酸鋳型を配列決定するイオンベースの配列決定システムである。典型的には、水素イオンは、ポリメラーゼによる鋳型依存性核酸合成中に生じるヌクレオチド取り込みの副産物として放出される。Ion PGM(商標)、Ion Proton(商標)、またはIon S5(登録商標)シーケンサーは、ヌクレオチド取り込みの水素イオン副産物を検出することによってヌクレオチド取り込みを検出する。Ion PGM(商標)、Ion Proton(商標)、またはIon S5(登録商標)シーケンサーは、配列決定される複数の核酸鋳型を含み得、各鋳型は、アレイ中のそれぞれの配列決定反応ウェル内に配置される。アレイのウェルは、ヌクレオチド取り込みの副産物として生成されるH+イオンの放出または溶液pHの変化を検出することができる少なくとも1つのイオンセンサに各々連結され得る。イオンセンサは、H+イオンの存在または溶液pHの変化を感知することができるイオン感応性検出層に連結した電界効果トランジスタ(FET)を備える。イオンセンサは、その振幅がそれぞれのウェルまたは反応チャンバ内のH+イオン濃度と相関する電圧変化として表され得るヌクレオチド取り込みを示す出力シグナルを提供し得る。異なる種類のヌクレオチドが反応チャンバ内に連続的に流され得、鋳型の配列によって決定される順序でポリメラーゼによって伸長プライマー(または重合部位)に取り込まれ得る。あるいは、1種類のヌクレオチドが反応チャンバ内に流され得、鋳型の配列によって決定される順序でポリメラーゼによって伸長プライマー(または重合部位)に取り込まれ得る。各ヌクレオチド取り込みには、局所pHの付随する変化と共に、反応ウェル中のH+イオンの放出が伴う。H+イオンの放出は、センサのFETによって記録され、それによりヌクレオチド取り込みの発生を示すシグナルが生成される。特定のヌクレオチドの流れの中で取り込まれなかったヌクレオチドは、シグナルを生成しない場合がある。FETからのシグナルの振幅はまた、伸長する核酸分子に取り込まれる特定の種類のヌクレオチドの数と相関し、それによりホモポリマー領域の分解を可能にする。したがって、シーケンサーの運転中、複数のヌクレオチドの反応チャンバ内への流入、及び重複のウェルまたは反応チャンバにわたる取り込み監視は、器具が多くの核酸鋳型を同時に分解することを可能にし得る。Ion PGM(商標)、またはIon Proton(商標)、またはIon S5(商標)、またはIon S5XL(商標)シーケンサーの組成、設計、及び動作に関するさらなる詳細は、例えば、米国特許出願公開第2009/0026082号として現在公開されている米国特許出願第12/002781号、米国特許出願公開第2010/0137143号として現在公開されている米国特許出願第12/474897号、及び米国特許出願公開第2010/0282617号として現在公開されている米国特許出願第12/492844号に見出すことができ、これらの出願は全て参照により本明細書にその全体が組み込まれる。
イオンベースの配列決定法の典型的な実施形態では、ヌクレオチド取り込みは、ポリメラーゼ触媒伸長反応によって生成された水素イオンの存在及び/または濃度を検出することによって検出することができる。一実施形態では、任意に配列決定プライマー及び/またはポリメラーゼに予め結合した鋳型は、反応チャンバ(例えば、本明細書に引用されるRothberg et alに開示されるマイクロウェル)内に充填され得、その後、ヌクレオチド添加及び洗浄の反復サイクルが行われ得る。いくつかの実施形態では、かかる鋳型は、クローン集団として固体支持体、例えば、粒子、ビーズ等と結合され得、該クローン集団は、反応チャンバ内に充填される。
別の実施形態では、任意にポリメラーゼに結合したタグ付き標的核酸鋳型は、アレイの異なる部位に分配、配置、または位置付けられる。アレイの部位には、プライマーが含まれ、本方法は、異なる鋳型を異なる部位内のプライマーにハイブリダイズすることを含み得る。
サイクルの各追加工程において、ポリメラーゼは、鋳型の次の塩基が追加のヌクレオチドに相補的である場合にのみ追加のヌクレオチドを取り込むことによって、プライマーを伸長し得る。1つの相補的塩基がある場合、1つの取り込みがあり、2つの相補的塩基がある場合、2つの取り込みがあり、3つの相補的塩基がある場合、3つの取り込みがある。各取り込みについて、水素イオンが放出され、水素イオンを放出する鋳型の集団は合わせて、反応チャンバの局所pHを変化させる。水素イオンの生成は、鋳型内の連続的な相補的塩基の数(ならびに伸長反応に関与するプライマー及びポリメラーゼを有する鋳型分子の総数)と単調に関連する。したがって、鋳型内に多数の連続的な同一の相補的塩基が存在する場合(すなわち、ホモポリマー領域)、生成される水素イオンの数、及びしたがって局所pHの変化の大きさは、連続的な同一の相補的塩基の数に比例し得る。鋳型内の次の塩基が添加されたヌクレオチドと相補的でない場合、取り込みは生じず、水素イオンは放出されない。いくつかの実施形態では、ヌクレオチドの添加の各工程の後、所定のpHの非緩衝洗浄溶液を使用して、後のサイクルにおける誤った取り込みを阻止するために、前の工程のヌクレオチドを除去する追加の工程が行われ得る。いくつかの実施形態では、ヌクレオチドの添加の各工程の後、その後のサイクルにおける擬似伸長をもたらし得るチャンバ内に残ったあらゆる残留ヌクレオチドを除去するために、反応チャンバがアピラーゼ等のヌクレオチド破壊剤で処理される追加の工程が行われ得る。
1つの例示的な実施形態では、各反応が異なるヌクレオチドに1つずつ暴露され得るように、異なる種類のヌクレオチドが順次に反応チャンバに添加される。例えば、ヌクレオチドは、以下の順序、dATP、dCTP、dGTP、dTTP、dATP、dCTP、dGTP、dTTP等で添加され得、各曝露の後に洗浄工程が続く。サイクルは、所望の配列情報の長さに応じて50回、100回、200回、300回、400回、500回、750回、またはそれ以上繰り返され得る。
いくつかの実施形態では、配列決定は、Ion PGM(商標)、Ion Proton(商標)、またはIon S5(登録商標)シーケンサーと共に供給されるユーザプロトコルに従って行われ得る。実施例3は、Ion PGM(商標)シーケンサー(Ion Torrent(商標)Systems、Thermo Fisher Scientific)を使用したイオンベースの配列決定の1つの例示的なプロトコルを提供する。
いくつかの実施形態では、CMOSセンサは、ヌクレオチド取り込み副産物の検出を含む、ヌクレオチド取り込み事象を検出することができる。いくつかの実施形態では、水素イオン、リン酸イオン、ピロリン酸イオン、またはリン酸鎖等の反応副産物の検出のためのCMOS技術の使用に加え、CMOS技術は、他の測定可能なシグナルを検出するためのセンサとして使用され得る。例えば、蛍光、リン光、発光、生物発光を検出するためにCMOS技術が使用され得る。いくつかの実施形態では、センサの表面は、レセプターを有するか、またはセンサ表面が検出される任意の分子を引きつけるか、かつ/またはそれに結合するように表面処理によって処理され得る。表面処理は、システムのシグナル・ノイズ比(SNR)を改善するために使用され得る。いくつかの実施形態では、センサは、ナノワイヤと結合され得る。
いくつかの実施形態では、本開示は、全体として、(a)複数の標的ポリヌクレオチドを複数の粒子上にクローン的に増幅することによって複数の増幅産物生成することを含む、鋳型ポリヌクレオチドの集団を配列決定するための方法に関し、増幅は反応混合物の単一の連続相内で行われ、得られた増幅産物のうちの少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%は、事実上、実質的にモノクローナルである。いくつかの実施形態では、十分な数の実質的にモノクローナルな増幅産物が単一増幅反応中で生成されて、少なくとも100MB、200MB、300MB、400MB、500MB、750MB、1GBまたは2GBのAQ20配列リードをIon Torrent PGM(商標)314、316、または318 シーケンサー上で生成する。本明細書で使用される場合、「AQ20という用語及びその異形は、Ion Torrent PGM(商標)シーケンサーにおける配列決定精度を測定する特定の方法を指す。精度は、Q10=90%、Q20= 99%、Q30=99.9%、Q40=99.99%、及びQ50=99.999%である対数目盛上の精度を測定するPhred様Qスコアの点から測定され得る。例えば、特定の配列決定反応において、精度計量は、予測アルゴリズムを通して、または既知の参照ゲノムへの実際のアライメントを通して計算され得る。予測されるクォリティスコア(「Qスコア」)は、インプットシグナルの本来の特質を考察し、配列決定「リード」に含まれる所与の単一塩基がアラインするかどうかについてかなり正確に予測するアルゴリズムから得ることができる。いくつかの実施形態では、かかる予測されたクォリティスコアは、下流アライメントの前により低いクォリティのリードをフィルタリング及び除去するために有用であり得る。いくつかの実施形態では、精度は、Q10=90%、Q17=98%、Q20=99%、Q30=99.9%、Q40=99.99%、及びQ50=99.999%である対数目盛上の精度を測定するPhred様Qスコアの点から報告され得る。いくつかの実施形態では、所与のポリメラーゼ反応から得られたデータをフィルタリングして、「N」ヌクレオチドまたはそれ以上の長さであり、かつ特定の閾値、例えば、Q10、Q17、Q100(本明細書において「NQ17」スコアと呼ばれる)を超えるQスコアを有するポリメラーゼリードのみを測定することができる。例えば、100Q20スコアは、少なくとも100ヌクレオチドの長さであり、Q20(99%)以上のQスコアを有する、所与の反応から得られたリードの数を示す。同様に、200Q20スコアは、少なくとも200ヌクレオチドの長さであり、Q20(99%)以上のQスコアを有するリードの数を示す。
いくつかの実施形態では、精度はまた、参照ゲノム配列を使用して適切なアライメントに基づいて計算され得、これは本明細書において「生の」精度と呼ばれる。複数のリードの結果であるコンセンサス配列からのエラー率を測定するコンセンサス精度に対し、これは単一パス精度であり、単一リードに関連付けられる「真の」塩基当たりのエラーの測定を伴う。生の精度測定は、「AQ(アラインされたクォリティ)」スコアの点で報告され得る。いくつかの実施形態では、所与のポリメラーゼ反応から得られたデータをフィルタリングして、「N」ヌクレオチドまたはそれ以上の長さであり、特定の閾値、例えば、AQ10、AQ17、AQ100(本明細書において「NAQ17」スコアと呼ばれる)を超えるAQスコアを有するポリメラーゼリードのみを測定することができる。例えば、100AQ20スコアは、少なくとも100ヌクレオチドの長さであり、AQ20(99%)以上のAQスコアを有する、所与のポリメラーゼ反応から得られたリードの数を示す。同様に、200AQ20スコアは、少なくとも200ヌクレオチドの長さであり、AQ20(99%)以上のAQスコアを有するリードの数を示す。
いくつかの実施形態では、本開示は、全体として、タグ、例えばタグ配列を有するオリゴヌクレオチドを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。任意に、タグは、ランダマータグである。
いくつかの実施形態では、本開示は、全体として、1つのタグ対を含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。任意に、タグ対には、順方向及び逆方向タグプライマー、または左及び右タグアダプターが含まれる。任意に、タグ対は、プライマー伸長反応(例えば、PCR反応)または酵素的ライゲーション反応において使用され得る。任意に、タグ対において、一方または両方がランダマータグである。
いくつかの実施形態では、ランダマータグは、少なくとも1つのランダム配列(例えば、縮重配列)と少なくとも1つの固定配列とを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含むランダマータグを有するオリゴヌクレオチドタグを含む。いくつかの実施形態では、ランダマータグは、少なくとも2つの固定配列と交互になっている少なくとも2つのランダム配列を有するオリゴヌクレオチドを含む。いくつかの実施形態では、ランダマータグは、3つの固定配列と交互になっている3つのランダム配列、または4つの固定配列と交互になっている4つのランダム配列を含む。当業者であれば、ランダマータグは、任意の数の固定配列と交互になっている任意の数のランダム配列ユニットを含み得ることを理解するであろう。
いくつかの実施形態では、ランダマータグ内の固定配列は、1〜20もしくはそれ以上のヌクレオチドまたはその類似体を含む。いくつかの実施形態では、ランダマータグ内のランダム配列は、1〜20もしくはそれ以上のヌクレオチドまたはその類似体を含む。いくつかの実施形態では、ランダマータグのランダム配列内の各位置は、A、T、G、C、I、U、から選択されるヌクレオチド、またはそれらの類似体である。
いくつかの実施形態では、タグ(またはランダマータグ)は、可溶性タグ(例えば、溶液中のタグ)であるか、またはタグは支持体に結合し、これには実質的に平らな支持体またはビーズ支持体に結合したタグが含まれる。
いくつかの実施形態では、本開示は、全体として、複数のタグを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。任意に、複数のタグは、少なくとも2つのランダマータグを含む。
いくつかの実施形態では、複数のランダマータグは、複数のオリゴヌクレオチドを含み、個々のランダマータグは、少なくとも1つのランダム配列(例えば、縮重配列)と少なくとも1つの固定配列とを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。任意に、ランダマータグは、少なくとも2つの固定配列と交互になっている少なくとも2つのランダム配列を有するオリゴヌクレオチドを含む。
いくつかの実施形態では、1つ以上のタグは、検出可能な部分を含む。いくつかの実施形態では、標識は、検出可能なシグナルを生成するか、またはその生成を引き起こすことができる。いくつかの実施形態では、検出可能なシグナルは、化学的または物理的変化(例えば、熱、光、電気的、pH、塩濃度、酵素活性、または近接事象)から生成され得る。例えば、近接事象には、互いに接近するか、または互いに交わるか、または互いに結合する2つのリポーター部分が含まれ得る。いくつかの実施形態では、検出可能なシグナルは、光学的に、電気的に、化学的に、酵素的に、熱的に、または質量分析もしくはRaman分光法を介して検出され得る。いくつかの実施形態では、標識には、発光性、光輝性、電気蛍光発光性、生物発光性、化学発光性、蛍光性、リン光性、または電気化学的である化合物が含まれ得る。いくつかの実施形態では、標識には、蛍光体、発色団、放射性同位体、ハプテン、アフィニティータグ、原子、または酵素である化合物が含まれ得る。いくつかの実施形態では、標識は、天然に存在するヌクレオチド中に典型的に存在しない部分を含む。例えば、標識は、蛍光性、発光性、または放射性の部分を含み得る。
いくつかの実施形態では、本開示は、全体として、少なくとも1つのタグ配列を含有する一本鎖または二本鎖プライマーを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。任意に、タグは、ランダマータグである。任意に、プライマーは、標的ポリヌクレオチドの少なくとも一部にハイブリダイズすることができる標的特異的配列を含む。例えば、標的特異的配列は、プライマーの3’領域内に位置付けられる。任意に、プライマーは、伸長可能な3’末端、例えば、末端3’OHを含む。任意に、プライマーの5’領域は、少なくとも1つのタグ(例えば、ランダマータグ)を含む。任意に、プライマーは、少なくとも1つのバーコード配列、増幅プライマー配列、配列決定プライマー配列、捕捉プライマー配列、または切断可能部位を含む。
いくつかの実施形態では、本開示は、全体として、少なくとも1つのタグ配列(例えば、タグアダプター)を含有する一本鎖または二本鎖アダプターを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。任意に、タグは、ランダマータグである。
任意に、二本鎖アダプターは、少なくとも1つの平滑端を含む。任意に、二本鎖アダプターは、少なくとも1つの5’または3’突出末端を含む。任意に、5’または3’突出末端は、少なくとも1つの標的ポリヌクレオチドの末端領域にハイブリダイズすることができる。
任意に、アダプターの少なくとも1つの末端は、別の核酸(例えば、標的ポリヌクレオチド)にライゲーションすることができる。任意に、アダプターの一方の鎖は、末端5’リン酸基を含む。任意に、アダプターの一方の鎖は、末端3’OH基を含む。
任意に、アダプターは、少なくとも1つのバーコード配列、ユニバーサル配列、増幅プライマー配列、配列決定プライマー配列、捕捉プライマー配列、または切断可能部位を含む。
いくつかの実施形態では、少なくとも1つのタグ(少なくとも1つのランダマータグ)を含有するプライマーはいずれも、少なくとも1つの標的ポリヌクレオチドに選択的にハイブリダイズすることができる遺伝子特異的領域をそれらの3’領域に含み、標的ポリヌクレオチドは、
から選択される遺伝子のうちの少なくとも1つに位置する癌に関連付けられる変異を含有する。
いくつかの実施形態では、少なくとも1つのタグ(少なくとも1つのランダマータグ)を含有するプライマーはいずれも、少なくとも1つの標的ポリヌクレオチドに選択的にハイブリダイズすることができる遺伝子特異的領域をそれらの3’領域に含み、標的ポリヌクレオチドは、
から選択される遺伝子のうちの少なくとも1つに位置する癌に関連付けられる変異を含有する。
いくつかの実施形態では、本開示は、全体として、タグ付き核酸を含む、少なくとも1つのタグに付加された一本鎖または二本鎖ポリヌクレオチドを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。任意に、タグは、ランダマータグである。任意に、ポリヌクレオチドは、一方の末端が第1のランダマータグに付加され、他方の末端が第2のランダマータグに付加されている。任意に、一方または両方の末端は、少なくとも1つのバーコードタグをさらに含む。
いくつかの実施形態では、本開示は、全体として、(i)少なくとも第1のポリヌクレオチド及び第2のポリヌクレオチドを含む複数のポリヌクレオチドと、(ii)少なくとも第1、第2、第3、及び第4のランダマータグを含む複数のタグ(例えば、ランダマータグ)とを含有する単一反応混合物を含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。複数のタグは、タグ付き一本鎖プライマーまたはタグ付き二本鎖アダプターを含む。
いくつかの実施形態では、複数のポリヌクレオチドは、異なるポリヌクレオチドまたは同じ配列を有するポリヌクレオチドの混合物を含む。複数のポリヌクレオチドは、標的及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠いている。
いくつかの実施形態では、複数のランダマータグは、異なるランダマータグの混合物を含む。
任意に、単一反応混合物は、リガーゼ、ATP、ポリメラーゼ(例えば、組換えポリメラーゼ)、ヌクレオチド、及び/またはプライマー伸長反応を増強するためのカチオン(例えば、マグネシウム及び/またはマンガン)を含む、ランダマータグをポリヌクレオチドに付加するための試薬のうちのいずれか1つまたは任意の組み合わせをさらに含む。任意に、単一反応混合物は、複数のトランスポザーゼ及び複数のトランスポゾン末端配列を含む少なくとも1つのトランスポソーム複合体を含む、トランスポゾン媒介挿入及び断片化(例えば、タグメンテーション)のための試薬をさらに含む。任意に、単一反応混合物は、1つ以上のランダマータグ(例えば、少なくとも1つのタグ付きポリヌクレオチド)に付加された少なくとも1つのポリヌクレオチドを含む。任意に、単一反応混合物は、タグ付きポリヌクレオチドから生成された少なくとも1つの増幅産物を含む。
いくつかの実施形態では、本開示は、全体として、ポリヌクレオチドを含有する1つ以上の核酸試料、例えば、標的及び/または非標的ポリヌクレオチドの混合物を含む核酸試料を含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。核酸試料中のポリヌクレオチドは、DNA及び/またはRNAを含み得る。核酸試料中のポリヌクレオチドは、一本鎖及び/または二本鎖ポリヌクレオチドのいずれか1つまたは任意の組み合わせを含み得る。核酸試料中のポリヌクレオチドは、cDNAを含み得る。核酸試料は、生体液、細胞培養液、固形組織、または固形腫瘍を含む生体試料に由来し得る。核酸試料は、採血の単管に由来し得る(例えば、約7.5〜10mL)。核酸試料は、タグ付加反応を経るためのポリヌクレオチドの供給源として共にプールされた採血の複数の管に由来し得る。核酸試料は、ヒト、イヌ、ネコ、ウシ、ウマ、マウス、ブタ、ヤギ、オオカミ、カエル、魚類、サル、類人猿、植物、昆虫、細菌、ウイルス、または菌類を含む任意の有機体に由来し得る。核酸試料は、水、土、または食物に由来し得る。
いくつかの実施形態では、核酸試料は、頭、首、脳、乳房、卵巣、子宮頸部、結腸、直腸、子宮内膜、胆嚢、腸、膀胱、前立腺、睾丸、肝臓、肺、腎臓、食道、膵臓、甲状腺、脳下垂体、胸腺、皮膚、心臓、喉頭、または他の器官を含む任意の器官に由来し得る。
いくつかの実施形態では、核酸試料は、血液、血清、血漿、唾液、痰、汗、涙、洗浄液、羊水(例えば、妊娠女性から)、脳脊髄液、腹水、尿、大便、糞便、精液等から得られた生体試料を含む生体試料に由来する。例えば、血液、血清、及び血漿には、それらの分画または処理部が含まれる。任意に、核酸試料は、ポリヌクレオチドを含有するホルマリン固定パラフィン包埋(FFPE)試料であり得る。
いくつかの実施形態では、生体試料には、生検、スワブ、針生検(例えば、細針生検もしくは穿刺吸引)、マイクロ鉗子を介した生検、スミア、または風媒性核酸によって得られた生体液または固形組織が含まれる。いくつかの実施形態では、固形組織には、健常もしくは疾患組織(例えば、腫瘍)もしくは液体、または健常及び疾患組織もしくは流体の混合物が含まれる。
いくつかの実施形態では、核酸試料は、細胞、最近、ウイルス、菌類、及び/もしくは無細胞核酸を含有する生体試料、または循環腫瘍細胞から単離された核酸に由来する。
いくつかの実施形態では、核酸試料は、同じ供給源(例えば、同じ対象)から異なる時点で単離される。例えば、核酸試料は、同じ対象、組織、腫瘍、細胞、または生体液から複数の時点で得られる。核酸試料は、異なる秒、分、時間、日、週、月、または年に得られる。腫瘍は、非悪性、前悪性、及び/または悪性細胞のうちのいずれか1つまたは任意の組み合わせを含む。
いくつかの実施形態では、核酸試料は、異なる供給源(例えば、異なる対象)から異なる時点にわたって単離される。例えば、(1)第1の時点で、核酸試料は、第1の対象、組織、腫瘍、細胞、または生体液から得られ、(2)第2の時点で、核酸試料は、第2の対象、組織、腫瘍、細胞、または生体液から得られる。その後の時点で、追加の核酸試料を得ることができる。異なる時点には、異なる秒、分、時間、日、週、月、または年が含まれる。
いくつかの実施形態では、核酸試料は、別個の処理工程を経て、ポリヌクレオチドを抽出することができ、抽出されたポリヌクレオチドを使用して、タグ付加反応を行うことができる。任意に、細胞の残骸を除去するために任意の濃縮工程を実施することができる。例えば、生体試料内に含有される細胞は、ポリヌクレオチドを放出するために溶解され得、次いで、細胞の残骸を除去するために濃縮または精製される。いくつかの実施形態では、核酸試料は、任意の別個のポリヌクレオチド抽出工程を伴わずに、タグ付加反応において直接使用することができる。例えば、核酸試料(例えば、細胞または無細胞核酸を含有する生体液)は、本教示に記載される任意のタグ付加及び/または増幅工程のための様々な試薬と共に反応容器に直接添加され得る。あるいは、無細胞核酸は、生物源から抽出され、本教示に記載される任意のタグ付加及び/または増幅工程のための様々な試薬と共に反応容器に添加され得る。いくつかの実施形態では、別個の溶解工程は実施されないか、または溶解工程はタグ付加工程の前に実施される。
いくつかの実施形態では、核酸試料は、参照標準であり得る。例えば、参照標準は、変異配列を担持することが知られている改変された細胞株(例えば、癌細胞株)から、または目的の変異配列を担持しない細胞株から製造されるか、あるいは参照標準は、組換え核酸から製造される。任意に、参照標準は、生体液(例えば、血液)から抽出されたcfDNAのサイズに類似する平均サイズ(例えば、約160bp)に断片化される。参照標準の1つの例は、Horizon Diagnostics(Cambridge,United Kingdom)から市販されている。
いくつかの実施形態では、本開示は、全体として、複数のポリヌクレオチドを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。複数のポリヌクレオチドには、一本鎖もしくは二本鎖ポリヌクレオチド、または両方の混合物が含まれ得る。複数のポリヌクレオチドには、cDNAが含まれ得る。複数のポリヌクレオチドには、DNA、cfDNA(例えば、無細胞DNA)、ctDNA(例えば、循環腫瘍DNA)、cfRNA(無細胞RNA)、cDNA(例えば、RNAから合成されたコピーDNA)、RNA、RNA/DNA、または核酸類似体が含まれる。複数のポリヌクレオチドには、mRNA、miRNA、rRNA、tRNA、またはこれらの核酸のうちのいずれかの混合物(例えば、RNA及びDNAの混合物)が含まれる。複数のポリヌクレオチドには、同じ配列または異なる配列の混合物を有するポリヌクレオチドが含まれ得る。複数のポリヌクレオチドには、同じまたは異なる長さを有するポリヌクレオチドが含まれ得る。複数のポリヌクレオチドは、約2〜10、または約10〜50、または約50〜100、または約100〜500、または約500〜1,000、または約1,000〜5,000、または約103〜106、または約106〜1010、またはそれ以上のポリヌクレオチド分子を含み得る。複数のポリヌクレオチドは、デオキシリボヌクレオチド、リボヌクレオチド、及び/またはそれらの類似体を含む。複数のポリヌクレオチドは、天然、合成、組換え、クローン化、断片化、非断片化、増幅、非増幅、または保管(例えば、保存)形態を含む。複数のポリヌクレオチドは、酵素的、化学的、または機械的手順(例えば、機械的分断、超音波処理、噴霧化、または音響)を使用してランダムに断片化され得る。断片化は、異なる制限エンドヌクレアーゼのうちのいずれか1つまてゃあ組み合わせを使用して予め決定することができる。複数のポリヌクレオチドの断片化は、検出可能な部分を欠くヌクレオチドの存在下で、または標識ヌクレオチドの存在下で核酸ニッキング活性及びニックトランスレーション活性を結合する1つ以上の酵素を用いるニックトランスレーションを使用してランダムであり得る。いくつかの実施形態では、本教示に従って実施されるニックトランスレーション条件は、非標識核酸断片を生成する(U.S.2012/0301926,Chen)。例えば、表教示には、ニッキング酵素(例えば、DNase I)、及び5’→3’分解/重合活性を有するポリメラーゼを含むニックトランスレーション条件が含まれ得るか、またはニッキング酵素(例えば、DNase I)及び5’→3’鎖置換活性を有するポリメラーゼ(例えば、Taqポリメラーゼ)が含まれ得る。本教示によるニックトランスレーション反応は、1つ以上の非標識ヌクレオチド(例えば、dATP、dTTP、dCTP、dGTP、dUTP、またはそれらの類似体)をさらに含み得る。ニックトランスレーション反応は、マグネシウム、マンガン、またはカルシウム等のカチオンを含み得る。ニックトランスレーション反応は、ファージT4 gp 32タンパク質、Sulfolobus solfataricus一本鎖結合タンパク質、Methanococcus jannaschii一本鎖結合タンパク質、またはE.coli一本鎖結合タンパク質を含む少なくとも1つの一本鎖結合タンパク質を含み得る。断片サイズは、約20〜10,000塩基対の長さであり得る。
いくつかの実施形態では、本開示は、全体として、標的及び非標的ポリヌクレオチドを含むか、または非標的ポリヌクレオチドを欠く複数のポリヌクレオチドを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。例えば、標的ポリヌクレオチドは、目的のポリヌクレオチドであり、非標的ポリヌクレオチドは、目的でないポリヌクレオチドである。複数のポリヌクレオチドは、標的ポリヌクレオチド及びその関連変異体を含有する少なくとも1つの標的ポリヌクレオチドのグループを含み得る。例えば、標的ポリヌクレオチドのグループは、野生型形態である標的ポリヌクレオチド及びその関連多型形態を含み得、これには変異体(variant)形態、アリル形態、及び/または変異体(mutant)形態が含まれ得る。関連変異体形態は、少なくとも1つの遺伝点変異、挿入、欠失、置換、逆位、再編成、接合、配列融合(例えば、遺伝子融合もしくはRNA融合)、トランケーション、トランスバージョン、転座、ナンセンス変異、配列反復、一塩基多型(SNP)、または他の遺伝的再編成を含有する。変異(mutant)配列または変異(variant)配列はまた、コピー数多型、異数性、部分的異数性、または倍数性を含む。
いくつかの実施形態では、本開示は、全体として、ポリヌクレオチドに付加することができるタグを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、タグは、オリゴヌクレオチドを含み、これには一本鎖または二本鎖オリゴヌクレオチドが含まれる。
いくつかの実施形態では、本開示は、全体として、複数のポリヌクレオチドに付加することができる複数のタグを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。複数のタグ中の異なるタグは、同じ特性または異なる特性を有し得る。
タグは、配列、長さ、及び/もしくは検出可能な部分を含む特性、またはそれが付加されるポリヌクレオチド分子を特定する任意の他の特性を含み得る。
例えば、タグ(例えば、一意のタグ配列を有する)は、それが付加される個々のポリヌクレオチドを一意的に特定し、混合物中の他のタグ付けされたポリヌクレオチドから個々のポリヌクレオチドを区別することができる。
別の例では、複数のポリヌクレオチドに付加されたタグ(例えば、試料特異的配列または試料特異的バーコード配列を有する)は、共通の試料または供給源に由来するポリヌクレオチドを特定することができる。いくつかの実施形態では、単一反応混合物中のタグ付き分子のうちの実質的全てが、同じバーコード配列を付加され得る。
タグは、二本鎖ポリヌクレオチドに付加して、鎖の一方または両方を特定することができる。
いくつかの実施形態では、タグ付きポリヌクレオチドの結合配列が使用して、ポリヌクレオチドを特定することができる。例えば、タグ(例えば、一意のタグまたは試料特異的タグ)の少なくとも一部、及びタグと並置されたポリヌクレオチド(例えば、内因性ポリヌクレオチド配列)の一部を含有する結合配列を使用して、ポリヌクレオチドを特定することができる。結合配列には、タグの少なくとも一部、及びポリヌクレオチドの少なくとも2〜20、または約20〜50、または約50〜100、またはそれ以上のヌクレオチドが含まれ得る。任意に、ポリヌクレオチドの一方または両方の末端は、1つ以上のタグに付加されている。任意に、結合配列のうちの一方または両方を使用して、ポリヌクレオチドを特定することができる。
いくつかの実施形態では、タグは、DNA、RNA、もしくはDNA及びRNAの両方、またはそれらの類似体を含む。タグは、一本鎖もしくは二本鎖核酸、またはそれらの類似体を含む。タグは、天然、合成、組換え形態であり得る。
DNA及びRNAの両方を含むタグの場合、タグの5’末端は、RNAまたはDNAである。DNA及びRNAの両方を含むタグの場合、タグの3’末端は、RNAまたはDNAである。
いくつかの実施形態では、二本鎖タグの少なくとも一方の末端は、平滑端または突出末端であり、これには5’または3’突出末端が含まれる。
タグは、2〜2000ヌクレオチドもしくは塩基対、または2〜1000ヌクレオチドもしくは塩基対、または2〜100ヌクレオチドもしくは塩基対、または2〜75ヌクレオチドもしくは塩基対、または2〜50ヌクレオチドもしくは塩基対、または2〜25ヌクレオチドもしくは塩基対、または2〜10ヌクレオチドもしくは塩基対を含む、任意の長さであり得る。タグは、約100〜200ヌクレオチド長以上であり得る。
いくつかの実施形態では、複数のタグは、同じまたは異なる長さを有するタグを含む。
いくつかの実施形態では、複数のタグは、同じまたは異なる配列を有するタグを含む。
いくつかの実施形態では、複数のタグは、同じまたは異なる検出可能な部分を有するタグを含む。
任意に、タグは、タグをヌクレオチドに対して耐性にするヌクレオチド類似体またはヌクレオチド間の結合を含み得る。任意に、タグは、少なくとも1つのホスホロチオレート(phosphorothiolate)、ホスホロチオエート、及び/またはホスホルアミデート結合を含む。
任意に、タグは、ヌクレオチドの2’または3’糖基に結合した保護基を含み、保護基は、ヌクレオチド取り込みを阻害する。
任意に、タグの3’末端は、3’OHを含み得る。
任意に、タグの5’末端は、リン酸基を含み得る。
任意に、タグは、末端のいずれかまたはタグ内の任意の位置でビオチン化され得る。
任意に、タグは、切断部位を含み得、これには制限エンドヌクレアーゼ配列、ニッキング酵素配列、II型配列、または少なくとも1つのウラシル塩基が含まれる。例えば、少なくとも1つのウラシル塩基を含有するタグは、ウラシルDNAグリコシラーゼ(UDG)及びホルムアミドピリミジンDNAグリコシラーゼ(Fpg)によって切断可能である。
任意に、タグは、少なくとも1つの一意のタグ配列と、少なくとも1つのバーコード配列(例えば、試料特異的タグ配列)と、増幅プライマー配列、配列決定プライマー配列、切断可能部位、及び/または支持体への移植のための配列持体(例えば、捕捉プライマー配列)を含む少なくとも1つのユニバーサル配列とを含み得る。
いくつかの実施形態では、タグは、実質的にセルフハイブリダイズではないため、ヘアピン、ステムループ、または環状構造を容易に形成しない。
いくつかの実施形態では、タグは、直鎖状核酸分子である。
いくつかの実施形態では、タグはセルフハイブリダイズであるため、ヘアピン、ステムループ、または環状構造を形成することができる。
いくつかの実施形態では、タグは、増幅もしくは配列決定プライマーの一部、アダプターの一部、または別個の核酸であり得る。
いくつかの実施形態では、タグは、組換えもしくは化学合成技術を使用して、またはコンビナトリアル合成法によって合成することができる。
任意に、異なるタグの混合物は、タグの異なるバッチを手練りまたは機械練りすることによって作製され得る。
いくつかの実施形態では、少なくとも1つのタグは、直鎖状または環状ポリヌクレオチド分子に付加され得る。
タグは、ポリヌクレオチドの内部領域内に挿入されるか、またはポリヌクレオチドの一方もしくは両方の末端に付加される。
いくつかの実施形態では、タグの配列は、ポリヌクレオチドの一部にハイブリダイズするか、またはポリヌクレオチドへの最小のハイブリダイゼーションを呈するように設計され得る。任意に、タグは、任意のポリヌクレオチド配列に実質的にハイブリダイズしない。
いくつかの実施形態では、タグのセット(例えば、タグのレパートリー)は、同じ配列を有する複数のタグを含み得るか、またはセット中のタグのうちの少なくとも2つは、異なる配列を含有する。
いくつかの実施形態では、タグのセットは、約1〜4個の一意のタグ、または4〜100個の一意のタグ、または100〜500個の一意のタグ、または500〜1000個の一意のタグ、または1000〜5000個の一意のタグ、または5000〜10,000個の一意のタグ、または10,000個超の一意のタグを含む。
いくつかの実施形態では、タグのセットは、約105個、または106個、または107個、または108個、または109個、または1010個、または1011個、または1012個超の一意のタグを含む。
いくつかの実施形態では、タグのセットは、タグのセットは、核酸試料中の5〜100、または100〜200、または200〜300、または300〜400、または400〜500、またはそれ以上の異なる標的ポリヌクレオチドの存在を検出し得る。
タグのセットは、同じ長さを有する複数のタグを含み得るか、またはセット中のタグのうちの少なくとも2つは異なる長さを有する。
セット内の少なくとも2つのタグは、それらの配列、長さ、及び/または検出可能な部分によって互いから区別することができる。
セット内の少なくとも2つのタグは、実質的に同じである融解温度を有し、融解温度は、互いの約10〜5℃以内、または互いの約5〜2℃いない、または互いの約2〜0.5℃いない、または互いの約0.5℃未満以内である。
タグのセットにおいて少なくとも1つのタグが検出可能な部分で標識されているか、またはセット中の全てのタグが標識されていない。
セット中のタグのうちの少なくとも2つは、最小のクロスハイブリダイゼーションを呈する。
タグのセット中の少なくとも1つのタグは、セット中の別のタグとは異なる少なくとも1、2、3、または4つの塩基を含有する。
いくつかの実施形態では、本開示は、全体として、ポリヌクレオチドに付加することができるランダマータグであるタグを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、複数のポリヌクレオチドに付加することができるランダマータグである複数のタグを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。複数のランダマータグ中の異なるランダマータグは、同じ特性または異なる特性を有し得る。
いくつかの実施形態では、少なくとも1つのランダム配列を含有するタグは、ランダマータグである。
いくつかの実施形態では、ランダマータグは、少なくとも1つのランダム配列と少なくとも1つの固定配列とを含むか、または両側で固定配列に隣接するランダム配列を含むか、または両側でランダム配列に隣接する固定配列を含む。いくつかの実施形態では、ランダマータグは、少なくとも2つの固定配列と交互になっている少なくとも2つのランダム配列を有するオリゴヌクレオチドを含む。いくつかの実施形態では、ランダマータグは、2つの固定配列と交互になっている2つのランダム配列を含むか、またはランダマータグは、3つの固定配列と交互になっている3つのランダム配列、または4つの固定配列と交互になっている4つのランダム配列を含む。当業者であれば、ランダマータグは、固定配列を有する任意の数のユニットと交互になっているランダム配列を有する任意の数のユニットを含み得ることを理解するであろう。
いくつかの実施形態では、アミノ酸をコードするか、または停止コドンをコードするか、またはアミノ酸もしくは停止コドンをコードしない3つのヌクレオチドのユニットを含有するランダマータグ。
ランダマータグは、2〜2000ヌクレオチドもしくは塩基対、または2〜1000ヌクレオチドもしくは塩基対、または2〜100ヌクレオチドもしくは塩基対、または2〜75ヌクレオチドもしくは塩基対、または2〜50ヌクレオチドもしくは塩基対、または2〜25ヌクレオチドもしくは塩基対、または2〜10ヌクレオチドもしくは塩基対の長さである固定配列を含み得る。
ランダマータグは、2〜2000ヌクレオチドもしくは塩基対、または2〜1000ヌクレオチドもしくは塩基対、または2〜100ヌクレオチドもしくは塩基対、または2〜75ヌクレオチドもしくは塩基対、または2〜50ヌクレオチドもしくは塩基対、または2〜25ヌクレオチドもしくは塩基対、または2〜10ヌクレオチドもしくは塩基対の長さであるランダム配列を含み得る。
ランダマータグは、固定配列が点在する少なくとも1つのランダム配列を含み得る。
いくつかの実施形態では、ランダマータグは、構造(N)n(X)x(M)m(Y)yを含み、(i)配列中、「N」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、「N」ランダムタグ配列のヌクレオチド長を表す「n」は2〜10であり、(ii)「X」は固定タグ配列を表し、「X」ランダムタグ配列のヌクレオチド長を表す「x」は2〜10であり、(iii)「M」は、A、G、C、T、U、またはIから生成されたランダムタグ配列を表し、ランダムタグ配列「M」はランダムタグ配列「N」とは異なるかまたはそれと同じであり、「M」ランダムタグ配列のヌクレオチド長を表す「m」は2〜10であり、(iv)「Y」は固定タグ配列を表し、固定タグ配列「Y」は固定タグ配列「X」と同じであるかまたはそれとは異なり、「Y」ランダムタグ配列のヌクレオチド長を表す「y」は、2〜10である。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「X」は複数のタグにおいて異なる。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて同じである。いくつかの実施形態では、固定タグ配列「Y」は複数のタグにおいて異なる。いくつかの実施形態では、複数の一本鎖プライマー内の固定タグ配列「(X)x」及び「(Y)y」は、配列アライメントアンカーである。
ランダマータグ内のランダム配列は、「N」で表され、固定配列は、「X」で表される。したがって、ランダマータグは、N
1N
2N
3X
1X
2X
3によって、または
によって、または
によって、または
によって表され得る。これらはランダマータグの限定的な例を表すことを意図せず、当業者であれば、多くの他の構造が可能であることを理解するであろう。ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、及びIからなる群よりランダムに選択され得るランダム配列を有し得る。例えば、ランダム配列内の各位置のヌクレオチドは、A、G、C、T、U、もしくはIのいずれか1つから独立して選択され得るか、またはこれらの6つの異なる種類のヌクレオチドのサブセットから選択され得る。任意に、ランダム配列内の各位置のヌクレオチドは、A、G、C、またはTのいずれか1つから独立して選択され得る。ランダマータグは、ヌクレオチド位置のうちのいくつかまたは全てがA、G、C、T、U、またはIのサブセット(例えば、限られたセット)からランダムに選択され得るランダム配列を有し得る。例えば、ランダムは位置内の各位置のヌクレオチドは、A、G、C、T、U、及びIから選択される任意の2つのヌクレオチドを含有するサブセットから独立して選択され得る。ランダムは位置内の各位置のヌクレオチドは、A、G、C、T、U、及びIから選択される任意の3つ、4つ、または5つのヌクレオチドを含有するサブセットから独立して選択され得る。2つのヌクレオチドのサブセットの非限定的な例としては、C及びT、またはA及びGが挙げられる。当業者であれば、多くの他のサブセットが可能であることを理解するであろう。いくつかの実施形態では、第1の固定タグ配列「X
1X
2X
3」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、第2の固定タグ配列「X
4X
5X
6」は、複数のタグにおいて同じであるか、または異なる。いくつかの実施形態では、複数の一本鎖タグプライマー内の第1の固定タグ配列「X
1X
2X
3」及び第2の固定タグ配列「X
4X
5X
6」は、配列アライメントアンカーである。
多数の一意のランダマータグを精製することによって、核酸試料中のかなりの割合のポリヌクレオチド(または標的ポリヌクレオチド)が少なくとも1つのランダマータグを付加される可能性を増加させることが可能となる。ランダマータグ内の1つのランダム配列の存在は、生じ得る一意のランダマータグの数を増加させるように働く。複数のランダム配列は、ランダマータグのレパートリーの多様性をさらに増加させることになる。生じ得る一意のランダマータグの数は、ランダム配列の長さ、及びランダム配列の生成に使用され得る生じ得る異なるヌクレオチド塩基の数、ならびに固定配列の長さによって規定される。例えば、配列
(配列中、「N」は、A、G、C、またはTからランダムに生成されたランダム配列内の位置を表す)を有する12−merランダマータグであって、生じ得る別個のランダマータグは、4
6(または4^6)と計算され、約4096であり、2つのランダマータグの生じ得る異なる組み合わせの数は、4
12(または4^12)であり、約1678万である。いくつかの実施形態では、
の下線部は、配列アライメントアンカーである。
いくつかの実施形態では、異なるランダマータグは、異なるランダマータグ間で同じであるか、または異なる少なくとも1つの固定配列を含み得る。
いくつかの実施形態では、異なるランダマータグは、異なるランダマータグ間で同じであるか、または異なる長さを有する少なくとも1つの固定配列を含み得る。
固定配列が点在するランダム配列を含有するように設計されたランダマータグを使用するいくつかの利点が存在する。例えば、固定配列は、プライマー伸長または増幅工程中のプライマー−プライマー相互作用及び/またはプライマー二量体形成を低減させる、ある特定の配列、長さ、及び間隔を含有するように設計され得る。任意に、2〜10ヌクレオチド長の短い固定長を有するランダマータグは、プライマー伸長または増幅工程中のプライマー−プライマー相互作用及び/またはプライマー二量体形成を低減し得る。
別の例では、固定配列内で分散されたランダム配列は、ランダマータグの短い全長を維持しながら、ランダマータグのセットの多様性を増加させ、それによりランダマータグの領域にわたる配列決定のためにより少ない時間及び試薬を要することになるが、依然としてエラー修正された配列決定データの生成に使用される配列決定データを伝える。
固定配列及びランダム配列の交互のユニット配列を含有するランダマータグを使用して分子タグ付け手順を実施することの利点は、配列リードのエラー修正(例えば、配列リードのファミリーのエラー修正)にランダマータグ配列を使用することができることである。例えば、候補配列リードは、共通のランダマータグ配列に基づいてファミリーにグループ化することができる。ランダマータグ配列内の固定配列は、任意の所与のタグファミリーの全てのメンバーが、固定配列の参照配列と同一である長さ、配列、及び間隔を含有しなければならないという厳しい要件を化するための配列アライメントアンカーとして使用され得る。この要件を満たさない候補配列リードは、さらなる分析から除去され得る。例えば、配列
を有する参照ランダマータグにおいて、2つの固定配列5’−ACT−3’及び5’−TGA−3’の長さ、配列、及び間隔が、候補配列リードのタグ配列部分との比較のために配列アライメントアンカーとして使用され得る。候補配列リードのタグ配列部分が、2つの固定配列の長さ、配列、及び間隔と一致しない場合、候補配列リードは破棄され得る。この種類のランダマータグ配列との比較、及び配列リードを保持または廃棄する判断は、任意の候補配列リードに適用することができる。固定配列との一致を担持しない候補配列リードは、プライマー伸長または増幅のポリヌクレオチドに対応し、ポリメラーゼ媒介性のヌクレオチドの誤った取り込みまたは鎖のスリップによって導入された擬似エラーを有する可能性が高い。鎖のスリップは、プライマー伸長中の新生鎖または鋳型鎖の二次構造形成(例えば、ループ形成)によってもたらされ得る。したがって、ランダマータグ配列内の固定配列は、エラー修正された配列リードのファミリーの生成を含む、エラー修正された配列決定データを生成するために使用される配列アライメントアンカーとして役立ち得る。交互の固定配列及びランダム配列を欠くタグを使用する分子タグ付け手順は、タグ領域内にエラーを担持する配列リードを特定することができず、したがってこの様式でエラー修正された配列決定データを生成することができない。
いくつかの実施形態では、ランダマータグの参照配列を使用して、候補配列リード中のランダマータグの配列を修正する。例えば、候補配列リードが、ランダマータグ配列が
であることを示し、参照配列が
であることが既知である場合、エラー修正アルゴリズムが適用されて、誤った塩基をCからAに変更し、
であるエラー修正された配列リードをもたらす。いくつかの実施形態では、ランダマータグ配列は、任意の配列リードを修正するためには使用されず、代わりに、エラー(例えば、ランダマータグ配列中のエラー)を含有する候補配列リードは、破棄される。
ランダム配列を複数ユニット有するランダマータグを使用する別の利点は、ランダマータグの集団が、一意のタグ配列の実質的に非消耗性な集団として機能するのに十分な配列多様性を提供することである。複数のランダム配列の存在は、ランダマータグ配列のレパートリーの多様性を増加させる。生じ得る一意のランダマータグの数は、ランダム配列の長さ、及びランダム配列の生成に使用され得る生じ得る異なるヌクレオチド塩基の数、ならびに固定配列の長さによって規定される。さらに、交互の固定/ランダム配列を含有するランダマータグの全長を最小化して、エラー修正された配列決定データを可能にしながら、一方または両方のタグ及び標的配列を配列決定するために必要な時間及び試薬の量を低減することができる。
いくつかの実施形態では、本開示は、全体として、少なくとも1つのタグ(例えば、少なくとも1つのランダマータグ)を含有する1つ以上のプライマーを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、プライマーは、DNA、RNA、DNA及びRNAの両方、またはそれらの類似体を含有するオリゴヌクレオチドを含む。任意に、プライマーは、一本鎖または二本鎖である。任意に、プライマーは天然であるか、または化学合成もしくは組換え手順を使用して合成され得る。任意に、プライマーは、伸長可能な3’末端または伸長可能でない3’末端を含み、伸長可能でない末端の末端ヌクレオチドは、2’または3’糖位置で遮断部分を担持する。
いくつか実施形態では、プライマーは、ポリヌクレオチドの一部に選択的にハイブリダイズする領域(例えば、プライマーの3’領域中の標的特異的配列)を含み得る。プライマーはまた、ポリヌクレオチドの一部への最小のハイブリダイゼーションを呈するように設計された領域(例えば、プライマーの5’領域中の非標的特異的配列)も含み得る。例えば、プライマーは、テイルドプライマーであり得る。プライマーは、5’テイル領域中に少なくとも1つのタグを含み得る。
いくつかの実施形態では、プライマー対は、増幅反応(例えば、PCR)に使用され得る順方向及び逆方向プライマーを含む。例えば、プライマー対における第1のプライマー(例えば、順方向プライマー)は、第1及び第2のプライマーが約10〜500塩基対、または約10〜2000塩基対、または約2000〜5000塩基対、または約5000〜10,000塩基対、または二本鎖形態にあるポリヌクレオチドのそれ以上の分離距離で分離するように、ポリヌクレオチドの第1の位置にハイブリダイズすることができ、同じプライマー対における第2のプライマー(例えば、逆方向プライマー)は、同じポリヌクレオチド(または相補鎖)の第2の位置にハイブリダイズすることができる。これらの実施形態は、第3のプライマー(例えば、順方向プライマー)及び第4のプライマー(例えば、逆方向プライマー)を含む第2のプライマー対に適用される。
いくつかの実施形態では、任意の所与のプライマー対における第1及び第2のプライマーは、それらのハイブリダイゼーション位置が、ポリヌクレオチドの標的領域に隣接するように、ポリヌクレオチドにハイブリダイズすることができる。
いくつかの実施形態では、プライマー伸長反応において第1及び/または第2のプライマー対(例えば、テイルドプライマー)を使用して、少なくとも1つのタグを付加されたポリヌクレオチドを生成することができる。任意に、プライマー伸長反応は、等温条件下もしくはサーモサイクリング条件下、または等温条件及びサーモサイクリング条件の組み合わせの下で行われ得る。
いくつかの実施形態では、プライマー伸長反応からの伸長産物は、約10〜2000ヌクレオチド、または約2000〜5000ヌクレオチ、または約5000〜10,000ヌクレオチドの長さである。
いくつかの実施形態では、プライマー伸長反応は、標的ポリヌクレオチド(例えば、標的DNAまたはRNAポリヌクレオチド)の領域に選択的にハイブリダイズして、イントロン、エキソン、ジャンクションイントロン−エキソン、コード、非コード、または融合配列をスパニングするタグ付き増幅産物を生成することができる順方向及び逆方向プライマー(例えば、テイルドプライマー)を使用して、DNA、RNA、またはDNA及びRNAの混合物上で実施され得る。
いくつかの実施形態では、本開示は、全体として、少なくとも1つのアダプターを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、ポリヌクレオチドに付加された少なくとも1つのアダプターを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、アダプターは、少なくとも1つのタグ(例えば、少なくとも1つのランダマータグ)を含み得る。
いくつかの実施形態では、ポリヌクレオチドは、少なくとも1つのアダプターに結合もしくは付加されているか、または任意のアダプターを欠いている。いくつかの実施形態では、1つ以上のアダプターは、ライゲーションによりポリヌクレオチドに結合され得る。
いくつかの実施形態では、アダプターは、DNA、RNA、RNA/DNA分子、またはそれらの類似体を含む核酸を含む。いくつかの実施形態では、アダプターは、1つ以上のデオキシリボヌクレオシドまたはリボヌクレオシド残基を含み得る。いくつかの実施形態では、アダプターは、一本鎖もしくは二本鎖核酸であってもよく、または一本鎖部分及び/または二本鎖部分を含んでもよい。いくつかの実施形態では、アダプターは、直鎖状、ヘアピン、フォーク(Y字形)、またはステムループを含む任意の構造を有し得る。例えば、Y字形アダプターは、一方の末端部分が第2のオリゴヌクレオチドの末端部分にハイブリダイズされて二重ステム部分を形成し、第1及び第2のオリゴヌクレオチドの他方の末端部分は互いにハイブリダイズされていない第1のオリゴヌクレオチドを含み得る。Y字形アダプターの例としては、米国特許第8,563,478号(Gormley)、同第8,053,192号(Bignell)、同第7,741,463号(Gormley)、同第8,182,989号(Bignell)、同第6,287,825号(Weissman)、同第8,420,319号(Mikawa)、及び同第7,993,842号(McKernan)が挙げられる。
任意に、直鎖状、ヘアピン、ステムループ、またはY字形アダプターは、少なくとも1つのタグ配列(例えば、少なくとも1つのランダマータグ配列)を含有する。例えば、ヘアピン、ステムループ、またはY字形アダプターのステム部分は、少なくとも1つのタグ(例えば、少なくとも1つのランダマータグ)を含有する。分子タグ付け方法に使用されるY字形アダプターの例は、米国特許出願第2015/0044687号、同第2015/0031559号、同第2014/0155274号、同第2014/0227705号、ならびに国際公開第WO2013/181170号及び同第WO2015/100427号に見出すことができる。
いくつかの実施形態では、アダプターは、10塩基長未満、または約10〜20塩基長、または約20〜50塩基長、または約50〜100塩基長、またはそれより長い塩基長を含む任意の長さを有し得る。
いくつかの実施形態では、アダプターは、平滑端及び/または結合末端の任意の組み合わせを有し得る。いくつかの実施形態では、アダプターの少なくとも1つの末端は、核酸断片の少なくとも1つの末端と互換的であり得る。いくつかの実施形態では、アダプターの互換的な末端は、核酸断片の互換的な末端に結合され得る。いくつかの実施形態では、アダプターは、5’または3’突出末端を有し得る。
いくつかの実施形態では、アダプターは、5’または3’突出テイルを有し得る。いくつかの実施形態では、テイルは、1〜50ヌクレオチド長またはそれ以上の任意の長さであり得る。
いくつかの実施形態では、アダプターは、内部ニックを含み得る。いくつかの実施形態では、アダプターは、末端5’リン酸残基を欠く少なくとも1つの鎖を有し得る。いくつかの実施形態では、5’リン酸残基を欠くアダプターは、核酸断片に結合し、アダプターと核酸断片との間の結合部にニックを導入することができる。
いくつかの実施形態では、アダプターは、ポリヌクレオチド、捕捉プライマー、融合プライマー、溶液相プライマー、増幅プライマー、または配列決定プライマーの任意の部分と同一であるか、またはそれに対して相補的であり得る。
いくつかの実施形態では、アダプターは、オリゴ−dA、オリゴ−dT、オリゴ−dC、オリゴ−dG、またはオリゴ−U配列を含み得る。
いくつかの実施形態では、アダプターは、一意の識別子配列(例えば、バーコード配列)を含み得る。いくつかの実施形態では、ポリヌクレオチドの多重ライブラリを構築するために、複数のバーコード化アダプター(例えば、複数の異なるバーコード化アダプター)を使用することができる。いくつかの実施形態では、バーコード化アダプターは、ポリヌクレオチドに付加され得、ポリヌクレオチドの供給源を分類または追跡するために使用される。例えば、ポリヌクレオチドの集団は、共通の供給源から得られたものとしてポリヌクレオチドを特定する共通のバーコード化アダプターに付加され得る。いくつかの実施形態では、1つ以上のバーコード配列は、異なるバーコード配列を有する異なるアダプターの混合物における特定のアダプターの特定を可能にし得る。例えば、混合物は、2、3、4、5、6、7〜10、10〜50、50〜100、100〜200、200〜500、500〜1000、またはそれ以上の一意のバーコード配列を有する異なるアダプターを含み得る。
いくつかの実施形態では、アダプターは、縮重配列を含み得る。いくつかの実施形態では、アダプターは、1つ以上のイノシン残基を含み得る。
いくつかの実施形態では、アダプターは、少なくとも1つの切断可能結合を含み得る。いくつかの実施形態では、切断可能結合は、切断しやすいか、または酵素もしくは化学化合物によって分解されやすい場合がある。任意に、アダプターは、少なくとも1つのウラシル塩基を含む。いくつかの実施形態では、アダプターは、少なくとも1つのホスホロチオレート、ホスホロチオエート、及び/またはホスホルアミデート結合を含み得る。例えば、少なくとも1つのウラシル塩基を含有するタグは、ウラシルDNAグリコシラーゼ(UDG)及びホルムアミドピリミジンDNAグリコシラーゼ(Fpg)によって切断可能である。
いくつかの実施形態では、アダプターは、I型、II型、lIs型、IIB型、III型、IV型制限酵素認識配列を含む任意の種類の制限酵素認識配列、または回文もしくは非回文認識配列を有する認識配列を含み得る。
いくつかの実施形態では、アダプターは、プロモーター(誘導性もしくは構成的)、エンハンサー、転写もしくは翻訳開始配列、転写もしくは翻訳停止配列、分泌シグナル、コザック配列、細胞タンパク質結合配列等を含む細胞調節配列を含み得る。
いくつかの実施形態では、任意のプライマー(例えば、テイルドプライマー)またはアダプターは、化学分解、連鎖停止、合成による配列決定法、ピロリン酸、大規模並列、イオン感応性、及び単分子プラットホームを含む任意の種類の配列決定プラットホームにおける使用のために互換的であり得る。いくつかの実施形態では、任意のプライマーまたはアダプターは、オリゴヌクレオチドプローブのライゲーション及び検出による配列決定(例えば、Life TechnologiesからのSOLiD(商標)、WO2006/084132)、プローブ−アンカーライゲーション配列決定(例えば、Complete GenomicsまたはPolonator(商標))、合成による配列決定法(例えば、IlluminaのGenetic Analyzer(商標)またはHiSeq(商標)、Bentley 2006 Current Opinion Genetics&Development 16:545−552及びBentley,et al.,2008 Nature 456:53−59、及び米国特許第7,566,537号も参照されたい)、ピロリン酸配列決定(例えば、454 Life SciencesからのGenome Sequencer FLX(商標)、米国特許第7,211,390号、同第7,244,559号、及び同第7,264,929454号(Life Sciences))、イオン感応性配列決定(例えば、いずれもIon Torrent Systems,Inc.からのPersonal Genome Machine(Ion PGM(商標))及びIon Proton(商標)Sequencer)、ならびに単分子配列決定プラットホーム(例えば、HelicosからのHeliscope(商標))を含む任意の種類の配列決定手順における使用に互換的であり得る。例えば、任意のプライマーまたはアダプターを使用して、配列決定反応を行うために使用される支持体(例えば、ビーズ、フローセル、または反応部位のアレイ)にポリヌクレオチドを移植することができる。
いくつかの実施形態では、本開示は、全体として、1つ以上のポリメラーゼを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、組成物(ならびに関連する方法、システム、キット、装置、及びコンピュータ可読媒体)は、1種類のポリメラーゼまたは異なる種類のポリメラーゼの混合物を含む。いくつかの実施形態では、ポリメラーゼは、ヌクレオチド及び/またはヌクレオチド類似体の重合化を触媒することができる任意の酵素、またはその断片もしくはサブユニットを含む。いくつかの実施形態では、ポリメラーゼは、伸長可能な3’末端を有する核酸を必要とする。例えば、ポリメラーゼは、ヌクレオチド重合を開始するために、核酸プライマーの末端3’OHを必要とし得る。
ポリメラーゼは、ヌクレオチド(その類似体を含む)の核酸鎖への重合を触媒することができる任意の酵素を含む。必ずしもそうではないが、典型的には、かかるヌクレオチド重合は、鋳型依存性の様式で生じ得る。いくつかの実施形態では、ポリメラーゼは、忠実度の高いポリメラーゼであり得る。かかるポリメラーゼには、限定することなく、天然ポリメラーゼ及びその任意のサブユニット及びトランケーション、変異ポリメラーゼ、変異体ポリメラーゼ、組換え、融合、または他の様式で改変されたポリメラーゼ、化学的に修飾されたポリメラーゼ、合成分子または集合体、ならびにかかる重合を触媒する能力を保持するそれらの任意の類似体、誘導体、または断片が含まれ得る。任意に、ポリメラーゼは、1つ以上のアミノ酸の他のアミノ酸との置換、ポリメラーゼからの1つ以上のアミノ酸の挿入もしくは欠失、または2つ以上のポリメラーゼの部分の結合を伴う1つ以上の変異を含む変異ポリメラーゼであり得る。本明細書で使用される場合、「ポリメラーゼ」という用語及びその変形は、互いに結合した少なくとも2つの部分を含む融合タンパク質も指し、第1の部分は、ヌクレオチドの核酸鎖への重合を触媒することができ、例えば、レポーター酵素または処理能力増強ドメイン等の第2のポリペプチドを含む第2の部分に結合している。典型的には、ポリメラーゼは、ヌクレオチド結合及び/またはヌクレオチド重合の触媒が生じ得る1つ以上の活性部位を含む。いくつかの実施形態では、ポリメラーゼは、例えば、3’−5’エキソヌクレアーゼ活性または5’−3’エキソヌクレアーゼ活性等の他の酵素活性を含むか、または欠いている。いくつかの実施形態では、ポリメラーゼは、細胞から単離されるか、または組み換えDNA技術もしくは化学合成法を使用して精製され得る。いくつかの実施形態では、ポリメラーゼは、原核生物、真核生物、ウイルス、またはファージ有機体において発現され得る。いくつかの実施形態では、ポリメラーゼは、翻訳後修飾されたタンパク質またはその断片であり得る。
いくつかの実施形態では、ポリメラーゼは、DNAポリメラーゼであり得、これには、限定することなく、細菌DNAポリメラーゼ、真核細胞DNAポリメラーゼ、古細菌DNAポリメラーゼ、ウイルスDNAポリメラーゼ、及びファージDNAポリメラーゼが含まれる。
いくつかの実施形態では、ポリメラーゼは、レプリカーゼ、DNA依存性ポリメラーゼ、プライマーゼ、RNA依存性ポリメラーゼ(例えば、逆転写酵素等のRNA依存性DNAポリメラーゼ)、熱不安定性ポリメラーゼ、または熱安定性ポリメラーゼであり得る。いくつかの実施形態では、ポリメラーゼは、任意のファミリーAまたはB型ポリメラーゼであり得る。多くの種類のファミリーA(例えば、E.coli Pol I)、ファミリーB(例えば、E.coli Pol II)、ファミリーC(例えば、E.coli Pol III)、ファミリーD(例えば、Euryarchaeotic Pol II)、ファミリーX(例えば、ヒトPol beta)、及びファミリーY(例えば、E.coli UmuC/DinB及び真核細胞RAD30/xeroderma pigmentosum変異体)のポリメラーゼは、Rothwell and Watsman 2005 Advances in Protein Chemistry 71:401−440に記載されている。いくつかの実施形態では、ポリメラーゼは、T3、T5、T7、またはSP6 RNAポリメラーゼであり得る。いくつかの実施形態では、ポリメラーゼ (例えば、T7ポリメラーゼ)を含む反応混合物は、チオレドキシンも含み得る。
いくつかの実施形態では、ポリメラーゼは、熱安定性または熱不安定性ポリメラーゼを含む。いくつかの実施形態では、ポリメラーゼは、低忠実度または高忠実度のポリメラーゼを含む。
いくつかの実施形態では、ポリメラーゼは、5’−3’エキソヌクレアーゼ活性を欠いてもよい。いくつかの実施形態では、ポリメラーゼは、鎖置換活性を有し得る。
いくつかの実施形態では、古細菌DNAポリメラーゼは、限定することなく、熱安定性もしくは好熱性DNAポリメラーゼ、例えば、Bacillus subtilis(Bsu)DNAポリメラーゼIラージフラグメント;Thermus aquaticus(Taq)DNAポリメラーゼ;Thermus filiformis(Tfi)DNAポリメラーゼ;Phi29 DNAポリメラーゼ;Bacillus stearothermophilus(Bst)DNAポリメラーゼ;Thermococcus sp.9°N−7 DNAポリメラーゼ;Bacillus smithii (Bsm)DNAポリメラーゼラージフラグメント;Thermococcus litoralis(Tli)DNAポリメラーゼもしくはVENT(エキソ−)DNAポリメラーゼ(New England Biolabsから);または「Deep Vent」(エキソ−)DNAポリメラーゼ(New England Biolabs)であり得る。いくつかの実施形態では、ポリメラーゼは、E.coli ラージフラグメントDNAポリメラーゼI(例えば、Klenow)を含む。
いくつかの実施形態では、ポリメラーゼは、速いヌクレオチド取り込み速度を有するポリメラーゼ、または生物学的汚染物質(例えば、血液もしくは血清等の生体液由来の汚染物質)に対して耐性を呈するポリメラーゼを含む。いくつかの実施形態では、ポリメラーゼは、PyrococcusまたはPyrococcus様酵素を含み、これには、Pyrococcus furiosus(Pfu)由来のポリメラーゼが含まれる。いくつかの実施形態では、ポリメラーゼは、忠実度及び速度を増加させる処理能力増強ドメインに融合したPyrococcus由来のポリメラーゼの少なくとも一部を含む。いくつかの実施形態では、ポリメラーゼは、Phusionポリメラーゼ(欧州特許第1463809号)を含む。いくつかの実施形態では、ポリメラーゼは、Q5酵素を含む高忠実度のPfu酵素を含む(New England Biolabs)。
いくつかの実施形態では、本開示は、全体として、ポリメラーゼ活性のための少なくとも1つの補助因子を含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、補助因子は、1つ以上の二価カチオンを含む。二価カチオンの例としては、マグネシウム、マンガン、及びカルシウムが挙げられる。
いくつかの実施形態では、本開示は、全体として、1つ以上のヌクレオチドを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、組成物(ならびに関連する方法、システム、キット、装置、及びコンピュータ可読媒体)は、1種類のヌクレオチドまたは異なる種類のポリメラーゼの混合物を含む。ヌクレオチドは、ポリメラーゼに選択的に結合するか、またはそれによって重合され得る任意の化合物を含む。必ずしもそうではないが、典型的には、ヌクレオチドのポリメラーゼへの選択的な結合に続いて、ポリメラーゼによる核酸鎖へのヌクレオチドの重合化が生じる。かかるヌクレオチドは、天然ヌクレオチドだけでなく、その構造にかかわらず、ポリメラーゼに選択的に結合するか、またはそれによって重合され得る任意の類似体も含む。天然ヌクレオチドは典型的に塩基、糖、及びリン酸部分を含む一方、本開示のヌクレオチドは、かかる部分のうちのいずれか1つ、いくつか、または全てを欠く化合物を含み得る。いくつかの実施形態では、ヌクレオチドは、任意に、3、4、5、6、7、8、9、10、またはそれ以上のリン原子を含むリン原子の鎖を含み得る。いくつかの実施形態では、リン鎖は、糖環の任意の炭素、例えば、5’炭素に結合し得る。リン鎖は、介在するOまたはSを有する糖に結合し得る。いくつかの実施形態では、鎖中の1つ以上のリン原子は、P及びOを有するリン基の一部であり得る。いくつかの実施形態では、鎖中のリン原子は、介在するO、NH、S、メチレン、置換メチレン、エチレン、置換エチレン、CNH2、C(O)、C(CH2)、CH2CH2、またはC(OH)CH2R(式中、Rは、4−ピリジンまたは1−イミダゾールであり得る)と共に結合され得る。いくつかの実施形態では、鎖中のリン原子は、O、BH3、またはSを有する側鎖を有し得る。リン鎖において、O以外の側鎖を有するリン原子は、置換リン基であり得る。リン鎖において、O以外の介在原子を有するリン原子は、置換リン基であり得る。ヌクレオチド類似体のいくつかの例は、米国特許第7,405,281号(Xu)に記載されている。
開示される組成物(ならびに関連する方法、システム、キット、装置、及びコンピュータ可読媒体)において使用され得るヌクレオチドのいくつかの例としては、リボヌクレオチド、デオキシリボヌクレオシド、修飾リボヌクレオチド、修飾デオキシリボヌクレオチド、リボヌクレオチドポリホスフェート、デオキシリボヌクレオチドポリホスフェート、修飾リボヌクレオチドポリホスフェート、修飾デオキシリボヌクレオチドポリホスフェート、ペプチドヌクレオチド、修飾ペプチドヌクレオチド、メタロヌクレオシド(metallonucleoside)、ホスホネートヌクレオシド、及び修飾リン酸糖骨格ヌクレオチド、前述の化合物の類似体、誘導体、または変異体等が挙げられるが、これらに限定されない。いくつかの実施形態では、ヌクレオチドは、ヌクレオチドのアルファリン酸及び糖、またはヌクレオチドのアルファ及びベータリン酸、またはヌクレオチドのベータ及びガンマリン酸、またはヌクレオチドの任意の他の2つのリン酸、またはそれらの任意の組み合わせを架橋する酸素部分の代わりに例えば、チオ−またはボラノ−部分等の非酸素部分を含み得る。いくつかの実施形態では、ヌクレオチドは、プリンまたはピリミジン塩基を含み得、これには、アデニン、グアニン、シトシン、チミン、ウラシル、またはイノシンが含まれる。いくつかの実施形態では、ヌクレオチドは、dATP、dGTP、dCTP、dTTP、及びdUTPを含む。
いくつかの実施形態では、ヌクレオチドは、標識されていない。いくつかの実施形態では、ヌクレオチドは、標識を含み、本明細書において「標識ヌクレオチド」と呼ばれる。いくつかの実施形態では、標識は、塩基、糖、または任意の介在リン基もしくは末端リン基、すなわち糖から最も遠位のリン基を含むヌクレオチドの任意の部分に結合した蛍光色素の形態であり得る。
いくつかの実施形態では、ヌクレオチドは、ターミネーターヌクレオチドである。いくつかの実施形態では、ターミネーターヌクレオチドは、取り込まれると、核酸分子の3’末端でのさらなるヌクレオチド取り込みを阻害または遮断する。ターミネーターヌクレオチドは、さらなるヌクレオチド取り込みを阻害または遮断する能力を付与するターミネーター基(ターミネーター部分または保護部分または保護基とも呼ばれる)を含む。いくつかの実施形態では、ターミネーターヌクレオチドは、少なくとも1つのターミネーター基または部分に動作可能に結合し得る。いくつかの実施形態では、少なくとも1つのターミネーター基は、塩基、糖(例えば、2’または3’位置)、リン酸基、またはリン酸鎖中の任意のリン酸の任意の部分に動作可能に結合し得る。いくつかの実施形態では、ターミネーター基は、中和、切断、または他の様式で、好適な処置を介してターミネーターヌクレオチドから除去され得る。いくつかの実施形態では、ターミネーター基の中和、切断、または除去は、その後のヌクレオチド取り込みが生じることを可能にする。いくつかの実施形態では、伸長可能でない末端は、ターミネーター基の切断、中和、または除去を介して伸長可能に変化し得る。いくつかの実施形態では、ターミネーター基は、中和、切断、または他の様式で、好適な処置を介してターミネーターヌクレオチドから除去することができない(例えば、非可逆ターミネーターヌクレオチド)。ターミネーターヌクレオチドの例は、米国特許第7,057,026号、同第7,566,537号、同第7,785,796号、同第8,158,346号、同第7,541,444号、同第7,057,026号、同第7,592,435号、同第7,414,116号、同第7,427,673号、同第8,399,188号、同第7,713,698号、同第7,790,869号、同第8,088,575号、同第7,635,578号、及び同第7,883,869号、ならびに2016年3月18日に出願されたPCT出願第PCT/US2016/023139号に見出すことができ、これらは全て、全体が記載されているかのように参照により本明細書に明白に組み込まれる。
いくつかの実施形態では、本開示は、全体として、オリゴヌクレオチドタグ、捕捉プライマー、逆方向溶液相プライマー、融合プライマー、標的ポリヌクレオチド、及び/または非標識であるかもしくは少なくとも1つの標識に結合したヌクレオチドのうちのいずれか1つまたは任意の組み合わせを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、標識は、検出可能な部分を含む。いくつかの実施形態では、標識は、検出可能シグナルを生成することができるか、またはその生成を引き起こすことができる。いくつかの実施形態では、検出可能なシグナルは、化学的変化または物理的変化(例えば、熱、光、電気、pH、塩濃度、酵素活性、または近接事象)から生成され得る。例えば、近接事象には、互いに接近するか、または互いに交わるか、または互いに結合する2つのリポーター部分が含まれ得る。いくつかの実施形態では、検出可能なシグナルは、光学的に、電気的に、化学的に、酵素的に、熱的に、または質量分析もしくはRaman分光法を介して検出され得る。いくつかの実施形態では、標識には、発光性、光輝性、電気蛍光発光性、生物発光性、化学発光性、蛍光性、リン光性、または電気化学的である化合物が含まれ得る。いくつかの実施形態では、標識には、蛍光体、発色団、放射性同位体、ハプテン、アフィニティータグ、原子、または酵素である化合物が含まれ得る。いくつかの実施形態では、標識は、天然に存在するヌクレオチド中に典型的に存在しない部分を含む。例えば、標識は、蛍光性、発光性、または放射性の部分を含み得る。
いくつかの実施形態では、本開示は、全体として、結合パートナーの少なくとも1つのメンバーを含む組成物、ならびに関連するシステム、方法、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、結合パートナーは、互いに対する特異的結合親和性を有し、典型的には、他の分子への結合に優先して互いに結合する2つの分子またはその部分を含む。いくつかの実施形態では、結合パートナーは、「親和性部分」及び「受容体部分」を含む。必ずしもそうではないが、典型的には、特異的結合対の一方のメンバーの構造のいくつかまたは全ては、他方のメンバーによって保有される構造のいくつかまたは全てに対して相補的であり、2つのメンバーは、任意に、複数の非共有結合性の引力により、相補的構造間の結合を介して互いに特異的に結合することができる。
いくつかの実施形態では、結合パートナーとして機能する分子には、ビオチン(及びその誘導体)と、その結合パートナーアビジン、ストレプトアビジン、及びそれらの誘導体;ニッケル、コバルト、または銅に結合するHis−タグ;Ni−NTAに結合するシステイン、ヒスチジン、またはヒスチジンパッチ;マルトース結合タンパク質(MBP)に結合するマルトース;レクチン−炭水化物結合パートナー;カルシウム−カルシウム結合タンパク質(CBP);アセチルコリン及び受容体−アセチルコリン;タンパク質Aと結合パートナー抗FLAG抗体;GSTと結合パートナーグルタチオン;ウラシルDNAグリコシラーゼ(UDG)及びugi(ウラシル−DNAグリコシラーゼ阻害剤)タンパク質;抗体または抗体断片に結合する抗原またはエピトープタグ、特にジゴキシゲニン、フルオレセイン、ジニトロフェノール、またはブロモデオキシウリジン等の抗原、及びそれらのそれぞれの抗体;マウス免疫グロブリン及びヤギ抗マウス免疫グロブリン;IgG結合及びタンパク質A;受容体−受容体アゴニストまたは受容体アンタゴニスト;酵素−酵素補助因子;酵素−酵素阻害剤;ならびにチロキシン−コルチゾールが含まれる。ビオチンに対する別の結合パートナーは、ニワトリ由来のビオチン結合タンパク質であり得る(Hytonen,et al.,BMC Structural Biology 7:8)。
いくつかの実施形態では、アビジン部分は、アビジンタンパク質、ならびに任意の誘導体、類似体、及びビオチン部分に結合することができるアビジンの他の非天然形態を含み得る。アビジン部分の他の形態には、天然及び組換えアビジン及びストレプトアビジン、ならびに誘導体化された分子、例えば、非グリコシル化アビジン、N−アシルアビジン、及びトランケートされたストレプトアビジンが含まれる。例えば、アビジン部分には、アビジンの脱グリコシル化形態、Streptomyces(例えば、Streptomyces avidinii)によって生成された細菌性ストレプトアビジン、トランケートされたストレプトアビジン、組換えアビジン及びストレプトアビジン、ならびに天然、脱グリコシル化、及び組換えアビジンの誘導体、及び天然、組換え、及びトランケートされたストレプトアビジンの誘導体、例えば、N−アシルアビジン、例えば、N−アセチル、N−フタリル、及びN−スクシニルアビジン、ならびに市販品Extravidin(商標)、Captavidin(商標)、Neutravidin(商標)、及びNeutralite(商標)アビジンが含まれる。
いくつかの実施形態では、本開示は、全体として、複数のタグ付きポリヌクレオチドを生成するために、複数のタグ(例えば、ランダマータグ)の複数のポリヌクレオチドへの付加に使用されるタグ付加反応混合物であり得る単一反応混合物を含む組成物、ならびに関連する方法、システム、キット、装置、及びコンピュータ可読媒体に関し、複数のうちの個々のポリヌクレオチドは、少なくとも1つのタグを付加される。単一反応混合物は、単一の反応容器中に収容され得る。単一反応混合物は、標的ポリヌクレオチド、酵素(例えば、ポリメラーゼ及び/またはリガーゼ)、ヌクレオチド、二価カチオン、結合パートナー、及び/または緩衝液をのうちのいずれか1つまたは任意の組み合わせを含み得る。任意に、酵素は、組換え、融合、変異、熱安定性、または熱不安定性形態を含むポリメラーゼを含む。任意に、ヌクレオチドは、天然ヌクレオチドと同じまたは類似する構造を有する化合物、または誘導体化された塩基、糖、及び/もしくはリン酸基を有するヌクレオチド類似体、または標識もしくは非標識ヌクレオチドを含み得る。任意に、二価カチオンには、マグネシウム、マンガン、及びカルシウムが含まれる。任意に、結合パートナーには、ビオチン、及びアビジン様化合物、例えばアビジンまたはストレプトアビジンが含まれる。任意に、緩衝液は、イオンの供給源、例えば、KCl、K−酢酸塩、NH4−酢酸塩、K−グルタミン酸塩、NH4Cl、または硫酸アンモニウムを含む。任意に、緩衝液は、トリス、トリシン、HEPES、MOPS、ACES、MES、または無機緩衝液、例えば、約4〜12のpH範囲を提供し得るリン酸塩または酢酸塩ベースの緩衝液を含む。任意に、緩衝液は、EDTAまたはEGTA等のキレート剤を含む。任意に、緩衝液は、ジチオトレイトール(DTT)、グリセロール、スペルミジン、及び/またはBSA(ウシ血清アルブミン)を含む。任意に、緩衝液は、ATPを含む。
いくつかの実施形態では、本開示は、全体として、1つ以上の反応容器に分配されたタグ付加反応混合物を含む組成物、ならびに関連する方法、システム、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、単一の反応容器は、タグ付加反応混合物を含有する。いくつかの実施形態では、単一の反応容器は、増幅反応混合物を含有する。単一の反応容器の非限定的な例としては、管、管の内壁、ウェル、マイクロウェル、反応チャンバ、溝、チャネルリザーバ、フローセル、または類似の構造を含む。
いくつかの実施形態では、本開示は、全体として、本教示に記載されるタグ付き核酸の生成に使用される少なくとも2つの成分または試薬を含むキット、ならびに関連する組成物、システム、方法、及び装置に関する。例えば、キットは、以下の試薬のうちの少なくとも2つの任意の組み合わせを含有する:二本鎖アダプターもしくは一本鎖アダプターまたは両方の形態にある複数のランダマータグ、酵素(例えば、ポリメラーゼ及び/もしくはリガーゼ)、ヌクレオチド、二価カチオン、結合パートナー、ならびに/または緩衝液。任意に、キットはまた、正または負の対照ポリヌクレオチドとして使用される標的核酸も含有する。キットは、少なくとも2つの固定配列と交互になっている少なくとも2つのランダム配列を有するオリゴヌクレオチドを含む複数のランダマータグを含有する。ポリメラーゼ及びリガーゼは、組換え、融合、変異、熱安定性、または熱不安定性形態を含む。ヌクレオチドは、天然ヌクレオチドと同じまたは類似する構造を有する化合物、または誘導体化された塩基、糖、及び/もしくはリン酸基を有するヌクレオチド類似体、または標識もしくは非標識ヌクレオチドを含む。二価カチオンには、マグネシウム、マンガン、及びカルシウムが含まれる。結合パートナーには、ビオチン、及びアビジン様化合物、例えばアビジンまたはストレプトアビジンが含まれる。緩衝液は、イオンの供給源、例えば、KCl、K−酢酸塩、NH4−酢酸塩、K−グルタミン酸塩、NH4Cl、または硫酸アンモニウムを含む。緩衝液は、トリス、トリシン、HEPES、MOPS、ACES、MES、または無機緩衝液、例えば、約4〜12のpH範囲を提供し得るリン酸塩または酢酸塩ベースの緩衝液を含む。緩衝液は、EDTAまたはEGTA等のキレート剤を含む。緩衝液は、ジチオトレイトール(DTT)、グリセロール、スペルミジン、及び/またはBSA(ウシ血清アルブミン)を含む。緩衝液は、ATPを含む。
いくつかの実施形態では、本開示は、全体として、(a)複数のポリヌクレオチドのうちの少なくともいくつかに少なくとも1つのオリゴヌクレオチドタグでタグ付けして、タグ付きポリヌクレオチドを生成することを含む、複数のポリヌクレオチドを有する核酸試料中の遺伝変異体を検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(b)タグ付きポリヌクレオチドのうちの少なくともいくつかを増幅して、タグ付き増幅産物を生成することをさらに含む、複数のポリヌクレオチドを有する核酸試料中の遺伝変異体を検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(c)ポリヌクレオチドの一部、及びそのポリヌクレオチドに付加された少なくとも1つのオリゴヌクレオチドタグの一部の両方に対応する配列を含む、タグ付き増幅産物のうちの少なくともいくつかを配列決定して複数の候補配列リードを生成することをさらに含む、複数のポリヌクレオチドを有する核酸試料中の遺伝変異体を検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関し、候補配列リードは、プロセッサと通信するメモリ内に格納される。
いくつかの実施形態では、本開示は、全体として、(d)エラーを有する候補配列リードのサブセットを特定することをさらに含む、複数のポリヌクレオチドを有する核酸試料中の遺伝変異体を検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(e)残りの候補配列リードを、候補配列リードの所与のファミリーに固有の共通のタグ配列を有するグループ化された候補配列リードのファミリーにグループ化することをさらに含む、複数のポリヌクレオチドを有する核酸試料中の遺伝変異体を検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(f)候補配列リードのファミリーから誤ってタグ付けされた配列リードを除去して、配列リードのエラー修正されたファミリーを生成することをさらに含む、複数のポリヌクレオチドを有する核酸試料中の遺伝変異体を検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、本開示は、全体として、(g)配列リードの複数のエラー修正されたファミリー中の変異体を検出することであって、変異体が0.05〜5%の存在量レベルで核酸試料中に存在する、検出することをさらに含む、複数のポリヌクレオチドを有する核酸試料中の遺伝変異体を検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、工程(d)の特定は、複数の候補配列リードからの候補配列リードをタグ特異的参照配列と比較して、候補配列リードとタグ特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。いくつかの実施形態では、工程(d)の特定は、選別閾値を適用して、エラーを有する候補配列リードを特定することをさらに含む。いくつかの実施形態では、工程(d)の特定は、複数の候補配列リードからの候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。いくつかの実施形態では、工程(d)の特定は、選別閾値を適用して、エラーを有する候補配列リードを特定することをさらに含む。
いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、所与のファミリー内の候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、差異カウント閾値を適用して、誤ってタグ付けされた配列リードを特定することをさらに含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、候補配列リードを、所与のファミリー中の1つ以上の他の候補配列リードと比較して、変異体の共通パターンを有する候補配列リードを特定することを含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、パターンカウント閾値を、変異体の共通パターンを有する候補配列リードの数に適用して、誤ってタグ付けされた配列リードのグループを特定することをさらに含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、誤ってタグ付けされた候補配列リードを特定することを含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、誤ってタグ付けされた候補配列リードを、ファミリー中の1つ以上の他の誤ってタグ付けされた候補配列リードと比較して、変異体の共通パターンを特定することをさらに含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、パターンカウント閾値を、変異体の共通パターンを有する誤ってタグ付けされた候補配列リードの数に適用して、誤ってタグ付けされた配列リードのグループを判定することをさらに含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、誤ってタグ付けされた候補配列リード中の差異のパターンを特定することを含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、ポリヌクレオチド特異的参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンと比較して、誤ってタグ付けされた候補配列リードにおける差異のパターンの一致の数を判定することをさらに含む。いくつかの実施形態では、工程(f)の誤ってタグ付けされた配列リードの除去は、非標的パターン閾値を一致の数に適用して、誤ってタグ付けされた配列リードを特定することをさらに含む。
いくつかの実施形態では、工程(g)の検出は、エラー修正されたファミリーの配列リードをポリヌクレオチド特異的参照配列にアラインすることを含む。いくつかの実施形態では、工程(g)の検出は、アラインされた配列中の所与の位置で特定の塩基差異を有するアラインされた配列の数をカウントすることをさらに含む。いくつかの実施形態では、工程(g)の検出は、その数にファミリーレベル閾値を適用して、ファミリーベースの候補変異体を特定することをさらに含む。いくつかの実施形態では、工程(g)の検出は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントすることをさらに含む。いくつかの実施形態では、工程(g)の検出は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異体を特定することをさらに含む。
いくつかの実施形態では、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。いくつかの実施形態では、パーセント因子は、0.001〜0.1%の範囲内である。いくつかの実施形態では、パーセント因子は、0.045〜0.055%の範囲内である。
いくつかの実施形態では、工程(g)の検出において、検出された変異体は、0.05〜0.1%の存在量レベルで核酸試料中に存在する。
いくつかの実施形態では、工程(g)の検出は、(a)エラー修正されたファミリー中の配列リードをポリヌクレオチド特異的参照配列にアラインすることと、(b)アラインされた配列の各位置について、その位置で特定の塩基を有するファミリー中のアラインされた配列の数をカウントすることとを含む。
いくつかの実施形態では、工程(g)の検出は、その数にファミリーレベル閾値を適用して、その位置の代表的な塩基を特定することを含み、その位置でのファミリーレベル閾値より低い数は、アラインされた配列における塩基エラーを示す。いくつかの実施形態では、工程(g)の検出は、各位置のための代表的塩基を有するファミリー参照配列を生成することを含み、ファミリー参照配列は、メモリ内に保存される。いくつかの実施形態では、本方法は、エラー修正されたファミリーの配列リードをメモリから除去することをさらに含む。
いくつかの実施形態では、工程(g)の検出は、(a)ファミリー参照配列をポリヌクレオチド特異的参照配列と比較することと、(b)所与の位置の代表的な塩基が、ポリヌクレオチド特異的参照配列中の所与の位置の塩基と異なる場合に、所与の位置のファミリーベースの候補変異体を特定することとを含む。
いくつかの実施形態では、工程(g)の検出は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントすることを含む。いくつかの実施形態では、工程(g)の検出は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異体を特定することを含む。
いくつかの実施形態では、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。いくつかの実施形態では、パーセント因子は、0.001〜0.1%の範囲内である。いくつかの実施形態では、パーセント因子は、0.045〜0.055%の範囲内である。
いくつかの実施形態では、核酸試料は、生体液由来の無細胞核酸、生検組織由来の核酸、針生検由来の核酸、または細胞由来の核酸を含む。いくつかの実施形態では、 生体液は、血液、唾液、痰、汗、涙、洗浄液、羊水、脳脊髄液、腹水、尿、大便、糞便、または精液である。いくつかの実施形態では、核酸試料は、DNAもしくはRNA、またはDNA及びRNAの混合物を含む。
いくつかの実施形態では、複数のタグ付きポリヌクレオチドのうちの少なくとも2つは、互いとは異なるタグを付加されている。いくつかの実施形態では、複数のタグ付きポリヌクレオチドは、両端に異なるタグを付加されている。いくつかの実施形態では、複数のオリゴヌクレオチドタグにおける個々のオリゴヌクレオチドタグは、固定タグ配列と交互になっている異なるランダムタグ配列を含む領域を含む。
いくつかの実施形態では、単一反応混合物は、104〜108の異なるランダムタグ配列を有する複数のオリゴヌクレオチドタグを含有する。
いくつかの実施形態では、変異体(variant)は、変異(variant)配列、多型配列、または変異(mutant)配列として核酸試料中に存在する。
いくつかの実施形態では、工程(c)の配列決定は、平らな支持体、フローセル、複数のウェル、粒子、またはビーズを使用することを含む。いくつかの実施形態では、支持体は、104〜109個の配列決定反応部位のアレイを含む。いくつかの実施形態では、配列決定反応部位は、少なくとも1つの電界効果トランジスタ(FET)センサに動作可能に連結されている。いくつかの実施形態では、少なくとも1つの電界効果トランジスタ(FET)センサは、ヌクレオチド取り込みからの副産物を検出し、副産物には、ピロリン酸、水素イオン、プロトン、電荷移動、または熱が含まれる。
いくつかの実施形態では、本開示は、全体として、(a)(i)核酸試料由来の複数のポリヌクレオチド、及び(ii)複数のオリゴヌクレオチドタグを含有する単一反応混合物を形成する工程と、(b)少なくとも1つのタグを複数のポリヌクレオチド内の個々のポリヌクレオチドに付加することによって、単一反応混合物内で複数のタグ付きポリヌクレオチドを生成する工程と、(c)複数のタグ付きポリヌクレオチドを増幅することによって、タグ付き増幅産物の集団を生成する工程と、(d)タグ付き増幅産物の集団の少なくとも一部を配列決定して、候補配列リードを形成する工程と、(e)変異配列標的ポリヌクレオチドが、0.05〜5%の存在量レベルで核酸試料中に存在することを判定する工程とを含む、核酸試料中に存在する変異配列標的ポリヌクレオチドを検出するための方法、ならびに関連するシステム、組成物、キット、装置、及びコンピュータ可読媒体に関する。
実施形態、工程(e)の判定は、変異配列標的ポリヌクレオチドが核酸試料中に0.05〜0.1%の存在量レベルで存在すること判定することを含む。実施形態、工程(e)の判定は、候補配列リードをタグ特異的参照配列と比較して、候補配列リードとタグ特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。実施形態、工程(e)の判定は、選別閾値を適用して、エラーを有する候補配列リードを特定することをさらに含む。実施形態、工程(e)の判定は、候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。実施形態、工程(e)の判定は、選別閾値を適用して、エラーを有する候補配列リードを特定することを含む。実施形態、工程(e)の判定は、候補配列リードを、候補配列リードの所与のファミリーに固有の共通のタグ配列を有するグループ化された候補配列リードのファミリーにグループ化することを含む。実施形態、工程(e)の判定は、候補配列リードのファミリーから誤ってタグ付けされた配列リードを除去して、配列リードのエラー修正されたファミリーを生成することを含む。
実施形態、誤ってタグ付けされた配列リードを除去する工程は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、差異カウント閾値を適用して、誤ってタグ付けされた配列リードを特定することをさらに含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、候補配列リードを所与のファミリー中の1つ以上の他の候補配列リードと比較して、変異体の共通パターンを有する候補配列リードを特定することを含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、変異体の共通パターンを有する候補配列リードの数にパターンカウント閾値を適用して、誤ってタグ付けされた配列リードのグループを特定することをさらに含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、誤ってタグ付けされた候補配列リードを特定することを含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、誤ってタグ付けされた候補配列リードを、ファミリー中の1つ以上の他の誤ってタグ付けされた候補配列リードと比較して、変異体の共通パターンを特定することをさらに含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、変異体の共通パターンを有する誤ってタグ付けされた候補配列リードの数にパターンカウント閾値を適用して誤ってタグ付けされた配列リードのグループを特定することをさらに含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較手して、誤ってタグ付けされた候補配列リードにおける差異のパターンを特定することを含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、ポリヌクレオチド特異的参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンと比較して、誤ってタグ付けされた候補配列リードにおける差異のパターンの一致の数を判定することをさらに含む。実施形態、誤ってタグ付けされた配列リードを除去する工程は、非標的パターン閾値を一致の数に適用して、誤ってタグ付けされた配列リードを特定することをさらに含む。
実施形態、工程(e)の判定は、エラー修正されたファミリーの配列リードをポリヌクレオチド特異的参照配列にアラインすることを含む。実施形態、工程(e)の判定は、アラインされた配列中の所与の位置で特定の塩基差異を有するアラインされた配列の数をカウントすることをさらに含む。実施形態、工程(e)の判定は、その数にファミリーレベル閾値を適用して、ファミリーベースの候補変異体を特定することをさらに含む。実施形態、工程(e)の判定は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントすることをさらに含む。実施形態、工程(e)の判定は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異配列標的ポリヌクレオチド中の変異体を特定することをさらに含む。
実施形態、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。実施形態、パーセント因子は、0.001〜0.1%の範囲内である。実施形態、パーセント因子は、0.045〜0.055%の範囲内である。
実施形態、工程(e)の判定は、(a)エラー修正されたファミリー中の配列リードをポリヌクレオチド特異的参照配列にアラインすることと、(b)アラインされた配列の各位置について、その位置で特定の塩基を有するファミリー中のアラインされた配列の数をカウントすることとを含む。
実施形態、工程(e)の判定は、その数にファミリーレベル閾値を適用して、その位置の代表的な塩基を特定することを含み、その位置でのファミリーレベル閾値より低い数は、アラインされた配列における塩基エラーを示す。実施形態、工程(e)の判定は、各位置のための代表的塩基を有するファミリー参照配列を生成することを含む。
実施形態、工程(e)の判定は、(a)ファミリー参照配列をポリヌクレオチド特異的参照配列と比較することと、(b)所与の位置の代表的な塩基が、ポリヌクレオチド特異的参照配列中の所与の位置の塩基と異なる場合に、所与の位置のファミリーベースの候補変異体を特定することとを含む。
実施形態、工程(e)の判定は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントすることを含む。実施形態、工程(e)の判定は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異配列標的ポリヌクレオチド中の変異体を特定することを含む。
実施形態、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。実施形態、パーセント因子は、0.001〜0.1%の範囲内である。実施形態、パーセント因子は、0.045〜0.055%の範囲内である。
いくつかの実施形態では、本開示は、全体として、(i)機械可読メモリと、(ii)プロセッサによって実行されると、(a)複数の候補配列リードを受け取る工程であって、候補配列リードは、タグ付きポリヌクレオチドの増幅によって生成されたタグ付き増幅産物の配列決定によって生成され、タグ付きポリヌクレオチドは、少なくとも1つのオリゴヌクレオチドタグを複数のポリヌクレオチドの少なくともいくつかに付加することによって生成され、複数の候補配列リードは、メモリに保存される、受け取る工程、(b)エラーを有する候補配列リードのサブセットを特定する工程と、(c)残りの候補配列リードを、候補配列リードの所与のファミリーに固有の共通のタグ配列を有するグループ化された候補配列リードのファミリーにグループ化する工程、(d)候補配列リードのファミリーから誤ってタグ付けされた配列リードを除去して、配列リードのエラー修正されたファミリーを生成する工程、及び(e)配列リードの複数のエラー修正されたファミリー中の変異体を検出する工程であって、変異体が核酸試料中に0.05〜5%の存在量レベルで存在する、検出する工程を含む工程をシステムが行うことを引き起こす、機械可読命令を実行するように構成されたプロセッサとを含む、複数のポリヌクレオチドを有する核酸試料中の遺伝子変異体を検出するためのシステムを含むシステム、ならびに関連する方法、組成物、キット、装置、及びコンピュータ可読媒体に関する。
いくつかの実施形態では、システムにおいて、特定するための工程(b)は、複数の候補配列リードからの候補配列リードをタグ特異的参照配列と比較して、候補配列リードとタグ特異的参照配列との間で異なるヌクレオチドの数を判定する工程を含む。いくつかの実施形態では、特定するための工程(b)は、選別閾値を適用して、エラーを有する候補配列リードを特定する工程をさらに含む。いくつかの実施形態では、特定するための工程(b)は、複数の候補配列リードからの候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定する工程を含む。いくつかの実施形態では、特定するための工程(b)は、選別閾値を適用して、エラーを有する候補配列リードを特定することをさらに含む。
いくつかの実施形態では、システムにおいて、誤ってタグ付けされた配列リードを除去するための工程(d)は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定する工程を含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、差異カウント閾値を適用して、誤ってタグ付けされた配列リードを特定する工程をさらに含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、候補配列リードを、所与のファミリー中の1つ以上の他の候補配列リードと比較して、変異体の共通パターンを有する候補配列リードを特定する工程を含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、変異体の共通パターンを有する候補配列リードの数にパターンカウント閾値を適用して、誤ってタグ付けされた配列リードのグループを特定する工程をさらに含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、誤ってタグ付けされた候補配列リードを特定する工程を含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、誤ってタグ付けされた候補配列リードを、ファミリー中の1つ以上の他の誤ってタグ付けされた候補配列リードと比較して、変異体の共通パターンを特定する工程をさらに含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、変異体の共通パターンを有する誤ってタグ付けされた候補配列リードの数にパターンカウント閾値を適用して、誤ってタグ付けされた配列リードのグループを判定する工程をさらに含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、誤ってタグ付けされた候補配列リードにおける差異のパターンを特定する工程を含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、ポリヌクレオチド特異的参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンと比較して、誤ってタグ付けされた候補配列リードにおける差異のパターンの一致の数を判定する工程をさらに含む。いくつかの実施形態では、誤ってタグ付けされた配列リードを除去するための工程(d)は、一致の数に非標的パターン閾値を適用して、誤ってタグ付けされた配列リードを特定する工程をさらに含む。
いくつかの実施形態では、システムにおいて、検出するための工程(e)は、エラー修正されたファミリーの配列リードをポリヌクレオチド特異的参照配列にアラインする工程を含む。いくつかの実施形態では、検出するための工程(e)は、アラインされた配列中の所与の位置で特定の塩基差異を有するアラインされた配列の数をカウントする工程をさらに含む。いくつかの実施形態では、検出するための工程(e)は、その数にファミリーレベル閾値を適用して、ファミリーベースの候補変異体を特定する工程をさらに含む。いくつかの実施形態では、検出するための工程(e)は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントする工程をさらに含む。いくつかの実施形態では、検出するための工程(e)は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異体を特定する工程をさらに含む。
いくつかの実施形態では、システムにおいて、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。いくつかの実施形態では、パーセント因子は、0.001〜0.1%の範囲内である。いくつかの実施形態では、パーセント因子は、0.045〜0.055%の範囲内である。
いくつかの実施形態では、システムにおいて、検出するための工程(e)において、検出された変異体は、核酸試料中に0.05〜0.1%の存在量レベルで存在する。
いくつかの実施形態では、システムにおいて、検出するための工程(e)は、(a)エラー修正されたファミリー中の配列リードをポリヌクレオチド特異的参照配列にアラインする工程と、(b)アラインされた配列中の各位置について、その位置で特定の塩基を有するファミリー中のアラインされた配列の数をカウントする工程とを含む。
いくつかの実施形態では、システムにおいて、検出するための工程(e)は、その数にファミリーレベル閾値を適用して、その位置の代表的な塩基を特定する工程を含み、その位置でのファミリーレベル閾値より低い数は、アラインされた配列における塩基エラーを示す。いくつかの実施形態では、検出するための工程(e)は、各位置のための代表的塩基を有するファミリー参照配列を生成する工程を含み、ファミリー参照配列は、メモリ内に保存される。いくつかの実施形態では、工程(e)は、エラー修正されたファミリーの配列リードをメモリから除去する工程をさらに含む。
いくつかの実施形態では、システムにおいて、検出するための工程(e)は、(a)ファミリー参照配列をポリヌクレオチド特異的参照配列と比較する工程と、(b)所与の位置の代表的な塩基が、ポリヌクレオチド特異的参照配列中の所与の位置の塩基と異なる場合に、所与の位置のファミリーベースの候補変異体を特定する工程とを含む。
いくつかの実施形態では、システムにおいて、検出するための工程(e)は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントする工程を含む。いくつかの実施形態では、検出するための工程(e)は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異体を特定する工程を含む。
いくつかの実施形態では、システムにおいて、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。いくつかの実施形態では、パーセント因子は、0.001〜0.1%の範囲内である。いくつかの実施形態では、パーセント因子は、0.045〜0.055%の範囲内である。
いくつかの実施形態では、システムにおいて、核酸試料は、生体液由来の無細胞核酸、生検組織由来の核酸、針生検由来の核酸、または細胞由来の核酸を含む。いくつかの実施形態では、生体液は、血液、唾液、痰、汗、涙、洗浄液、羊水、脳脊髄液、腹水、尿、大便、糞便、または精液である。いくつかの実施形態では、核酸試料は、DNAもしくはRNA、またはDNA及びRNAの混合物を含む。
いくつかの実施形態では、システムにおいて、複数のタグ付きポリヌクレオチドのうちの少なくとも2つは、互いとは異なるタグを付加されている。いくつかの実施形態では、複数のタグ付きポリヌクレオチドは、両端に異なるタグを付加されている。
いくつかの実施形態では、システムにおいて、複数のオリゴヌクレオチドタグにおける個々のオリゴヌクレオチドタグは、固定タグ配列と交互になっている異なるランダムタグ配列を含む領域を含む。
いくつかの実施形態では、システムにおいて、単一反応混合物は、104〜108の異なるランダムタグ配列を有する複数のオリゴヌクレオチドタグを含有する。
いくつかの実施形態では、システムにおいて、変異体(variant)は、変異(variant)配列、多型配列、または変異(mutant)配列として核酸試料中に存在する。
いくつかの実施形態では、システムにおいて、配列決定は、平らな支持体、フローセル、複数のウェル、粒子、またはビーズを使用することを含む。いくつかの実施形態では、支持体は、104〜109個の配列決定反応部位のアレイを含む。いくつかの実施形態では、配列決定反応部位は、少なくとも1つの電界効果トランジスタ(FET)センサに動作可能に連結されている。いくつかの実施形態では、少なくとも1つの電界効果トランジスタ(FET)センサは、ヌクレオチド取り込みからの副産物を検出し、副産物には、ピロリン酸、水素イオン、プロトン、電荷移動、または熱が含まれる。
いくつかの実施形態では、本開示は、全体として、プロセッサによって実行されると、複数のポリヌクレオチドを有する核酸試料中の遺伝子変異体を検出するための、(a)複数の候補配列リードを受け取る工程であって、候補配列リードは、タグ付きポリヌクレオチドを増幅することによって生成されたタグ付き増幅産物を配列決定することによって生成され、タグ付きポリヌクレオチドは、少なくとも1つのオリゴヌクレオチドタグを複数のポリヌクレオチドの少なくともいくつかに付加することによって生成される、受け取る工程、(b)エラーを有する候補配列リードのサブセットを特定する工程、(c)残りの候補配列リードを、候補配列リードの所与のファミリーに固有の共通のタグ配列を有するグループ化された候補配列リードのファミリーにグループ化する工程、(d)候補配列リードのファミリーから誤ってタグ付けされた配列リードを除去して、配列リードのエラー修正されたファミリーを生成する工程、及び(e)配列リードの複数のエラー修正されたファミリー中の変異体を検出する工程であって、変異体が核酸試料中に0.05〜5%の存在量レベルで存在する、検出する工程をプロセッサが行うことを引き起こす命令を含む非一時的機械可読記憶媒体を含むシステム、ならびに関連する方法、組成物、キット、装置、及びコンピュータ可読媒体に関する。いくつかの実施形態では、少なくとも1つのオリゴヌクレオチドタグは、単一反応混合物中の複数のポリヌクレオチドの少なくともいくつかに付加される。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(b)の特定は、複数の候補配列リードからの候補配列リードをタグ特異的参照配列と比較して、候補配列リードとタグ特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(b)の特定は、選別閾値を適用して、エラーを有する候補配列リードを特定することをさらに含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(b)の特定は、複数の候補配列リードからの候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(b)の特定は、選別閾値を適用して、エラーを有する候補配列リードを特定することをさらに含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(d)の誤ってタグ付けされた配列リードの除去は、所与のファミリー内の候補配列リードをポリヌクレオチド特異的参照配列と比較して、候補配列リードとポリヌクレオチド特異的参照配列との間で異なるヌクレオチドの数を判定することを含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(d)の誤ってタグ付けされた配列リードの除去は、差異カウント閾値を適用して、誤ってタグ付けされた配列リードを特定することをさらに含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(d)の誤ってタグ付けされた配列リードの除去は、候補配列リードを、所与のファミリー中の1つ以上の他の候補配列リードと比較して、変異体の共通パターンを有する候補配列リードを特定することを含む。いくつかの実施形態では、工程(d)の誤ってタグ付けされた配列リードの除去は、パターンカウント閾値を、変異体の共通パターンを有する候補配列リードの数に適用して、誤ってタグ付けされた配列リードのグループを特定することをさらに含む。いくつかの実施形態では、工程(d)の誤ってタグ付けされた配列リードの除去は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、誤ってタグ付けされた候補配列リードを特定することを含む。いくつかの実施形態では、工程(d)の誤ってタグ付けされた配列リードの除去は、誤ってタグ付けされた候補配列リードを、ファミリー中の1つ以上の他の誤ってタグ付けされた候補配列リードと比較して、変異体の共通パターンを特定することをさらに含む。いくつかの実施形態では、工程(d)の誤ってタグ付けされた配列リードの除去は、パターンカウント閾値を、変異体の共通パターンを有する誤ってタグ付けされた候補配列リードの数に適用して、誤ってタグ付けされた配列リードのグループを判定することをさらに含む。いくつかの実施形態では、工程(d)の誤ってタグ付けされた配列リードの除去は、所与のファミリー中の候補配列リードをポリヌクレオチド特異的参照配列と比較して、誤ってタグ付けされた候補配列リード中の差異のパターンを特定することを含む。いくつかの実施形態では、工程(d)の誤ってタグ付けされた配列リードの除去は、ポリヌクレオチド特異的参照配列と非標的ポリヌクレオチドのための予想配列との間の予想差異のパターンと比較して、誤ってタグ付けされた候補配列リードにおける差異のパターンの一致の数を判定することをさらに含む。いくつかの実施形態では、工程(d)の誤ってタグ付けされた配列リードの除去は、非標的パターン閾値を一致の数に適用して、誤ってタグ付けされた配列リードを特定することをさらに含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(e)の検出は、エラー修正されたファミリーの配列リードをポリヌクレオチド特異的参照配列にアラインすることを含む。いくつかの実施形態では、工程(e)の検出は、アラインされた配列中の所与の位置で特定の塩基差異を有するアラインされた配列の数をカウントすることをさらに含む。いくつかの実施形態では、工程(e)の検出は、その数にファミリーレベル閾値を適用して、ファミリーベースの候補変異体を特定することをさらに含む。いくつかの実施形態では、工程(e)の検出は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントすることをさらに含む。いくつかの実施形態では、工程(e)の検出は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異体を特定することをさらに含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。いくつかの実施形態では、パーセント因子は、0.001〜0.1%の範囲内である。いくつかの実施形態では、パーセント因子は、0.045〜0.055%の範囲内である。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(e)の検出において、検出された変異体は、0.05〜0.1%の存在量レベルで核酸試料中に存在する。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(e)の検出は、(i)エラー修正されたファミリー中の配列リードをポリヌクレオチド特異的参照配列にアラインすることと、(ii)アラインされた配列の各位置について、その位置で特定の塩基を有するファミリー中のアラインされた配列の数をカウントすることとを含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(e)の検出は、その数にファミリーレベル閾値を適用して、その位置の代表的な塩基を特定することを含み、その位置でのファミリーレベル閾値より低い数は、アラインされた配列における塩基エラーを示す。いくつかの実施形態では、工程(e)の検出は、各位置のための代表的塩基を有するファミリー参照配列を生成することを含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、メモリ内にファミリー参照配列を保存することをさらに含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、エラー修正されたファミリーの配列リードをメモリから除去することをさらに含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(e)の検出は、(i)ファミリー参照配列をポリヌクレオチド特異的参照配列と比較することと、(ii)所与の位置の代表的な塩基が、ポリヌクレオチド特異的参照配列中の所与の位置の塩基と異なる場合に、所与の位置のファミリーベースの候補変異体を特定することとを含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、工程(e)の検出は、特定のファミリーベースの候補変異体を有するエラー修正されたファミリーの数をカウントすることを含む。いくつかの実施形態では、工程(e)の検出は、エラー修正されたファミリーの数にマルチファミリー閾値を適用して、変異体を特定することを含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、マルチファミリー閾値の値は、パーセント因子に所与の標的ポリヌクレオチド配列に対応する異なるファミリーの数を掛けた積に最も近い整数であり、値は、異なるファミリーの数のうちの少なくとも2つである。いくつかの実施形態では、パーセント因子は、0.001〜0.1%の範囲内である。いくつかの実施形態では、パーセント因子は、0.045〜0.055%の範囲内である。
いくつかの実施形態では、非一時的機械可読記憶媒体において、核酸試料は、生体液由来の無細胞核酸、生検組織由来の核酸、針生検由来の核酸、または細胞由来の核酸を含む。いくつかの実施形態では、生体液は、血液、唾液、痰、汗、涙、洗浄液、羊水、脳脊髄液、腹水、尿、大便、糞便、または精液である。いくつかの実施形態では、核酸試料は、DNAもしくはRNA、またはDNA及びRNAの混合物を含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、複数のタグ付きポリヌクレオチドのうちの少なくとも2つは、互いとは異なるタグを付加されている。いくつかの実施形態では、複数のタグ付きポリヌクレオチドは、両端に異なるタグを付加されている。
いくつかの実施形態では、非一時的機械可読記憶媒体において、複数のオリゴヌクレオチドタグにおける個々のオリゴヌクレオチドタグは、固定タグ配列と交互になっている異なるランダムタグ配列を含む領域を含む。
いくつかの実施形態では、非一時的機械可読記憶媒体において、単一反応混合物は、104〜108の異なるランダムタグ配列を有する複数のオリゴヌクレオチドタグを含有する。
いくつかの実施形態では、非一時的機械可読記憶媒体において、遺伝子変異体(variant)は、変異(variant)配列、多型配列、または変異(mutant)配列として核酸試料中に存在する。
いくつかの実施形態では、非一時的機械可読記憶媒体において、配列決定は、平らな支持体、フローセル、複数のウェル、粒子、またはビーズを使用することを含む。いくつかの実施形態では、支持体は、104〜109個の配列決定反応部位のアレイを含む。いくつかの実施形態では、配列決定反応部位は、少なくとも1つの電界効果トランジスタ(FET)センサに動作可能に連結されている。いくつかの実施形態では、少なくとも1つの電界効果トランジスタ(FET)センサは、ヌクレオチド取り込みからの副産物を検出し、副産物には、ピロリン酸、水素イオン、プロトン、電荷移動、または熱が含まれる。
様々な例示的な実施形態によると、上記の教示及び/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、適切に構成及び/またはプログラムされたハードウェア及び/またはソフトウェア要素を使用して実施または実行され得る。実施形態がハードウェア及び/またはソフトウェアを要素を使用して実行されるかどうかの判定は、任意の要因、例えば、所望の計算速度、出力レベル、耐熱性、処理サイクル予算、インプットデータ速度、出力データ速度、メモリリソース、データバススピード等、及び他の設計または性能の制約に基づき得る。
ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、ローカルインターフェース回路を介して通信可能に連結した入力及び/または出力(I/O)デバイス(または周辺機器)、回路要素(例えば、トランジスタ、抵抗器、コンデンサ、インダクタ等)、集積回路、特定用途向け集積回路(ASIC)、プログラム可能論理デバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセット等が挙げられ得る。ローカルインターフェースには、例えば、ハードウェア部品間の適切な通信を可能にする1つ以上のバスまたは他の有線もしくは無線接続、制御器、バッファ(キャッシュ)、ドライバ、リピータ、及びレシーバ等が含まれ得る。プロセッサは、ソフトウェア、特に、メモリ内に保存されたソフトウェアを実行するためのハードウェアデバイスである。プロセッサは、任意のオーダーメードまたは市販のプロセッサ、中央処理装置(CPU)、コンピュータに関連するいくつかのプロセッサのうちの補助プロセッサ、半導体ベースのマイクロプロセッサ(例えば、マイクロチップまたはチップセットの形態にある)、マクロプロセッサ、またはソフトウェア命令を実行するための概してあらゆるデバイスであり得る。プロセッサはまた、分散型処理アーキテクチャを表し得る。I/Oデバイスには、入力デバイス、例えば、キーボード、マウス、スキャナー、マイクロフォン、タッチスクリーン、様々な医療デバイス及び/または実験機器のためのインターフェース、バーコード読み取り機、スタイラス、レーザ読み取り機、無線周波デバイス読み取り機等が含まれ得る。さらに、I/Oデバイスには、出力デバイス、例えば、プリンタ、バーコードプリンタ、ディスプレイ等も含まれ得る。最後に、I/Oデバイスには、入力及び出力の両方として通信するデバイス、例えば、変調器/復調器(モデム;別のデバイス、システム、またはネットワークにアクセスするため)、無線周波(RF)トランシーバまたは他のトランシーバ、電話インターフェース、ブリッジ、ルータ等がさらに含まれ得る。
ソフトウェアの例としては、ソフトウェア要素、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、関数、方法、手続き、ソフトウェアインターフェース、アプリケーションプログラムインターフェース(API)、命令セット、演算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、記号、またはそれらの任意の組み合わせが挙げられ得る。メモリ内のソフトウェアは、論理関数を実行するための実行可能な命令の順序リストを含み得る1つ以上の別個のプログラムを含み得る。メモリ内のソフトウェアは、本教示に従うデータ流を特定するためのシステム、ならびにシステム等の他のコンピュータプログラムの実行を制御し得、スケジューリング、入出力制御、ファイル及びデータ管理、メモリ管理、通信制御等を提供する任意の好適なオーダーメードまたは市販のオペレーティングシステム(O/S)を含み得る。
様々な例示的な実施形態によると、上記の教示及び/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、機械によって実行された場合、例示的な実施形態に従う方法及び/または動作を機械が行うことを引き起こし得る命令または命令のセットを保存し得る、適切に構成及び/またはプログラムされた非一時的機械可読媒体または物品を使用して実施または実行され得る。かかる機械には、例えば、任意の好適な処理プラットホーム、コンピューティングプラットホーム、コンピューティングデバイス、処理デバイス、コンピューティングシステム、処理システム、コンピュータ、プロセッサ、科学機器または実験機器等が含まれ得、ハードウェア及び/またはソフトウェアの任意の好適な組み合わせを使用して実行され得る。機械可読媒体または物品には、例えば、任意の好適な種類のメモリユニット、メモリデバイス、メモリ物品、メモリ媒体、記憶デバイス、記憶物品、記憶媒体、及び/または記憶ユニット、例えば、メモリ、リムーバブルまたはノンリムーバブル媒体、消去可能または非消去可能な媒体、書き込み可能または書き換え可能な媒体、デジタルまたはアナログ媒体、ハードディスク、フロッピーディスク、読み出し専用コンパクトディスク(CD−ROM)、記録可能コンパクトディスク(CD−R)、書き換え可能コンパクト(CD−RW)、光ディスク、磁気媒体、光磁気媒体、リムーバブルメモリカードまたはディスク、様々な種類のデジタル多用途ディスク(DVD)、テープ、カセット等が含まれ得、コンピュータにおける使用に好適な任意の媒体を含む。メモリには、揮発性メモリ素子(例えば、ランダムアクセスメモリ(RAM、例えば、DRAM、SRAM、SDRAM等))及び不揮発性メモリ素子(例えば、ROM、EPROM、EEROM、フラッシュメモリ、ハードドライブ、テープ、CDROM等)のうちのいずれか1つまたは組み合わせが含まれ得る。さらに、メモリは、電気、磁気、光、及び/または他の種類の記憶媒体を組み込みことができる。メモリは、様々な部品が互いから離れて位置しているが、依然としてプロセッサによってアクセスされる分散型アーキテクチャを有し得る。命令には、任意の好適な種類のコード、例えば、任意の好適な高レベル、低レベル、オブジェクト指向、ビジュアル、コンパイル済み、及び/または解釈されたプログラミング言語を使用して実行される、ソースコード、コンパイル済みコード、解釈されたコード、実行可能コード、静的コード、動的コード、暗号化されたコード等が含まれ得る。
様々な例示的な実施形態によると、上記の教示及び/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、分散型、クラスタ、リモート、またはクラウド計算リソースを少なくとも部分的に使用して実施または実行され得る。
様々な例示的な実施形態によると、上記の教示及び/または例示的な実施形態のうちのいずれか1つ以上の1つ以上の特徴は、ソースプログラム、実行可能プログラム(目的コード)、スクリプト、または行われる命令のセットを含む任意の他のエンティティを使用して実施または実行され得る。ソースプログラムである場合、プログラムは、O/Sと通信して正常に動作するように、メモリ内に含まれるかまたは含まれない場合があるコンパイラ、アセンブラ、インタープリタ等を介して翻訳され得る。命令は、(a)データ及び方法のクラスを有するオブジェクト指向プログラミング言語、または(b)例えば、C、C++、Pascal、Basic、Fortran、Cobol、Perl、Java、及びAdaを含み得る、ルーチン、サブルーチン、及び/または機能を有する手続き型プログラミング言語を使用して書き込まれ得る。
様々な例示的な実施形態によると、上記の例示的な実施形態のうちの1つ以上は、ユーザインタフェースデバイス、コンピュータ可読記憶媒体、ローカルコンピュータシステム、またはリモートコンピュータシステムに、かかる例示的な実施形態によって生成、アクセス、または使用された任意の情報、信号、データ、及び/または中間もしくは最終結果を伝達、表示、保存、印刷、または出力することを含み得る。かかる伝達、表示、保存、印刷、または出力された情報は、例えば、ラン及び報告、画像、表、チャート、グラフ、スプレッドシート、相関、配列、ならびにそれらの組み合わせの検索可能及び/またはフィルタリング可能なリストの形態であり得る。
本教示の実施形態は、いかなる方法でも本教示の範囲を限定するものと解釈されるべきでない以下の実施例に照らしてよりよく理解され得る。
実施例1:
分子タグ付け−DNA試料:
対照DNA及び無細胞DNAを用いて分子タグ付け手順を行った。AcroMetrix(商標)Oncology Hotspot Control(Thermo Fisher Scientific 969056)をGM24385細胞株のゲノムDNAバックグラウンドに希釈することによって、0.1%(例えば、アリル頻度)で存在する標的配列を含有する対照DNA試料を生成した。
cf DNAの単離:
MagMAX(商標)Cell−Free DNA Isolation Kitの代替プロトコルB(Thermo Fisher Scientific A29319)に含有される試薬及び指示を使用して、無細胞DNA(cfDNA)をドナー血漿から抽出した。4℃で10分間、1600xgでの遠心分離によって残留血液細胞を血漿から除去した。血漿を新しい遠心チューブに移し、4℃でさらに10分間、16000xgで遠心分離した。血漿量を測定した。代替プロトコルBに提供される表に従い、溶解/結合溶液及び磁気ビーズを共に混合することによって結合溶液を調製した。
結合溶液を血漿に添加し、チューブを10回、旋回または反転させた。チューブを室温で10分間、回転しながらインキュベートした。チューブを磁石上に5分間、または溶液が透明になるまで置いた。チューブが磁石上にある間に、上澄みを慎重に除去し、廃棄した。チューブをさらに1分間磁石上に置いたままにし、残留上澄みを慎重に除去し、廃棄した。
チューブを磁石から取り除いた。ビーズを1mLのMagMAX(商標)Cell Free DNA洗浄溶液中に再懸濁して、ビーズスラリーを作製した。ビーズスラリーを新しい1.5mLの非粘着性ミクロチューブに移し、溶解/結合チューブを保存し、脇に置いた。ミクロチューブをDynaMag(商標)−2磁石上に20秒間置いた。上澄みをビーズスラリーから除去し、それを使用して溶解/結合チューブをすすぎ、次いで、ビーズスラリーに移した。溶解/結合チューブは廃棄した。ビーズスラリーを含有するチューブを磁石上にさらに2分間置いたままにした。1mLピペットを用いて上澄みを除去した。チューブが磁石上にある間に、DynaMag(商標)−2磁石スタンドをベンチトップ上に5回叩きつけた。200uLピペットを使用してチューブからあらゆる残留液を除去した。チューブを磁石から取り除いた。1mLの新鮮に調製された80%エタノールをチューブに添加し、チューブを30秒間ボルテックスした。チューブを磁石上に2分間置いた。1mLピペットを使用して上澄みを除去した。ビーズを3〜5分間風乾する間、チューブは磁石上に置かれたままであった。チューブが磁石上にある間に、DynaMag(商標)−2磁石スタンドをベンチトップ上に5回叩きつけた。200uLピペットを使用してチューブからあらゆる残留液を除去した。
400uLの0.1x TAEをチューブに添加し、続いて5分間ボルテックスした。チューブを磁石上に2分間置いた。上澄みを除去し、新しい1.5mLチューブに移した。5uLのMagMAX(商標)Cell free DNA磁気ビーズ及び500uLのMagMAX(商標)Cell Free溶解/結合溶液を上澄み(新しいチューブ中)に添加し、徹底的に混合した。チューブを5分間振とうして、cfDNAをビーズに結合させた。チューブを磁石上に5分間置いた。1mLピペットを使用して上澄みを除去した。チューブを磁石から除去し、1mLのMagMAX(商標)Cell Free DNA洗浄溶液を添加し、チューブを30秒間ボルテックスした。チューブを磁石上に2分間置いた。1mLピペットを使用して上澄みを除去した。チューブが磁石上にある間に、DynaMag(商標)−2磁石スタンドをベンチトップ上に5回叩きつけた。200uLピペットを使用してチューブからあらゆる残留液を除去した。
80%エタノール洗浄工程のために、チューブを磁石から取り除いた。1mLの新鮮に調製された80%エタノールを添加し、チューブを30秒間ボルテックスした。チューブを磁石上に2分間置いた。1mLピペットを使用して上澄みを除去した。チューブが磁石上にある間に、DynaMag(商標)−2磁石スタンドをベンチトップ上に5回叩きつけた。200uLピペットを使用してチューブからあらゆる残留液を除去した。チューブを磁石から取り除いた。1mLの新鮮に調製された80%エタノールを添加し、チューブを30秒間ボルテックスした。チューブを磁石上に2分間置いた。1mLピペットを使用して上澄みを除去した。チューブが磁石上にある間に、DynaMag(商標)−2磁石スタンドをベンチトップ上に5回叩きつけた。200uLピペットを使用してチューブからあらゆる残留液を除去した。チューブが磁石上にある間に、ビーズを3〜5分間風乾した。チューブが磁石上にある間に、DynaMag(商標)−2磁石スタンドをベンチトップ上に5回叩きつけた。200uLピペットを使用してチューブからあらゆる残留液を除去した。
10〜15uLのMagMAX(商標)Cell Free DNA溶出溶液をチューブに添加することによって、cfDNAをビーズから溶出した。ボルテックスアダプターを使用してチューブを5分間ボルテックスした。チューブを磁石上に2分間置いた。上澄みは、精製されたcfDNAを含有する。cfDNAは、分子タグ付きライブラリの生成に使用するか、または4℃で24時間、もしくは長期保管のために−20℃で保管した。
分子タグ付け手順:
PCR分子タグ付け割り当て(約2〜4 PCRサイクル)、続いてPCR増幅(約16〜18 PCRサイクル)を使用して、分子タグ付きライブラリをcfDNAから生成した(図3及び図3の説明文を参照されたい)。
順方向及び逆方向の遺伝子特異的プライマーは、遺伝子特異的配列の5’に位置するスペーサ配列(固定配列)が点在する6つの「N」縮重塩基からなる一意の分子タグを含有するように設計した(図3及び図3の説明文)。例えば、順方向及び逆方向の遺伝子特異的プライマーは、遺伝子特異的配列に対して5’に位置するランダムタグ付け配列:
を含有した。順方向遺伝子特異的プライマーは、ランダムタグ付け配列の5’に位置するユニバーサルA−プライマー配列の一部とIonXpressバーコード配列も含んだ。逆方向遺伝子特異的プライマーは、ランダムタグ付け配列の5’に位置するユニバーサルP1プライマー配列の一部を含んだが、バーコード配列を欠いた。順方向及び逆方向の遺伝子特異的プライマーは、Ion Torrent配列決定への適合性のために、テイルドプライマーを使用してユニバーサルAまたはP1配列の残りが付加されるその後のPCR増幅に使用されるユニバーサルA−プライマー配列の一部、またはユニバーサルP1プライマー配列の一部を含有した。したがって、順方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルAの部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。逆方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルP1の部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。また、ランダムタグ配列を欠く順方向及び逆方向の遺伝子特異的テイルドプライマーを試験した。
20ngのcfDNA、1X Phusion(商標)U Multiplex PCR Master Mix(Thermo Fisher Scientific F−562S)、及び増幅産物の総数に応じて10〜50nMの各プライマーを含有する25μL反応中で、以下のサイクル条件を用いて2または4の分子タグ付けPCRサイクルを行った:98℃で2分間を1サイクル、98℃で15秒間、60℃で4分間、72℃で2分間を2または4サイクル、4℃で維持。代替的には、20ngのcfDNAを2または4等分にし、各分割量を上記の分子タグ付けPCRサイクルに供した。
RecJfエキソヌクレアーゼ(30U/uL)を1X NEB Buffer 2中で1:10に希釈し、2uLの希釈された酵素をPCR反応に添加し、37℃で15分間消化し(40未満の増幅産物のプライマープールの場合には任意)、及びその後のAMPure(商標)XP精製によって、RecJfエキソヌクレアーゼ(New England Biolabs、M0264S)によって余剰プライマーを除去した。
精製:第1ラウンド:
AMPure(商標)XP精製工程のために、25uLのPCR反応を新しい1.5mLチューブに移した。PCRチューブをさらに25uLの水で洗浄して全ての内容物を収集し、これを1.5mLチューブに移した。75uLの1.5x AMPure(商標)XP Reagent(Beckman Coulter、A63880)を1.5mLチューブに添加し、チューブを室温で10分間、ロータ上でインキュベートした。新鮮な80%エタノールを調製した。製造業者の指示に従い、試料を新鮮な80%エタノールで2回洗浄した。洗浄された最終試料を25μLの低TE Buffer(10mM Tris−HCl、pH8.0、0.1mM EDTA)中に溶出した。
PCR増幅:
ワークフローのPCR増幅部分のために、ユニバーサルAプライマー配列の一部とIonXpressバーコード配列とを含有する順方向プライマーを使用し、かつユニバーサルP1プライマー配列の一部を含有する逆方向プライマーを使用して、約16〜18のPCRサイクルを行った。事前に溶出したDNA、1X Phusion(商標)HiFi Buffer、200μM dNTP、0.4μM順方向プライマー、0.4μM逆方向プライマー、及び2 U Phusion(商標)HiFi DNA Polymeraseを含有する50uL反応中で、以下のサイクル条件を用いてPCR増幅反応を行った:98℃で2分間を1サイクル、98℃で15秒間、63℃で15秒間、72℃で15秒間を16〜18サイクル、及び4℃で維持。
精製:第2ラウンド:
AMPure(商標)XP Reagentを用いて反応を精製した。増幅産物を新しい1.5mLチューブに移した。PCRチューブをさらに20uLの水で洗浄して全ての内容物を収集し、約70uLを含有する1.5mLチューブにこれを移した。0.5x及び0.95x AMPure(商標)XP Reagentを用いてダブルサイズセレクションを行った。代替的には、サイズセレクションのためにPippin Prepを使用してもよい。AMPure(商標)について、77uLの1.5x AMPure(商標)XP Reagentを1.5mLチューブに添加し、チューブを室温で10分間、ロータ上でインキュベートした。製造業者の指示に従い、試料を新鮮な80%エタノールで2回洗浄した。洗浄された最終試料を25μLの低TE Buffer(10mM Tris−HCl、pH8.0、0.1mM EDTA)中に溶出した。
最終ライブラリを25uLの低TE Buffer中に溶出し、Agilent 2100 Bioanalyzer上でHigh Sensitivity DNA Kitを使用して定量化した。Ion PGM(商標)Hi−Q(商標)Chef 400 Suppliesキット(Thermo Fisher Scientific A25948及びA27293キット)を使用した鋳型増幅及びIon球体ビーズへの結合、ならびに318 v2チップ充填手順のために40pMのライブラリを使用した。Ion PGM装置上で配列決定を行った。適用される閾値を用いて様々な選別、分類、及びカウント法を使用して配列決定データを分析し、0.05〜0.1%の検出限界が達成されたことを示した。1つのタグ付け実験において、結果は以下を示した:45/163の真の変異体が検出された(変異体を担持する2超のファミリー及び0.8超のメンバーが要件);6/45の検出された変異体が20,000未満のカバレッジを有する;5/45の検出された変異体が0.1%未満の頻度で観測された;かつ観測されたアリル頻度は0.1%±0.1%で変動した。
実施例2:
分子タグ付け−無細胞DNA:
無細胞DNAを血液(約7.5mLの血液)の単一のチューブから単離し、上記の実施例1に記載されるように処理した。
96ウェルプレート中で、分子タグ付けPCR割り当てを以下のようにセットアップした。個々のウェルは、20ngのcfDNA、1x Phusion(商標)U Multiplex PCR Master Mix(Thermo Fisher Scientific F−562SまたはF−562L)、3.5uLの肺遺伝子特異的プライマーパネル、及び水を含有し、25uLの最終体積を有した。肺遺伝子特異的プライマーの異なるパネルを試験した。肺遺伝子特異的プライマーのパネルは、順方向及び逆方向プライマーのレパートリーを含有した。例えば、順方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルAの部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。逆方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルP1の部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。配列
は、SEQ ID NO: 1である。肺遺伝子特異的プライマーパネルは、38〜46の異なる肺特異的プライマー対を含有する多重パネルであり、各対は、順方向及び逆方向プライマーを含有した。パネル中の遺伝子特異的プライマー対はまた、ランダムタグ付け配列、及びユニバーサルAまたはP1プライマー配列のいずれかを含有した(上記の実施例1の記載を参照されたい)。接着膜を用いて96ウェルプレートを密閉した。プレートをボルテックスして内容物ウェルを混合し、プレートを回転させた。プレートをサーモサイクラー内に搭載し、以下のプログラムを実行した。
代替的には、20ngのcfDNAを2または4等分にし、各分割量を上記の分子タグ付けPCRサイクルに供した。
AMPure(商標)XP Reagentを室温で少なくとも30分間インキュベートし、ボルテックスしてビーズを分散させた。80%エタノール溶液を新たに調製した。260uLの80%エタノールを65uLの水と混合した。
接着膜をプレートから取り除いた。試料を含有する各ウェルに25uLのヌクレアーゼ不含水を添加した。75uL(例えば、試料体積の1.5倍)のAgencourt AMPure(商標)XP Reagentを添加した。膜を用いてプレートを再密閉し、ボルテックスして混合し、次いで、室温で5分間インキュベートした。プレートを再びボルテックスし、室温で5分間再びインキュベートした。プレートをしばらく回転させた。プレートを96ウェルプレートのラック上に置き、膜を取り除き、プレートを磁石スタンド上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。150uLの80%エタノールを添加した。磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。80%エタノール洗浄を1回繰り返した。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。より小さいピペットを使用して、ウェルの側部からエタノールの滴を除去した。磁石上で、ウェル中のビーズを室温で5分間風乾した。プレートを磁石から取り除いた。23uLのTEを個々のウェルに添加して、ビーズを分散させた。接着膜を用いてプレートを再密閉し、徹底的にボルテックスし、室温で5分間インキュベートした。プレートを回転させて、小滴を収集した。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石上に少なくとも2分間置いた。23uLの上澄みを同じプレート上の新しいウェルに移した。
PCR増幅手順は、以下のようにセットアップした:前の工程からの23uLの試料を含有するウェルに、1uLのユニバーサルプライマーA(IonXpressバーコード配列を含有する)、1uLのユニバーサルプライマーP1、25uLの2x Phusion(商標)U Multiplex PCR Master Mix(Thermo Fisher Scientific F−562SまたはF−562L)を添加した。ウェルは、約50uLの液体を含有した。上下に5回ピペットで取ることによって、ウェルの内容物を混合した。プレートをしばらく遠心沈澱させた。任意:持ち越しビーズがある場合、プレートを磁石スタンド上に3分間置き、50uLの反応を同じプレート上の新しいウェルに移した。プレートを再密閉した。プレートをサーモサイクラー内に搭載し、以下のプログラムを実行した。
試料当たり、520uLの新たに調製した80%エタノールを130uLのヌクレアーゼ不含水と混合した。膜をプレートから取り除いた。57.5uL(例えば、試料体積の1.15倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加し、上下に5回ピペットで取った。プレートを室温で10分間インキュベートした。プレートを磁石上に置き、室温で5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく慎重に上澄みを除去した。150uLの80%エタノールを試料に添加し、磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく上澄みを除去し、廃棄した。150uLの80%エタノールを用いて洗浄を繰り返した。上澄みを除去し、廃棄した。より小さいピペット(例えば、10〜20uLピペット)を使用して、ウェル中に残ったエタノール小滴を除去した。プレートを室温で5分間磁石上に残して、ビーズを風乾した。プレートを磁石から取り除いた。50uLの低TEをペレットに添加して、ビーズを分散させた。試料を上下に5回ピペットで取って、ビーズを再懸濁した。代替的には、接着膜を用いてプレートを密閉し、徹底的にボルテックスし、遠心沈澱させて小滴を収集した。プレートを磁石上に少なくとも2分間置いた。50uLの上澄みを同じプレート上の新しいウェルに移した。プレートを磁石から取り除いた。50uL(例えば、試料体積の1倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加した。試料を上下に5回ピペットで取った。プレートを室温で10分間インキュベートした。プレートを磁石上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく慎重に上澄みを除去し、廃棄した。150uLの80%エタノールを添加し、磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく上澄みを除去し、廃棄した。150uLの80%エタノールを用いて洗浄を繰り返した。上澄みを除去し、廃棄した。より小さいピペット(例えば、10〜20uLピペット)を使用して、ウェル中に残ったエタノール小滴を除去した。プレートを室温で5分間磁石上に残して、ビーズを風乾した。プレートを磁石から取り除いた。30uLの低TEをペレットに添加して、ビーズを分散させた。試料を上下に10回ピペットで取って、ビーズを再懸濁した。代替的には、接着膜を用いてプレートを密閉し、徹底的にボルテックスし、遠心沈澱させて小滴を収集した。プレートを磁石上に少なくとも2分間置いた。28uLの上澄みを同じプレート上の新しいウェルに移した。
ライブラリを定量化するために、5つの希釈サンプルポイントを標準E.coliライブラリ(約68pM原液のE.coli DH10Bライブラリ)から調製した。例えば、希釈試料を、6.8pM、0.68pM、0.068pM、0.0068pM、及び0.00068pMで調製した。2uLのcfDNAライブラリを198uLの水と混合することによって、cfDNAから調製されたライブラリの希釈試料を調製し、しばらく混合及び遠心沈澱させた(これは、1:100希釈試料である)。3uLの1:100希釈試料を27uLの水と混合し、しばらく混合及び遠心沈澱させた(これは、1:1000希釈試料である)。各試料について、試料、標準、及びNTCのために3つのウェルをセットアップした。384ウェルプレートのための以下の製法を使用してマスターミックスを調製した。
5.5uLのマスターミックスを各ウェルに分配し、4.5uLの1:1000希釈ライブラリ及び標準をこれらのウェルに添加した。
7900 HTサーモサイクラー(qPCRシステム)上のPCR反応を以下のようにセットアップした。
qPCRで判定された濃度を、本アッセイに使用されるライブラリ希釈と掛けることによって、無希釈のcfDNAライブラリの平均濃度を計算した。
最終ライブラリを25uLの低TE Buffer中に溶出し、Agilent 2100 Bioanalyzer上でHigh Sensitivity DNA Kitを使用して定量化した。Ion PGM(商標)Hi−Q(商標)Chef 400 Suppliesキット(Thermo Fisher Scientific A25948及びA27293キット)を使用した鋳型増幅及びIon球体ビーズへの結合、ならびに318 v2チップ充填手順のために40pMのライブラリを使用した。Ion PGM装置上で配列決定を行った。適用される閾値(例えば、付録2及び3を参照されたい)を用いて様々な選別、分類、及びカウント法を使用して配列決定データを分析し、0.05〜0.1%の検出限界が達成されたこと(付録1における全てのデータを参照されたい)を示した。
実施例3:
分子タグ付け−融合RNA:
無細胞DNAを血液(約7.5mLの血液)の単一のチューブから単離し、上記の実施例1に記載されるように処理した。
DNA及びRNAの混合物を含有する2つの核酸試料を以下のように調製した。25%または50%RNAの最終濃度まで既知の融合RNA種を含有したRNAカクテルをcfDNAにスパイクした。RNAカクテルのみを含有する第3の核酸試料も、分子タグ付け手順のために使用した。2%、1%、0.5%、及び0.1%RNAの濃度までRNAカクテルをcfDNAにスパイクした他の試料を調製及び試験した。融合陽性肺NCI細胞株H2228及びHCC78からRNAカクテルを調製した。
逆転写反応:
5x VILO(商標)RT Reaction Mix及び10x Superscript(商標)III Enzyme Mixは、Superscript(商標)IV VILO(商標)cDNA Synthesis Kit(Thermo Fisher Scientific、カタログ番号11754−050)からであった。96ウェルプレート中で、逆転写反応を以下のようにセットアップした。個々のウェルは、20ngの核酸試料(cfDNA及びスパイクインRNA)、2uLの5x VILO Reaction Mix、1uLの10x Superscript(商標)III Enzyme mix、及びヌクレアーゼ不含水を含有し、10uLの総体積を有した。接着膜を用いて96ウェルプレートを密閉した。プレートをボルテックスして内容物ウェルを混合し、プレートを回転させた。プレートをサーモサイクラー内に搭載し、以下のプログラムを実行した。
タグ付け:第1ラウンドPCR:
分子タグ付けPCR割り当てのための試薬を、以下のように同じ96ウェルプレート中の新しいウェル内にセットアップした。25uL反応体積の総体積は、上記の逆転写反応からの10uLのcDNA、12.5uLの2x Phusion(商標)U Multiplex PCR Master Mix(Thermo Fisher Scientific F−562SまたはF−562L)、2.5uLのタグ付きプライマーパネルを含有した。タグ付きプライマーパネルは、融合配列を有する増幅産物を精製するように設計された順方向及び逆方向の遺伝子特異的プライマー対の多重セットを含有する。パネル中のタグ付きプライマーはまた、ランダムタグ付け配列、及びユニバーサルAまたはP1プライマー配列のいずれかを含有した(上記の実施例1の順方向及び逆方向の遺伝子特異的プライマーの記載を参照されたい)。例えば、順方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルAの部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。逆方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルP1の部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。配列
は、SEQ ID NO: 1である。接着膜を用いて96ウェルプレートを密閉した。プレートをボルテックスして内容物ウェルを混合し、プレートを回転させた。プレートをサーモサイクラー内に搭載し、以下のプログラムを実行した。
精製:第1ラウンド:
AMPure(商標)XP Reagentを室温で少なくとも30分間インキュベートし、ボルテックスしてビーズを分散させた。80%エタノール溶液を新たに調製した。260uLの80%エタノールを65uLの水と混合した。
接着膜をプレートから取り除いた。試料を含有する各ウェルに25uLのヌクレアーゼ不含水を添加した。75uL(例えば、試料体積の1.5倍)のAgencourt AMPure(商標)XP Reagentを添加した。膜を用いてプレートを再密閉し、ボルテックスして混合し、次いで、室温で5分間インキュベートした。プレートを再びボルテックスし、室温で5分間再びインキュベートした。プレートをしばらく回転させた。プレートを96ウェルプレートのラック上に置き、膜を取り除き、プレートを磁石スタンド上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。150uLの80%エタノールを添加した。磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。80%エタノール洗浄を1回繰り返した。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。より小さいピペットを使用して、ウェルの側部からエタノールの滴を除去した。磁石上で、ウェル中のビーズを室温で5分間風乾した。プレートを磁石から取り除いた。23uLのTEを個々のウェルに添加して、ビーズを分散させた。接着膜を用いてプレートを再密閉し、徹底的にボルテックスし、室温で5分間インキュベートした。プレートを回転させて、小滴を収集した。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石上に少なくとも2分間置いた。23uLの上澄みを同じプレート上の新しいウェルに移した。
第2ラウンドPCR:
PCR増幅手順は、以下のようにセットアップした:前の工程からの23uLの試料を含有するウェルに、1uLのユニバーサルプライマーA(IonXpressバーコード配列を含有する)、1uLのユニバーサルプライマーP1、25uLの2x Phusion(商標)U Multiplex PCR Master Mix(Thermo Fisher Scientific F−562SまたはF−562L)を添加した。ウェルは、約50uLの液体を含有するべきである。上下に5回ピペットで取ることによって、ウェルの内容物を混合した。プレートをしばらく遠心沈澱させた。任意:持ち越しビーズがある場合、プレートを磁石スタンド上に3分間置き、50uLの反応を同じプレート上の新しいウェルに移した。プレートを再密閉した。プレートをサーモサイクラー内に搭載し、以下のプログラムを実行した。
精製−第2ラウンド:
試料当たり、520uLの新たに調製した80%エタノールを130uLのヌクレアーゼ不含水と混合した。膜をプレートから取り除いた。57.5uL(例えば、試料体積の1.15倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加し、上下に5回ピペットで取った。プレートを室温で10分間インキュベートした。プレートを磁石上に置き、室温で5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく慎重に上澄みを除去した。150uLの80%エタノールを試料に添加し、磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく上澄みを除去し、廃棄した。150uLの80%エタノールを用いて洗浄を繰り返した。上澄みを除去し、廃棄した。より小さいピペット(例えば、10〜20uLピペット)を使用して、ウェル中に残ったエタノール小滴を除去した。プレートを室温で5分間磁石上に残して、ビーズを風乾した。プレートを磁石から取り除いた。50uLの低TEをペレットに添加して、ビーズを分散させた。試料を上下に5回ピペットで取って、ビーズを再懸濁した。代替的には、接着膜を用いてプレートを密閉し、徹底的にボルテックスし、遠心沈澱させて小滴を収集した。プレートを磁石上に少なくとも2分間置いた。50uLの上澄みを同じプレート上の新しいウェルに移した。プレートを磁石から取り除いた。50uL(例えば、試料体積の1倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加した。試料を上下に5回ピペットで取った。プレートを室温で10分間インキュベートした。プレートを磁石上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく慎重に上澄みを除去し、廃棄した。150uLの80%エタノールを添加し、磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく上澄みを除去し、廃棄した。150uLの80%エタノールを用いて洗浄を繰り返した。上澄みを除去し、廃棄した。より小さいピペット(例えば、10〜20uLピペット)を使用して、ウェル中に残ったエタノール小滴を除去した。プレートを室温で5分間磁石上に残して、ビーズを風乾した。プレートを磁石から取り除いた。30uLの低TEをペレットに添加して、ビーズを分散させた。試料を上下に10回ピペットで取って、ビーズを再懸濁した。代替的には、接着膜を用いてプレートを密閉し、徹底的にボルテックスし、遠心沈澱させて小滴を収集した。プレートを磁石上に少なくとも2分間置いた。28uLの上澄みを同じプレート上の新しいウェルに移した。
ライブラリを定量化するために、5つの希釈サンプルポイントを標準E.coliライブラリ(約68pM原液のE.coli DH10Bライブラリ)から調製した。例えば、希釈サンプルを、6.8pM、0.68pM、0.068pM、0.0068pM、及び0.00068pMで調製した。2uLのcfDNAライブラリを198uLの水と混合することによって、cfDNAから調製されたライブラリの希釈試料を調製し、しばらく混合及び遠心沈澱させた(これは、1:100希釈試料である)。3uLの1:100希釈試料を27uLの水と混合し、しばらく混合及び遠心沈澱させた(これは、1:1000希釈試料である)。各試料について、試料、標準、及びNTCのために3つのウェルをセットアップした。384ウェルプレートのための以下の製法を使用してマスターミックスを調製した。
5.5uLのマスターミックスを各ウェルに分配し、4.5uLの1:1000希釈ライブラリ及び標準をこれらのウェルに添加した。
7900 HTサーモサイクラー(qPCRシステム)上のPCR反応を以下のようにセットアップした。
qPCRで判定された濃度を、本アッセイに使用されるライブラリ希釈と掛けることによって、無希釈のcfDNAライブラリの平均濃度を計算した。
最終ライブラリを25uLの低TE Buffer中に溶出し、Agilent 2100 Bioanalyzer上でHigh Sensitivity DNA Kitを使用して定量化した。Ion PGM(商標)Hi−Q(商標)Chef 400 Suppliesキット(Thermo Fisher Scientific A25948及びA27293キット)を使用した鋳型増幅及びIon球体ビーズへの結合、ならびに318 v2チップ充填手順のために40pMのライブラリを使用した。Ion PGM装置上で配列決定を行った。適用される閾値を用いて様々な選別、分類、及びカウント法を使用して配列決定データを分析し、EML4−ALK及びSLC34A2−ROS1融合転写が検出されたことを示した。
実施例4:
肺プライマーパネルを用いた分子タグ付け−cfDNA、MegaMix対照DNA、及びHorizon対照DNA試料。
ヒト肺癌対象(例えば、末期肺癌)由来の無細胞DNAを血液(約7.5mLの血液、4〜5mLの血漿)の単一のチューブから単離し、上記の実施例1に記載されるように処理した。血液をEDTA採血チューブまたはStreck DNA採血チューブに収集した。概して、約7.5mLの血液から約20〜50ngのcfDNAを単離した。また、一致したFFPE試料を同じヒト肺癌対象から得た。
cfDNA、MegaMix対照DNA、またはHorizon対照DNAのタグ付け:
プライマーのLung cfDNA Panel及びcfDNA Library PCR Master Mixを含む、Oncomine(登録商標)Lung cfDNA Kitからの成分を氷上で解凍した。プライマーのLung cfDNA Panelは、157ホットスポット変異を含む、11の遺伝子における変異をカバーする35の異なる増幅産物を生成するためのプライマー対を含んだ。例えば、順方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルAの部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。逆方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルP1の部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。配列
は、SEQ ID NO: 1である。
MegaMix対照DNAは、癌関連変異を含む合成及びゲノムDNAを含有するAcroMetrix(商標)からの対照DNA混合物でである。
Horizon cfDNA対照DNAは、改変された細胞株から作製された参照標準であり、癌関連変異を含有する。
96ウェルプレート中で、分子タグ付けPCR割り当てを個々のウェルにおいて以下のようにセットアップした。
反応混合物が室温に置かれる時間を最小化するために、cfDNA PCR Master Mixを最後に添加した。代替的には、Master Mixを氷上でセットアップした。
MicroAmp(登録商標)Clear接着膜を用いてプレートを密閉した。プレートをボルテックスして十分に混合した。プレートを300xgで30秒間回転させた。
サーマルサイクラーを90℃に予熱した。プレートをサーマルサイクラー内に搭載し、以下のプログラムを実行した。
試料蒸発を最小化するために、PCR中、MicroAmp(登録商標)Optical Film Compression Padを使用した。
第1ラウンド精製:
AMPure(商標)XP Reagentを室温で少なくとも30分間インキュベートし、徹底的にボルテックスしてビーズを分散させた。保持力の低いピペットチップをAMPure(商標)精製工程に使用した。80%エタノール溶液を新たに調製した。試料当たり、260uLの80%エタノールを65uLのヌクレアーゼ不含水と混合した。
プレートをしばらく回転させて、ウェルの底部の試料を収集した。接着膜をプレートから慎重に取り除いた。試料に30μLのヌクレアーゼ不含水を添加した。96μL(試料体積の1.6倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加した。膜を用いてプレートを再密閉し、ボルテックスして混合し、室温で5分間インキュベートした。プレートを再びボルテックスし、室温でさらに5分間インキュベートした。各ボルテックス後に試料の色を確認して、ビーズの徹底的な混合を確実にした。プレートを300xgで1分間回転させた。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石スタンド上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。150μLの新たに調製した80%エタノールを各ウェルに添加し、室温で30秒間インキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。磁石上に静置する間、プレートは動かさなかった。150μLの新たに調製した80%エタノールを各ウェルに添加して洗浄を繰り返し、室温で30秒間インキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。より小さいピペット(例えば、10または20μL)を使用して、ウェルから全てのエタノール小滴を除去した。磁石上で、ウェル中のビーズを室温で5分間風乾した。プレートを磁石から取り除いた。24μLの低TEをペレットに添加して、ビーズを分散させた。新しいMicroAmp(登録商標)接着膜を用いてプレートを再密閉し、徹底的にボルテックスし、室温で5分間インキュベートした。プレートを300xgで30秒間回転させて、小滴を収集した。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石スタンド上に置き、少なくとも2分間インキュベートした。試料の喪失を低減するために保持力の低いチップを使用して、23μLの上澄みを同じプレート上の新しいウェルに移した。
ユニバーサルP1及びバーコードAアダプターの付加:
第2のPCR反応を以下のようにセットアップした:前の工程からの23μLの試料を含有するウェルに、1μL cfDNA Library Primer A/BC X(バーコード1〜16);1μL cfDNA Library Primer P1;25μL cfDNA Library Master Mix(50μLの総体積)を添加した。反応混合物が室温に置かれる時間を最小化するために、cfDNA Library Master Mixを最後に添加した。プレートを新しいMicroAmp(登録商標)接着膜で密閉し、徹底的にボルテックスした。プレートを300xgで30秒間回転させて、小滴を収集した。
サーマルサイクラーを90℃に予熱した。プレートをサーマルサイクラー内に搭載し、以下のプログラムを実行した。
試料蒸発を最小化するために、PCR中、MicroAmp(登録商標)Optical Film Compression Padを使用した。
第2ラウンド精製:
試料当たり、520μLの新たに調製した80%エタノールを130μLのヌクレアーゼ不含水と混合した。115μL(試料体積の1.15倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加した。プレートを再密閉し、ボルテックスして混合し、室温で5分間インキュベートした。ボルテックス後に試料の色を確認して、ビーズの徹底的な混合を確実にした。プレートを300xgで1分間回転させた。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石スタンド上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。150μLの新たに調製した80%エタノールを各ウェルに添加し、室温で30秒間インキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。磁石上に静置する間、プレートは動かさなかった。150μLの新たに調製した80%エタノールを各ウェルに添加して洗浄を繰り返し、室温で30秒間インキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。より小さいピペット(例えば、10または20μL)を使用して、ウェルから全てのエタノール小滴を除去した。磁石上で、ウェル中のビーズを室温で5分間風乾した。プレートを磁石から取り除いた。50μLの低TEをペレットに添加して、ビーズを分散させた。新しいMicroAmp(登録商標)接着膜を用いてプレートを再密閉し、徹底的にボルテックスし、室温で5分間インキュベートした。プレートを300xgで30秒間回転させて、小滴を収集した。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石スタンド上に置き、少なくとも2分間インキュベートした。試料の喪失を低減するために保持力の低いチップを使用して、50μLの上澄みを同じプレート上の新しいウェルに移した。
サイズセレクション:
サイズセレクションを以下のように行った。プレートを磁石から取り除いた。45μL(試料体積の0.9倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加した。プレートを再密閉し、ボルテックスして混合し、室温で5分間インキュベートした。ボルテックス後に試料の色を確認して、ビーズの徹底的な混合を確実にした。プレートを300xgで1分間回転させた。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石スタンド上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。150μLの新たに調製した80%エタノールを各ウェルに添加し、室温で30秒間インキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。磁石上に静置する間、プレートは動かさなかった。150μLの新たに調製した80%エタノールを各ウェルに添加して洗浄を繰り返し、室温で30秒間インキュベートした。ペレットを乱すことなく上澄みを除去し、上澄みを廃棄した。より小さいピペット(例えば、10または20μL)を使用して、ウェルから全てのエタノール小滴を除去した。磁石上で、ウェル中のビーズを室温で5分間風乾した。プレートを磁石から取り除いた。30μLの低TEをペレットに添加して、ビーズを分散させた。新しいMicroAmp(登録商標)接着膜を用いてプレートを再密閉し、徹底的にボルテックスし、室温で5分間インキュベートした。プレートを300xgで30秒間回転させて、小滴を収集した。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石スタンド上に置き、少なくとも2分間インキュベートした。試料の喪失を低減するために保持力の低いチップを使用して、28μLの上澄みを同じプレート上の新しいウェルに移した。
ライブラリ定量化及び希釈標準の調製:
E.coli DH10B Control DNA(約68pMストック)を使用して、6.8pM、0.68pM、0.068pM、0.0068pM、及び0.00068pMを含む希釈系列を調製した。これらの希釈qPCR機器における希釈標準として使用した。
2μLのタグ付きライブラリを198μLのヌクレアーゼ不含水と合わせることによってタグ付きライブラリの1:100希釈を調製し、混合物を十分にボルテックスし、しばらく回転させた。3μLの1:100希釈を27μLのヌクレアーゼ不含水と合わせることによってタグ付きライブラリの1:1000希釈を調製し、混合物を十分にボルテックスし、しばらく回転させた。
各タグ付きライブラリ、希釈標準、及び鋳型なしの対照(NTC)のためにそれぞれ3つのウェルをセットアップした。各試料のためのマスターミックスの体積は、以下の表を使用して調製した。
5.5μLのマスターミックスを各ウェルに分配し、4.5μLの1:1000希釈標準または1:1000希釈タグ付きライブラリ。
7900 HTシステムサーマルサイクラーを以下のように実行した。
qPCRによって判定された濃度を、本アッセイに使用されるライブラリ希釈と掛けることによって、無希釈のタグ付きライブラリの平均濃度を計算した。
結果:
実施例4に記載される分子タグ付け方法を使用してcfDNAから生成されたタグ付きライブラリのライブラリ定量化手順の結果が、図4に示される。
実施例4に記載される分子タグ付け方法を使用してcfDNAから生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリのリード長分析の結果が、図5に示される。
実施例4に記載される分子タグ付け方法を使用して対照DNAの異なる希釈標準(例えば、0.5%または0.1%)から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたいくつかのタグ付きライブラリの真陽性カウント及び感度分析の結果が、図6に示される。
実施例4に記載される分子タグ付け方法を使用して、改変された対照DNAの0.1%希釈標準から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリのファミリーサイズ分布分析の結果が、図7Aに示される。
実施例4に記載される分子タグ付け方法を使用して、改変された対照DNAの0.5%希釈標準から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリのファミリーサイズ分布分析の結果が、図7Bに示される。
実施例4に記載される分子タグ付け方法を使用してcfDNA−1試料から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリのファミリーサイズ分布分析の結果が、図8Aに示される。
実施例4に記載される分子タグ付け方法を使用してcfDNA−2試料から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定された異なるタグ付きライブラリの別のファミリーサイズ分布分析の結果が、図8Bに示される。
実施例4に記載される分子タグ付け方法を使用してcfDNA−1試料から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリの標的配列当たりのリードカウントの結果が、図9Aに示される。
実施例4に記載される分子タグ付け方法を使用してcfDNA−2試料から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリの標的配列当たりのリードカウントの結果が、図9Bに示される。
実施例4に記載される分子タグ付け方法を使用してcfDNA−1試料から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリのファミリーサイズ分析(例えば、サイズ3以上)の結果が、図10Aに示される。
実施例4に記載される分子タグ付け方法を使用してcfDNA−2試料から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定されたタグ付きライブラリのファミリーサイズ分析(例えば、サイズ3以上)の結果が、図10Bに示される。
タグ付きライブラリは、実施例4に記載される分子タグ付け方法を使用して8つの異なるcfDNA試料から生成され、次いでIon Torrent半導体配列決定チップ上で配列決定された。リードカバレッジ中央値、機能的ファミリー中央値、0.8MMカバレッジを上回った標的、及び偽陽性とされたホットスポット変異体は、以下の表17に示される。
実施例5:
肺プライマーパネルを用いた分子タグ付け
ヒト肺癌対象(例えば、末期肺癌)由来の無細胞DNAを血液(約7.5mLの血液、4〜5mLの血漿)の単一のチューブから単離し、上記の実施例1に記載されるように処理した。血液をEDTA採血チューブまたはStreck DNA採血チューブに収集した。また、一致したFFPE試料を同じヒト肺癌対象から得た。
上記の実施例4に記載されるMagMAX(商標)Cell−Free DNA単離手順を使用して、cfDNAを血漿から単離した。製造業者の指示に従ってRecoverAll(商標)Multi−Sample RNA/DNA単離キット(Thermo Fisher Scientificカタログ番号A26069)を使用して、FFPE試料由来のDNAを単離した。
改変されたプラスミド対照DNA(AcroMetrix(商標)Oncology Hotspot Control)を、GM24385ゲノムDNA中で0.1%または0.5%の頻度まで希釈し、次いでDNAミックスを断片化して170bpの平均サイズを有する断片を生成することによって、対照希釈系列を調製した。AcroMetrix(商標)試料は、分子タグ付け手順によって調べられる40の共通の腫瘍変異を含有した。サイズ分布は、HorizonのcfDNA参照試料と類似した(図11)。ヒトcfDNA中の110bpより長いDNA断片の数と一致させるために、インプット参照の量を二倍にした。
Horizon標準参照HD780(0.1%、1%、及び5%)の希釈系列も試験紙、Horizon試料は、我々のホットスポット位置において8つの低頻度変異を含有し、これには10bp超のサイズの2つの大きな挿入及び欠失変異体が含まれた。
正常cfDNA試料及びFF/FFPE腫瘍試料における変異体検出性能の解析的検証。
上記の実施例4に記載される肺cfDNAプライマーパネルを使用して、cfDNA(血漿由来)、DNA(FFPE試料由来)、Horizon Multiplex I cfDNA参照標準(5、10、30、40、50または60ngのインプットDNA)、及びAcroMetrix(商標)Oncology Hotspot Controlからタグ付きライブラリを生成した。例えば、順方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルAの部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。逆方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルP1の部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。配列
は、SEQ ID NO: 1である。肺cfDNAプライマーパネルは、ALK、BRAF、EGFR、ERBB2、KRAS、MAP2K1、MET、NRAS、PIK3CA、ROS1、及びTP53を標的とした。肺cfDNAプライマーパネルは、35の増幅産物を標的とし、11の遺伝子における157または169ホットスポット変異をカバーする。順方向及び逆方向プライマーは、cfDNA及びFFPE DNAのサイズ分布を考慮して、40〜60bp離れて置かれた。Ion Torrent半導体配列決定チップ上でタグ付きライブラリを配列決定した。
Horizon参照標準を使用して、分子タグ付け手順の検出感度及び特異性を提示した。結果は、Horizon参照標準について、1% Horizon標準の5ngインプット及び0.1% Horizon標準の50ngで80%超の感度が達成されたことを示した(以下の表18を参照されたい)。20ngインプットcfDNAも試験した。
分子タグ付け手順は、試料中に0.1%で存在するホットスポット中のアリル変異体において、20ng超のインプットDNAで95%超の感度、20ngのインプットDNAで85%超の感度、試料当たり1未満の偽性(FP=偽陽性)コールを達成した(以下の表19を参照されたい)。
分子タグ付け手順は、0.1%の検出レベルのために、約20ngのみのインプットDNAを要する(図12)。
AcroMetrix(商標)Oncology Hotspot参照は、約0.1%のアリル頻度で39の変異体を表す断片化DNAを含有し、これを使用して分子タグ付け手順の感度を試験した。結果は、80%超の感度及び95%超の特異性が達成されたことを示す。39の変異体のアリル頻度は、約0.05%〜0.15%の範囲で観測された(図13)。
分子タグ付け手順は、COSMIC and Oncomine(登録商標)データベースから肺に関連する171のバイオマーカーの照合及び非小細胞肺癌に関係する11の遺伝子の約1,700のゲノム位置でのデノボ変異体検出を可能にした。分子タグ付け手順は、95%超のオンターゲットのリード、及び20ngインプットヒトcfDNA由来の標的cfDNA分子にわたる高度に均一な増幅を達成した(図14A、B、及びC)。
血液由来のcfDNAと一致したFFPE試料との間で、変異体検出における高い一致が観測された(一致した血漿及びFFPE試料から検出された変異体の頻度観測値を示す以下の表20を参照されたい)。
データ分析:同じ一意のタグ配列を有する配列リードを共にファミリーにグループ化した。少なくとも3つのリードを含有するファミリーは、機能的ファミリーと呼ばれ、これは、元のDNA断片の配列の正確な再構築を可能にした。0.1% LODについて、20ngのインプットDNA及び25,000x超のリードカバレッジを要した(図12)。これは、各標的上で2,500超の機能的ファミリー(分子カバレッジ)を生成した(図14A、B、及びC)。約0.1〜1%のアリル頻度観測値を有するいくつかの標的配列のためのカバレッジ深度の範囲を示す図17も参照されたい。
データ分析はまたは、選別閾値、グループ化閾値、グループ化されたリードカウント閾値、ファミリーカウント閾値、差異カウント閾値、パターンカウント閾値、及び非標的パターン閾値を含む様々な閾値を候補配列リードに適用することを含み、これは、これらの様々な閾値を含まないデータ分析と比べて偽陽性の割合を低減しながら、高い割合の真陽性をもたらした(Figures 20A及びB)。図20Aは、本教示に従う様々な閾値(B)を適用した場合に必要とされる偽陽性の数と比較した、閾値(A)のデフォルトセットを適用した場合の、0.1%AcroMetrix(商標)試料中での0.1%アリル頻度に必要とされる全標的偽陽性(FP)の数を示すヒストグラムである。図20Bは、本教示に従う様々な閾値(B)を適用した場合に必要とされる偽陽性の数と比較した、閾値(A)のデフォルトセットを適用した場合の、陽性対照AcroMetrix(商標)試料中での0.1%アリル頻度に必要とされるホットスポット偽陽性(FP)の数を示すヒストグラムである。
データの要約は、以下の表21に示される。
データは、分子タグ付け手順は、約0.1%で試料中に存在するアリル変異体を担持する低い存在量の核酸分子を検出するのに十分な感度であることを示し、分子タグ付加手順を使用して、生体液(例えば、血液)由来のcfDNAにおける同じ検出レベルを達成することができる。
このデータはまた、分子タグ付け手順がcfDNA及び一致するFFPE試料において重複する変異を検出し、分子タグ付加手順を使用して、腫瘍力学を監視する(例えば、非小細胞肺癌及び他の癌を監視する)ことができる。
実施例6:
分子タグ付け−融合RNA:
無細胞DNAを血液(約7.5mLの血液)の単一のチューブから単離し、上記の実施例1に記載されるように処理した。
cfDNAにスパイクされたRNAの混合物を、上記の実施例3に記載されるように調製した。
逆転写反応を、上記の実施例3に記載されるように行った。
タグ付け:第1ラウンドPCR:
分子タグ付けPCR割り当てのための試薬を、以下のように同じ96ウェルプレート中の新しいウェル内にセットアップした。30uL反応体積の総体積は、上記の逆転写反応からの10uLのcDNA、15uLのcfDNA Library PCR Master Mix、2.5uLのタグ付きプライマーパネル、及び2.5uLの肺cfDNAプライマーパネルを含有した。例えば、順方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルAの部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。逆方向遺伝子特異的プライマーは、以下の配列を含有した:5’−[ユニバーサルP1の部分]−[NNNACTNNNTGA]−[遺伝子特異的配列]−3’。配列
は、SEQ ID NO: 1である。接着膜を用いて96ウェルプレートを密閉した。プレートをボルテックスして内容物ウェルを混合し、プレートを回転させた。プレートをサーモサイクラー内に搭載し、以下のプログラムを実行した。
精製:第1ラウンド:
AMPure(商標)XP Reagentを室温で少なくとも30分間インキュベートし、ボルテックスしてビーズを分散させた。80%エタノール溶液を新たに調製した。260uLの80%エタノールを65uLの水と混合した。
接着膜をプレートから取り除いた。試料を含有する各ウェルに30uLのヌクレアーゼ不含水を添加した。96uL(例えば、試料体積の1.6倍)のAgencourt AMPure(商標)XP Reagentを添加した。膜を用いてプレートを再密閉し、ボルテックスして混合し、次いで、室温で5分間インキュベートした。プレートを再びボルテックスし、室温で5分間再びインキュベートした。プレートをしばらく回転させた。プレートを96ウェルプレートのラック上に置き、膜を取り除き、プレートを磁石スタンド上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。150uLの80%エタノールを添加した。磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。80%エタノール洗浄を1回繰り返した。ペレットを乱すことなく個々のウェルから上澄みを除去し、廃棄した。より小さいピペットを使用して、ウェルの側部からエタノールの滴を除去した。磁石上で、ウェル中のビーズを室温で5分間風乾した。プレートを磁石から取り除いた。24uLのTEを個々のウェルに添加して、ビーズを分散させた。接着膜を用いてプレートを再密閉し、徹底的にボルテックスし、室温で5分間インキュベートした。プレートを回転させて、小滴を収集した。プレートを96ウェルプレートのラック上に置き、膜を取り除いた。プレートを磁石上に少なくとも2分間置いた。23uLの上澄みを同じプレート上の新しいウェルに移した。
第2ラウンドPCR:
PCR増幅手順は、以下のようにセットアップした:前の工程からの23uLの試料を含有するウェルに、1uLのユニバーサルプライマーA(IonXpressバーコード配列を含有する)、1uLのユニバーサルプライマーP1、25uLの2x Phusion(商標)U Multiplex PCR Master Mix(Thermo Fisher Scientific F−562SまたはF−562L)を添加した。ウェルは、約50uLの液体を含有するべきである。上下に5回ピペットで取ることによって、ウェルの内容物を混合した。プレートをしばらく遠心沈澱させた。任意:持ち越しビーズがある場合、プレートを磁石スタンド上に3分間置き、50uLの反応を同じプレート上の新しいウェルに移した。プレートを再密閉した。プレートをサーモサイクラー内に搭載し、以下のプログラムを実行した。
精製−第2ラウンド:
試料当たり、520uLの新たに調製した80%エタノールを130uLのヌクレアーゼ不含水と混合した。膜をプレートから取り除いた。試料に50μLのヌクレアーゼ不含水を添加した。115uL(例えば、試料体積の1.15倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加し、上下に5回ピペットで取った。プレートを室温で10分間インキュベートした。プレートを磁石上に置き、室温で5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく慎重に上澄みを除去した。150uLの80%エタノールを試料に添加し、磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく上澄みを除去し、廃棄した。150uLの80%エタノールを用いて洗浄を繰り返した。上澄みを除去し、廃棄した。より小さいピペット(例えば、10〜20uLピペット)を使用して、ウェル中に残ったエタノール小滴を除去した。プレートを室温で5分間磁石上に残して、ビーズを風乾した。プレートを磁石から取り除いた。50uLの低TEをペレットに添加して、ビーズを分散させた。試料を上下に5回ピペットで取って、ビーズを再懸濁した。代替的には、接着膜を用いてプレートを密閉し、徹底的にボルテックスし、遠心沈澱させて小滴を収集した。プレートを磁石上に少なくとも2分間置いた。50uLの上澄みを同じプレート上の新しいウェルに移した。プレートを磁石から取り除いた。45uL(例えば、試料体積の0.9倍)のAgencourt AMPure(商標)XP Reagentを各試料に添加した。試料を上下に5回ピペットで取った。プレートを室温で10分間インキュベートした。プレートを磁石上に置き、5分間または溶液が透明になるまでインキュベートした。ペレットを乱すことなく慎重に上澄みを除去し、廃棄した。150uLの80%エタノールを添加し、磁石上の2つまたは4つの位置にプレートを横に動かして、ビーズを洗浄した。ペレットを乱すことなく上澄みを除去し、廃棄した。150uLの80%エタノールを用いて洗浄を繰り返した。上澄みを除去し、廃棄した。より小さいピペット(例えば、10〜20uLピペット)を使用して、ウェル中に残ったエタノール小滴を除去した。プレートを室温で5分間磁石上に残して、ビーズを風乾した。プレートを磁石から取り除いた。30uLの低TEをペレットに添加して、ビーズを分散させた。試料を上下に10回ピペットで取って、ビーズを再懸濁した。代替的には、接着膜を用いてプレートを密閉し、徹底的にボルテックスし、遠心沈澱させて小滴を収集した。プレートを磁石上に少なくとも2分間置いた。28uLの上澄みを同じプレート上の新しいウェルに移した。
ライブラリを定量化するために、5つの希釈サンプルポイントを標準E.coliライブラリ(約68pM原液のE.coli DH10Bライブラリ)から調製した。例えば、希釈サンプルを、6.8pM、0.68pM、0.068pM、0.0068pM、及び0.00068pMで調製した。2uLのcfDNAライブラリを198uLの水と混合することによって、cfDNAから調製されたライブラリの希釈試料を調製し、しばらく混合及び遠心沈澱させた(これは、1:100希釈試料である)。3uLの1:100希釈試料を27uLの水と混合し、しばらく混合及び遠心沈澱させた(これは、1:1000希釈試料である)。各試料について、試料、標準、及びNTCのために3つのウェルをセットアップした。384ウェルプレートのための以下の製法を使用してマスターミックスを調製した。
5.5uLのマスターミックスを各ウェルに分配し、4.5uLの1:1000希釈ライブラリ及び標準をこれらのウェルに添加した。
7900 HTサーモサイクラー(qPCRシステム)上のPCR反応を以下のようにセットアップした。
qPCRで判定された濃度を、本アッセイに使用されるライブラリ希釈と掛けることによって、無希釈のcfDNAライブラリの平均濃度を計算した。
最終ライブラリを25uLの低TE Buffer中に溶出し、Agilent 2100 Bioanalyzer上でHigh Sensitivity DNA Kitを使用して定量化した。鋳型増幅、及びIon球体ビーズへの結合、ならびにIon S5及び530チップ装填手順に、タグ付きライブラリを使用した。Ion Proton装置上で配列決定を行った。適用される閾値を用いて様々な選別、分類、及びカウント法を使用して配列決定データを分析し、EML4−ALK及びSLC34A2−ROS1融合転写が検出されたことを示した。図15A及びBは、RNAをスパイクされたDNA試料のオンターゲットの増幅産物カバレッジを示す。以下の表26は、8つ全てのHorizonホットスポット配列の特異的検出を示す。
以下の表27は、逆転写工程についてランダムプライミングまたは遺伝子特異的プライミングを使用して達成された融合標的配列のカバレッジを示す。
分子タグ付け手順は、RNA及びDNAの混合物を含有する試料において、RNA融合及びDNA変異体の約1%の検出を達成した。
実施例7:
アダプターライゲーションを介した分子タグ付け−MegaMix対照DNA
MegaMix対照DNAは、癌関連変異を含む合成及びゲノムDNAを含有するAcroMetrix(商標)からの対照DNA混合物でである。インプット試料は、0.1%に希釈されたMegaMixを含んだ。ワークフローは、インプットDNAの脱リン酸化、非タグ付き遺伝子特異的プライマーを使用するAMPLISEQ(Thermo Fisher Scientific、カタログ番号4475345)を使用した遺伝子特異的増幅、増幅産物末端精製、タグ付きアダプターライゲーション、PCR増幅、及び配列決定を含んだ。
脱リン酸化:
全ての反応を多層プレート中で行った。脱リン酸化反応は、3.5uL(20ng)のMegaMix DNA、0.5uLの10X FastAP Buffer、及び1uLのFastAP Thermosensitiveアルカリホスファターゼ(Thermo Fisher Scientific、カタログ番号EF0654を含んだ。脱リン酸化反応を37℃で60分間、次いで75℃で5分間インキュベートして酵素を失活させ、4℃に冷却した。
遺伝子特異的増幅:
遺伝子特異的増幅反応は、10uLの2X Phusion(商標)U Multiplex MasterMix(Thermo Fisher Scientificカタログ番号F562S)、4uL AmpliSeq DNAパネル(結腸及び肺プライマーパネル、Thermo Fisher Scientificカタログ番号4475345)、及び1uLのヌクレアーゼ不含水を含んだ。増幅反応を十分に混合し、次いで5uLの脱リン酸化インプットDNAを添加した。サーモサイクラーを以下のようにプログラムした。
次いで、AmpliSeqキット由来の2uLのFuPa試薬を添加し、反応を50℃で10分間、55℃で10分間、60℃で20分間インキュベートし、次いで反応を10℃で最長で1時間維持した。この増幅産物反応の体積は、22uLを含有する。
アダプターライゲーションを介したタグ付け:
タグ付けアダプターは、潜在的に、414=2.68×108の異なるタグ配列が存在するように、異なる14−merランダム/縮重配列を含有した。14−merランダムタグアダプターは、点在するランダム配列及び固定配列を含有しなかった。タグ付きアダプターはまた、ユニバーサルAまたはP1アダプター配列のいずれかを含有した。例えば、Aタグ付けアダプターは、5’−[Aアダプター]−[14−merランダムタグ]−3’を含有し、P1タグ付けアダプターは、5’−[14−mer]−[P1アダプター]−3’を含有した。ライゲーション反応は、AmpliSeqキット由来の4uLのSwitch溶液、2uLのタグ付きアダプター、22uLの増幅産物、及び2uLのDNAリガーゼを含有した。ライゲーション反応を22℃で30分間、72℃で10分間インキュベートし、10℃で維持した。
第1ラウンド精製:
AMPure(商標)XP Reagentを室温で少なくとも30分間インキュベートし、徹底的にボルテックスしてビーズを分散させた。保持力の低いピペットチップをAMPure(商標)精製工程に使用した。試料当たり、230uLのエタノールを100uLのヌクレアーゼ不含水と混合することによって、70%エタノール溶液を新たに調製した。
45uL(例えば、試料体積の1.5倍)のAgencourt AMPure(商標)XP Reagentを各ライゲーション反応に添加し、ピペットで5回取ることによって混合し、室温で5分間インキュベートした。プレートを磁石ラック上に2分間、または溶液が透明になるまで置いた。ペレットを乱すことなく上澄みを慎重に除去し、上澄みを廃棄した。150uLの新たに調製した70%エタノールをペレットに添加し、2つの磁石間でプレートを横に動かして、ペレットを洗浄した。ペレットを乱すことなく上澄みを慎重に除去し、上澄みを廃棄した。150uLの新たに調製した70%エタノールをペレットに添加し、2つの磁石間でプレートを横に動かして、ペレットを洗浄することによって洗浄工程を繰り返した。ペレットを乱すことなく上澄みを慎重に除去し、上澄みを廃棄した。プレートを磁石上に戻し、ビーズ/ペレットを室温で5分間風乾した。
プレートを磁石から取り除いた。23uLの低TEをペレットに添加して、ビーズを分散させた。プレートを密閉、ボルテックス、及び回転させて、小滴を収集した。プレートを磁石上に少なくとも2分間置いた。上澄み(約23uL)を新しいチューブに除去した。
PCRによる増幅:
25uLの2X Phusion(商標)U Multiplex Master Mix(Thermo Fisher Scientificカタログ番号F562S)、2uLのユニバーサルA及びP1増幅プライマー、及び上記の23uLのAMPure(商標)で精製された上澄みを混合することによって、PCR増幅反応を行った。サーモサイクラーを以下のようにプログラムした。
第2ラウンド精製:
AMPure(商標)XP Reagentを室温で少なくとも30分間インキュベートし、徹底的にボルテックスしてビーズを分散させた。保持力の低いピペットチップをAMPure(商標)精製工程に使用した。試料当たり、230uLのエタノールを100uLのヌクレアーゼ不含水と混合することによって、70%エタノール溶液を新たに調製した。
75uL(例えば、試料体積の1.5倍)のAgencourt AMPure(商標)XP Reagentを各ライゲーション反応に添加し、ピペットで5回取ることによって混合し、室温で5分間インキュベートした。プレートを磁石ラック上に2分間、または溶液が透明になるまで置いた。ペレットを乱すことなく上澄みを慎重に除去し、上澄みを廃棄した。150uLの新たに調製した70%エタノールをペレットに添加し、2つの磁石間でプレートを横に動かして、ペレットを洗浄した。ペレットを乱すことなく上澄みを慎重に除去し、上澄みを廃棄した。150uLの新たに調製した70%エタノールをペレットに添加し、2つの磁石間でプレートを横に動かして、ペレットを洗浄することによって洗浄工程を繰り返した。ペレットを乱すことなく上澄みを慎重に除去し、上澄みを廃棄した。プレートを磁石上に戻し、ビーズ/ペレットを室温で5分間風乾した。
プレートを磁石から取り除いた。50uLの低TEをペレットに添加して、ビーズを分散させた。プレートを密閉、ボルテックス、及び回転させて、小滴を収集した。プレートを磁石上に少なくとも2分間置いた。上澄み(約23uL)を新しいチューブに除去した。
ライブラリ定量化及び希釈標準の調製:
E.coli DH10B Control DNA(約68pMストック)を使用して、6.8pM、0.68pM、0.068pM、0.0068pM、及び0.00068pMを含む希釈系列を調製した。これらの希釈qPCR機器における希釈標準として使用した。
タグ付きライブラリの1:1,000及び1:10,000希釈を調製した。
各タグ付きライブラリ、希釈標準、及び鋳型なしの対照(NTC)のためにそれぞれ3つのウェルをセットアップした。各試料のためのマスターミックスの体積は、以下の表を使用して調製した。
5.5μLのマスターミックスを各ウェルに分配し、4.5μLの1:1,000または1:10,000希釈タグ付きライブラリ。
サーマルサイクラーを以下のようにプログラムした。
qPCRによって判定された濃度を、本アッセイに使用されるライブラリ希釈と掛けることによって、無希釈のタグ付きライブラリの平均濃度を計算した。
qPCRで判定された濃度を、本アッセイに使用されるライブラリ希釈と掛けることによって、無希釈のDNAライブラリの平均濃度を計算した。
最終ライブラリを25uLの低TE Buffer中に溶出し、Agilent 2100 Bioanalyzer上でHigh Sensitivity DNA Kitを使用して定量化した。鋳型増幅、及びIon球体ビーズへの結合、ならびにIon PGM/318またはProton P1チップ装填手順に、タグ付きライブラリを使用した。Ion PGMまたはProton I配列決定装置上で配列決定を行った。適用される閾値を用いて様々な選別、分類、及びカウント法を使用して配列決定データを分析した。以下の表32は、タグライゲーションワークフローが、約54〜89%のオンターゲットのリードをもたらしたことを示す。変異配列のうちのいくつかは0.1%のLODで検出され、高い割合の偽陽性を有した。