JP2022548504A

JP2022548504A - 低頻度バリアントの検出およびレポートを容易にするためのｄｎａライブラリー生成方法

Info

Publication number: JP2022548504A
Application number: JP2022512862A
Authority: JP
Inventors: モルガーヌ、マシェレット; クリスティアン、ポッツォリーニ; アードリアン、ウィリグ; ヨナタン、ビーラー; チェンユ、シュ
Original assignee: Sophia Genetics SA
Current assignee: Sophia Genetics SA
Priority date: 2019-09-20
Filing date: 2020-09-21
Publication date: 2022-11-21
Also published as: BR112022004821A2; WO2021053208A1; EP4031664A1; US20220364080A1; EP3795685A1; KR20220064959A; AU2020349622A1; CA3149056A1

Abstract

断片化された核酸の両側に可変アダプター分子バーコード長に基づく数値コードを提供する工程、および両方のバーコードに基づいて同じ断片からのリードを同定する工程を含む、次世代シーケンシングのために断片化された核酸にアダプターを付加する方法が開示される。本方法および産物は、単離および断片化された核酸の収率が低い場合に断片化された核酸の増幅を可能にし、また、対象内の細胞の亜集団を含む低頻度変異の効率的かつ信頼性の高い検出を可能にする。

Description

がん治療、法医学、古遺伝学、進化および毒物学などの分野では、高精度で配列決定すること、低頻度で起こる突然変異を検出することが要求される。そのような突然変異が存在するのは、がんなどの細胞の１％未満であり得る。血漿または血液サンプル由来の無細胞デオキシリボ核酸（ＤＮＡ）断片を分析する場合、腫瘍細胞由来のＤＮＡ断片の比率は、無細胞ＤＮＡ全体の０．０１％ほどと低いことさえあり得る。この低頻度－遺伝的多様性は、シーケンシング自体だけでなく、シーケンシング前のゲノムＤＮＡの増幅においてもバックグラウンドエラー率が高いため、従来の次世代シーケンシングでは評価することが困難である。循環腫瘍ＤＮＡ断片は、平均長さ１４０～１８０ｂｐ（塩基対）に断片化され得、これは、血液１ミリメートル当たりわずか数千個の増幅可能なコピーに相当し得る。ＤＮＡポリメラーゼは、１０^－４～１０^－６の頻度で誤挿入を導入し得る。これらの誤挿入が、第１鎖合成中など、ＤＮＡライブラリーの生成の初期に起こると、低頻度突然変異と区別できなくなる可能性がある。さらに、次世代シーケンシング（ＮＧＳ）システムとしても公知のハイスループットシーケンシングシステムは、典型的には、塩基あたり１０^－２～１０^－３の割合でエラーを生じ、対応する変異が同様のまたはより低い頻度で起こる場合、特定の真の変異体の検出が不能になってしまう。

例えば、シングルセルシーケンシング、一本鎖分子バーコーディングおよびサークルシーケンシングは、ＤＮＡの一本鎖に由来するＤＮＡの配列を決定することを含み得る。１回目の増幅中に、ＤＮＡポリメラーゼは、娘分子にエラーを伝播する可能性がある。シングルセルシーケンシングでは、ヘリカーゼ活性を有するＤＮＡポリメラーゼと共にランダムプライマーを使用して、２本鎖の一方を置換し得る。しかし、ランダムプライマーと鎖置換の組合せにより、新たにコピーされた鎖のランダムプライミングが、したがって複製物の複製物が生成し得る。この工程では、初期の誤取り込みエラーが複製物の複製物に伝播される。すべての遺伝情報が単一細胞に由来したので、シーケンシングリードが元の一本鎖合成からのエラーを表すのか遺伝的バリアントを表すのかを見分けることは不可能である。

サークルシーケンシング（ＣｉｒｃＳｅｑ）および一本鎖バーコーディングはまた、最初の合成中に誤挿入を導入する可能性があり、そのエラーはその後娘分子に伝播され、突然変異として誤ってスコア付けされる可能性がある。単離後の同じ誤挿入エラーは、他の細胞またはサブクローナル集団からの同じＤＮＡ配列では起こりにくい。したがって、元のエラーは、必ずしも事後分析によって特定、説明、および／または補正し得ず、代わりにサブクローナル変異であると思われるエラーをもたらし得る。

Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations, Nature Reviews Genetics, Vol.18, pp.269-285, May 2018 Salk et al.は、ＮＧＳ技術を用いて低頻度バリアントをより良好に特性評価するための、以下に示す３つの主なエラー訂正戦略：１）信頼度の低いデータのフィルタリングおよび／またはシーケンシングエラープロファイルの予め定義された統計モデルの適用に基づく計算戦略、２）プレシーケンシングＤＮＡライブラリー調製によって起こるエラーを減らすための実験戦略、および３）シーケンシングリード自体のエラーの事後検出および訂正を適用する分子コンセンサスシーケンシングを概説している。後者の方法は、増幅およびシーケンシングの前に各ＤＮＡ断片の分子バーコード（分子タグ、固有分子識別子（ＵｎｉｑｕｅＭｏｌｅｃｕｌａｒＩｄｅｎｔｉｆｉｅｒ、ＵＭＩ）、または単一分子識別子（ＳｉｎｇｌｅＭｏｌｅｃｕｌａｒＩｄｅｎｔｉｆｉｅｒ、ＳＭＩ）としても知られている）による固有のタグ付けを利用するので、シーケンシングリードを特定のタグに関連するリードのファミリーにグループ化することが可能である。これは、全く同じエラーが、ユニークにタグ付けされた親ＤＮＡ断片のすべての増幅およびシーケンシングされたアンプリコンコピーにわたって体系的に繰り返される可能性は低いので、タグ付け後に導入されるエラーの明示的な検出および訂正を容易にする。Ｓａｌｋらは、外因性分子バーコードを、一方ではＰＣＲプライマーまたはシーケンシングアダプターのいずれかに人工的に（物理的に）組み込まれるランダムまたは半ランダム配列として区別し、連結を使用してＤＮＡライブラリーを調製するときにＤＮＡ分子の末端に天然に（実質的に）存在する断片化点（剪断点としても知られる）として同定され得る内因性分子バーコードと区別する。これまでに、分子コンセンサスシーケンシングの３つの主要なファミリー：１）親ＤＮＡ断片鎖の一方または両方を別個にタグ付けする、例えばＳａｆｅＳｅｑＳ、ｓｍＭＩＰおよびＣｉｑＳｅｄ法などの一本鎖コンセンサスシーケンシング（したがって、下流コンセンサスエラー検出および訂正工程において相補鎖から生成されたアンプリコンリードをグループ化するために鎖情報を使用することは不可能であるという制限を伴う）；２）例えば、シーケンシング後に関連するリードを同じコンセンサス配列にグループ化することができるように、同じ分子識別子で親ＤＮＡ断片の両方の鎖をタグ付けするＵｌｔｒａｓｅｎｓｉｔｉｖｅＤｅｅｐ配列決定法またはＣｙｐｅｒＳｅｑ法などの２本鎖コンセンサスシーケンシング；３）ランダム化二重タグを元の二本鎖ＤＮＡ断片の両端に相補的に導入する二重鎖シーケンシングが開発されている。これらの分子識別子配列は、二本鎖ＤＮＡの各末端が異なる分子識別子配列を受け取るように、二本鎖ＤＮＡの各末端に連結されたアダプター内にコードされ得る。最初の鎖合成または任意のその後の合成／増幅工程中に、ＤＮＡポリメラーゼによってＤＮＡの２本の鎖の一方の鎖にエラーが導入された場合、他方の鎖は、例えば、一連の一本鎖コンセンサス配列に対する基準による比較の根拠を提供する。シーケンシング中にすべての一本鎖コンセンサス配列が読み取られると、アラインメント中に元のＤＮＡ断片の各鎖の各末端の分子識別子配列を一致させ得る。

第１の合成工程に続く合成工程中に生じる単離後のエラーを検出するために、各鎖は、分子識別子配列を使用して一本鎖コンセンサス配列のアラインメント中に同じ開始位置および／または終了位置を共有するシーケンシングリードを関連付けることによって、その同一鎖シスターとアラインメントされ得る。リード配列中のいかなる相違も、第１の合成工程に続く合成工程中の誤挿入に起因し得る。第１の合成工程中に生じる単離後のエラーを検出するために、各鎖を二重鎖コンセンサス配列のアラインメント中に（再度、分子識別子配列を使用して）その反対鎖パートナーとアラインメント（配列比較）し得る。そのような比較によって観察されたリード配列の相違は、第１の合成工程中の誤挿入に起因し得る。ＤＮＡの両端に同じ分子識別子配列を有するＤＮＡの両方のパートナー鎖に特定の差が見られる場合、特定の差は、細胞から抽出されたＤＮＡに存在する突然変異または多型に起因し得る。実質的に類似の配列を有するが、異なる分子識別子配列を有する鎖を同定することによって、全配列読み出しのアラインメント中に、細胞のサブセットにおける低頻度変異を同定し得る。

Error-correcting DNA barcodes for high-throughput sequencing, J.A. Hawkins et al, bioRxiv, 7 May 2018は、Ｈａｍｍｉｎｇコード、Ｒｅｅｄ－ＳｏｌｏｍｏｎコードまたはＬｅｖｅｎｓｈｔｅｉｎコードなどの情報理論コードに対する改良に従って設計されたＤＮＡアダプターのライブラリーを構築することによって、１０＾６を超えるユニークなエラー訂正バーコードを使用することを提案している。国際公開第２０１８／１４４１５９号には、ＤＮＡサンプル断片の識別を容易にするために別の多様性軸を有するＤＮＡアダプターのライブラリーを構築するために、一定の３’オーバーハングを有する２～２４可変長ヌクレオチドが使用されることが提案されている。そのような方法は、破損したバーコードの長さが未知であっても、置換、挿入、および削除エラーの固有の訂正をある程度容易にすることができるが、それらの具体的な設計は、下流のシーケンシングデータ処理およびバリアントコーリングワークフローのエラー訂正能力を完全には活用していない。

A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data, Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018では、Ｘｕは、単一ヌクレオチドバリアント検出に適用可能であり得る４６個の公的に利用可能なバリアントコーラーを概説しており、これには、おそらく二重およびコンセンサスシーケンシングを用いて、ＵＭＩベースのシーケンシングデータを扱う４個のバリアントコーラーが含まれる。Ｘｕによって報告されているように、現在の二重シーケンシングプロトコルの１つの限界は、実際の実験では、連結効率が不十分であるためにＵＭＩの２０％のみが他方の鎖と一致し得、そのため、バリアントコーリングは単数および二重ＵＭＩの両方を処理しなければならないことである。さらに、ＵＭＩ配列自体はＰＣＲエラーを起こしやすく、相補的なクラスタリング戦略を必要とする場合がある。

例えば、二重鎖ＤＮＡサンプル（ゲノムＤＮＡ断片など）の両方の鎖を追跡して非常に低い頻度の突然変異および多型を検出することによって、場合によっては明示的な分子バーコード化コンセンサスシーケンシングエラー同定／訂正とは無関係に、統合された低頻度バリアントの同定に連結することができるＤＮＡライブラリーを生成する改善された方法が依然として必要とされている。例えば、がん細胞、キメラ細胞、および他の形態の被験体内遺伝子多型における、まれに起こる突然変異すなわち低頻度の突然変異、ならびに多型を検出する効率的で信頼性の高い方法が依然として必要とされている。明示的なコンセンサスシーケンシングを必要とせずに、同じＤＮＡ分子の両方の鎖を追跡し、複数の低頻度バリアントの同定およびレポートを容易にし得る、ＤＮＡライブラリーを生成するための、改善された方法も依然として必要とされている。シーケンシングまたは分析されるＤＮＡ断片の各末端に配列の異なる特性を有する非対称断片化ＤＮＡライブラリーを生成するための、改善された方法も依然として必要とされている。

国際公開第２０１８／１４４１５９号

Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations, Nature Reviews Genetics, Vol.18, pp.269-285, May 2018 Salk et al. Error-correcting DNA barcodes for high-throughput sequencing, J.A. Hawkins et al, bioRxiv, 7 May 2018 A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data, Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018

ライブラリー内の各ＤＮＡアダプター産物が、増幅およびシーケンス後の親ＤＮＡ断片の同定およびゲノムバリアント解析を可能にする、少なくとも２つのＤＮＡ断片からＤＮＡアダプター産物のライブラリーを生成する方法であって、反応混合物中で、第１のアダプターを、２つの末端を有する第１の二本鎖ＤＮＡ断片の一方の末端に、第２のアダプターを、２つの末端を有する第１の二本鎖ＤＮＡ断片の他方の末端に連結して第１のＤＮＡ－アダプター産物を生成する工程であって、各アダプターが、複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、第１のアダプタースペーサー配列（ＳＳ_１）が長さＬ_１を有し、第２のアダプタースペーサー配列（ＳＳ_２）が長さＬ_２を有する工程、同じ反応混合物中で、第３のアダプターを、２つの末端を有する第２の二本鎖ＤＮＡ断片の一方の末端に、第４のアダプターを、２つの末端を有する第２の二本鎖断片の他方の末端に連結して第２のＤＮＡ－アダプター産物を生成する工程であって、各アダプターが、複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、第３のアダプタースペーサー配列（ＳＳ_３）が長さＬ_３を有し、第４のアダプタースペース配列（ＳＳ_４）が長さＬ_４を有する工程を含み、各アダプタースペーサー配列（ＳＳ_１，ＳＳ_２，ＳＳ_３，ＳＳ_４）は、アダプタースペーサー配列を生成するための、長さがＬ_Ｓのヌクレオチドの共通の一定の所定のヌクレオチド配列（Ｓ）から切断されたスペーサー配列を含み、アダプタースペーサー配列（ＳＳ_１、ＳＳ_２、ＳＳ_３、ＳＳ_４）は、お互いに長さＬ_１、Ｌ_２、Ｌ_３、Ｌ_４が少なくとも３ヌクレオチド、最大でＬ_ｍａｘヌクレオチド異なり、Ｌ_ｍａｘはＬ_Ｓ以上である、方法が提案される。所定のヌクレオチド配列長Ｌ_Ｓは、５～２０ヌクレオチドの間であり得る各アダプタースペーサー配列（ＳＳ_１、ＳＳ_２、ＳＳ_３、ＳＳ_４）は、切断されたスペーサー部分配列を、少なくとも３ヌクレオチドの一定の長さＬ_ＴＳを有する一定の終結部分配列ＴＳと連結することによって形成され得、一定の終結部分配列ＴＳは、一定の所定のヌクレオチド配列Ｓと、編集距離が少なくとも２だけ異なる。スペーサー部分配列は、一定のヌクレオチド配列（Ｓ）から開始して左から右に切断されていてもよく、または一定のヌクレオチド配列（Ｓ）から終了して右から左に切断されていてもよい。定常終結部分配列ＴＳは、好ましくはＤＮＡ断片への連結を容易にするためのＴオーバーハングで終わるトリプレットヌクレオチドまたはクアドロプレットヌクレオチドであり得る。

増幅およびシーケンス後のハイスループットシーケンシングデータのゲノムデータ分析ワークフローにおいて断片の同定を容易にするために、少なくとも２つのＤＮＡ断片からＤＮＡアダプター産物のライブラリーを生成する方法であって、ＤＮＡアダプターのプールを生成する工程であって、アダプターは、お互いに全長が少なくとも３ヌクレオチド、最大でＬ_ｍａｘヌクレオチド異なり、各アダプターは、長さＬ_ＴＳの定常終結部分配列ＴＳを含み、Ｌ_ＴＳが３以上のヌクレオチドが可変スペーサー部分配列と連結しており、可変スペーサー部分配列は、長さがＬ_Ｓのヌクレオチドを有する共通の一定の所定のヌクレオチド配列（Ｓ）から切断されており、５≦Ｌ_Ｓ≦２０ヌクレオチドである、工程、反応混合物中で、ＤＮＡ－アダプターのプールからの第１および第２アダプターを第１の二本鎖ＤＮＡ断片の各末端に連結して、第１のＤＮＡ－アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第１のＤＮＡ－アダプター産物が、第１および第２のＤＮＡ－アダプタースペーサー配列（ＳＳ_１、ＳＳ_２）のそれぞれの長さ（Ｌ_１，Ｌ_２）によって形成される数値コードによって特徴付けられ得る、工程、および同じ反応混合物中で、ＤＮＡ－アダプターのプールからの第３および第４のアダプターを第２の二本鎖ＤＮＡ断片の各末端に連結して、第２のＤＮＡ－アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第１のＤＮＡ－アダプター産物が、第１および第２のＤＮＡ－アダプタースペーサー配列（ＳＳ_３、ＳＳ_４のそれぞれの長さ（Ｌ_３，Ｌ_４）によって形成される数値コードによって特徴付けられ得る、工程を含む方法が提案される。

ＤＮＡ－アダプター産物を増幅してＰＣＲ複製物を生成し、配列決定して生のシーケンシングリードを生成し得る。各配列シーケンシングリードＲ_ｎについて、ゲノムデータアナライザは、リードの開始点からＬ_ｍａｘ＝Ｌ_Ｓ＋Ｌ_ＴＳヌクレオチドをトリミングして、トリミングされたシーケンシングリードを生成し得る。ゲノムデータアナライザは、シーケンシングリードの最初のＬ_ｍａｘヌクレオチド中の定常終結部分配列ＴＳを探索し、シーケンシングリードＲ_ｎの開始点から定常終結部分配列ＴＳの開始点を分離するヌクレオチドの数の関数としてスペーサー配列ＳＳ_Ｒｎの長さＬ_ｎを測定し、リードの開始からＬ_ｎヌクレオチドをトリミングして、トリミングされたシーケンシングリードを生成し得る。ゲノムデータアナライザは、トリミングされたシーケンシングリード、および場合により測定された長さＬ_ｎを前処理されたシーケンシングリードファイルに記録し、トリミングされたシーケンシングリードを参照ゲノムにアラインして、トリミングされた各リードを開始位置および終了位置にマッピングし得る。ゲノムデータアナライザは、各リードについて測定された可変アダプター長情報を使用して、コンセンサスシーケンシングまたは確率的シーケンシング（ｐｒｏｂａｂｉｌｉｓｔｉｃｓｅｑｕｅｎｃｉｎｇ）バイオインフォマティクス法で、それぞれ鎖および断片のゲノムバリアントの同定を容易にし得る。

図１は、実験室工程（「ウェットラボ」工程としても知られる）において入力ＤＮＡ断片をＤＮＡ－アダプター産物に独自にコードするための連結アダプターによるタグ付け工程と、バイオインフォマティクスワークフロー（「ドライラボ」工程としても知られる）において各リードに対してＤＮＡ断片供給源を独自に識別するための、得られたＤＮＡ－アダプター産物シーケンシングリードに対する前処理工程とを含むゲノム分析ワークフローの概略図である。図２は、ＤＮＡライブラリー生成に使用するための例示的なＤＮＡアダプター産物の概略図である。図３は、提案された方法で使用され得るように、所定の一定の配列から部分的に切断された可変長スペーサー配列を有するアダプターの多様性を示す。図４は、各ＤＮＡ断片に関連するＤＮＡアダプター産物について提案された方法によって生成され得るような数値コードの例を示す。図５ａ）は、提案された方法で使用されるアダプターを製造するための終端配列と可変長の切断されたスペーサー部分配列誘導体Ｓ_ｉを連結することによって形成される、一連のスペーサー配列ＳＳの例を示す。図５ｂ）は、提案された方法で使用されるアダプターを製造するための終端配列と可変長の切断されたスペーサー部分配列誘導体Ｓ_ｉを連結することによって形成される、一連のスペーサー配列ＳＳの例を示す。図６は、シーケンシング段階における様々なＤＮＡ－アダプターＰＣＲ複製の例を示しており、各ＤＮＡ断片に関連するＤＮＡ－アダプター産物について提案された方法によって生成され得るそれらの固有の数値コードによって、２つの複製を追跡して同じ親ＤＮＡ産物に戻し得る。図７は、生のシーケンシングリードを前処理して供給源のＤＮＡ断片を同定し、それに応じて各リードにタグ付けする例を示す。図８は、提案された方法に従ってタグ付けされたリードからバリアントをさらに同定するための２つの異なる可能なゲノム分析ワークフロー工程の概略図を示す。図９は、提案された方法に従って製造されたライブラリー内の各可変長アダプターの密度分布を示す。図１０は、シーケンシング後の予想されるアダプター配列に割り当てられたリードの比を示す図１１ａ）は、提案されたアダプター数値コードタグ付け情報を考慮せずに、アラインおよびグループ化されたリードのＮＧＳデータビューア画面ショットを示す。図１１ｂ）は、異種ＳＮＰの識別を容易にするために、提案されたアダプター数値コードタグ付け情報に従ってアラインおよびグループ化された同じリードのＮＧＳデータビューア画面ショットを示す。図１２ａ）は、従来技術のアダプターまたは提案された可変長アダプターをそれぞれ使用する場合にそれぞれ得られたバリアントコーリングの結果を比較する。図１２ｂ）は、従来技術のアダプターまたは提案された可変長アダプターを使用する場合にそれぞれ得られたバリアントコーリングの結果を比較する。図１２ｃ）は、従来技術のアダプターを使用する場合のコンセンサスシーケンシングワークフローおよび確率的シーケンシングワークフローのＲＯＣ曲線を比較する。１２ｄ）は、提案された可変長アダプターを使用する場合のコンセンサスシーケンシングワークフローおよび確率的シーケンシングワークフローのＲＯＣ曲線を比較する。

本明細書に示される詳細は、例としてのものであり、様々な実施形態の例示的な議論の目的のためのものにすぎず、本明細書に記載される方法および組成物の原理および概念的態様の最も有用で容易に理解されると考えられる説明を提供するために提示される。これに関して、基本的な理解に必要以上に詳細を示すことは試みられておらず、この説明は、いくつかの形態が実際にどのように具現化され得るかを当業者に明らかにする。

ここで、提案された方法およびシステムを、より詳細な実施形態を参照して説明する。しかしながら、提案された方法およびシステムは、異なる形態で具体化されてもよく、本明細書に記載の実施形態に限定されると解釈すべきではない。どちらかと言えば、これらの実施形態は、本開示が徹底的かつ完全であり、当業者に範囲を十分に伝えるように提供される。

他に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本発明が属する技術分野の当業者によって一般的に理解されるのと同じ意味を有する。本明細書の説明で使用される用語は、特定の実施形態のみを説明するためのものであり、限定することを意図するものではない。明細書および添付の特許請求の範囲で使用されるように、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。

反対のことが示されない限り、以下の明細書および添付の特許請求の範囲に記載される数値パラメータは、得ようとする所望の特性に応じて変化し得る近似値であり、したがって「約」という用語によって修飾され得る。少なくとも、特許請求の範囲に対する均等論の適用を制限する試みとしてではなく、各数値パラメータは、有効数字の数および通常の丸め手法に照らして解釈されるべきである。

広い範囲を示す数値範囲およびパラメータは近似値であるにもかかわらず、特定の例に示される数値は可能な限り正確に報告される。しかしながら、任意の数値は、それぞれの試験測定値に見られる標準偏差から必然的に生じる特定の誤差を本質的に含む。本明細書を通して与えられるすべての数値範囲は、そのようなより狭い数値範囲がすべて本明細書に明示的に記載されているかのように、そのようなより広い数値範囲内に入るすべてのより狭い数値範囲を含む。

定義
「ＤＮＡサンプル」は、例えば固形腫瘍または流体から抽出され得るような、生物に由来する核酸サンプルを指す。生物は、ヒト、動物、植物、真菌、または微生物であり得る。核酸は、胎児循環ＤＮＡ（ｃｆＤＮＡ）または血液もしくは血漿中の循環腫瘍ＤＮＡなど、限られた量または低濃度で見出され得る。ＤＮＡサンプルはまた、本明細書において、逆転写され、ｃＤＮＡに変換されたＲＮＡサンプルを記載するために適用される。

「ＤＮＡ断片」は、高分子量ＤＮＡの断片化から生じるＤＮＡの短い断片を指す。断片化は、サンプル生物において天然に生じていてもよく、または例えば機械的剪断、超音波処理、酵素的断片化および他の方法によって、ＤＮＡサンプルに適用されたＤＮＡ断片化方法から人工的に生成されていてもよい。断片化後、ＤＮＡ片を末端修復して、各分子が平滑末端を有することを確実にし得る。連結効率を向上させるために、アデニンを断片化されたＤＮＡの３’平滑末端のそれぞれに添加して、ＤＮＡ断片を相補的なｄＴオーバーハングを有するアダプターに連結することを可能にし得る。

「ＤＮＡ産物」とは、ＤＮＡ断片を操作、伸長、連結、複製、増幅、コピー、編集および／または切断して次世代シーケンシングワークフローに適用することから生じるＤＮＡの操作された断片を指す。

「ＤＮＡ－アダプター産物」とは、ＤＮＡ断片をＤＮＡアダプターと連結して次世代シーケンシングワークフローに適合させることから生じるＤＮＡ産物を指す。

「ＤＮＡライブラリー」とは、次世代シーケンシングワークフローとの適合性のためにＤＮＡ断片を適合させるためのＤＮＡ産物またはＤＮＡアダプター産物の集合体を指す。

「プール」とは、単一のハイスループットシーケンシング分析に多重化され得るような、同一または異なる生物に由来する複数のＤＮＡサンプル（例えば、４８サンプル、９６サンプル、またはそれ以上）を指す。各サンプルは、固有のサンプルバーコードによってプール内で識別され得る。

「ヌクレオチド配列」または「ポリヌクレオチド配列」は、シトシン（一連の配列のＣ文字で表される）、チミン（一連の配列のＴ文字で表される）、アデニン（一連の配列のＡ文字で表される）、グアニン（一連の配列のＧ文字で表される）およびウラシル（一連の配列のＵ文字で表される）などのヌクレオチドの任意のポリマーまたはオリゴマーを指す。「ヌクレオチド配列」または「ポリヌクレオチド配列」は、ＤＮＡもしくはＲＮＡ、またはそれらの組合せであり得る。「ヌクレオチド配列」または「ポリヌクレオチド配列」は、一本鎖または二本鎖の形状で永久的または一時的に見出され得る。別段の指示がない限り、核酸配列は、５’から３’方向に左から右に記載される。

「ランダム配列」または「部分的にランダムな配列」は、所与の配列長に対するヌクレオチドのすべての可能な組合せの中から少なくとも部分的にランダムに選択されるヌクレオチドの配列を指す。ランダム配列の選択は手動または自動であり得る。

「一定の配列」または「所定の配列」は、所与の配列長に対するヌクレオチドのすべての可能な組合せの中から特に選択される完全に指定された非ランダムな固定ヌクレオチド配列を指す。非ランダム配列の選択は、手動または自動であり得る。非ランダム配列の選択は、例えば、増幅およびシーケンシング工程のエラーロバスト性を高めるために、シーケンシング用途および／またはシーケンシング技術に特異的な特定の基準に基づいてもよい。

「プライマー配列」とは、その一部または全部が伸長または増幅される標的ＤＮＡと相補性の領域を含む少なくとも２０ヌクレオチド長のヌクレオチド配列を指す。

２つのヌクレオチド配列間の「編集距離」とは、一方の配列が他方の配列と同一になるために適用される必要があるヌクレオチド置換、挿入または欠失の最小数を指す。

「連結」とは、別個の二本鎖ＤＮＡ配列の連結を指す。後者のＤＮＡ分子は、平滑末端であってもよく、または連結を容易にするために適合するオーバーハングを有してもよい。連結は、様々な方法、例えば、リガーゼ酵素を使用すること、化学的連結を行うこと、および他の方法によって生成され得る。

「増幅」とは、１つ以上の親配列から複製された複数のポリヌクレオチド配列を生成するポリヌクレオチド増幅反応を指す。増幅は、様々な方法、例えばポリメラーゼ連鎖反応（ＰＣＲ）、線状ポリメラーゼ連鎖反応、核酸配列に基づく増幅、ローリングサークル増幅、および他の方法によって生成され得る。

「シーケンシング」は、ヌクレオチドの配列をストリングとして読み取ることを指す。ハイスループットシーケンシング（ＨＴＳ）または次世代シーケンシング（ＮＧＳ）とは、並行して、典型的には５０～数千塩基対の複数の配列のリアルタイムシーケンシングを指す。例示的なＮＧＳ技術としては、Ｉｌｌｕｍｉｎａ、ＩｏｎＴｏｒｒｅｎｔＳｙｓｔｅｍｓ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓなどからの技術が上げられる。さらにシーケンシング工程ならびに増幅工程を容易にするために、実際のテクノロジーに応じて、ＮＧＳシーケンスは、シーケンスアダプターまたはプライマーを使用したサンプル前処理が必要になる場合があり、これにより、例えば、合成によりシーケンシングの場合、フローセルへの送達前にＰＣＲ増幅により、単一の親分子の複数の例が配列決定される。

「アダプター」または「アダプター」は、ＤＮＡ断片に連結されるように設計された約１０～１００ヌクレオチド（塩基対）の短い二本鎖または部分的に二本鎖のＤＮＡ分子を指す。アダプターは、平滑末端、３’もしくは５’突出部としての突出末端、またはそれらの組合せを有し得る。例えば、連結効率を向上させるために、アダプター連結の前に断片化されたＤＮＡの３’平滑末端のそれぞれにアデニンを付加し得、アダプターは、断片化されたＤＮＡの３’末端に付加されたアデニンと塩基対合するように３’末端にチミジンのオーバーハングを有し得る。アダプターは、エキソヌクレアーゼがチミジンをトリミングするのを防ぐために、３’末端の末端チミジンの前にホスホロチオエート結合を有し得、したがって、連結されるアダプターの末端が二本鎖である場合に平滑末端が形成される。

「部分的に二本鎖のアダプター」とは、二本鎖領域と一本鎖領域の両方を含むアダプターを指す。アダプターの二本鎖領域は連結ドメインを含有し、一方、一本鎖領域は、その後のライブラリー増幅、バーコーディングおよび／またはシーケンシングに使用されるプライマー配列を含有する。一本鎖領域は、いわゆるＹ字形アダプターの場合のように、２つの一本鎖アーム、５’アームおよび３’アームから構成され得るか、または部分的に二本鎖のアダプターの一本鎖領域は、いわゆるＵ字形アダプターの場合のように、ヘアピンまたはループを形成し得る。したがって、部分的に二本鎖のアダプターという用語は、Ｙ字形アダプターおよびＵ字形アダプターまたはそれらの組合せの両方を指す。

「ＰＣＲ複製物」は、元のＤＮＡ断片に由来するＤＮＡ－アダプター産物に属する一本鎖ＤＮＡ分子からＰＣＲ増幅によって生成された複製物を指す。

「分子タグ」または「分子バーコード」または「分子コード」または「分子識別子」は、そのヌクレオチドのストリングによって完全かつ固有に指定される核酸配列などの分子配列を指す。

「数値コード」または「非分子コード」または「非分子的識別子」は、分子配列自体ではない分子配列の固有の特性の１以上の数値としての測定値を指す。核酸分子配列の特性の例としては、長さ、サイズ、分子量、モル濃度、極性、弾性、剛性、電気伝導率、蛍光、特定の励起波に対する反射率、またはより一般的には、分子配列および／または分子配列の一部について実験的に測定され得る任意の物理的、化学的または生物学的特性が挙げられる。

「可変長コード（ＶＬＣ）」は、ヌクレオチドの数、モノマーの数、ポリマーの数、ホモポリマーの数、ヘテロポリマーの数、またはそれらの組合せとして測定され得る核酸配列の可変長を指す。

「リードトリミング」または「リード前処理」とは、バイオインフォマティクスワークフローにおいて、例えばアダプター配列に対応するヌクレオチドなどのリード配列ストリングの開始点のヌクレオチドのセットをシーケンシングリードで除外して、分析されるべき実際のＤＮＡ断片配列を抽出することを指す。

「アラインメントする」または「アラインメント」または「アライナ」は、バイオインフォマティクスワークフローにおいて、ベース毎にマッピングおよびアラインメントすることを指し、前処理されたシーケンシングリードは、用途に応じて、参照ゲノム配列を読み取る。例えば、シーケンシングリードが実験的増幅工程で使用されるハイブリッド捕捉プローブに従って特定の標的ゲノム領域にマッピングすると予想される標的化濃縮用途では、アラインメントは、参照ゲノム内の染色体番号、開始位置および終了位置などのゲノム座標によって定義される対応する配列に対して特異的に検索され得る。

「バリアントコーリング」または「バリアントコーラー」または「バリアントコール」は、バイオインフォマティクスワークフローにおいて、アラインメントされたリード内の実際のバリアントを同定することを指す。変異体には、一塩基置換（ＳＮＰ）、挿入または欠失（ＩＮＤＥＬ）、コピー数バリアント（ＣＮＶ）、ならびに大きな再編成、置換、重複、転座などが含まれ得る。好ましくは、バリアントコーリングは、増幅およびシーケンシングノイズアーテファクトから実際のバリアントを選別するのに十分に強力である。

「コンセンサスシーケンシング」とは、バイオインフォマティクスワークフローにおいて、シーケンシングリードを同じ二本鎖ＤＮＡ断片および／または同じＤＮＡ断片鎖から生成されたリードのファミリーにグループ化し、それらを比較して増幅および／またはシーケンシング工程によるエラーを検出し、エラーを修正して二本鎖ＤＮＡ断片またはＤＮＡ断片鎖の固有の決定論的コンセンサス配列を生成することを指す。その後、リード全体ではなく、結果として生じるコンセンサス配列を処理することによってバリアントコーリングが実施される。

「確率的シーケンシング」とは、バイオインフォマティクスワークフローにおいて、シーケンシングリードを同じ二本鎖ＤＮＡ断片および／または同じＤＮＡ断片鎖から生成されたリードのファミリーにグループ化し、データを確率モデルと比較することによって、分析される各ゲノム位置で可能なすべての遺伝子型を支持するデータの確率を計算するために、異なるファミリーからのリード全体を処理することによって、このデータに対してバリアントコーリングを直接実行することを指す。

ワークフロー
次に、図１を参照して、典型的な低頻度ＤＮＡバリアントの同定ワークフローをさらに詳細に説明する。ＤＮＡ分析の分野の当業者には明らかなように、そのようなワークフローは、次世代シーケンシングワークフローにおける生のシーケンシングリードなどのＤＮＡ分析データを生成するために実験室（「ウェットラボ」としても知られる）で行われる予備実験工程、ならびにバイオインフォマティクスシステム（「ドライラボ」としても知られる）を用いてＤＮＡバリアントおよび関連する注釈の詳細な識別などのエンドユーザにとって関心のある情報をさらに識別するためにＤＮＡ分析データに対して行われる後続のデータ処理工程を含む。実際の用途、実験室設定およびバイオインフォマティクスプラットフォームに応じて、ＤＮＡ分析ワークフローの様々な実施形態が可能である。図１は、ＤＮＡサンプルを最初に断片化プロトコル５０（任意選択）で断片化してＤＮＡ断片を生成する湿式ラボ工程を含むワークフローの一例を説明する。次いで、これらのＤＮＡ断片のＤＮＡ末端を修復し、使用されるアダプターと適合するように修飾する。このエンクロージャを通してさらにより詳細に記載されるようなアダプターは、次いで、提案された方法のいくつかに従って、反応混合物中のＤＮＡ断片に連結１００によって連結し、ＤＮＡ－アダプター産物のライブラリーが生成され得る。ＤＮＡライブラリーは、増幅１１０およびシーケンシング１２０をさらに受ける。次世代シーケンシングワークフローでは、得られたＤＮＡ分析データは、ＦＡＳＴＱフォーマットの生シーケンシングリードのデータファイルとして生成され得る。次いで、ワークフローは、提案された方法に従って連結アダプターを用いて調製されたＤＮＡサンプルのプールに対する生のシーケンシングリードを入力に取り込み、例えばエンドユーザのためのゲノムバリアントレポートとして、ゲノムバリアントを同定するために一連のデータ処理工程を適用する、ドライラボ（ｄｒｙｌａｂ）ゲノムデータアナライザシステム１５０をさらに含み得る。例示的なゲノムデータアナライザシステム１５０は、２０１９年に世界中で１０００を超える病院で既に使用されているようなソフィアデータ駆動医療プラットフォーム（ＳｏｐｈｉａＤＤＭ）であるが、他のシステムも同様に使用し得る。ゲノムデータアナライザシステム１５０によって適用され得るデータ処理工程の様々な詳細な可能な実施形態は、例えば国際ＰＣＴ特許出願公開ＷＯ２０１７／２２０５０８号に記載されているが、他の実施形態も可能である。

好ましい実施形態では、ゲノムデータアナライザシステム１５０は、まず、生のシーケンシングリード入力から前処理されたリードを生成するために、１以上の前処理工程１５１を適用し得る。前処理工程は、例えば、本明細書にさらに記載されるように、提案されたアダプター連結法および数値コード化方法に従って、類似のＤＮＡ断片から生成されたリードのファミリーのリードを分析およびグループ化するためのアダプタートリミングおよびリード選別を含み得る。可能な実施形態では、生のリードならびに前処理されたリードは、ＦＡＳＴＱファイルフォーマットに格納され得るが、他の実施形態も可能である。

ゲノムデータアナライザシステム１５０は、配列アラインメント１５２を前処理されたリードにさらに適用して、リードアラインメントデータを生成し得る。一実施形態では、リードアラインメントデータは、例えばＢＡＭまたはＳＡＭファイルフォーマットで生成され得るが、他の実施形態も可能である。

ゲノムデータアナライザシステム１５０は、リードアラインメントデータにバリアントコーリング１５３をさらに適用し、バリアントコーリングデータを生成し得る。一実施形態では、バリアントコーリングデータは、例えばＶＣＦファイルフォーマットで生成され得るが、他の実施形態も可能である。

ゲノムデータアナライザシステム１５０は、リードアラインメントデータにバリアントアノテーション１５４をさらに適用し、各ＤＮＡサンプルのゲノムバリアントレポートを作成し得る。一実施形態では、ゲノムバリアントレポートは、グラフィカルユーザインターフェース上でエンドユーザによって視覚化され得る。別の可能な実施形態では、ゲノムバリアントレポートは、さらにデータ処理のためのテキストファイルとして作成され得る。別の実施形態も可能である。

断片化
いくつかの実施形態では、本明細書に記載される方法は、配列決定されるゲノムおよびミトコンドリアＤＮＡの使用、ならびに潜在的にバイサルファイド（ジスルフィド）変換と組み合わせた、遺伝子、プロモーター、エクソン、イントロン、および潜在的なＣｐＧアイランドなどのエピジェネティックな情報の位置およびコード、ならびにメチル化などの情報の決定を含む。ゲノムＤＮＡは、染色体ＤＮＡまたは環状ＤＮＡであり得る。あるいは、ｍＲＮＡは相補的ＤＮＡまたはｃＤＮＡに逆転写され得、前記ｃＤＮＡは断片化され得るか、または断片化せずにシーケンシングされ得るほど十分に短い長さであり得る。断片化された、または断片化されていない相補的ｃＤＮＡは、一本鎖であってもよく、次いで、ランダムプライマーおよび／または他のプライマーをアニーリングし、プライマーをｃＤＮＡに相補的になるように伸長させ、したがって二本鎖ｃＤＮＡを形成することによって二本鎖にし得る。いくつかの実施形態では、二本鎖ｃＤＮＡならびにミトコンドリアＤＮＡおよび／またはゲノムＤＮＡは、シーケンシング１２０の前に断片化されなければならない（５０）。断片化５０は、超音波処理、超音波処理、機械的剪断、例えば制限酵素消化による部分消化などを含むがこれらに限定されないいくつかの手段によって達成し得る。断片化の結果、断片化されたＤＮＡは、５０～１００００塩基対の長さ、好ましくは２００塩基対～８００塩基対の長さ、より好ましくは３００～５００塩基対の長さ、さらにより好ましくは４００塩基対の長さであり得る。ＤＮＡ断片は、ｃＤＮＡ、ゲノムＤＮＡ、またはミトコンドリアＤＮＡに由来するかどうかにかかわらず、例えばアガロースゲル電気泳動；ゲルクロマトグラフィー；スクロース勾配遠心分離、パーコール勾配遠心分離、塩化セシウム遠心分離を含む平衡密度勾配遠心分離；および他の手段によってサイズ分割され得る。

アダプター連結／挿入
断片化および末端修復５０の後、ゲノムＤＮＡもしくは染色体ＤＮＡまたは二本鎖ＤＮＡの形成に続く逆転写の場合、アダプターは、断片化された二本鎖ＤＮＡの末端のそれぞれに連結または結合され得る（１００）。

図２は、ＤＮＡ断片２２０の各末端に２つのアダプター２００、２５０を連結する（１００）実施形態を示す。図２に示される例示的な実施形態に示される各アダプター２００、２５０は、二本鎖断片化されたＤＮＡにアニールされるべき末端に単一ヌクレオチド（Ｔ）３’オーバーハングを有するＤＮＡの部分二本鎖分子を含み得る。各アダプター２００、２５０は、その後のハイスループットシーケンシングリード（リード１、リード２）におけるＤＮＡ断片２２０ヌクレオチド配列からアダプター２００、２５０を分離するスペーサー配列（ＳＳ）を構成する一方の末端に二本鎖セグメント２１０、２６０を含む。図２に例示されるような可能な実施形態では、後者のスペーサー配列端は、一本鎖ヌクレオチドＴ３’オーバーハングを含有し得るが、当業者に明らかであるように他の実施形態も可能であり、例えば、アダプター２００、２５０の標的二本鎖ＤＮＡ分子２２０（例えば、ゲノムＤＮＡまたは「ｇＤＮＡ」）への連結１００を容易にするために、平滑末端であってもよく、または別の３’もしくは５’オーバーハングで置換されてもよい。

アダプターは、二本鎖ＤＮＡにアニールされている末端に二本鎖配列を含む。これに関して、アダプターの二本鎖配列の２本の鎖の一方は、断片化された二本鎖ＤＮＡの３’末端に連結され、アダプターの二本鎖配列の２本の鎖の他方は、断片化された二本鎖ＤＮＡの５’末端に連結される。

断片化された二本鎖ＤＮＡに連結されているアダプターの二本鎖配列の末端は限定されず、平滑末端、３’オーバーハングおよび５’オーバーハングを含み得る。これに関して、連結されているアダプターの５’末端は、５’－リン酸または５’－ＯＨで終結し得る。５’－ＯＨが標的核酸に連結されているアダプター末端にある場合、ポリヌクレオチドキナーゼを使用して骨格を完成させ、アダプターの５’－ＯＨを断片化されたＤＮＡの３’－ＯＨに結合させることが必要な場合がある。いくつかの実施形態では、Ｔ－４バクテリオファージからのＴ－４リガーゼによって連結され得る１つのヌクレオチドオーバーハングが好ましい。したがって、いくつかの実施形態では、アダプター連結の前に、断片化されたＤＮＡの３’平滑末端のそれぞれにアデニンを付加し得、アダプターは、断片化されたＤＮＡの３’末端に付加されたアデニンと塩基対合するように３’末端にチミジンのオーバーハングを有し得る。いくつかの実施形態では、アダプター連結の前に、断片化されたＤＮＡの３’平滑末端のそれぞれにアデニンを付加し得、アダプターは、３’末端の末端チミジンの前にホスホロチオエート結合を有して、断片化されたＤＮＡの３’末端に付加されたアデニンと塩基対を形成し得る。末端チミジンの前のホスホロチオエート結合は、エキソヌクレアーゼがチミジンをトリミングするのを防止し、その結果、連結されるアダプターの末端が二本鎖である場合に平滑末端を形成する。

可変長スペーサー配列を有するアダプター
好ましい実施形態では、図２に示すように、各アダプター２００、２５０は、ＤＮＡ断片２２０に連結されるその二本鎖末端を終結させるスペーサー配列２１０、２６０を含む。一実施形態では、スペーサー配列２１０、２６０の一部または全部は、長さＬ_Ｓヌクレオチドの所定の一定のヌクレオチド配列Ｓから切断されて、様々な可変長切断型スペーサー部分配列Ｓ_ｉ、Ｓ_ｊを形成し得る。

一実施形態では、図２に示すように、ゲノムデータアナライザ１５０による生のシーケンシングリードからのダウンストリームリードトリミング前処理１５１を容易にするために、最大でＬ_Ｓヌクレオチドのそれぞれの長さＬ_Ｓｉ、Ｌ_Ｓｊの各切断型スペーサー部分配列Ｓ_ｉ、Ｓ_ｊの後に、例えば各切断型可変長部分配列Ｓ_ｉ、Ｓ_ｊをＴＳ終結部分配列と連結することによって、少なくとも３ヌクレオチドの長さＬ_ＴＳの定常終結部分配列ＴＳが続き、可変長スペーサー配列２１０、２６０を形成し得る。

好ましくは、所定の一定のヌクレオチド配列Ｓおよび一定の終結部分配列ＴＳは、一定の終結部分配列ＴＳが配列Ｓのリマインダと、編集距離が少なくとも２だけ異なるように選択される。したがって、図２に示すように、各アダプタースペーサー配列ＳＳ２１０、２６０は、少なくとも３ヌクレオチドの同じ一定の終結部分配列ＴＳによって終結し得、終結部分配列ＴＳは、配列Ｓのリマインダ（したがって、その導出された切断型スペーサー部分配列Ｓ_ｉ、Ｓ_ｊのいずれかから）と、編集距離が少なくとも２だけ異なる。

図３に示すように、複数のアダプターが使用されてもよく、具体的には、それらの切断型スペーサー部分配列Ｓ_ｉ、Ｓ_ｊの長さは互いに異なる。したがって、一定の終結部分配列ＴＳと連結された後のスペーサー配列２１０、２６０について得られる全長は、例えば３ヌクレオチド（下流のリードトリミング前処理１５１を容易にするために「トリプレット停止コード」として使用され得る終結部分配列についての最小サイズと同様）、１０（７＋３）ヌクレオチド、５（２＋３）ヌクレオチド、７（４＋３）ヌクレオチド、４（１＋３）ヌクレオチド．．．であり得る。より一般的には、スペーサー配列の可変長は、少なくともＬ_ＴＳ＝３ヌクレオチド、最大Ｌ_ｍａｘ＝Ｌ_Ｓ＋Ｌ_ＴＳヌクレオチドであり得る。同様に、クアドロプレット終結部分配列ＴＳについては、スペーサー配列の可変長は、少なくともＬ_ＴＳ＝４ヌクレオチドであり得、最大Ｌ_ｍａｘ＝Ｌ_Ｓ＋Ｌ_ＴＳヌクレオチドなどであり得る。

一般に、一定のポリヌクレオチド配列Ｓの最大長Ｌ_Ｓは、誘導されたスペーサー配列２１０、２６０が、全シーケンシングリード長（いくつかのハイスループットシーケンシングワークフローでは１５０塩基対もの低さであり得る）に対して長すぎるセグメントをとらない一方で、バイオインフォマティクスワークフローの観点から、ＰＣＲ複製を類似のＤＮＡ断片、すなわち、異なる切断長さを有する複数のアダプターのうちの一対のアダプターと一旦連結されると同じ参照マッピング位置を共有する断片と区別するために必要な組合せの多様性を提供するのに十分な異なる可変切断長さを可能にするように選択され得る。可能な実施形態では、Ｌ_Ｓは、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９または２０ヌクレオチドとして選択され得るが、他の実施形態も可能である。ハイスループットシーケンシングのためにサンプルのプールを調製する場合、可能な実施形態では、同じ一定のポリヌクレオチド配列Ｓを使用して、ＮＧＳワークフローで一緒に多重化されるサンプルのプール中のすべてのサンプルの連結アダプターを調製し得る。別の実施形態では、異なる定常ポリヌクレオチド配列を定義し、同じプール中の異なるサンプルの連結アダプターを調製するために使用し得る。後者の実施形態では、サンプルのプール中の各サンプルについて生成された複数のアダプターは、予め定義された終結部分配列（ＴＳ）または可変スペーサー部分配列の切断に使用される予め定義されたヌクレオチド配列（Ｓ）のいずれかによって異なり得る。したがって、（ＴＳ，Ｓ）の選択は、サンプルのすべての断片について共通かつ一定であるが、同じプール内のサンプル毎に異なる。

図４は、３つの例示的ＤＮＡ断片４２１、４２２、４２３について得られた連結および対応する数値コードを示す。第１のＤＮＡ断片４２１は、一方の末端に３ヌクレオチドの全長Ｌ_１を有するスペーサー配列４１１（ＳＳ_１）を含む第１のアダプター４０１と連結され、他方の末端に１０ヌクレオチドの全長Ｌ_２を有するスペーサー配列４６１（ＳＳ_２）を含む第２のアダプター４５１と連結される。第２のＤＮＡ断片４２２は、一方の末端に５ヌクレオチドの全長Ｌ_３を有するスペーサー配列４１２（ＳＳ_３）を含む第３のアダプター４０２と連結され、他方の末端に全長Ｌ_４＝Ｌ_３＝５ヌクレオチドを有する同じスペーサー配列４６２（ＳＳ_４－本具体例ではＳＳ_４＝ＳＳ_３）を含む第４のアダプター４５２と連結される。第３のＤＮＡ断片４２３は、一方の末端に７ヌクレオチドの全長Ｌ_５を有するスペーサー配列４１３（ＳＳ_５）を含む第５のアダプター４０３と連結され、他方の末端に全長Ｌ_６＝４ヌクレオチドを有するスペーサー配列４６３（ＳＳ_６）を含む第６のアダプター４５３と連結される。したがって、ＤＮＡ断片４２１から生成された第１のＤＮＡ－アダプター産物は、その両端のアダプターからのスペーサー配列のそれぞれの長さに対応する数値コード｛３，１０｝（または、リード方向に応じて｛１０，３｝）と会合し得る。したがって、ＤＮＡ断片４２２から生成された第２のＤＮＡ－アダプター産物は、その両端のアダプターからのスペーサー配列のそれぞれの長さに対応する（任意のリード方向の）数値コード｛５，５｝と会合し得る。したがって、ＤＮＡ断片４２３から生成された第３のＤＮＡ－アダプター産物は、その両端のアダプターからのスペーサー配列のそれぞれの長さに対応する数値コード｛７，４｝（または、リード方向に応じて｛４，７｝）と会合し得る。したがって、ＤＮＡライブラリー中の同一のマッピング位置を有する第１、第２および第３のＤＮＡアダプター産物を識別し、誘導体ＤＮＡ産物の両端のスペーサー配列を特定し、それらのそれぞれの長さを測定して、親ＤＮＡアダプター産物から継承された数値コードを特定することによって、各親ＤＮＡアダプター産物から誘導体ＤＮＡ産物をトレースバックすることが可能である。

図５ａ）は、図５ａ）においてｖ９、ｖ８、ｖ７、ｖ６、ｖ５、ｖ４、ｖ３、ｖ２、ｖ１、ｖ０として特定された１０個の可能なスペーサー配列の第１の例を示す。各スペーサー配列は、長さＬ_Ｓ＝９の定常配列Ｓ＝ＣＣＡＣＡＡＣＡＣの開始から左から右への切断によって形成され得、さらに、終結部分配列（ＴＳ）トリプレットＴ、Ｇ、Ｔ（それ自体は連結を容易にするためにＴオーバーハングで終わる）と連結され得る。図５ｂ）は、長さＬ_Ｓ＝９の定常配列Ｓ＝ＣＣＡＣＡＡＣＡＣの末端から右から左に切断され、さらに末端部分配列（ＴＳ）トリプレットＴ、Ｇ、Ｔ（連結を容易にするためにそれ自体がＴオーバーハングで終わる）と連結され得る１０個の可能なスペーサー配列の別の第２の例を示す。図５ａ）および図５ｂ）の両方の例において、定常配列Ｓ＝ＣＣＡＣＡＡＣＡＣは、長さＬ_Ｓ＝９であり、それぞれ派生する可能性のある切断型部分配列は、それぞれ９、８、７、６、５、４、３、２、１および０ヌクレオチドの部分配列長を有する。Ｔ、Ｇ、Ｔヌクレオチドのトリプレットが続いた場合、これは、得られたシーケンシングリードにおけるトリプレットコードＴＧＴに対応し、得られたスペーサー配列全長は、それぞれ１２、１１、１０、９、８、７、６、５、４および３ヌクレオチドである。

可能な実施形態では、切断されたプラス終端部分配列（絶対長、例えば３～１２の範囲の数値）の完全なスペーサー配列長を使用して、数値コードを形成し得る。別の実施形態では、スペーサー配列のトランケーションされた部分配列部分の唯一の長さ、したがって終端部分配列の一定の長さを除外したものが、数値コード（相対的な長さ、例えば０～７の範囲の数値）を形成するために使用され得る。

増幅およびシーケンシング
ＤＮＡ産物がアダプター連結を用いて産生されると、ＤＮＡ産物は、ポリヌクレオチド増幅反応によって増幅され、１つ以上の親配列から複製された複数のポリヌクレオチド配列を産生し得る。次世代シーケンシングの分野における当業者には明らかなように、増幅は、様々な方法、例えばポリメラーゼ連鎖反応（ＰＣＲ）、線状ポリメラーゼ連鎖反応、核酸配列に基づく増幅、ローリングサークル増幅、および他の方法によって実施し得る。いくつかの実施形態では、ライブラリー増幅の後で、ＤＮＡ－アダプター産物を、その後、これらに限定されないが、ｌｌｌｕｍｉｎａシーケンシング技術、ＩｏｎＴｏｒｒｅｎｔシーケンシング技術、４５４ＬｉｆｅＳｃｉｅｎｃｅｓシーケンシング技術、ＡＢＩＳＯｌｉＤシーケンシング技術、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓシーケンシング技術またはＯｘｆｏｒｄナノポアシーケンシング技術などの、この技術分野で知られている任意の技術を使用してシーケンシングを実施し得る。例えば、Ｉｌｌｕｍｉｎａシーケンシングプラットフォームの場合、ライブラリー産物の両端に存在するシーケンサープライマーリング配列は、フローセルオリゴマーまたはフローセル配列にアニーリングまたは結合する機能的特性を有する。次世代シーケンシングの分野の当業者には明らかであるように、次いで、アダプター配列（スペーサー配列を含む）、第一プライマーリング配列、および第二プライマーリング配列を含む断片化ＤＮＡを第一および／または第二固定化配列のいずれかにアニーリングするブリッジ増幅工程１１０を実施してもよい。次いで、アダプター配列、第１のプライマー配列、および第２のプライマー配列を含む断片化されたＤＮＡを鋳型として使用して、第１および／または第２の固定化配列の３’－ＯＨが伸長され、アダプター配列（提案されたスペーサー配列を含む）、第１のプライマー配列、および第２のプライマー配列を含む断片化されたＤＮＡ内の遺伝情報が、第１または第２の固定化配列に移され、それによって固体支持体に結合する。次いで、アダプター配列（提案されたスペーサー配列を含む）、第１のプライマー配列、および第２のプライマー配列を含む断片化されたＤＮＡを変性させるか、または脱アニーリングして除去する。次いで、結合し断片化されたＤＮＡは、結合し断片化されたＤＮＡの自由端で固定化配列にアニーリングされ、数サイクルのブリッジ増幅を受ける。

この時点で、クラスタ生成工程は完了しており、フローセルは、遊離固定化配列を切断された、したがって遊離固定化配列に再アニーリングすることによる合成１２０による配列決定を可能にするように構成される。プライミング後、各ヌクレオチドは、クラスタ生成中に固体支持体にアニーリングされた鋳型鎖に基づいて、新しく合成されたＤＮＡ鎖に組み込まれ得る。新しく合成された鎖に組み込まれている各ヌクレオチドは、異なるフルオロフォアと会合しており、各フルオロフォアは、新しく組み込まれたヌクレオチドが伸長中にＤＮＡの新しい鎖および／またはその相補的対応物（Ｔに対するＡ、Ｃに対するＧ）と塩基対に組み込まれ得る場合、異なる波長の光を放出し得る。

エキソヌクレアーゼベースのナノポアシーケンシングでは、核酸を消化し得、生成された遊離ヌクレオチドは、脂質膜を横切る電位に対するそれらの効果によって識別される。一本鎖核酸鎖はまた、電位の差によって駆動される、またはヘリカーゼもしくはポリメラーゼなどの酵素によって補助されるナノポアを通過することを強制され得る。ナノポアを通過する核酸鎖の移動は、核酸配列の同定を可能にする電位の変化をもたらし得る。

次いで、インデックス配列を使用して、配列のサンプルを識別し得る。リード前処理１５１およびリードアラインメント１５２の後、ＤＮＡ断片の内因性情報および／またはマッピング位置、ＤＮＡ断片の外因性マッピング位置またはそれらの組合せを使用してＰＣＲ複製を識別して、真の突然変異体をＤＮＡ断片化後に生じる誤挿入と区別し得る。

いくつかの実施形態では、鋳型鎖からのＤＮＡの新規鎖の重合または伸長中に、ＤＮＡポリメラーゼは、ＤＮＡの他方の鎖の反対側のヌクレオチドと塩基対合しない塩基を誤って配置することがあり、これは不適正塩基対または誤挿入と呼ばれる。これに関して、１以上の不適正塩基対が起こり得るとしても、新規に合成されたＤＮＡ鎖は鋳型鎖に相補的であると見なされ得る。いくつかの実施形態では、ＤＮＡポリメラーゼによるこの不適正塩基対のエラーは、ＤＮＡの娘鎖において生じ得ること、およびこの娘鎖と同じＰＣＲ二重鎖グループに属するすべてのコピーを追跡することにより、細胞から抽出されたゲノムＤＮＡに見られる遺伝子多型（例えば、変異）からこれらの不適正塩基対を区別することが可能になり得ることが企図される。

リード前処理
増幅１１０の後、各ＤＮＡ－アダプター産物は複数のＰＣＲ複製で複製される。したがって、図６に示すように、同じＤＮＡアダプター産物から、すなわち同じＤＮＡ断片から生成された２つのＰＣＲ複製物６０１、６０２は、同じ開始座標および終了座標を有し、それらの末端に同じスペーサー配列を有し、これは配列決定１２０後に得られた生のシーケンシングリードに見られる。したがって、それらのスペーサー配列（図６の例では、数値コード＝｛９，７｝）のそれぞれの長さを測定することによって、それらを下流ゲノム分析ワークフローにおいて一緒にグループ化することが可能である。

低頻度ＤＮＡ分析の分野の当業者には理解されるように、他のＤＮＡ－アダプター産物、すなわち異なるＤＮＡ断片から生成されたＰＣＲ複製物は、同じスペーサー配列長を有する可能性が低い。ただし、１）異なる可能性のあるアダプターの組合せの数が、アラインメント１５２後に同じ開始位置および終了位置を有するリードと区別するために、衝突する可能性のあるＤＮＡ断片の数に対して十分に大きいこと、および２）スペーサー配列におけるヌクレオチドの可能性のある挿入または欠失を含むＰＣＲ増幅およびシーケンシングのエラーは、リードにおいて回収される切断されたスペーサー部分配列の基礎として一定の配列Ｓを使用することによって検出し得ることを条件とする。

図２に示すように、ペアエンドシーケンシング技術の場合、シーケンシング後、２つの異なるリード方向ＲＥＡＤ１およびＲＥＡＤ２はそれぞれ、ＦＡＳＴＱファイル内に共通の終結配列ＴＳを有する異なるスペーサー配列を生成し得るが、このスペーサー配列は、各ＤＮＡアダプター産物に対して異なる長さを有し得、したがって、それを別のものと統計的に区別することが可能になる。アラインメント１５２工程において、分析すべきＤＮＡ断片配列２２０の開始位置および終了位置は、このように、異なるＤＮＡ－アダプター産物から生成されたリードの大部分の間で離れて移動し、それによって、さらに内因的な多様性が作り出される。

例えば、図４を参照すると、第１のＤＮＡ断片４２１について、第１のスペーサー配列４１１は、３’から５’方向に読み取られたＰＣＲ複製物についての生のシーケンシングリードにおける最初の３ヌクレオチドを構成し、一方、第２のスペーサー配列４６１は、５’から３’の逆方向に読み取られた同じＰＣＲ複製物についての生のシーケンシングリードにおける最初の１０ヌクレオチドを構成する。第２のＤＮＡ断片４２２の場合、第３のスペーサー配列４１２は、３’から５’方向に読み取られたＰＣＲ複製物の生のシーケンシングリードの最初の５ヌクレオチドを構成し、第４のスペーサー配列４６２は、５’から３’の逆方向に読み取られた同じＰＣＲ複製物の生のシーケンシングリードの最初の５ヌクレオチドを構成する。第３のＤＮＡ断片４２３の場合、第５のスペーサー配列４１３は、３’から５’方向に読み取られたＰＣＲ複製物の生のシーケンシングリードの最初の７ヌクレオチドを構成し、第６のスペーサー配列４６３は、５’から３’の逆方向に読み取られた同じＰＣＲ複製物の生のシーケンシングリードの最初の４ヌクレオチドを構成する。したがって、各ＤＮＡ断片に数値コードを、第一のＤＮＡ断片４２１の第一端および第二端それぞれのスペーサー配列長の値の組合せ｛Ｌ_１，Ｌ_２｝＝｛３，１０｝；第２のＤＮＡ断片４２２の第一端および第二端それぞれに対するスペーサー配列長の値の組合せ｛Ｌ_３，Ｌ_４｝＝｛５、５｝；第３のＤＮＡ断片４２３の第一端および第二端のそれぞれに対するスペーサー配列長の値の組合せ｛Ｌ_５、Ｌ_６｝＝｛７，４｝のように、独自に関連付けることが可能である。したがって、図４に示されるように、提案された方法で生成されたＤＮＡ－アダプター産物から生成されたＰＣＲ複製物から配列決定された生のシーケンシングリード中のヌクレオチドのそれらの開始配列から検索され得るようなスペーサー配列の可変長に基づいて、ＰＣＲ複製物生シーケンシングリードをグループ化することが可能である。

図７は、図５ａ）の例示的な配列に従って構築されたＤＮＡ－アダプター産物の配列決定から生成され得る３つの異なるリードの開始配列の例を示す。各スペーサー配列は、図５ａ）の例のように、終結配列トリプレットＴＧＴで終わるので、ゲノムデータアナライザ１５０は、リード前処理工程１５１の一部としてこのトリプレットを検索することが可能である。

第一の可能な実施形態（図示せず）では、リード前処理１５１は、まず、リード開始配列をＬ_ｍａｘヌクレオチドでトリミングすることからなり、Ｌ_ｍａｘは、部分配列が切断される一定の配列Ｓの長さＬ_Ｓと、連結された一定の終結部分配列ＴＳの長さＬ_ＴＳとの合計である。ＦＡＳＴＱファイル内のリードをトリミングした後、各リードの配列の残りは、前処理されたＦＡＳＴＱファイル内に格納され得る。

シーケンシングの分野の当業者には明らかなように、可変長アダプターの使用に起因して、得られた前処理されたリードは、その後のアラインメント１５２の後に異なる開始位置および終了位置で互いに対して移動し、これにより、異なるＤＮＡアダプター産物から得られたアラインメント結果が事実上統計的に分離される。しかし、後者の「内因的な」長さの識別は、実際の用途の要求に応じて、分析されるＤＮＡ断片を識別するのに統計的に十分ではない場合がある。さらに、それは、より短い切断されたスペーサー部分配列を担持するリードであっても、可能な限り最長のアダプターの長さにトリミングするために、断片の開始点で数ヌクレオチドを失うという欠点を有する。したがって、別の実施形態では、各リード配列の開始点に終端部分配列ＴＳを探索し得る。一旦見出されると、スペーサー配列ストリングの長さは、例えば、リードの開始点と終結部分配列ＴＳの開始点との間の距離（相対スペーサー配列ＳＳ長）として測定され得る。あるいは、リードの開始点と終端部分配列ＴＳの終了点との間の距離（絶対スペーサーシーケンスＳＳ長）として測定され得る。したがって、各リードは、リード前処理１５１工程の一部として、異なるスペーサー配列長測定値を割り当てられ得る。図７の例では、最初のリードは、開始点に、絶対長Ｌ_１＝１２のスペーサー配列ＳＳ_１＝ＣＣＡＣＡＡＣＡＣＴＧＴを有する。第２のリードは、絶対長Ｌ_２＝１０のスペーサー配列ＳＳ_２＝ＡＣＡＡＣＡＣＴＧＴを有し、第３のリードは、絶対長Ｌ_３＝４のスペーサー配列ＳＳ_３＝ＣＴＧＴを有する。したがって、測定された長さの値は、下流アラインメント工程１５２におけるリードのＤＮＡ－アダプター産物起点をトレースバックすることを可能にする追加の数値情報を提供するために、前処理されたＦＡＳＴＱファイルに記録され得る。したがって、本出願の実際の要求に応じて、アラインメントに入力されるリード配列の残りの部分は、アラインメント工程にさらに「内因的な」長さの識別を提供するために、一般的に可能な限り最長のスペーサー配列の長さＬ_ｍａｘにトリミングされ得る（ただし、断片の配列自体の開始点に数ヌクレオチドが失われることを犠牲にする）か、または代わりに、前処理１５１によって各シーケンシングリードＲ_ｎについて測定される実際のスペーサー配列ＳＳ長さＬ_ｎに個別にトリミングされ得る（終端部分配列ＴＳの終わりまで）。

リードマッピングおよびアラインメント
次いで、得られた前処理されたリードを参照ゲノムにアラインメントし得る（１５２）。次いで、データ記録において利用可能な以下の１以上の特徴に基づいて、異なる元のＤＮＡ断片のＰＣＲ複製から生成されたリードのセットを（典型的にはＢＡＭまたはＳＡＭファイルフォーマットとして格納された）データ記録において識別することが可能である。

１）リードにおいて測定されたアダプタースペーサー配列長を組み合わせて得られた数値コード；
２）参照ゲノムに対するＤＮＡ断片のマッピング位置（すなわち、始端）。

ペアエンドシーケンシングの場合、元のプラス鎖またはマイナス鎖から生成されたペアエンドリードを識別することを可能にするペアエンドリード配向情報（すなわち、Ｆ１Ｒ２またはＦ２Ｒ１）を使用し得る。ペアエンドリードの各対（すなわち、Ｒ１およびＲ２）について、それらの可能性のある異なるアダプター長を回復し、これらの数を使用して、ＢＡＭフォーマットファイルなどのリードアラインメントファイルにタグとして記憶される（整数値の対からなる）数値コードを形成することが可能である。第１の工程では、（参照ゲノム配列リード方向に対して）同じ開始位置および終了位置にアラインメントし、測定されたアダプター長の同じ対（Ｌ１，Ｌ２）または（Ｌ２，Ｌ１）を有するペアエンドリードを、おそらく同じ元の二本鎖ＤＮＡ断片の２本の鎖から生成されるシーケンシングリードとしてグループ化し得る。次いで、各グループは、それらの元の鎖に従って２つのサブグループにさらに細分し得、測定されたアダプター長の実際の対（Ｌ１，Ｌ２）は、Ｆ１，Ｒ２配向を有するペアエンドリードの場合は｛Ｌ_{ｎ（ｆｏｒｗａｒｄ）}，Ｌ_{ｍ（ｒｅｖｅｒｓｅ）}｝によって、Ｆ２Ｒ１配向を有するペアエンドリードの場合は｛Ｌ_{ｎ（ｒｅｖｅｒｓｅ），}Ｌ_{ｍ（ｆｏｒｗａｒｄ）}｝によって与えられる。

得られた情報は、ＢＡＭまたはＳＡＭフォーマットファイルなどの生の断片タグ付きリードアラインメントファイルに記録され得る。このファイルを使用して、アラインメントから同じ断片連結から生成されたペアエンドリードのグループをクラスタ化することが可能であり、その結果、元のＤＮＡ断片の２本の鎖から生成されたＰＣＲ複製物によって提供される情報を利用することによって、バリアントコーリング１５３などの下流ゲノム分析工程を実施し得る。

バリアントコーリング
次いで、得られたアラインメントされたリードを解析して（１５３）、参照ゲノムに対するバリアント、例えばＳＮＶ、インデルまたは構造バリアント（コピー数変異、重複、転座．．．）を同定し得る。図８に示されるように、また、例えば、A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data, Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018においてＸｕによって概説されるように、異なるアプローチがゲノムデータアナライザ１５０によって適用され得る。図８ａ）は、提案された方法に従って、アラインメントされたＢＡＭファイルにおいて同じアラインメント位置および数値コードタグを共有する配列リードの各群から単一のポリヌクレオチド配列が折り畳まれるコンセンサスシーケンシングアプローチを示す。図８ａ）の円で表されるように、グループメンバーが特定の位置で一致しない場合、コンセンサス配列を生成するために様々な規則が使用され得、次いで、リードの各グループ（親フラグメントに対応するリードのファミリー）に対する単一のコンセンサスアラインメント配列リードとしてコンセンサスＢＡＭファイル（リード崩壊ＢＡＭファイルとしても知られる）に保存される。グループ内で最も頻繁に見出される塩基は、コンセンサスとして保持され得る（単純な多数決）。また、品質スコアを使用してコンセンサスを改良し得る（重み付けスコアリング）。次いで、得られたコンセンサス配列は、任意の従来の生リードをベースとするバリアントコーラーによって処理され得る。より一般的には、ＮＧＳバイオインフォマティクスワークフローの分野の当業者には明らかなように、バリアントコーリング１５３の前に、アラインされたリードを単一のポリヌクレオチド配列中に折り畳む中間工程として適したコンセンサスシーケンシングアプローチは、Ｘｕに概説された自由に使用できる先行技術の方法、例えば、ＭＡＧＥＲＩバイオインフォマティクスワークフロー（MAGERI:Computational pipeline for molecular-barcoded targeted resequencing”, Shugay et al., PLoS Comput. Biol. 2017 May; 13(5)）、または種々の市販のゲノムデータ解析ワークフロー、例えば、ＩｌｌｕｍｉｎａＲｅａｄＣｏｌｌａｐｓｉｎｇ工程（ｈｔｔｐｓ：／／ｓｕｐｐｏｒｔ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｈｅｌｐ／ＢａｓｅＳｐａｃｅ＿Ａｐｐ＿ＵＭＩ＿Ｅｒｒｏｒ＿Ｃｏｒｒｅｃｔｉｏｎ＿ＯＬＨ＿１０００００００３５９０６／Ｃｏｎｔｅｎｔ／Ｓｏｕｒｃｅ／Ｉｎｆｏｒｍａｔｉｃｓ／Ａｐｐｓ／Ｒｅａｄ＿Ｃｏｌｌａｐｓｉｎｇ＿ａｐｐＵＭＩ．ｈｔｍ）と同様に、提案された数値コードタグと組み合わせて使用し得る。

しかしながら、上記の従来のコンセンサスシーケンシングアプローチにはいくつかの制限があり、これは、シグナル処理から導出されたデータ駆動方法または機械学習アルゴリズムなどの高度な統計的モデリングに基づくより高度なゲノムデータ分析ワークフローを使用することによって克服され得る。図８ｂ）は、コンセンサスシーケンシングアプローチの別の実施形態としての確率的シーケンシングを示す。確率的シーケンシングでは、アラインメントおよびバリアントコールの間の中間工程でコンセンサスＢＡＭファイルを生成する代わりに、ゲノムデータアナライザ１５０は、生の断片タグ付きアラインメントファイルを直接使用して、統計的バリアントコーラーへの入力として、生のアラインドリード群を供給し得る。

発見的規則（例えば、多数決など）で得られたコンセンサス配列に依存する代わりに、このクラスのバリアントコーラーは、同じかまたは異なるファミリー（またはグループ）に属するリードに機器アーチファクトがどのように影響するかを記述する統計モデルに依存する。統計的モデルは、例えば、以下の知識を組み込み得る。

・変異ＤＮＡ分子の存在下では、バリアントは、その変異分子の２本の鎖から生成されたすべてのリードによって支持される；
・シーケンシングエラーは頻繁に起こり得るが、同じファミリーに属するリードまたは同じファミリーに属さないリードにわたって独立して起こり得る；
・ＰＣＲエラーは頻度が低いが、同じファミリー内の複数のリードに影響を及ぼす可能性があり、同じＤＮＡ分子のプラス鎖およびマイナス鎖の両方で発生することはほとんどない。

そのような確率的フレームワーク内のリード全体を分析することにより、例えば、目的の変異対立遺伝子頻度の事後確率を計算することが可能になる。次いで、この事後確率を使用して、例えば、バリアントコール（例えば、変異対立遺伝子頻度の確率が０より大きく、確率ｐが閾値より大きい場合）を生成し、その信頼水準（すなわち、信号が機器雑音ではなく実際の変形によって生成された確率）を定量化し得る。

そのような統計的バリアントコーラーの１つの最近開示された例は、自由に使用できる独立型のＳｍＣｏｕｎｔｅｒ２統計的バリアントコーラーであり、これは、バックグラウンドエラー率についてのベータ分布および非参照ＵＭＩ異常値の数についてのベータ二項分布に基づくエラーモデルに従ってバリアント確率を計算するためにアラインドリードを入力としてとる（smCounter2:an accurate low-frequency variant caller for targeted sequencing data with unique molecular identifiers, Xu et al., Bioinformatics, Vol,.35(8), April 2019）。ｓｍＣｏｕｎｔｅｒ２は、入力として、未処理のＵＭＩタグ付きＢＡＭファイルと、コンセンサスなＢＡＭファイルの両方を受け付ける。提案されたワークフローでは、ＵＭＩタグの代わりに、ＵＭＩタグ付きＢＡＭファイルは、本発明者らの提案された方法の数値コードタグ、すなわち、提案された湿式ラボ法に従って連結された断片の各末端に連結された可変アダプターの測定された長さに対応する一対の数値を同様に含み得る。ＳｍＣｏｕｎｔｅｒ２と同様に、例えばＳｏｐｈｉａＧｅｎｅｔｉｃｓＤａｔａ－ＤｒｉｖｅｎＭｅｄｉｃｉｎｅソフトウェア（ＳｏｐｈｉａＤＤＭ）などのデータ駆動型モデリングに基づく商用ワークフローからの様々なバリアントコーラーもまた、提案された数値コードタグ付けに基づいて、異なるＤＮＡ断片から生成されたアラインメントされたリードの各グループのバリアントを個別にコールするように適合され得る。

例示的実験
実験１
第１の実験では、本発明者らは、例えば図５ｂ）に示すような可変長スペーサー配列を含む提案されたすべてのアダプターをＤＮＡ断片に連結して、ＤＮＡ－アダプター産物のライブラリーを生成できることを確認した。図９の測定によって示されるように、連結反応中に提案されたアダプターとの反応混合物を使用する場合、すべてのスペーサー配列アダプターをＤＮＡ断片に連結することができ、最終的なＤＮＡライブラリーにおいてほぼ同様に表される。

実験２
第２の実験では、第一の実験で生成されたＤＮＡ－アダプター産物のライブラリーが、ＩｌｌｕｍｉｎａＮｅｘｔＳｅｑシーケンサーなどのＮＧＳプラットフォーム上で配列決定され、ＳｏｐｈｉａＧｅｎｅｔｉｃｓＤａｔａＤｒｉｖｅｎＭｅｄｉｃｉｎｅ（ＳｏｐｈｉａＤＤＭ）バイオインフォマティクスプラットフォームなどのゲノムデータアナライザ１５０によって解読され得ることを確認した。各スペーサー配列は、ＳｏｐｈｉａＧｅｎｅｔｉｃｓＤａｔａＤｒｉｖｅｎＭｅｄｉｃｉｎｅゲノムデータアナライザ１５０によってシーケンサーにより生のＦＡＳＴＱファイルから解読し得る。得られたリードは、切断されたスペーサー部分配列で始まって一定の終結部分配列ＴＳで終わる予想配列を示す。図１０は、最も長い長さのアダプター（ベースコールエラーが発生しやすい）であっても、バイオインフォマティクスワークフローによって、９３％を超えるリードを予想されるスペーサー配列に割り当て得ることを示す。平均して、リードの約９５％についてスペーサー配列を適切に同定する（したがって、その可変長を測定して数値コードタグを形成する）ことが可能である。

実験３
第３の実験では、本発明者らは、第２の実験でシーケンシングされた生のリードを使用して、数値コードタギングを無視したゲノム解析バイオインフォマティクスワークフロー（ＳｏｐｈｉａＧｅｎｅｔｉｃｓＤＤＭｖ５）、すなわち、アラインメントから外れた開始位置および終了位置のみに基づいて特定のゲノム位置について得られたリードをグループ化すること（図１１ａ）に対して、ＮＧＳデータビューアと、アラインメントから外れた開始位置および終了位置ならびに断片の両端の測定された可変アダプタースペーサー配列長からなる提案された方法の数値コードの追加のフラグメントタグ情報に基づいて特定のゲノム位置について得られたリードをグループ化するようにさらに適合された同じゲノム解析バイオインフォマティクスワークフロー（図１１ｂ）と比較した。

図１１ａ）および図１１ｂ）に示すように、ＮＧＳデータビューアは、ヘテロ接合ＳＮＰのゲノム位置１１００を強調している。オリジン断片を区別しないＰＣＲ複製物のグループでは、理論的には、すべてのリードがＳＮＰを表示する（および下流のバリアントコーラー部１５３がバリアント画分＝１を測定する）か、またはそれを表示しない（および下流のバリアントコーラー部１５３がバリアント画分＝０を測定する）必要がある。しかしながら、本発明者らの実際の実験では、図１１ａ）で参照できるように、リードをそれらの開始情報および終了情報によってグループ化するだけでは、ＳＮＰの実際のバリアント画分が０または１とは異なるため、ＰＣＲ複製物群を正確に同定し得ない。これは、これらの基が少なくとも２つの元のＤＮＡ断片に由来するＤＮＡ断片を含むことを示す。これらの元のＤＮＡ断片は、ＳＮＰの位置で異なっていたが、それらは同一の開始位置および終了位置を共有していたため、一緒にグループ化された。対照的に、図１１ｂ）で参照できるように、提案された数値コードをタグとして追加することにより、同じ開始位置および終了位置を有するＰＣＲ複製物のリードグループを、ＢＡＭファイル内のそれらの数値コードに従って、同じ親フラグメントに由来するサブセットにさらに細分化およびクラスタリングすることによって、これらの衝突を解決することが可能になる。これらのサブグループにおいて、ＳＮＰのバリアント画分は、その後、下流のバリアントコーラー部１５３によって、予想されるように０または１のいずれかとして測定され得、したがって、リードの開始位置および終了位置と組み合わせた提案された数値コードが、衝突する分子からＰＣＲ複製物を区別することを可能にすることが実証される。

実験４
動機づけ－当業者には明らかなように、低バリアント対立遺伝子画分（ＶＡＦ）でのバリアントコーリングは、シーケンシングエラーおよびライブラリー調製アーチファクトによって制限される。ＮＧＳアッセイの分析性能を改善するための戦略は、バリアントをコールするためのＰＣＲ複製によって提供される情報を利用することにある。従来技術の解決策は、例えばＰＣＲ複製物を同定するために位置をマッピングすることによって、ＰＣＲ複製物群を正確に同定しようと試みる。しかし、複数の剪断点（したがってマッピング位置）があるため、すべての元のＤＮＡ分子を区別するのに十分ではない場合がある。したがって、ＰＣＲ複製物群の同定のための追加の情報を提供するために、外因性分子バーコードが導入されている。しかしながら、そのような外因性バーコードを生成するための最良の産業的アプローチにおけるコンセンサスは現在存在せず、多くの従来技術の解決策は、高価なライブラリー生成解決策を使用しなければならず、そのほとんどは、確率的バリアントコーリング解決策の最近の進歩から恩恵を受けることなく、主にコンセンサスシーケンシングワークフローで使用するために設計されている。対照的に、提案された可変長ＤＮＡ－アダプター構築物は、低頻度バリアント検出の感度および特異性をさらに改善するために、断片の外因性同定およびそれらの効率的な確率的ゲノム解析の両方を共に促進することを目的とする。これは、本明細書で詳述するように、専用の実験によって実証される。

６種の細胞株のヌクレオソームＤＮＡを、７番目の細胞株のヌクレオソームＤＮＡに異なる比率でスパイクし、以下のバリアント対立遺伝子頻度：０．５～４％、０．２５～２％および０．１～０．８％で一連の単一ヌクレオチド変異（ＳＮＶ）を有する３つのサンプルを生成した。

標的ライブラリー調製－全ゲノムライブラリーを、製造者の説明書に修正を若干加えた後、ＳＯＰＨｉＡＧＥＮＥＴＩＣＳライブラリー調製キットを使用して、２５ｎｇの各ＤＮＡ混合物から二連で調製した。簡潔に説明すると、末端修復およびＡテーリングの後、各サンプルのＤＮＡ断片を、標準的なバーコード化されていないアダプターまたは図５ｂ）（Ｌ_ＴＳ＝３、Ｌ_Ｓ＝９であり、それぞれの長さ３から１２ヌクレオチドの１０個の異なるＤＮＡアダプターを生成する。）に示すような可変長スペーサー配列を含む一連の可変長アダプターのいずれかに連結した。次いで、指標化されたＩｌｌｕｍｉｎａ適合性プライマーを使用してライブラリーを増幅した。ＤＮＡ混合物中に存在する２３個のＳＮＶをカバーするＳＯＰＨｉＡＧＥＮＥＴＩＣＳ捕捉プロトコルおよびＳＯＰＨｉＡＧＥＮＥＴＩＣＳカタログパネル（設置面積：５６Ｋｂ）を使用して、全ゲノムライブラリーを捕捉した。

データ分析－可変長アダプター構築実験からのライブラリーを最初に前処理した。順方向リードおよび逆方向リードの開始点の定常部分配列の位置を決定した。次いで、各ＤＮＡ断片の両側に存在するアダプターの長さを使用して、可変長アダプター配列をトリミングする前に、リードヘッダに付加されたコンビナトリアルコードを生成した。次いで、ＢＷＡ－ＭＥＭアライナを使用して、すべてのライブラリーのリードをゲノムにアラインした。フラグメントマッピング位置および前述のコンビナトリアルコードを使用して、ＰＣＲ複製物群を同定した。バリアントコーリングは、確率的シーケンシングまたは二重コンセンサスシーケンシングのいずれかで実施した。確率的シーケンシングのために、ＳＮＶを有する分子から生成されるＰＣＲ重複群の事後確率を計算し、識別された各ＰＣＲ重複群に品質スコアを割り当てるために使用した。

結果
図１２は、提案された可変長アダプターが人工ヌクレオソームＤＮＡにおける速度変異体の検出を容易にすることを示す。図１２ａ）は、従来技術の標準的なアダプターが使用される場合に、３つの異なるＶＡＦ範囲（サンプル１：０．５～４％；サンプル２：０．２５～２％；サンプル３：０．１～０．８％）で２３個のＳＮＶを有する複製物で分析された３つのサンプル（２５ｎｇのＤＮＡインプット）のバリアントコーリングの結果を示す。図１２ｂ）は、提案された可変長アダプターが使用される場合に得られるバリアントコーリングの結果を示す。この実験で試験した１４４個のＳＮＶのうち、標準的なアダプターを使用した場合、１０７個のみが検出された。ＳＬＡライブラリーを使用すると、１２３個のバリアントが呼び出されることで感度が向上した。図１２ｃ）は、０．１～０．８％の範囲のＶＡＦを有し、従来技術の標準アダプターを使用して処理されたバリアントを有するサンプルにおいて、それぞれ確率的シーケンシング（濃い灰色）または二重コンセンサスシーケンシング（薄い灰色）を使用した場合の偽陽性率（ＦＰ）に対する真陽性率（ＴＰＲ）に関するバリアントコーリングの性能を示すＲＯＣ曲線をさらに比較する。図１２ｄ）は、０．１～０．８％の範囲のＶＡＦを有し、提案された可変長アダプターを使用して処理されたバリアントを有するサンプルにおいてそれぞれ確率的シーケンシング（濃い灰色）または二重コンセンサスシーケンシング（薄い灰色）を使用した場合の偽陽性率（ＦＰ）に対する真陽性率（ＴＰＲ）対に関するバリアントコーリングの性能を示すＲＯＣ曲線をさらに比較する。

提案された方法の利点
したがって、提案された方法は、様々な下流ＮＧＳワークフローに適したＤＮＡ－アダプター産物のライブラリーを生成するために、いくつかの所定の可変長アダプターの連結のみを必要とし、ＤＮＡの投入量が少ない場合でもバリアントのＮＧＳバイオインフォマティクス同定を容易にする。

ハイスループットシーケンシングデータ処理の分野の当業者には明らかなように、ゲノム分析ワークフローでは、オーバートリミングはシーケンシングカバレッジの喪失をもたらし、アンダートリミングはシーケンシングアーチファクトを導入し得るので、リード前処理中のアダプター配列のトリミングは正確である必要がある。一定の終結部分配列シグナル（ＴＳ）を有していない先行技術の可変長アダプターは、バーコードと挿入ＤＮＡ断片の開始部との間の境界を同定し得ない。結果として、それらは通常、アダプター全長Ｌｍａｘ上でトリミングを必要とし、適用範囲を低下させる。

さらに、アダプターの合成には費用がかかり、日常的な臨床診療ワークフローでは、特定の用途についての不一致を解決するために必要な数のバーコードを使用することが好ましい。限られた数のバーコードを使用する場合、それらが最終ライブラリーで均一に表されることが重要であり、そうでなければバーコードの組合せの有効数が減少し、もはや十分ではない可能性がある。各バーコードの末端に一定の終結部分配列ＴＳを有することにより、配列特異的バイアスの連結が防止され、したがってより均一なバーコード使用が可能になる。

さらに、実際のシーケンシング技術に応じて、例えばＩｌｌｕｍｉｎａシーケンサーでは、最初のシーケンシングサイクルで塩基の不均衡があると、シーケンシングの質が低下する可能性がある。このことは、限られた数のランダムバーコードを使用する場合に問題となり得る。各シーケンシングサイクルでバランスのとれた塩基組成を有するように設計され得る、可変長のスペーサー配列の所定のセットを使用することにより、高いシーケンシング品質を維持することが可能になる。

Claims

増幅およびシーケンス後のハイスループットシーケンシングデータのゲノムデータ分析ワークフローにおいて断片の同定を容易にするために、少なくとも２つのＤＮＡ断片からＤＮＡアダプター産物のライブラリーを生成する方法であって、
（Ｉ）ＤＮＡアダプターのプールを生成する工程であって、前記アダプターは、お互いに全長が少なくとも３ヌクレオチド、最大でＬ_ｍａｘヌクレオチド異なり、各アダプターは、長さＬ_ＴＳの定常終結部分配列ＴＳを含み、Ｌ_ＴＳが３以上のヌクレオチドが可変スペーサー部分配列と連結しており、前記可変スペーサー部分配列は、長さがＬ_Ｓのヌクレオチドを有する共通の一定の所定のヌクレオチド配列から切断されており、５≦Ｌ_Ｓ≦２０ヌクレオチドである、工程、
（ＩＩ）反応混合物中で、ＤＮＡ－アダプターのプールからの第１および第２アダプターを第１の二本鎖ＤＮＡ断片の各末端に連結して、第１のＤＮＡ－アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第１のＤＮＡ－アダプター産物が、第１および第２のＤＮＡ－アダプタースペーサー配列（ＳＳ_１、ＳＳ_２）のそれぞれの長さ（Ｌ_１，Ｌ_２）によって形成される数値コードによって特徴付けられ得る、工程、
（ＩＩＩ）同じ反応混合物中で、ＤＮＡ－アダプターのプールからの第３および第４のアダプターを第２の二本鎖ＤＮＡ断片の各末端に連結して、第２のＤＮＡ－アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第１のＤＮＡ－アダプター産物が、第１および第２のＤＮＡ－アダプタースペーサー配列（ＳＳ_３、ＳＳ_４のそれぞれの長さ（Ｌ_３，Ｌ_４）によって形成される数値コードによって特徴付けられ得る、工程、
を含む方法。
前記定常終結部分配列ＴＳが、前記一定の所定のヌクレオチド配列Ｓと、編集距離が少なくとも２だけ異なる、請求項１に記載の方法。
前記スペーサー部分配列が、前記一定のヌクレオチド配列（Ｓ）から開始して左から右に切断されている、請求項１または２に記載の方法。
前記スペーサー部分配列が、前記一定のヌクレオチド配列（Ｓ）から終了して右から左に切断されている、請求項１または２に記載の方法。
前記定常終結部分配列ＴＳが、前記ＤＮＡ断片への連結を容易にするためのＴオーバーハングで終わるトリプレットヌクレオチドである、請求項１～４のいずれか一項に記載の方法。
前記定常終結部分配列ＴＳが、前記ＤＮＡ断片への連結を容易にするためのＴオーバーハングで終わるクアドロプレットヌクレオチドである、請求項１～４のいずれか一項に記載の方法。
（ＩＩＩ）ＤＮＡ－アダプター産物を増幅して、ハイスループットシーケンシングに適したＰＣＲ複製物を生成する工程、
（ＩＶ）前記ＰＣＲ複製物をハイスループットシーケンサーでシーケンシングして生のシーケンシングリードを生成する工程、
をさらに含む、請求項１～６のいずれか一項に記載の方法。
（Ｖ）各シーケンシングリードＲ_ｎについて、
ａ．トリミングされたシーケンシングリードを生成するために、リードの開始点からＬ_ｍａｘヌクレオチドをトリミングする工程、
ｂ．トリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルに記録する工程、
（ＶＩ）それぞれのトリミングされたリードを開始位置および終了位置にマッピングするように、トリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルから参照ゲノムにアラインメントする工程、
をさらに含む、請求項７に記載の方法。
（Ｖ）各シーケンシングリードＲ_ｎについて、
ｃ．シーケンシングリードの最初のＬ_ｍａｘヌクレオチド中の定常終結部分配列ＴＳを探索し、スペーサー配列ＳＳ_Ｒｎの長さＬ_ｎを、定常終結部分配列ＴＳの開始点をシーケンシングリードＲ_ｎの開始点から分離するヌクレオチドの数の関数として測定する工程、
ｄ．リードの開始点から少なくともＬ_ｎヌクレオチドをトリミングして、トリミングされたシーケンシングリードを生成する工程、
ｅ．測定された長さＬ_ｎおよびトリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルに記録する工程、
（ＶＩ）それぞれのトリミングされたリードを開始位置および終了位置にマッピングするように、トリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルから参照ゲノムにアラインメントする工程、
をさらに含む、請求項７に記載の方法。
各シーケンシングリードＲ_ｎについて、Ｌ_ｍａｘに等しい数のヌクレオチドが前記リードの開始点からトリミングされる、請求項９に記載の方法。
各シーケンシングリードＲ_ｎについて、そのスペーサー配列の前記測定された長さに対応する数のＬ_ｎヌクレオチドが、前記リードの開始点からトリミングされる、請求項９に記載の方法。
シーケンシングがペアエンドリードを生成し、参照ゲノム配列リード方向に対して同じ開始位置および終了位置にアラインメントされ、測定されたスペーサー配列長（Ｌ１，Ｌ２）の同じ数値コード対を有するペアエンドリードを、同じ元の二本鎖ＤＮＡ断片の前記２本鎖から生じるシーケンシングリードとしてグループ化し、測定されたスペーサー配列長（Ｌ１，Ｌ２）の数値コード対が、Ｆ１Ｒ２配向を有するペアエンドリードの場合には｛Ｌ_{ｎ（ｆｏｒｗａｒｄ）}，Ｌ_{ｍ（ｒｅｖｅｒｓｅ）}｝によって、Ｆ２Ｒ１配向を有するペアエンドリードの場合には｛Ｌ_{ｎ（ｒｅｖｅｒｓｅ）}，Ｌ_{ｍ（ｆｏｒｗａｒｄ）}｝によって与えられる場合、それらのペアエンドリードをそれらの鎖起源に従って２つのサブグループにさらに細分化する工程をさらに含む、請求項９、１０または１１のいずれか一項に記載の方法。
同一の開始コード、終了コードおよび数値コードを共有する各リードグループを、それらの親フラグメントのコンセンサス配列に折り畳み、バリアントコーリング法で、この親フラグメントのバリアントを前記折り畳まれたコンセンサス配列に同定する工程をさらに含む、請求項１２に記載の方法。
同一の開始コード、終了コードおよび数値コードを共有する各リードグループについて、統計的バリアントコーリング法で、それらの親フラグメントに対するバリアントの確率を同定することをさらに含む、請求項１２に記載の方法。
サンプルのプールから少なくとも２つの患者サンプル中のゲノムバリアントを同定するためのマルチプレックスハイスループット配列決定ゲノム分析方法であって、請求項１に記載の方法を用いてＤＮＡアダプター産物のライブラリーを生成することを含み、前記ＤＮＡアダプター産物のライブラリーがサンプル間で異なる、方法。
前記ＤＮＡアダプター産物のライブラリーが、前記終結部分配列ＴＳによってサンプル間で異なる、請求項１５に記載の方法。
前記ＤＮＡ－アダプター産物のライブラリーが、可変スペーサー部分配列の切断に使用される所定のヌクレオチド配列（Ｓ）によってサンプル間で異なる、請求項１５または１６記載の方法。