JP2022548504A - 低頻度バリアントの検出およびレポートを容易にするためのdnaライブラリー生成方法 - Google Patents

低頻度バリアントの検出およびレポートを容易にするためのdnaライブラリー生成方法 Download PDF

Info

Publication number
JP2022548504A
JP2022548504A JP2022512862A JP2022512862A JP2022548504A JP 2022548504 A JP2022548504 A JP 2022548504A JP 2022512862 A JP2022512862 A JP 2022512862A JP 2022512862 A JP2022512862 A JP 2022512862A JP 2022548504 A JP2022548504 A JP 2022548504A
Authority
JP
Japan
Prior art keywords
dna
sequencing
adapter
read
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022512862A
Other languages
English (en)
Other versions
JPWO2021053208A5 (ja
Inventor
モルガーヌ、マシェレット
クリスティアン、ポッツォリーニ
アードリアン、ウィリグ
ヨナタン、ビーラー
チェンユ、シュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sophia Genetics SA
Original Assignee
Sophia Genetics SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sophia Genetics SA filed Critical Sophia Genetics SA
Publication of JP2022548504A publication Critical patent/JP2022548504A/ja
Publication of JPWO2021053208A5 publication Critical patent/JPWO2021053208A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/204Modifications characterised by specific length of the oligonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Abstract

断片化された核酸の両側に可変アダプター分子バーコード長に基づく数値コードを提供する工程、および両方のバーコードに基づいて同じ断片からのリードを同定する工程を含む、次世代シーケンシングのために断片化された核酸にアダプターを付加する方法が開示される。本方法および産物は、単離および断片化された核酸の収率が低い場合に断片化された核酸の増幅を可能にし、また、対象内の細胞の亜集団を含む低頻度変異の効率的かつ信頼性の高い検出を可能にする。

Description

がん治療、法医学、古遺伝学、進化および毒物学などの分野では、高精度で配列決定すること、低頻度で起こる突然変異を検出することが要求される。そのような突然変異が存在するのは、がんなどの細胞の1%未満であり得る。血漿または血液サンプル由来の無細胞デオキシリボ核酸(DNA)断片を分析する場合、腫瘍細胞由来のDNA断片の比率は、無細胞DNA全体の0.01%ほどと低いことさえあり得る。この低頻度-遺伝的多様性は、シーケンシング自体だけでなく、シーケンシング前のゲノムDNAの増幅においてもバックグラウンドエラー率が高いため、従来の次世代シーケンシングでは評価することが困難である。循環腫瘍DNA断片は、平均長さ140~180bp(塩基対)に断片化され得、これは、血液1ミリメートル当たりわずか数千個の増幅可能なコピーに相当し得る。DNAポリメラーゼは、10-4~10-6の頻度で誤挿入を導入し得る。これらの誤挿入が、第1鎖合成中など、DNAライブラリーの生成の初期に起こると、低頻度突然変異と区別できなくなる可能性がある。さらに、次世代シーケンシング(NGS)システムとしても公知のハイスループットシーケンシングシステムは、典型的には、塩基あたり10-2~10-3の割合でエラーを生じ、対応する変異が同様のまたはより低い頻度で起こる場合、特定の真の変異体の検出が不能になってしまう。
例えば、シングルセルシーケンシング、一本鎖分子バーコーディングおよびサークルシーケンシングは、DNAの一本鎖に由来するDNAの配列を決定することを含み得る。1回目の増幅中に、DNAポリメラーゼは、娘分子にエラーを伝播する可能性がある。シングルセルシーケンシングでは、ヘリカーゼ活性を有するDNAポリメラーゼと共にランダムプライマーを使用して、2本鎖の一方を置換し得る。しかし、ランダムプライマーと鎖置換の組合せにより、新たにコピーされた鎖のランダムプライミングが、したがって複製物の複製物が生成し得る。この工程では、初期の誤取り込みエラーが複製物の複製物に伝播される。すべての遺伝情報が単一細胞に由来したので、シーケンシングリードが元の一本鎖合成からのエラーを表すのか遺伝的バリアントを表すのかを見分けることは不可能である。
サークルシーケンシング(CircSeq)および一本鎖バーコーディングはまた、最初の合成中に誤挿入を導入する可能性があり、そのエラーはその後娘分子に伝播され、突然変異として誤ってスコア付けされる可能性がある。単離後の同じ誤挿入エラーは、他の細胞またはサブクローナル集団からの同じDNA配列では起こりにくい。したがって、元のエラーは、必ずしも事後分析によって特定、説明、および/または補正し得ず、代わりにサブクローナル変異であると思われるエラーをもたらし得る。
Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations, Nature Reviews Genetics, Vol.18, pp.269-285, May 2018 Salk et al.は、NGS技術を用いて低頻度バリアントをより良好に特性評価するための、以下に示す3つの主なエラー訂正戦略:1)信頼度の低いデータのフィルタリングおよび/またはシーケンシングエラープロファイルの予め定義された統計モデルの適用に基づく計算戦略、2)プレシーケンシングDNAライブラリー調製によって起こるエラーを減らすための実験戦略、および3)シーケンシングリード自体のエラーの事後検出および訂正を適用する分子コンセンサスシーケンシングを概説している。後者の方法は、増幅およびシーケンシングの前に各DNA断片の分子バーコード(分子タグ、固有分子識別子(Unique Molecular Identifier、UMI)、または単一分子識別子(Single Molecular Identifier、SMI)としても知られている)による固有のタグ付けを利用するので、シーケンシングリードを特定のタグに関連するリードのファミリーにグループ化することが可能である。これは、全く同じエラーが、ユニークにタグ付けされた親DNA断片のすべての増幅およびシーケンシングされたアンプリコンコピーにわたって体系的に繰り返される可能性は低いので、タグ付け後に導入されるエラーの明示的な検出および訂正を容易にする。Salkらは、外因性分子バーコードを、一方ではPCRプライマーまたはシーケンシングアダプターのいずれかに人工的に(物理的に)組み込まれるランダムまたは半ランダム配列として区別し、連結を使用してDNAライブラリーを調製するときにDNA分子の末端に天然に(実質的に)存在する断片化点(剪断点としても知られる)として同定され得る内因性分子バーコードと区別する。これまでに、分子コンセンサスシーケンシングの3つの主要なファミリー:1)親DNA断片鎖の一方または両方を別個にタグ付けする、例えばSafeSeqS、smMIPおよびCiqSed法などの一本鎖コンセンサスシーケンシング(したがって、下流コンセンサスエラー検出および訂正工程において相補鎖から生成されたアンプリコンリードをグループ化するために鎖情報を使用することは不可能であるという制限を伴う);2)例えば、シーケンシング後に関連するリードを同じコンセンサス配列にグループ化することができるように、同じ分子識別子で親DNA断片の両方の鎖をタグ付けするUltrasensitive Deep配列決定法またはCyperSeq法などの2本鎖コンセンサスシーケンシング;3)ランダム化二重タグを元の二本鎖DNA断片の両端に相補的に導入する二重鎖シーケンシングが開発されている。これらの分子識別子配列は、二本鎖DNAの各末端が異なる分子識別子配列を受け取るように、二本鎖DNAの各末端に連結されたアダプター内にコードされ得る。最初の鎖合成または任意のその後の合成/増幅工程中に、DNAポリメラーゼによってDNAの2本の鎖の一方の鎖にエラーが導入された場合、他方の鎖は、例えば、一連の一本鎖コンセンサス配列に対する基準による比較の根拠を提供する。シーケンシング中にすべての一本鎖コンセンサス配列が読み取られると、アラインメント中に元のDNA断片の各鎖の各末端の分子識別子配列を一致させ得る。
第1の合成工程に続く合成工程中に生じる単離後のエラーを検出するために、各鎖は、分子識別子配列を使用して一本鎖コンセンサス配列のアラインメント中に同じ開始位置および/または終了位置を共有するシーケンシングリードを関連付けることによって、その同一鎖シスターとアラインメントされ得る。リード配列中のいかなる相違も、第1の合成工程に続く合成工程中の誤挿入に起因し得る。第1の合成工程中に生じる単離後のエラーを検出するために、各鎖を二重鎖コンセンサス配列のアラインメント中に(再度、分子識別子配列を使用して)その反対鎖パートナーとアラインメント(配列比較)し得る。そのような比較によって観察されたリード配列の相違は、第1の合成工程中の誤挿入に起因し得る。DNAの両端に同じ分子識別子配列を有するDNAの両方のパートナー鎖に特定の差が見られる場合、特定の差は、細胞から抽出されたDNAに存在する突然変異または多型に起因し得る。実質的に類似の配列を有するが、異なる分子識別子配列を有する鎖を同定することによって、全配列読み出しのアラインメント中に、細胞のサブセットにおける低頻度変異を同定し得る。
Error-correcting DNA barcodes for high-throughput sequencing, J.A. Hawkins et al, bioRxiv, 7 May 2018は、Hammingコード、Reed-SolomonコードまたはLevenshteinコードなどの情報理論コードに対する改良に従って設計されたDNAアダプターのライブラリーを構築することによって、10^6を超えるユニークなエラー訂正バーコードを使用することを提案している。国際公開第2018/144159号には、DNAサンプル断片の識別を容易にするために別の多様性軸を有するDNAアダプターのライブラリーを構築するために、一定の3’オーバーハングを有する2~24可変長ヌクレオチドが使用されることが提案されている。そのような方法は、破損したバーコードの長さが未知であっても、置換、挿入、および削除エラーの固有の訂正をある程度容易にすることができるが、それらの具体的な設計は、下流のシーケンシングデータ処理およびバリアントコーリングワークフローのエラー訂正能力を完全には活用していない。
A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data, Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018では、Xuは、単一ヌクレオチドバリアント検出に適用可能であり得る46個の公的に利用可能なバリアントコーラーを概説しており、これには、おそらく二重およびコンセンサスシーケンシングを用いて、UMIベースのシーケンシングデータを扱う4個のバリアントコーラーが含まれる。Xuによって報告されているように、現在の二重シーケンシングプロトコルの1つの限界は、実際の実験では、連結効率が不十分であるためにUMIの20%のみが他方の鎖と一致し得、そのため、バリアントコーリングは単数および二重UMIの両方を処理しなければならないことである。さらに、UMI配列自体はPCRエラーを起こしやすく、相補的なクラスタリング戦略を必要とする場合がある。
例えば、二重鎖DNAサンプル(ゲノムDNA断片など)の両方の鎖を追跡して非常に低い頻度の突然変異および多型を検出することによって、場合によっては明示的な分子バーコード化コンセンサスシーケンシングエラー同定/訂正とは無関係に、統合された低頻度バリアントの同定に連結することができるDNAライブラリーを生成する改善された方法が依然として必要とされている。例えば、がん細胞、キメラ細胞、および他の形態の被験体内遺伝子多型における、まれに起こる突然変異すなわち低頻度の突然変異、ならびに多型を検出する効率的で信頼性の高い方法が依然として必要とされている。明示的なコンセンサスシーケンシングを必要とせずに、同じDNA分子の両方の鎖を追跡し、複数の低頻度バリアントの同定およびレポートを容易にし得る、DNAライブラリーを生成するための、改善された方法も依然として必要とされている。シーケンシングまたは分析されるDNA断片の各末端に配列の異なる特性を有する非対称断片化DNAライブラリーを生成するための、改善された方法も依然として必要とされている。
国際公開第2018/144159号
Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations, Nature Reviews Genetics, Vol.18, pp.269-285, May 2018 Salk et al. Error-correcting DNA barcodes for high-throughput sequencing, J.A. Hawkins et al, bioRxiv, 7 May 2018 A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data, Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018
ライブラリー内の各DNAアダプター産物が、増幅およびシーケンス後の親DNA断片の同定およびゲノムバリアント解析を可能にする、少なくとも2つのDNA断片からDNAアダプター産物のライブラリーを生成する方法であって、反応混合物中で、第1のアダプターを、2つの末端を有する第1の二本鎖DNA断片の一方の末端に、第2のアダプターを、2つの末端を有する第1の二本鎖DNA断片の他方の末端に連結して第1のDNA-アダプター産物を生成する工程であって、各アダプターが、複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、第1のアダプタースペーサー配列(SS)が長さLを有し、第2のアダプタースペーサー配列(SS)が長さLを有する工程、同じ反応混合物中で、第3のアダプターを、2つの末端を有する第2の二本鎖DNA断片の一方の末端に、第4のアダプターを、2つの末端を有する第2の二本鎖断片の他方の末端に連結して第2のDNA-アダプター産物を生成する工程であって、各アダプターが、複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、第3のアダプタースペーサー配列(SS)が長さLを有し、第4のアダプタースペース配列(SS)が長さLを有する工程を含み、各アダプタースペーサー配列(SS,SS,SS,SS)は、アダプタースペーサー配列を生成するための、長さがLのヌクレオチドの共通の一定の所定のヌクレオチド配列(S)から切断されたスペーサー配列を含み、アダプタースペーサー配列(SS、SS、SS、SS)は、お互いに長さL、L、L、Lが少なくとも3ヌクレオチド、最大でLmaxヌクレオチド異なり、LmaxはL以上である、方法が提案される。所定のヌクレオチド配列長Lは、5~20ヌクレオチドの間であり得る各アダプタースペーサー配列(SS、SS、SS、SS)は、切断されたスペーサー部分配列を、少なくとも3ヌクレオチドの一定の長さLTSを有する一定の終結部分配列TSと連結することによって形成され得、一定の終結部分配列TSは、一定の所定のヌクレオチド配列Sと、編集距離が少なくとも2だけ異なる。スペーサー部分配列は、一定のヌクレオチド配列(S)から開始して左から右に切断されていてもよく、または一定のヌクレオチド配列(S)から終了して右から左に切断されていてもよい。定常終結部分配列TSは、好ましくはDNA断片への連結を容易にするためのTオーバーハングで終わるトリプレットヌクレオチドまたはクアドロプレットヌクレオチドであり得る。
増幅およびシーケンス後のハイスループットシーケンシングデータのゲノムデータ分析ワークフローにおいて断片の同定を容易にするために、少なくとも2つのDNA断片からDNAアダプター産物のライブラリーを生成する方法であって、DNAアダプターのプールを生成する工程であって、アダプターは、お互いに全長が少なくとも3ヌクレオチド、最大でLmaxヌクレオチド異なり、各アダプターは、長さLTSの定常終結部分配列TSを含み、LTSが3以上のヌクレオチドが可変スペーサー部分配列と連結しており、可変スペーサー部分配列は、長さがLのヌクレオチドを有する共通の一定の所定のヌクレオチド配列(S)から切断されており、5≦L≦20ヌクレオチドである、工程、反応混合物中で、DNA-アダプターのプールからの第1および第2アダプターを第1の二本鎖DNA断片の各末端に連結して、第1のDNA-アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第1のDNA-アダプター産物が、第1および第2のDNA-アダプタースペーサー配列(SS、SS)のそれぞれの長さ(L,L)によって形成される数値コードによって特徴付けられ得る、工程、および同じ反応混合物中で、DNA-アダプターのプールからの第3および第4のアダプターを第2の二本鎖DNA断片の各末端に連結して、第2のDNA-アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第1のDNA-アダプター産物が、第1および第2のDNA-アダプタースペーサー配列(SS、SSのそれぞれの長さ(L,L)によって形成される数値コードによって特徴付けられ得る、工程を含む方法が提案される。
DNA-アダプター産物を増幅してPCR複製物を生成し、配列決定して生のシーケンシングリードを生成し得る。各配列シーケンシングリードRについて、ゲノムデータアナライザは、リードの開始点からLmax=L+LTSヌクレオチドをトリミングして、トリミングされたシーケンシングリードを生成し得る。ゲノムデータアナライザは、シーケンシングリードの最初のLmaxヌクレオチド中の定常終結部分配列TSを探索し、シーケンシングリードRの開始点から定常終結部分配列TSの開始点を分離するヌクレオチドの数の関数としてスペーサー配列SSRnの長さLを測定し、リードの開始からLヌクレオチドをトリミングして、トリミングされたシーケンシングリードを生成し得る。ゲノムデータアナライザは、トリミングされたシーケンシングリード、および場合により測定された長さLを前処理されたシーケンシングリードファイルに記録し、トリミングされたシーケンシングリードを参照ゲノムにアラインして、トリミングされた各リードを開始位置および終了位置にマッピングし得る。ゲノムデータアナライザは、各リードについて測定された可変アダプター長情報を使用して、コンセンサスシーケンシングまたは確率的シーケンシング(probabilistic sequencing)バイオインフォマティクス法で、それぞれ鎖および断片のゲノムバリアントの同定を容易にし得る。
図1は、実験室工程(「ウェットラボ」工程としても知られる)において入力DNA断片をDNA-アダプター産物に独自にコードするための連結アダプターによるタグ付け工程と、バイオインフォマティクスワークフロー(「ドライラボ」工程としても知られる)において各リードに対してDNA断片供給源を独自に識別するための、得られたDNA-アダプター産物シーケンシングリードに対する前処理工程とを含むゲノム分析ワークフローの概略図である。 図2は、DNAライブラリー生成に使用するための例示的なDNAアダプター産物の概略図である。 図3は、提案された方法で使用され得るように、所定の一定の配列から部分的に切断された可変長スペーサー配列を有するアダプターの多様性を示す。 図4は、各DNA断片に関連するDNAアダプター産物について提案された方法によって生成され得るような数値コードの例を示す。 図5a)は、提案された方法で使用されるアダプターを製造するための終端配列と可変長の切断されたスペーサー部分配列誘導体Sを連結することによって形成される、一連のスペーサー配列SSの例を示す。 図5b)は、提案された方法で使用されるアダプターを製造するための終端配列と可変長の切断されたスペーサー部分配列誘導体Sを連結することによって形成される、一連のスペーサー配列SSの例を示す。 図6は、シーケンシング段階における様々なDNA-アダプターPCR複製の例を示しており、各DNA断片に関連するDNA-アダプター産物について提案された方法によって生成され得るそれらの固有の数値コードによって、2つの複製を追跡して同じ親DNA産物に戻し得る。 図7は、生のシーケンシングリードを前処理して供給源のDNA断片を同定し、それに応じて各リードにタグ付けする例を示す。 図8は、提案された方法に従ってタグ付けされたリードからバリアントをさらに同定するための2つの異なる可能なゲノム分析ワークフロー工程の概略図を示す。 図9は、提案された方法に従って製造されたライブラリー内の各可変長アダプターの密度分布を示す。 図10は、シーケンシング後の予想されるアダプター配列に割り当てられたリードの比を示す 図11a)は、提案されたアダプター数値コードタグ付け情報を考慮せずに、アラインおよびグループ化されたリードのNGSデータビューア画面ショットを示す。 図11b)は、異種SNPの識別を容易にするために、提案されたアダプター数値コードタグ付け情報に従ってアラインおよびグループ化された同じリードのNGSデータビューア画面ショットを示す。 図12a)は、従来技術のアダプターまたは提案された可変長アダプターをそれぞれ使用する場合にそれぞれ得られたバリアントコーリングの結果を比較する。 図12b)は、従来技術のアダプターまたは提案された可変長アダプターを使用する場合にそれぞれ得られたバリアントコーリングの結果を比較する。 図12c)は、従来技術のアダプターを使用する場合のコンセンサスシーケンシングワークフローおよび確率的シーケンシングワークフローのROC曲線を比較する。 12d)は、提案された可変長アダプターを使用する場合のコンセンサスシーケンシングワークフローおよび確率的シーケンシングワークフローのROC曲線を比較する。
本明細書に示される詳細は、例としてのものであり、様々な実施形態の例示的な議論の目的のためのものにすぎず、本明細書に記載される方法および組成物の原理および概念的態様の最も有用で容易に理解されると考えられる説明を提供するために提示される。これに関して、基本的な理解に必要以上に詳細を示すことは試みられておらず、この説明は、いくつかの形態が実際にどのように具現化され得るかを当業者に明らかにする。
ここで、提案された方法およびシステムを、より詳細な実施形態を参照して説明する。しかしながら、提案された方法およびシステムは、異なる形態で具体化されてもよく、本明細書に記載の実施形態に限定されると解釈すべきではない。どちらかと言えば、これらの実施形態は、本開示が徹底的かつ完全であり、当業者に範囲を十分に伝えるように提供される。
他に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本発明が属する技術分野の当業者によって一般的に理解されるのと同じ意味を有する。本明細書の説明で使用される用語は、特定の実施形態のみを説明するためのものであり、限定することを意図するものではない。明細書および添付の特許請求の範囲で使用されるように、単数形「a」、「an」および「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。
反対のことが示されない限り、以下の明細書および添付の特許請求の範囲に記載される数値パラメータは、得ようとする所望の特性に応じて変化し得る近似値であり、したがって「約」という用語によって修飾され得る。少なくとも、特許請求の範囲に対する均等論の適用を制限する試みとしてではなく、各数値パラメータは、有効数字の数および通常の丸め手法に照らして解釈されるべきである。
広い範囲を示す数値範囲およびパラメータは近似値であるにもかかわらず、特定の例に示される数値は可能な限り正確に報告される。しかしながら、任意の数値は、それぞれの試験測定値に見られる標準偏差から必然的に生じる特定の誤差を本質的に含む。本明細書を通して与えられるすべての数値範囲は、そのようなより狭い数値範囲がすべて本明細書に明示的に記載されているかのように、そのようなより広い数値範囲内に入るすべてのより狭い数値範囲を含む。
定義
「DNAサンプル」は、例えば固形腫瘍または流体から抽出され得るような、生物に由来する核酸サンプルを指す。生物は、ヒト、動物、植物、真菌、または微生物であり得る。核酸は、胎児循環DNA(cfDNA)または血液もしくは血漿中の循環腫瘍DNAなど、限られた量または低濃度で見出され得る。DNAサンプルはまた、本明細書において、逆転写され、cDNAに変換されたRNAサンプルを記載するために適用される。
「DNA断片」は、高分子量DNAの断片化から生じるDNAの短い断片を指す。断片化は、サンプル生物において天然に生じていてもよく、または例えば機械的剪断、超音波処理、酵素的断片化および他の方法によって、DNAサンプルに適用されたDNA断片化方法から人工的に生成されていてもよい。断片化後、DNA片を末端修復して、各分子が平滑末端を有することを確実にし得る。連結効率を向上させるために、アデニンを断片化されたDNAの3’平滑末端のそれぞれに添加して、DNA断片を相補的なdTオーバーハングを有するアダプターに連結することを可能にし得る。
「DNA産物」とは、DNA断片を操作、伸長、連結、複製、増幅、コピー、編集および/または切断して次世代シーケンシングワークフローに適用することから生じるDNAの操作された断片を指す。
「DNA-アダプター産物」とは、DNA断片をDNAアダプターと連結して次世代シーケンシングワークフローに適合させることから生じるDNA産物を指す。
「DNAライブラリー」とは、次世代シーケンシングワークフローとの適合性のためにDNA断片を適合させるためのDNA産物またはDNAアダプター産物の集合体を指す。
「プール」とは、単一のハイスループットシーケンシング分析に多重化され得るような、同一または異なる生物に由来する複数のDNAサンプル(例えば、48サンプル、96サンプル、またはそれ以上)を指す。各サンプルは、固有のサンプルバーコードによってプール内で識別され得る。
「ヌクレオチド配列」または「ポリヌクレオチド配列」は、シトシン(一連の配列のC文字で表される)、チミン(一連の配列のT文字で表される)、アデニン(一連の配列のA文字で表される)、グアニン(一連の配列のG文字で表される)およびウラシル(一連の配列のU文字で表される)などのヌクレオチドの任意のポリマーまたはオリゴマーを指す。「ヌクレオチド配列」または「ポリヌクレオチド配列」は、DNAもしくはRNA、またはそれらの組合せであり得る。「ヌクレオチド配列」または「ポリヌクレオチド配列」は、一本鎖または二本鎖の形状で永久的または一時的に見出され得る。別段の指示がない限り、核酸配列は、5’から3’方向に左から右に記載される。
「ランダム配列」または「部分的にランダムな配列」は、所与の配列長に対するヌクレオチドのすべての可能な組合せの中から少なくとも部分的にランダムに選択されるヌクレオチドの配列を指す。ランダム配列の選択は手動または自動であり得る。
「一定の配列」または「所定の配列」は、所与の配列長に対するヌクレオチドのすべての可能な組合せの中から特に選択される完全に指定された非ランダムな固定ヌクレオチド配列を指す。非ランダム配列の選択は、手動または自動であり得る。非ランダム配列の選択は、例えば、増幅およびシーケンシング工程のエラーロバスト性を高めるために、シーケンシング用途および/またはシーケンシング技術に特異的な特定の基準に基づいてもよい。
「プライマー配列」とは、その一部または全部が伸長または増幅される標的DNAと相補性の領域を含む少なくとも20ヌクレオチド長のヌクレオチド配列を指す。
2つのヌクレオチド配列間の「編集距離」とは、一方の配列が他方の配列と同一になるために適用される必要があるヌクレオチド置換、挿入または欠失の最小数を指す。
「連結」とは、別個の二本鎖DNA配列の連結を指す。後者のDNA分子は、平滑末端であってもよく、または連結を容易にするために適合するオーバーハングを有してもよい。連結は、様々な方法、例えば、リガーゼ酵素を使用すること、化学的連結を行うこと、および他の方法によって生成され得る。
「増幅」とは、1つ以上の親配列から複製された複数のポリヌクレオチド配列を生成するポリヌクレオチド増幅反応を指す。増幅は、様々な方法、例えばポリメラーゼ連鎖反応(PCR)、線状ポリメラーゼ連鎖反応、核酸配列に基づく増幅、ローリングサークル増幅、および他の方法によって生成され得る。
「シーケンシング」は、ヌクレオチドの配列をストリングとして読み取ることを指す。ハイスループットシーケンシング(HTS)または次世代シーケンシング(NGS)とは、並行して、典型的には50~数千塩基対の複数の配列のリアルタイムシーケンシングを指す。例示的なNGS技術としては、Illumina、Ion Torrent Systems、Oxford Nanopore Technologies、Complete Genomics、Pacific Biosciencesなどからの技術が上げられる。さらにシーケンシング工程ならびに増幅工程を容易にするために、実際のテクノロジーに応じて、NGSシーケンスは、シーケンスアダプターまたはプライマーを使用したサンプル前処理が必要になる場合があり、これにより、例えば、合成によりシーケンシングの場合、フローセルへの送達前にPCR増幅により、単一の親分子の複数の例が配列決定される。
「アダプター」または「アダプター」は、DNA断片に連結されるように設計された約10~100ヌクレオチド(塩基対)の短い二本鎖または部分的に二本鎖のDNA分子を指す。アダプターは、平滑末端、3’もしくは5’突出部としての突出末端、またはそれらの組合せを有し得る。例えば、連結効率を向上させるために、アダプター連結の前に断片化されたDNAの3’平滑末端のそれぞれにアデニンを付加し得、アダプターは、断片化されたDNAの3’末端に付加されたアデニンと塩基対合するように3’末端にチミジンのオーバーハングを有し得る。アダプターは、エキソヌクレアーゼがチミジンをトリミングするのを防ぐために、3’末端の末端チミジンの前にホスホロチオエート結合を有し得、したがって、連結されるアダプターの末端が二本鎖である場合に平滑末端が形成される。
「部分的に二本鎖のアダプター」とは、二本鎖領域と一本鎖領域の両方を含むアダプターを指す。アダプターの二本鎖領域は連結ドメインを含有し、一方、一本鎖領域は、その後のライブラリー増幅、バーコーディングおよび/またはシーケンシングに使用されるプライマー配列を含有する。一本鎖領域は、いわゆるY字形アダプターの場合のように、2つの一本鎖アーム、5’アームおよび3’アームから構成され得るか、または部分的に二本鎖のアダプターの一本鎖領域は、いわゆるU字形アダプターの場合のように、ヘアピンまたはループを形成し得る。したがって、部分的に二本鎖のアダプターという用語は、Y字形アダプターおよびU字形アダプターまたはそれらの組合せの両方を指す。
「PCR複製物」は、元のDNA断片に由来するDNA-アダプター産物に属する一本鎖DNA分子からPCR増幅によって生成された複製物を指す。
「分子タグ」または「分子バーコード」または「分子コード」または「分子識別子」は、そのヌクレオチドのストリングによって完全かつ固有に指定される核酸配列などの分子配列を指す。
「数値コード」または「非分子コード」または「非分子的識別子」は、分子配列自体ではない分子配列の固有の特性の1以上の数値としての測定値を指す。核酸分子配列の特性の例としては、長さ、サイズ、分子量、モル濃度、極性、弾性、剛性、電気伝導率、蛍光、特定の励起波に対する反射率、またはより一般的には、分子配列および/または分子配列の一部について実験的に測定され得る任意の物理的、化学的または生物学的特性が挙げられる。
「可変長コード(VLC)」は、ヌクレオチドの数、モノマーの数、ポリマーの数、ホモポリマーの数、ヘテロポリマーの数、またはそれらの組合せとして測定され得る核酸配列の可変長を指す。
「リードトリミング」または「リード前処理」とは、バイオインフォマティクスワークフローにおいて、例えばアダプター配列に対応するヌクレオチドなどのリード配列ストリングの開始点のヌクレオチドのセットをシーケンシングリードで除外して、分析されるべき実際のDNA断片配列を抽出することを指す。
「アラインメントする」または「アラインメント」または「アライナ」は、バイオインフォマティクスワークフローにおいて、ベース毎にマッピングおよびアラインメントすることを指し、前処理されたシーケンシングリードは、用途に応じて、参照ゲノム配列を読み取る。例えば、シーケンシングリードが実験的増幅工程で使用されるハイブリッド捕捉プローブに従って特定の標的ゲノム領域にマッピングすると予想される標的化濃縮用途では、アラインメントは、参照ゲノム内の染色体番号、開始位置および終了位置などのゲノム座標によって定義される対応する配列に対して特異的に検索され得る。
「バリアントコーリング」または「バリアントコーラー」または「バリアントコール」は、バイオインフォマティクスワークフローにおいて、アラインメントされたリード内の実際のバリアントを同定することを指す。変異体には、一塩基置換(SNP)、挿入または欠失(INDEL)、コピー数バリアント(CNV)、ならびに大きな再編成、置換、重複、転座などが含まれ得る。好ましくは、バリアントコーリングは、増幅およびシーケンシングノイズアーテファクトから実際のバリアントを選別するのに十分に強力である。
「コンセンサスシーケンシング」とは、バイオインフォマティクスワークフローにおいて、シーケンシングリードを同じ二本鎖DNA断片および/または同じDNA断片鎖から生成されたリードのファミリーにグループ化し、それらを比較して増幅および/またはシーケンシング工程によるエラーを検出し、エラーを修正して二本鎖DNA断片またはDNA断片鎖の固有の決定論的コンセンサス配列を生成することを指す。その後、リード全体ではなく、結果として生じるコンセンサス配列を処理することによってバリアントコーリングが実施される。
「確率的シーケンシング」とは、バイオインフォマティクスワークフローにおいて、シーケンシングリードを同じ二本鎖DNA断片および/または同じDNA断片鎖から生成されたリードのファミリーにグループ化し、データを確率モデルと比較することによって、分析される各ゲノム位置で可能なすべての遺伝子型を支持するデータの確率を計算するために、異なるファミリーからのリード全体を処理することによって、このデータに対してバリアントコーリングを直接実行することを指す。
ワークフロー
次に、図1を参照して、典型的な低頻度DNAバリアントの同定ワークフローをさらに詳細に説明する。DNA分析の分野の当業者には明らかなように、そのようなワークフローは、次世代シーケンシングワークフローにおける生のシーケンシングリードなどのDNA分析データを生成するために実験室(「ウェットラボ」としても知られる)で行われる予備実験工程、ならびにバイオインフォマティクスシステム(「ドライラボ」としても知られる)を用いてDNAバリアントおよび関連する注釈の詳細な識別などのエンドユーザにとって関心のある情報をさらに識別するためにDNA分析データに対して行われる後続のデータ処理工程を含む。実際の用途、実験室設定およびバイオインフォマティクスプラットフォームに応じて、DNA分析ワークフローの様々な実施形態が可能である。図1は、DNAサンプルを最初に断片化プロトコル50(任意選択)で断片化してDNA断片を生成する湿式ラボ工程を含むワークフローの一例を説明する。次いで、これらのDNA断片のDNA末端を修復し、使用されるアダプターと適合するように修飾する。このエンクロージャを通してさらにより詳細に記載されるようなアダプターは、次いで、提案された方法のいくつかに従って、反応混合物中のDNA断片に連結100によって連結し、DNA-アダプター産物のライブラリーが生成され得る。DNAライブラリーは、増幅110およびシーケンシング120をさらに受ける。次世代シーケンシングワークフローでは、得られたDNA分析データは、FASTQフォーマットの生シーケンシングリードのデータファイルとして生成され得る。次いで、ワークフローは、提案された方法に従って連結アダプターを用いて調製されたDNAサンプルのプールに対する生のシーケンシングリードを入力に取り込み、例えばエンドユーザのためのゲノムバリアントレポートとして、ゲノムバリアントを同定するために一連のデータ処理工程を適用する、ドライラボ(drylab)ゲノムデータアナライザシステム150をさらに含み得る。例示的なゲノムデータアナライザシステム150は、2019年に世界中で1000を超える病院で既に使用されているようなソフィアデータ駆動医療プラットフォーム(Sophia DDM)であるが、他のシステムも同様に使用し得る。ゲノムデータアナライザシステム150によって適用され得るデータ処理工程の様々な詳細な可能な実施形態は、例えば国際PCT特許出願公開WO2017/220508号に記載されているが、他の実施形態も可能である。
好ましい実施形態では、ゲノムデータアナライザシステム150は、まず、生のシーケンシングリード入力から前処理されたリードを生成するために、1以上の前処理工程151を適用し得る。前処理工程は、例えば、本明細書にさらに記載されるように、提案されたアダプター連結法および数値コード化方法に従って、類似のDNA断片から生成されたリードのファミリーのリードを分析およびグループ化するためのアダプタートリミングおよびリード選別を含み得る。可能な実施形態では、生のリードならびに前処理されたリードは、FASTQファイルフォーマットに格納され得るが、他の実施形態も可能である。
ゲノムデータアナライザシステム150は、配列アラインメント152を前処理されたリードにさらに適用して、リードアラインメントデータを生成し得る。一実施形態では、リードアラインメントデータは、例えばBAMまたはSAMファイルフォーマットで生成され得るが、他の実施形態も可能である。
ゲノムデータアナライザシステム150は、リードアラインメントデータにバリアントコーリング153をさらに適用し、バリアントコーリングデータを生成し得る。一実施形態では、バリアントコーリングデータは、例えばVCFファイルフォーマットで生成され得るが、他の実施形態も可能である。
ゲノムデータアナライザシステム150は、リードアラインメントデータにバリアントアノテーション154をさらに適用し、各DNAサンプルのゲノムバリアントレポートを作成し得る。一実施形態では、ゲノムバリアントレポートは、グラフィカルユーザインターフェース上でエンドユーザによって視覚化され得る。別の可能な実施形態では、ゲノムバリアントレポートは、さらにデータ処理のためのテキストファイルとして作成され得る。別の実施形態も可能である。
断片化
いくつかの実施形態では、本明細書に記載される方法は、配列決定されるゲノムおよびミトコンドリアDNAの使用、ならびに潜在的にバイサルファイド(ジスルフィド)変換と組み合わせた、遺伝子、プロモーター、エクソン、イントロン、および潜在的なCpGアイランドなどのエピジェネティックな情報の位置およびコード、ならびにメチル化などの情報の決定を含む。ゲノムDNAは、染色体DNAまたは環状DNAであり得る。あるいは、mRNAは相補的DNAまたはcDNAに逆転写され得、前記cDNAは断片化され得るか、または断片化せずにシーケンシングされ得るほど十分に短い長さであり得る。断片化された、または断片化されていない相補的cDNAは、一本鎖であってもよく、次いで、ランダムプライマーおよび/または他のプライマーをアニーリングし、プライマーをcDNAに相補的になるように伸長させ、したがって二本鎖cDNAを形成することによって二本鎖にし得る。いくつかの実施形態では、二本鎖cDNAならびにミトコンドリアDNAおよび/またはゲノムDNAは、シーケンシング120の前に断片化されなければならない(50)。断片化50は、超音波処理、超音波処理、機械的剪断、例えば制限酵素消化による部分消化などを含むがこれらに限定されないいくつかの手段によって達成し得る。断片化の結果、断片化されたDNAは、50~10000塩基対の長さ、好ましくは200塩基対~800塩基対の長さ、より好ましくは300~500塩基対の長さ、さらにより好ましくは400塩基対の長さであり得る。DNA断片は、cDNA、ゲノムDNA、またはミトコンドリアDNAに由来するかどうかにかかわらず、例えばアガロースゲル電気泳動;ゲルクロマトグラフィー;スクロース勾配遠心分離、パーコール勾配遠心分離、塩化セシウム遠心分離を含む平衡密度勾配遠心分離;および他の手段によってサイズ分割され得る。
アダプター連結/挿入
断片化および末端修復50の後、ゲノムDNAもしくは染色体DNAまたは二本鎖DNAの形成に続く逆転写の場合、アダプターは、断片化された二本鎖DNAの末端のそれぞれに連結または結合され得る(100)。
図2は、DNA断片220の各末端に2つのアダプター200、250を連結する(100)実施形態を示す。図2に示される例示的な実施形態に示される各アダプター200、250は、二本鎖断片化されたDNAにアニールされるべき末端に単一ヌクレオチド(T)3’オーバーハングを有するDNAの部分二本鎖分子を含み得る。各アダプター200、250は、その後のハイスループットシーケンシングリード(リード1、リード2)におけるDNA断片220ヌクレオチド配列からアダプター200、250を分離するスペーサー配列(SS)を構成する一方の末端に二本鎖セグメント210、260を含む。図2に例示されるような可能な実施形態では、後者のスペーサー配列端は、一本鎖ヌクレオチドT3’オーバーハングを含有し得るが、当業者に明らかであるように他の実施形態も可能であり、例えば、アダプター200、250の標的二本鎖DNA分子220(例えば、ゲノムDNAまたは「gDNA」)への連結100を容易にするために、平滑末端であってもよく、または別の3’もしくは5’オーバーハングで置換されてもよい。
アダプターは、二本鎖DNAにアニールされている末端に二本鎖配列を含む。これに関して、アダプターの二本鎖配列の2本の鎖の一方は、断片化された二本鎖DNAの3’末端に連結され、アダプターの二本鎖配列の2本の鎖の他方は、断片化された二本鎖DNAの5’末端に連結される。
断片化された二本鎖DNAに連結されているアダプターの二本鎖配列の末端は限定されず、平滑末端、3’オーバーハングおよび5’オーバーハングを含み得る。これに関して、連結されているアダプターの5’末端は、5’-リン酸または5’-OHで終結し得る。5’-OHが標的核酸に連結されているアダプター末端にある場合、ポリヌクレオチドキナーゼを使用して骨格を完成させ、アダプターの5’-OHを断片化されたDNAの3’-OHに結合させることが必要な場合がある。いくつかの実施形態では、T-4バクテリオファージからのT-4リガーゼによって連結され得る1つのヌクレオチドオーバーハングが好ましい。したがって、いくつかの実施形態では、アダプター連結の前に、断片化されたDNAの3’平滑末端のそれぞれにアデニンを付加し得、アダプターは、断片化されたDNAの3’末端に付加されたアデニンと塩基対合するように3’末端にチミジンのオーバーハングを有し得る。いくつかの実施形態では、アダプター連結の前に、断片化されたDNAの3’平滑末端のそれぞれにアデニンを付加し得、アダプターは、3’末端の末端チミジンの前にホスホロチオエート結合を有して、断片化されたDNAの3’末端に付加されたアデニンと塩基対を形成し得る。末端チミジンの前のホスホロチオエート結合は、エキソヌクレアーゼがチミジンをトリミングするのを防止し、その結果、連結されるアダプターの末端が二本鎖である場合に平滑末端を形成する。
可変長スペーサー配列を有するアダプター
好ましい実施形態では、図2に示すように、各アダプター200、250は、DNA断片220に連結されるその二本鎖末端を終結させるスペーサー配列210、260を含む。一実施形態では、スペーサー配列210、260の一部または全部は、長さLヌクレオチドの所定の一定のヌクレオチド配列Sから切断されて、様々な可変長切断型スペーサー部分配列S、Sを形成し得る。
一実施形態では、図2に示すように、ゲノムデータアナライザ150による生のシーケンシングリードからのダウンストリームリードトリミング前処理151を容易にするために、最大でLヌクレオチドのそれぞれの長さLSi、LSjの各切断型スペーサー部分配列S、Sの後に、例えば各切断型可変長部分配列S、SをTS終結部分配列と連結することによって、少なくとも3ヌクレオチドの長さLTSの定常終結部分配列TSが続き、可変長スペーサー配列210、260を形成し得る。
好ましくは、所定の一定のヌクレオチド配列Sおよび一定の終結部分配列TSは、一定の終結部分配列TSが配列Sのリマインダと、編集距離が少なくとも2だけ異なるように選択される。したがって、図2に示すように、各アダプタースペーサー配列SS 210、260は、少なくとも3ヌクレオチドの同じ一定の終結部分配列TSによって終結し得、終結部分配列TSは、配列Sのリマインダ(したがって、その導出された切断型スペーサー部分配列S、Sのいずれかから)と、編集距離が少なくとも2だけ異なる。
図3に示すように、複数のアダプターが使用されてもよく、具体的には、それらの切断型スペーサー部分配列S、Sの長さは互いに異なる。したがって、一定の終結部分配列TSと連結された後のスペーサー配列210、260について得られる全長は、例えば3ヌクレオチド(下流のリードトリミング前処理151を容易にするために「トリプレット停止コード」として使用され得る終結部分配列についての最小サイズと同様)、10(7+3)ヌクレオチド、5(2+3)ヌクレオチド、7(4+3)ヌクレオチド、4(1+3)ヌクレオチド...であり得る。より一般的には、スペーサー配列の可変長は、少なくともLTS=3ヌクレオチド、最大Lmax=L+LTSヌクレオチドであり得る。同様に、クアドロプレット終結部分配列TSについては、スペーサー配列の可変長は、少なくともLTS=4ヌクレオチドであり得、最大Lmax=L+LTSヌクレオチドなどであり得る。
一般に、一定のポリヌクレオチド配列Sの最大長Lは、誘導されたスペーサー配列210、260が、全シーケンシングリード長(いくつかのハイスループットシーケンシングワークフローでは150塩基対もの低さであり得る)に対して長すぎるセグメントをとらない一方で、バイオインフォマティクスワークフローの観点から、PCR複製を類似のDNA断片、すなわち、異なる切断長さを有する複数のアダプターのうちの一対のアダプターと一旦連結されると同じ参照マッピング位置を共有する断片と区別するために必要な組合せの多様性を提供するのに十分な異なる可変切断長さを可能にするように選択され得る。可能な実施形態では、Lは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19または20ヌクレオチドとして選択され得るが、他の実施形態も可能である。ハイスループットシーケンシングのためにサンプルのプールを調製する場合、可能な実施形態では、同じ一定のポリヌクレオチド配列Sを使用して、NGSワークフローで一緒に多重化されるサンプルのプール中のすべてのサンプルの連結アダプターを調製し得る。別の実施形態では、異なる定常ポリヌクレオチド配列を定義し、同じプール中の異なるサンプルの連結アダプターを調製するために使用し得る。後者の実施形態では、サンプルのプール中の各サンプルについて生成された複数のアダプターは、予め定義された終結部分配列(TS)または可変スペーサー部分配列の切断に使用される予め定義されたヌクレオチド配列(S)のいずれかによって異なり得る。したがって、(TS,S)の選択は、サンプルのすべての断片について共通かつ一定であるが、同じプール内のサンプル毎に異なる。
図4は、3つの例示的DNA断片421、422、423について得られた連結および対応する数値コードを示す。第1のDNA断片421は、一方の末端に3ヌクレオチドの全長Lを有するスペーサー配列411(SS)を含む第1のアダプター401と連結され、他方の末端に10ヌクレオチドの全長Lを有するスペーサー配列461(SS)を含む第2のアダプター451と連結される。第2のDNA断片422は、一方の末端に5ヌクレオチドの全長Lを有するスペーサー配列412(SS)を含む第3のアダプター402と連結され、他方の末端に全長L=L=5ヌクレオチドを有する同じスペーサー配列462(SS-本具体例ではSS=SS)を含む第4のアダプター452と連結される。第3のDNA断片423は、一方の末端に7ヌクレオチドの全長Lを有するスペーサー配列413(SS)を含む第5のアダプター403と連結され、他方の末端に全長L=4ヌクレオチドを有するスペーサー配列463(SS)を含む第6のアダプター453と連結される。したがって、DNA断片421から生成された第1のDNA-アダプター産物は、その両端のアダプターからのスペーサー配列のそれぞれの長さに対応する数値コード{3,10}(または、リード方向に応じて{10,3})と会合し得る。したがって、DNA断片422から生成された第2のDNA-アダプター産物は、その両端のアダプターからのスペーサー配列のそれぞれの長さに対応する(任意のリード方向の)数値コード{5,5}と会合し得る。したがって、DNA断片423から生成された第3のDNA-アダプター産物は、その両端のアダプターからのスペーサー配列のそれぞれの長さに対応する数値コード{7,4}(または、リード方向に応じて{4,7})と会合し得る。したがって、DNAライブラリー中の同一のマッピング位置を有する第1、第2および第3のDNAアダプター産物を識別し、誘導体DNA産物の両端のスペーサー配列を特定し、それらのそれぞれの長さを測定して、親DNAアダプター産物から継承された数値コードを特定することによって、各親DNAアダプター産物から誘導体DNA産物をトレースバックすることが可能である。
図5a)は、図5a)においてv9、v8、v7、v6、v5、v4、v3、v2、v1、v0として特定された10個の可能なスペーサー配列の第1の例を示す。各スペーサー配列は、長さL=9の定常配列S=CCACAACACの開始から左から右への切断によって形成され得、さらに、終結部分配列(TS)トリプレットT、G、T(それ自体は連結を容易にするためにTオーバーハングで終わる)と連結され得る。図5b)は、長さL=9の定常配列S=CCACAACACの末端から右から左に切断され、さらに末端部分配列(TS)トリプレットT、G、T(連結を容易にするためにそれ自体がTオーバーハングで終わる)と連結され得る10個の可能なスペーサー配列の別の第2の例を示す。図5a)および図5b)の両方の例において、定常配列S=CCACAACACは、長さL=9であり、それぞれ派生する可能性のある切断型部分配列は、それぞれ9、8、7、6、5、4、3、2、1および0ヌクレオチドの部分配列長を有する。T、G、Tヌクレオチドのトリプレットが続いた場合、これは、得られたシーケンシングリードにおけるトリプレットコードTGTに対応し、得られたスペーサー配列全長は、それぞれ12、11、10、9、8、7、6、5、4および3ヌクレオチドである。
可能な実施形態では、切断されたプラス終端部分配列(絶対長、例えば3~12の範囲の数値)の完全なスペーサー配列長を使用して、数値コードを形成し得る。別の実施形態では、スペーサー配列のトランケーションされた部分配列部分の唯一の長さ、したがって終端部分配列の一定の長さを除外したものが、数値コード(相対的な長さ、例えば0~7の範囲の数値)を形成するために使用され得る。
増幅およびシーケンシング
DNA産物がアダプター連結を用いて産生されると、DNA産物は、ポリヌクレオチド増幅反応によって増幅され、1つ以上の親配列から複製された複数のポリヌクレオチド配列を産生し得る。次世代シーケンシングの分野における当業者には明らかなように、増幅は、様々な方法、例えばポリメラーゼ連鎖反応(PCR)、線状ポリメラーゼ連鎖反応、核酸配列に基づく増幅、ローリングサークル増幅、および他の方法によって実施し得る。いくつかの実施形態では、ライブラリー増幅の後で、DNA-アダプター産物を、その後、これらに限定されないが、llluminaシーケンシング技術、Ion Torrentシーケンシング技術、454 Life Sciencesシーケンシング技術、ABI SOliDシーケンシング技術、Pacific Biosciencesシーケンシング技術またはOxfordナノポアシーケンシング技術などの、この技術分野で知られている任意の技術を使用してシーケンシングを実施し得る。例えば、Illuminaシーケンシングプラットフォームの場合、ライブラリー産物の両端に存在するシーケンサープライマーリング配列は、フローセルオリゴマーまたはフローセル配列にアニーリングまたは結合する機能的特性を有する。次世代シーケンシングの分野の当業者には明らかであるように、次いで、アダプター配列(スペーサー配列を含む)、第一プライマーリング配列、および第二プライマーリング配列を含む断片化DNAを第一および/または第二固定化配列のいずれかにアニーリングするブリッジ増幅工程110を実施してもよい。次いで、アダプター配列、第1のプライマー配列、および第2のプライマー配列を含む断片化されたDNAを鋳型として使用して、第1および/または第2の固定化配列の3’-OHが伸長され、アダプター配列(提案されたスペーサー配列を含む)、第1のプライマー配列、および第2のプライマー配列を含む断片化されたDNA内の遺伝情報が、第1または第2の固定化配列に移され、それによって固体支持体に結合する。次いで、アダプター配列(提案されたスペーサー配列を含む)、第1のプライマー配列、および第2のプライマー配列を含む断片化されたDNAを変性させるか、または脱アニーリングして除去する。次いで、結合し断片化されたDNAは、結合し断片化されたDNAの自由端で固定化配列にアニーリングされ、数サイクルのブリッジ増幅を受ける。
この時点で、クラスタ生成工程は完了しており、フローセルは、遊離固定化配列を切断された、したがって遊離固定化配列に再アニーリングすることによる合成120による配列決定を可能にするように構成される。プライミング後、各ヌクレオチドは、クラスタ生成中に固体支持体にアニーリングされた鋳型鎖に基づいて、新しく合成されたDNA鎖に組み込まれ得る。新しく合成された鎖に組み込まれている各ヌクレオチドは、異なるフルオロフォアと会合しており、各フルオロフォアは、新しく組み込まれたヌクレオチドが伸長中にDNAの新しい鎖および/またはその相補的対応物(Tに対するA、Cに対するG)と塩基対に組み込まれ得る場合、異なる波長の光を放出し得る。
エキソヌクレアーゼベースのナノポアシーケンシングでは、核酸を消化し得、生成された遊離ヌクレオチドは、脂質膜を横切る電位に対するそれらの効果によって識別される。一本鎖核酸鎖はまた、電位の差によって駆動される、またはヘリカーゼもしくはポリメラーゼなどの酵素によって補助されるナノポアを通過することを強制され得る。ナノポアを通過する核酸鎖の移動は、核酸配列の同定を可能にする電位の変化をもたらし得る。
次いで、インデックス配列を使用して、配列のサンプルを識別し得る。リード前処理151およびリードアラインメント152の後、DNA断片の内因性情報および/またはマッピング位置、DNA断片の外因性マッピング位置またはそれらの組合せを使用してPCR複製を識別して、真の突然変異体をDNA断片化後に生じる誤挿入と区別し得る。
いくつかの実施形態では、鋳型鎖からのDNAの新規鎖の重合または伸長中に、DNAポリメラーゼは、DNAの他方の鎖の反対側のヌクレオチドと塩基対合しない塩基を誤って配置することがあり、これは不適正塩基対または誤挿入と呼ばれる。これに関して、1以上の不適正塩基対が起こり得るとしても、新規に合成されたDNA鎖は鋳型鎖に相補的であると見なされ得る。いくつかの実施形態では、DNAポリメラーゼによるこの不適正塩基対のエラーは、DNAの娘鎖において生じ得ること、およびこの娘鎖と同じPCR二重鎖グループに属するすべてのコピーを追跡することにより、細胞から抽出されたゲノムDNAに見られる遺伝子多型(例えば、変異)からこれらの不適正塩基対を区別することが可能になり得ることが企図される。
リード前処理
増幅110の後、各DNA-アダプター産物は複数のPCR複製で複製される。したがって、図6に示すように、同じDNAアダプター産物から、すなわち同じDNA断片から生成された2つのPCR複製物601、602は、同じ開始座標および終了座標を有し、それらの末端に同じスペーサー配列を有し、これは配列決定120後に得られた生のシーケンシングリードに見られる。したがって、それらのスペーサー配列(図6の例では、数値コード={9,7})のそれぞれの長さを測定することによって、それらを下流ゲノム分析ワークフローにおいて一緒にグループ化することが可能である。
低頻度DNA分析の分野の当業者には理解されるように、他のDNA-アダプター産物、すなわち異なるDNA断片から生成されたPCR複製物は、同じスペーサー配列長を有する可能性が低い。ただし、1)異なる可能性のあるアダプターの組合せの数が、アラインメント152後に同じ開始位置および終了位置を有するリードと区別するために、衝突する可能性のあるDNA断片の数に対して十分に大きいこと、および2)スペーサー配列におけるヌクレオチドの可能性のある挿入または欠失を含むPCR増幅およびシーケンシングのエラーは、リードにおいて回収される切断されたスペーサー部分配列の基礎として一定の配列Sを使用することによって検出し得ることを条件とする。
図2に示すように、ペアエンドシーケンシング技術の場合、シーケンシング後、2つの異なるリード方向READ1およびREAD2はそれぞれ、FASTQファイル内に共通の終結配列TSを有する異なるスペーサー配列を生成し得るが、このスペーサー配列は、各DNAアダプター産物に対して異なる長さを有し得、したがって、それを別のものと統計的に区別することが可能になる。アラインメント152工程において、分析すべきDNA断片配列220の開始位置および終了位置は、このように、異なるDNA-アダプター産物から生成されたリードの大部分の間で離れて移動し、それによって、さらに内因的な多様性が作り出される。
例えば、図4を参照すると、第1のDNA断片421について、第1のスペーサー配列411は、3’から5’方向に読み取られたPCR複製物についての生のシーケンシングリードにおける最初の3ヌクレオチドを構成し、一方、第2のスペーサー配列461は、5’から3’の逆方向に読み取られた同じPCR複製物についての生のシーケンシングリードにおける最初の10ヌクレオチドを構成する。第2のDNA断片422の場合、第3のスペーサー配列412は、3’から5’方向に読み取られたPCR複製物の生のシーケンシングリードの最初の5ヌクレオチドを構成し、第4のスペーサー配列462は、5’から3’の逆方向に読み取られた同じPCR複製物の生のシーケンシングリードの最初の5ヌクレオチドを構成する。第3のDNA断片423の場合、第5のスペーサー配列413は、3’から5’方向に読み取られたPCR複製物の生のシーケンシングリードの最初の7ヌクレオチドを構成し、第6のスペーサー配列463は、5’から3’の逆方向に読み取られた同じPCR複製物の生のシーケンシングリードの最初の4ヌクレオチドを構成する。したがって、各DNA断片に数値コードを、第一のDNA断片421の第一端および第二端それぞれのスペーサー配列長の値の組合せ{L,L}={3,10};第2のDNA断片422の第一端および第二端それぞれに対するスペーサー配列長の値の組合せ{L,L}={5、5};第3のDNA断片423の第一端および第二端のそれぞれに対するスペーサー配列長の値の組合せ{L、L}={7,4}のように、独自に関連付けることが可能である。したがって、図4に示されるように、提案された方法で生成されたDNA-アダプター産物から生成されたPCR複製物から配列決定された生のシーケンシングリード中のヌクレオチドのそれらの開始配列から検索され得るようなスペーサー配列の可変長に基づいて、PCR複製物生シーケンシングリードをグループ化することが可能である。
図7は、図5a)の例示的な配列に従って構築されたDNA-アダプター産物の配列決定から生成され得る3つの異なるリードの開始配列の例を示す。各スペーサー配列は、図5a)の例のように、終結配列トリプレットTGTで終わるので、ゲノムデータアナライザ150は、リード前処理工程151の一部としてこのトリプレットを検索することが可能である。
第一の可能な実施形態(図示せず)では、リード前処理151は、まず、リード開始配列をLmaxヌクレオチドでトリミングすることからなり、Lmaxは、部分配列が切断される一定の配列Sの長さLと、連結された一定の終結部分配列TSの長さLTSとの合計である。FASTQファイル内のリードをトリミングした後、各リードの配列の残りは、前処理されたFASTQファイル内に格納され得る。
シーケンシングの分野の当業者には明らかなように、可変長アダプターの使用に起因して、得られた前処理されたリードは、その後のアラインメント152の後に異なる開始位置および終了位置で互いに対して移動し、これにより、異なるDNAアダプター産物から得られたアラインメント結果が事実上統計的に分離される。しかし、後者の「内因的な」長さの識別は、実際の用途の要求に応じて、分析されるDNA断片を識別するのに統計的に十分ではない場合がある。さらに、それは、より短い切断されたスペーサー部分配列を担持するリードであっても、可能な限り最長のアダプターの長さにトリミングするために、断片の開始点で数ヌクレオチドを失うという欠点を有する。したがって、別の実施形態では、各リード配列の開始点に終端部分配列TSを探索し得る。一旦見出されると、スペーサー配列ストリングの長さは、例えば、リードの開始点と終結部分配列TSの開始点との間の距離(相対スペーサー配列SS長)として測定され得る。あるいは、リードの開始点と終端部分配列TSの終了点との間の距離(絶対スペーサーシーケンスSS長)として測定され得る。したがって、各リードは、リード前処理151工程の一部として、異なるスペーサー配列長測定値を割り当てられ得る。図7の例では、最初のリードは、開始点に、絶対長L=12のスペーサー配列SS=CCACAACACTGTを有する。第2のリードは、絶対長L=10のスペーサー配列SS=ACAACACTGTを有し、第3のリードは、絶対長L=4のスペーサー配列SS=CTGTを有する。したがって、測定された長さの値は、下流アラインメント工程152におけるリードのDNA-アダプター産物起点をトレースバックすることを可能にする追加の数値情報を提供するために、前処理されたFASTQファイルに記録され得る。したがって、本出願の実際の要求に応じて、アラインメントに入力されるリード配列の残りの部分は、アラインメント工程にさらに「内因的な」長さの識別を提供するために、一般的に可能な限り最長のスペーサー配列の長さLmaxにトリミングされ得る(ただし、断片の配列自体の開始点に数ヌクレオチドが失われることを犠牲にする)か、または代わりに、前処理151によって各シーケンシングリードRについて測定される実際のスペーサー配列SS長さLに個別にトリミングされ得る(終端部分配列TSの終わりまで)。
リードマッピングおよびアラインメント
次いで、得られた前処理されたリードを参照ゲノムにアラインメントし得る(152)。次いで、データ記録において利用可能な以下の1以上の特徴に基づいて、異なる元のDNA断片のPCR複製から生成されたリードのセットを(典型的にはBAMまたはSAMファイルフォーマットとして格納された)データ記録において識別することが可能である。
1)リードにおいて測定されたアダプタースペーサー配列長を組み合わせて得られた数値コード;
2)参照ゲノムに対するDNA断片のマッピング位置(すなわち、始端)。
ペアエンドシーケンシングの場合、元のプラス鎖またはマイナス鎖から生成されたペアエンドリードを識別することを可能にするペアエンドリード配向情報(すなわち、F1R2またはF2R1)を使用し得る。ペアエンドリードの各対(すなわち、R1およびR2)について、それらの可能性のある異なるアダプター長を回復し、これらの数を使用して、BAMフォーマットファイルなどのリードアラインメントファイルにタグとして記憶される(整数値の対からなる)数値コードを形成することが可能である。第1の工程では、(参照ゲノム配列リード方向に対して)同じ開始位置および終了位置にアラインメントし、測定されたアダプター長の同じ対(L1,L2)または(L2,L1)を有するペアエンドリードを、おそらく同じ元の二本鎖DNA断片の2本の鎖から生成されるシーケンシングリードとしてグループ化し得る。次いで、各グループは、それらの元の鎖に従って2つのサブグループにさらに細分し得、測定されたアダプター長の実際の対(L1,L2)は、F1,R2配向を有するペアエンドリードの場合は{Ln(forward),Lm(reverse)}によって、F2R1配向を有するペアエンドリードの場合は{Ln(reverse),m(forward)}によって与えられる。
得られた情報は、BAMまたはSAMフォーマットファイルなどの生の断片タグ付きリードアラインメントファイルに記録され得る。このファイルを使用して、アラインメントから同じ断片連結から生成されたペアエンドリードのグループをクラスタ化することが可能であり、その結果、元のDNA断片の2本の鎖から生成されたPCR複製物によって提供される情報を利用することによって、バリアントコーリング153などの下流ゲノム分析工程を実施し得る。
バリアントコーリング
次いで、得られたアラインメントされたリードを解析して(153)、参照ゲノムに対するバリアント、例えばSNV、インデルまたは構造バリアント(コピー数変異、重複、転座...)を同定し得る。図8に示されるように、また、例えば、A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data, Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018においてXuによって概説されるように、異なるアプローチがゲノムデータアナライザ150によって適用され得る。図8a)は、提案された方法に従って、アラインメントされたBAMファイルにおいて同じアラインメント位置および数値コードタグを共有する配列リードの各群から単一のポリヌクレオチド配列が折り畳まれるコンセンサスシーケンシングアプローチを示す。図8a)の円で表されるように、グループメンバーが特定の位置で一致しない場合、コンセンサス配列を生成するために様々な規則が使用され得、次いで、リードの各グループ(親フラグメントに対応するリードのファミリー)に対する単一のコンセンサスアラインメント配列リードとしてコンセンサスBAMファイル(リード崩壊BAMファイルとしても知られる)に保存される。グループ内で最も頻繁に見出される塩基は、コンセンサスとして保持され得る(単純な多数決)。また、品質スコアを使用してコンセンサスを改良し得る(重み付けスコアリング)。次いで、得られたコンセンサス配列は、任意の従来の生リードをベースとするバリアントコーラーによって処理され得る。より一般的には、NGSバイオインフォマティクスワークフローの分野の当業者には明らかなように、バリアントコーリング153の前に、アラインされたリードを単一のポリヌクレオチド配列中に折り畳む中間工程として適したコンセンサスシーケンシングアプローチは、Xuに概説された自由に使用できる先行技術の方法、例えば、MAGERIバイオインフォマティクスワークフロー(MAGERI:Computational pipeline for molecular-barcoded targeted resequencing”, Shugay et al., PLoS Comput. Biol. 2017 May; 13(5))、または種々の市販のゲノムデータ解析ワークフロー、例えば、Illumina Read Collapsing工程(https://support.illumina.com/help/BaseSpace_App_UMI_Error_Correction_OLH_1000000035906/Content/Source/Informatics/Apps/Read_Collapsing_appUMI.htm)と同様に、提案された数値コードタグと組み合わせて使用し得る。
しかしながら、上記の従来のコンセンサスシーケンシングアプローチにはいくつかの制限があり、これは、シグナル処理から導出されたデータ駆動方法または機械学習アルゴリズムなどの高度な統計的モデリングに基づくより高度なゲノムデータ分析ワークフローを使用することによって克服され得る。図8b)は、コンセンサスシーケンシングアプローチの別の実施形態としての確率的シーケンシングを示す。確率的シーケンシングでは、アラインメントおよびバリアントコールの間の中間工程でコンセンサスBAMファイルを生成する代わりに、ゲノムデータアナライザ150は、生の断片タグ付きアラインメントファイルを直接使用して、統計的バリアントコーラーへの入力として、生のアラインドリード群を供給し得る。
発見的規則(例えば、多数決など)で得られたコンセンサス配列に依存する代わりに、このクラスのバリアントコーラーは、同じかまたは異なるファミリー(またはグループ)に属するリードに機器アーチファクトがどのように影響するかを記述する統計モデルに依存する。統計的モデルは、例えば、以下の知識を組み込み得る。
・変異DNA分子の存在下では、バリアントは、その変異分子の2本の鎖から生成されたすべてのリードによって支持される;
・シーケンシングエラーは頻繁に起こり得るが、同じファミリーに属するリードまたは同じファミリーに属さないリードにわたって独立して起こり得る;
・PCRエラーは頻度が低いが、同じファミリー内の複数のリードに影響を及ぼす可能性があり、同じDNA分子のプラス鎖およびマイナス鎖の両方で発生することはほとんどない。
そのような確率的フレームワーク内のリード全体を分析することにより、例えば、目的の変異対立遺伝子頻度の事後確率を計算することが可能になる。次いで、この事後確率を使用して、例えば、バリアントコール(例えば、変異対立遺伝子頻度の確率が0より大きく、確率pが閾値より大きい場合)を生成し、その信頼水準(すなわち、信号が機器雑音ではなく実際の変形によって生成された確率)を定量化し得る。
そのような統計的バリアントコーラーの1つの最近開示された例は、自由に使用できる独立型のSmCounter2統計的バリアントコーラーであり、これは、バックグラウンドエラー率についてのベータ分布および非参照UMI異常値の数についてのベータ二項分布に基づくエラーモデルに従ってバリアント確率を計算するためにアラインドリードを入力としてとる(smCounter2:an accurate low-frequency variant caller for targeted sequencing data with unique molecular identifiers, Xu et al., Bioinformatics, Vol,.35(8), April 2019)。smCounter2は、入力として、未処理のUMIタグ付きBAMファイルと、コンセンサスなBAMファイルの両方を受け付ける。提案されたワークフローでは、UMIタグの代わりに、UMIタグ付きBAMファイルは、本発明者らの提案された方法の数値コードタグ、すなわち、提案された湿式ラボ法に従って連結された断片の各末端に連結された可変アダプターの測定された長さに対応する一対の数値を同様に含み得る。SmCounter2と同様に、例えばSophia Genetics Data-Driven Medicineソフトウェア(Sophia DDM)などのデータ駆動型モデリングに基づく商用ワークフローからの様々なバリアントコーラーもまた、提案された数値コードタグ付けに基づいて、異なるDNA断片から生成されたアラインメントされたリードの各グループのバリアントを個別にコールするように適合され得る。
例示的実験
実験1
第1の実験では、本発明者らは、例えば図5b)に示すような可変長スペーサー配列を含む提案されたすべてのアダプターをDNA断片に連結して、DNA-アダプター産物のライブラリーを生成できることを確認した。図9の測定によって示されるように、連結反応中に提案されたアダプターとの反応混合物を使用する場合、すべてのスペーサー配列アダプターをDNA断片に連結することができ、最終的なDNAライブラリーにおいてほぼ同様に表される。
実験2
第2の実験では、第一の実験で生成されたDNA-アダプター産物のライブラリーが、Illumina NextSeqシーケンサーなどのNGSプラットフォーム上で配列決定され、Sophia Genetics Data Driven Medicine(Sophia DDM)バイオインフォマティクスプラットフォームなどのゲノムデータアナライザ150によって解読され得ることを確認した。各スペーサー配列は、Sophia Genetics Data Driven Medicineゲノムデータアナライザ150によってシーケンサーにより生のFASTQファイルから解読し得る。得られたリードは、切断されたスペーサー部分配列で始まって一定の終結部分配列TSで終わる予想配列を示す。図10は、最も長い長さのアダプター(ベースコールエラーが発生しやすい)であっても、バイオインフォマティクスワークフローによって、93%を超えるリードを予想されるスペーサー配列に割り当て得ることを示す。平均して、リードの約95%についてスペーサー配列を適切に同定する(したがって、その可変長を測定して数値コードタグを形成する)ことが可能である。
実験3
第3の実験では、本発明者らは、第2の実験でシーケンシングされた生のリードを使用して、数値コードタギングを無視したゲノム解析バイオインフォマティクスワークフロー(Sophia Genetics DDMv5)、すなわち、アラインメントから外れた開始位置および終了位置のみに基づいて特定のゲノム位置について得られたリードをグループ化すること(図11a)に対して、NGSデータビューアと、アラインメントから外れた開始位置および終了位置ならびに断片の両端の測定された可変アダプタースペーサー配列長からなる提案された方法の数値コードの追加のフラグメントタグ情報に基づいて特定のゲノム位置について得られたリードをグループ化するようにさらに適合された同じゲノム解析バイオインフォマティクスワークフロー(図11b)と比較した。
図11a)および図11b)に示すように、NGSデータビューアは、ヘテロ接合SNPのゲノム位置1100を強調している。オリジン断片を区別しないPCR複製物のグループでは、理論的には、すべてのリードがSNPを表示する(および下流のバリアントコーラー部153がバリアント画分=1を測定する)か、またはそれを表示しない(および下流のバリアントコーラー部153がバリアント画分=0を測定する)必要がある。しかしながら、本発明者らの実際の実験では、図11a)で参照できるように、リードをそれらの開始情報および終了情報によってグループ化するだけでは、SNPの実際のバリアント画分が0または1とは異なるため、PCR複製物群を正確に同定し得ない。これは、これらの基が少なくとも2つの元のDNA断片に由来するDNA断片を含むことを示す。これらの元のDNA断片は、SNPの位置で異なっていたが、それらは同一の開始位置および終了位置を共有していたため、一緒にグループ化された。対照的に、図11b)で参照できるように、提案された数値コードをタグとして追加することにより、同じ開始位置および終了位置を有するPCR複製物のリードグループを、BAMファイル内のそれらの数値コードに従って、同じ親フラグメントに由来するサブセットにさらに細分化およびクラスタリングすることによって、これらの衝突を解決することが可能になる。これらのサブグループにおいて、SNPのバリアント画分は、その後、下流のバリアントコーラー部153によって、予想されるように0または1のいずれかとして測定され得、したがって、リードの開始位置および終了位置と組み合わせた提案された数値コードが、衝突する分子からPCR複製物を区別することを可能にすることが実証される。
実験4
動機づけ-当業者には明らかなように、低バリアント対立遺伝子画分(VAF)でのバリアントコーリングは、シーケンシングエラーおよびライブラリー調製アーチファクトによって制限される。NGSアッセイの分析性能を改善するための戦略は、バリアントをコールするためのPCR複製によって提供される情報を利用することにある。従来技術の解決策は、例えばPCR複製物を同定するために位置をマッピングすることによって、PCR複製物群を正確に同定しようと試みる。しかし、複数の剪断点(したがってマッピング位置)があるため、すべての元のDNA分子を区別するのに十分ではない場合がある。したがって、PCR複製物群の同定のための追加の情報を提供するために、外因性分子バーコードが導入されている。しかしながら、そのような外因性バーコードを生成するための最良の産業的アプローチにおけるコンセンサスは現在存在せず、多くの従来技術の解決策は、高価なライブラリー生成解決策を使用しなければならず、そのほとんどは、確率的バリアントコーリング解決策の最近の進歩から恩恵を受けることなく、主にコンセンサスシーケンシングワークフローで使用するために設計されている。対照的に、提案された可変長DNA-アダプター構築物は、低頻度バリアント検出の感度および特異性をさらに改善するために、断片の外因性同定およびそれらの効率的な確率的ゲノム解析の両方を共に促進することを目的とする。これは、本明細書で詳述するように、専用の実験によって実証される。
6種の細胞株のヌクレオソームDNAを、7番目の細胞株のヌクレオソームDNAに異なる比率でスパイクし、以下のバリアント対立遺伝子頻度:0.5~4%、0.25~2%および0.1~0.8%で一連の単一ヌクレオチド変異(SNV)を有する3つのサンプルを生成した。
標的ライブラリー調製-全ゲノムライブラリーを、製造者の説明書に修正を若干加えた後、SOPHiA GENETICSライブラリー調製キットを使用して、25ngの各DNA混合物から二連で調製した。簡潔に説明すると、末端修復およびAテーリングの後、各サンプルのDNA断片を、標準的なバーコード化されていないアダプターまたは図5b)(LTS=3、L=9であり、それぞれの長さ3から12ヌクレオチドの10個の異なるDNAアダプターを生成する。)に示すような可変長スペーサー配列を含む一連の可変長アダプターのいずれかに連結した。次いで、指標化されたIllumina適合性プライマーを使用してライブラリーを増幅した。DNA混合物中に存在する23個のSNVをカバーするSOPHiA GENETICS捕捉プロトコルおよびSOPHiA GENETICSカタログパネル(設置面積:56Kb)を使用して、全ゲノムライブラリーを捕捉した。
データ分析-可変長アダプター構築実験からのライブラリーを最初に前処理した。順方向リードおよび逆方向リードの開始点の定常部分配列の位置を決定した。次いで、各DNA断片の両側に存在するアダプターの長さを使用して、可変長アダプター配列をトリミングする前に、リードヘッダに付加されたコンビナトリアルコードを生成した。次いで、BWA-MEMアライナを使用して、すべてのライブラリーのリードをゲノムにアラインした。フラグメントマッピング位置および前述のコンビナトリアルコードを使用して、PCR複製物群を同定した。バリアントコーリングは、確率的シーケンシングまたは二重コンセンサスシーケンシングのいずれかで実施した。確率的シーケンシングのために、SNVを有する分子から生成されるPCR重複群の事後確率を計算し、識別された各PCR重複群に品質スコアを割り当てるために使用した。
結果
図12は、提案された可変長アダプターが人工ヌクレオソームDNAにおける速度変異体の検出を容易にすることを示す。図12a)は、従来技術の標準的なアダプターが使用される場合に、3つの異なるVAF範囲(サンプル1:0.5~4%;サンプル2:0.25~2%;サンプル3:0.1~0.8%)で23個のSNVを有する複製物で分析された3つのサンプル(25ngのDNAインプット)のバリアントコーリングの結果を示す。図12b)は、提案された可変長アダプターが使用される場合に得られるバリアントコーリングの結果を示す。この実験で試験した144個のSNVのうち、標準的なアダプターを使用した場合、107個のみが検出された。SLAライブラリーを使用すると、123個のバリアントが呼び出されることで感度が向上した。図12c)は、0.1~0.8%の範囲のVAFを有し、従来技術の標準アダプターを使用して処理されたバリアントを有するサンプルにおいて、それぞれ確率的シーケンシング(濃い灰色)または二重コンセンサスシーケンシング(薄い灰色)を使用した場合の偽陽性率(FP)に対する真陽性率(TPR)に関するバリアントコーリングの性能を示すROC曲線をさらに比較する。図12d)は、0.1~0.8%の範囲のVAFを有し、提案された可変長アダプターを使用して処理されたバリアントを有するサンプルにおいてそれぞれ確率的シーケンシング(濃い灰色)または二重コンセンサスシーケンシング(薄い灰色)を使用した場合の偽陽性率(FP)に対する真陽性率(TPR)対に関するバリアントコーリングの性能を示すROC曲線をさらに比較する。
提案された方法の利点
したがって、提案された方法は、様々な下流NGSワークフローに適したDNA-アダプター産物のライブラリーを生成するために、いくつかの所定の可変長アダプターの連結のみを必要とし、DNAの投入量が少ない場合でもバリアントのNGSバイオインフォマティクス同定を容易にする。
ハイスループットシーケンシングデータ処理の分野の当業者には明らかなように、ゲノム分析ワークフローでは、オーバートリミングはシーケンシングカバレッジの喪失をもたらし、アンダートリミングはシーケンシングアーチファクトを導入し得るので、リード前処理中のアダプター配列のトリミングは正確である必要がある。一定の終結部分配列シグナル(TS)を有していない先行技術の可変長アダプターは、バーコードと挿入DNA断片の開始部との間の境界を同定し得ない。結果として、それらは通常、アダプター全長Lmax上でトリミングを必要とし、適用範囲を低下させる。
さらに、アダプターの合成には費用がかかり、日常的な臨床診療ワークフローでは、特定の用途についての不一致を解決するために必要な数のバーコードを使用することが好ましい。限られた数のバーコードを使用する場合、それらが最終ライブラリーで均一に表されることが重要であり、そうでなければバーコードの組合せの有効数が減少し、もはや十分ではない可能性がある。各バーコードの末端に一定の終結部分配列TSを有することにより、配列特異的バイアスの連結が防止され、したがってより均一なバーコード使用が可能になる。
さらに、実際のシーケンシング技術に応じて、例えばIlluminaシーケンサーでは、最初のシーケンシングサイクルで塩基の不均衡があると、シーケンシングの質が低下する可能性がある。このことは、限られた数のランダムバーコードを使用する場合に問題となり得る。各シーケンシングサイクルでバランスのとれた塩基組成を有するように設計され得る、可変長のスペーサー配列の所定のセットを使用することにより、高いシーケンシング品質を維持することが可能になる。

Claims (17)

  1. 増幅およびシーケンス後のハイスループットシーケンシングデータのゲノムデータ分析ワークフローにおいて断片の同定を容易にするために、少なくとも2つのDNA断片からDNAアダプター産物のライブラリーを生成する方法であって、
    (I)DNAアダプターのプールを生成する工程であって、前記アダプターは、お互いに全長が少なくとも3ヌクレオチド、最大でLmaxヌクレオチド異なり、各アダプターは、長さLTSの定常終結部分配列TSを含み、LTSが3以上のヌクレオチドが可変スペーサー部分配列と連結しており、前記可変スペーサー部分配列は、長さがLのヌクレオチドを有する共通の一定の所定のヌクレオチド配列から切断されており、5≦L≦20ヌクレオチドである、工程、
    (II)反応混合物中で、DNA-アダプターのプールからの第1および第2アダプターを第1の二本鎖DNA断片の各末端に連結して、第1のDNA-アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第1のDNA-アダプター産物が、第1および第2のDNA-アダプタースペーサー配列(SS、SS)のそれぞれの長さ(L,L)によって形成される数値コードによって特徴付けられ得る、工程、
    (III)同じ反応混合物中で、DNA-アダプターのプールからの第3および第4のアダプターを第2の二本鎖DNA断片の各末端に連結して、第2のDNA-アダプター産物を産生する工程であって、各アダプターが複数の二本鎖または部分的に二本鎖のポリヌクレオチドを含み、各二本鎖または部分的に二本鎖のポリヌクレオチドがアダプターの二本鎖末端にスペーサー配列を含み、その結果、第1のDNA-アダプター産物が、第1および第2のDNA-アダプタースペーサー配列(SS、SSのそれぞれの長さ(L,L)によって形成される数値コードによって特徴付けられ得る、工程、
    を含む方法。
  2. 前記定常終結部分配列TSが、前記一定の所定のヌクレオチド配列Sと、編集距離が少なくとも2だけ異なる、請求項1に記載の方法。
  3. 前記スペーサー部分配列が、前記一定のヌクレオチド配列(S)から開始して左から右に切断されている、請求項1または2に記載の方法。
  4. 前記スペーサー部分配列が、前記一定のヌクレオチド配列(S)から終了して右から左に切断されている、請求項1または2に記載の方法。
  5. 前記定常終結部分配列TSが、前記DNA断片への連結を容易にするためのTオーバーハングで終わるトリプレットヌクレオチドである、請求項1~4のいずれか一項に記載の方法。
  6. 前記定常終結部分配列TSが、前記DNA断片への連結を容易にするためのTオーバーハングで終わるクアドロプレットヌクレオチドである、請求項1~4のいずれか一項に記載の方法。
  7. (III)DNA-アダプター産物を増幅して、ハイスループットシーケンシングに適したPCR複製物を生成する工程、
    (IV)前記PCR複製物をハイスループットシーケンサーでシーケンシングして生のシーケンシングリードを生成する工程、
    をさらに含む、請求項1~6のいずれか一項に記載の方法。
  8. (V)各シーケンシングリードRについて、
    a.トリミングされたシーケンシングリードを生成するために、リードの開始点からLmaxヌクレオチドをトリミングする工程、
    b.トリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルに記録する工程、
    (VI)それぞれのトリミングされたリードを開始位置および終了位置にマッピングするように、トリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルから参照ゲノムにアラインメントする工程、
    をさらに含む、請求項7に記載の方法。
  9. (V)各シーケンシングリードRについて、
    c.シーケンシングリードの最初のLmaxヌクレオチド中の定常終結部分配列TSを探索し、スペーサー配列SSRnの長さLを、定常終結部分配列TSの開始点をシーケンシングリードRの開始点から分離するヌクレオチドの数の関数として測定する工程、
    d.リードの開始点から少なくともLヌクレオチドをトリミングして、トリミングされたシーケンシングリードを生成する工程、
    e.測定された長さLおよびトリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルに記録する工程、
    (VI)それぞれのトリミングされたリードを開始位置および終了位置にマッピングするように、トリミングされたシーケンシングリードを前処理されたシーケンシングリードファイルから参照ゲノムにアラインメントする工程、
    をさらに含む、請求項7に記載の方法。
  10. 各シーケンシングリードRについて、Lmaxに等しい数のヌクレオチドが前記リードの開始点からトリミングされる、請求項9に記載の方法。
  11. 各シーケンシングリードRについて、そのスペーサー配列の前記測定された長さに対応する数のLヌクレオチドが、前記リードの開始点からトリミングされる、請求項9に記載の方法。
  12. シーケンシングがペアエンドリードを生成し、参照ゲノム配列リード方向に対して同じ開始位置および終了位置にアラインメントされ、測定されたスペーサー配列長(L1,L2)の同じ数値コード対を有するペアエンドリードを、同じ元の二本鎖DNA断片の前記2本鎖から生じるシーケンシングリードとしてグループ化し、測定されたスペーサー配列長(L1,L2)の数値コード対が、F1R2配向を有するペアエンドリードの場合には{Ln(forward),Lm(reverse)}によって、F2R1配向を有するペアエンドリードの場合には{Ln(reverse),Lm(forward)}によって与えられる場合、それらのペアエンドリードをそれらの鎖起源に従って2つのサブグループにさらに細分化する工程をさらに含む、請求項9、10または11のいずれか一項に記載の方法。
  13. 同一の開始コード、終了コードおよび数値コードを共有する各リードグループを、それらの親フラグメントのコンセンサス配列に折り畳み、バリアントコーリング法で、この親フラグメントのバリアントを前記折り畳まれたコンセンサス配列に同定する工程をさらに含む、請求項12に記載の方法。
  14. 同一の開始コード、終了コードおよび数値コードを共有する各リードグループについて、統計的バリアントコーリング法で、それらの親フラグメントに対するバリアントの確率を同定することをさらに含む、請求項12に記載の方法。
  15. サンプルのプールから少なくとも2つの患者サンプル中のゲノムバリアントを同定するためのマルチプレックスハイスループット配列決定ゲノム分析方法であって、請求項1に記載の方法を用いてDNAアダプター産物のライブラリーを生成することを含み、前記DNAアダプター産物のライブラリーがサンプル間で異なる、方法。
  16. 前記DNAアダプター産物のライブラリーが、前記終結部分配列TSによってサンプル間で異なる、請求項15に記載の方法。
  17. 前記DNA-アダプター産物のライブラリーが、可変スペーサー部分配列の切断に使用される所定のヌクレオチド配列(S)によってサンプル間で異なる、請求項15または16記載の方法。
JP2022512862A 2019-09-20 2020-09-21 低頻度バリアントの検出およびレポートを容易にするためのdnaライブラリー生成方法 Pending JP2022548504A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19198542.3A EP3795685A1 (en) 2019-09-20 2019-09-20 Methods for dna library generation to facilitate the detection and reporting of low frequency variants
EP19198542.3 2019-09-20
PCT/EP2020/076246 WO2021053208A1 (en) 2019-09-20 2020-09-21 Methods for dna library generation to facilitate the detection and reporting of low frequency variants

Publications (2)

Publication Number Publication Date
JP2022548504A true JP2022548504A (ja) 2022-11-21
JPWO2021053208A5 JPWO2021053208A5 (ja) 2023-09-08

Family

ID=67998258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022512862A Pending JP2022548504A (ja) 2019-09-20 2020-09-21 低頻度バリアントの検出およびレポートを容易にするためのdnaライブラリー生成方法

Country Status (8)

Country Link
US (1) US20220364080A1 (ja)
EP (2) EP3795685A1 (ja)
JP (1) JP2022548504A (ja)
KR (1) KR20220064959A (ja)
AU (1) AU2020349622A1 (ja)
BR (1) BR112022004821A2 (ja)
CA (1) CA3149056A1 (ja)
WO (1) WO2021053208A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437978A (zh) * 2023-12-12 2024-01-23 北京旌准医疗科技有限公司 一种二代测序数据的低频基因突变分析方法、装置及其应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
WO2017220508A1 (en) 2016-06-22 2017-12-28 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data
WO2018144159A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Capture probes using positive and negative strands for duplex sequencing
WO2019084245A1 (en) * 2017-10-27 2019-05-02 Myriad Women's Health, Inc. METHODS AND COMPOSITIONS FOR PREPARING NUCLEIC ACID LIBRARIES
WO2019204702A1 (en) * 2018-04-20 2019-10-24 Board Of Regents, The University Of Texas System Error-correcting dna barcodes
US20210317517A1 (en) * 2018-08-28 2021-10-14 Sophia Genetics S.A. Methods for asymmetric dna library generation and optionally integrated duplex sequencing

Also Published As

Publication number Publication date
BR112022004821A2 (pt) 2022-08-23
WO2021053208A1 (en) 2021-03-25
EP4031664A1 (en) 2022-07-27
US20220364080A1 (en) 2022-11-17
EP3795685A1 (en) 2021-03-24
KR20220064959A (ko) 2022-05-19
AU2020349622A1 (en) 2022-03-24
CA3149056A1 (en) 2021-03-25

Similar Documents

Publication Publication Date Title
AU2019250200B2 (en) Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs)
US11898198B2 (en) Universal short adapters with variable length non-random unique molecular identifiers
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
Su et al. Next-generation sequencing and its applications in molecular diagnostics
JP5389638B2 (ja) 制限断片に基づく分子マーカーのハイスループットな検出
DK2245187T3 (en) Methods for accurate sequence data and modified due to localization
CN108603190A (zh) 使用经破碎的核苷酸的高通量多重测序确定基因拷贝数
Kuster et al. ngsComposer: an automated pipeline for empirically based NGS data quality filtering
CN108359723B (zh) 一种降低深度测序错误的方法
Saeed et al. Biological sequence analysis
US20220364080A1 (en) Methods for dna library generation to facilitate the detection and reporting of low frequency variants
D’Agaro New advances in NGS technologies
Esim et al. Determination of malignant melanoma by analysis of variation values
US20240052339A1 (en) Rna probe for mutation profiling and use thereof
RU2766198C9 (ru) Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок
Bolognini Unraveling tandem repeat variation in personal genomes with long reads
CA3216028A1 (en) Synthetic polynucleotides and method of use thereof in genetic analysis
Schirmer Algorithms for viral haplotype reconstruction and bacterial metagenomics: resolving fine-scale variation in next generation sequencing data
Hon et al. Highly accurate long-read HiFi sequencing data for

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230830