JP2023524681A - 分配された核酸を使用した配列決定のための方法 - Google Patents
分配された核酸を使用した配列決定のための方法 Download PDFInfo
- Publication number
- JP2023524681A JP2023524681A JP2022566054A JP2022566054A JP2023524681A JP 2023524681 A JP2023524681 A JP 2023524681A JP 2022566054 A JP2022566054 A JP 2022566054A JP 2022566054 A JP2022566054 A JP 2022566054A JP 2023524681 A JP2023524681 A JP 2023524681A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- molecules
- dna
- reads
- target region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Abstract
DNA損傷(例えば、シトシン脱アミノ化)は、DNA(例えば、無細胞DNA)試料の高メチル化画分において、低メチル化画分よりも高頻度で出現することができる。実施形態は、高メチル化画分および低メチル化画分をシーケンシングするステップを含み、高メチル化画分由来の分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、低メチル化画分由来の分子の配列に基づき参照配列と比べたCからTへのもしくはGからAへのトランジション変異をコールするステップよりも多い数の分子におけるトランジション変異の観察を要求するか、またはCからTへのもしくはGからAへのトランジション変異は、高メチル化画分の分子の配列に基づき参照配列と比べてコールされない。
Description
本出願は、すべての目的に関してその全体が参照により本明細書に組み込まれる、2020年4月30日に提出された米国仮特許出願第63/018,363号の利益を主張する。
背景
がんは、世界中で年間数百万名の死亡の原因である。初期のがんは、処置に対する感受性がより高くなる傾向があるため、がんの早期検出は、転帰改善をもたらし得る。
がんは、世界中で年間数百万名の死亡の原因である。初期のがんは、処置に対する感受性がより高くなる傾向があるため、がんの早期検出は、転帰改善をもたらし得る。
不適切に制御された細胞成長は、コピー数変異(CNV)、一塩基変異(single nucleotide variation)(SNV)、遺伝子融合、挿入および/または欠失(インデル)、シトシンの5-メチル化(5-メチルシトシン)等のDNAメチル化ならびにDNAとクロマチンタンパク質および転写因子との会合を含むエピジェネティックバリエーション等、遺伝的なおよびエピジェネティックな変化の蓄積に一般に起因するがんの特徴である。
生検は、細胞または組織が、がんの可能性がある部位から摘出され、関連性のある表現型および/または遺伝子型特色について解析される、がんを検出または診断するための伝統的なアプローチを表す。生検は、侵襲性であるという弱点を有する。
血液等の体液の解析(「リキッドバイオプシー」)に基づくがんの検出は、がん細胞由来のDNAが体液中に放出されることの観察に基づく興味深い代替法である。リキッドバイオプシーは、非侵襲性である(おそらく採血のみを要求する)。しかし、無細胞DNAの低い濃度および不均一性を考慮すると、リキッドバイオプシー材料を解析するための正確かつ高感度な方法を開発することは困難な課題であった。高度のメチル化を示すDNAは、他のDNAよりも大きい頻度で、実際のゲノム配列とは無関係に脱アミノ化塩基等の損傷された塩基を有し得ることが今や決定されており、このことは配列決定の精度に有害な影響を与え得るため、上述の困難な課題は、高メチル化および低メチル化画分のシーケンシングによってDNAメチル化を含むエピジェネティック変化が解析される手順に特に当てはまる。したがって、分配された核酸を使用した配列決定のための改善された方法の必要がある。
要旨
本開示は、無細胞DNA(cfDNA)等のDNAの試料を解析する方法であって、試料が、高メチル化画分(partition)および低メチル化画分を含む複数の画分に分配される、方法を含む実施形態を提供する。本開示は、一部には、次の具現化に基づく。高メチル化画分において、DNA(例えば、cfDNA)は、DNAが起源を持つ細胞における実際の変異を反映しない、シトシン脱アミノ化等の損傷をより多い量で有することができる。そのようなDNA損傷は、見かけ上の、ただし偽陽性のCからTへのおよび相補的なGからAへのトランジション変異の頻度増加をもたらすことができる。したがって、高メチル化画分由来の配列に基づきそのようなトランジション変異を同定するために、低メチル化画分由来の配列に基づきそのようなトランジション変異を同定するための場合よりも厳密な要件を使用することが有益となり得る。したがって、次の実施形態が提供される。実施形態1は、DNAの試料を解析する方法であって、
DNAの試料を複数の画分に分配するステップであって、複数の画分が、高メチル化画分および低メチル化画分を含む、ステップ;
高メチル化および低メチル化画分におけるDNAをタグ付けして、タグ付けされた核酸を生成するステップであって、タグ付けされた核酸が、分子バーコードを含む、ステップ;
高メチル化画分由来の分子の配列リードおよび低メチル化画分由来の分子の配列リードを得るステップであって、配列リードが、分子バーコード配列および試料配列を含む、ステップ;
(a)分子バーコード配列ならびに(b)試料配列の最初および最後のヌクレオチドに対応するゲノム位置のうち少なくとも1つに基づき、配列リードをファミリーに群分けするステップであって、ファミリーが、試料における単一のDNA分子に由来する配列リードを含む、ステップ;
高メチル化画分由来の分子の配列の第1のセットおよび低メチル化画分由来の分子の配列の第2のセットを決定するステップ;ならびに
配列の第1および第2のセットに基づき複数の塩基をコールするステップであって、
(i)第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子におけるトランジション変異の観察を要求する、;あるいは
(ii)CからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列に基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列を使用せずに第2のセットの分子の配列に基づき参照配列と比べてコールされる、または第2のセットの分子の少なくとも1つの配列が、CからTへのもしくはGからAへのトランジション変異を含む場合に限り、CからTへのもしくはGからAへのトランジション変異が、参照配列と比べてコールされる、ステップを含む方法である。
本開示は、無細胞DNA(cfDNA)等のDNAの試料を解析する方法であって、試料が、高メチル化画分(partition)および低メチル化画分を含む複数の画分に分配される、方法を含む実施形態を提供する。本開示は、一部には、次の具現化に基づく。高メチル化画分において、DNA(例えば、cfDNA)は、DNAが起源を持つ細胞における実際の変異を反映しない、シトシン脱アミノ化等の損傷をより多い量で有することができる。そのようなDNA損傷は、見かけ上の、ただし偽陽性のCからTへのおよび相補的なGからAへのトランジション変異の頻度増加をもたらすことができる。したがって、高メチル化画分由来の配列に基づきそのようなトランジション変異を同定するために、低メチル化画分由来の配列に基づきそのようなトランジション変異を同定するための場合よりも厳密な要件を使用することが有益となり得る。したがって、次の実施形態が提供される。実施形態1は、DNAの試料を解析する方法であって、
DNAの試料を複数の画分に分配するステップであって、複数の画分が、高メチル化画分および低メチル化画分を含む、ステップ;
高メチル化および低メチル化画分におけるDNAをタグ付けして、タグ付けされた核酸を生成するステップであって、タグ付けされた核酸が、分子バーコードを含む、ステップ;
高メチル化画分由来の分子の配列リードおよび低メチル化画分由来の分子の配列リードを得るステップであって、配列リードが、分子バーコード配列および試料配列を含む、ステップ;
(a)分子バーコード配列ならびに(b)試料配列の最初および最後のヌクレオチドに対応するゲノム位置のうち少なくとも1つに基づき、配列リードをファミリーに群分けするステップであって、ファミリーが、試料における単一のDNA分子に由来する配列リードを含む、ステップ;
高メチル化画分由来の分子の配列の第1のセットおよび低メチル化画分由来の分子の配列の第2のセットを決定するステップ;ならびに
配列の第1および第2のセットに基づき複数の塩基をコールするステップであって、
(i)第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子におけるトランジション変異の観察を要求する、;あるいは
(ii)CからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列に基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列を使用せずに第2のセットの分子の配列に基づき参照配列と比べてコールされる、または第2のセットの分子の少なくとも1つの配列が、CからTへのもしくはGからAへのトランジション変異を含む場合に限り、CからTへのもしくはGからAへのトランジション変異が、参照配列と比べてコールされる、ステップを含む方法である。
実施形態2は、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子におけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態3は、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つの分子におけるトランジション変異の観察を要求する、先行する実施形態のいずれか1つに記載の方法である。
実施形態4は、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも4つの分子におけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態5は、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも5つの分子におけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態6は、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも2つの分子におけるトランジション変異の観察を要求する、先行する実施形態のいずれか1つに記載の方法である。
実施形態7は、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つの分子におけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態8は、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも少なくとも2つ多い分子におけるトランジション変異の観察を要求する、先行する実施形態のいずれか1つに記載の方法である。
実施形態9は、第1の閾値が、第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジションをコールするために使用され、第2の閾値が、第2のセットの分子の配列に基づきCからTへのまたはGからAへのトランジションをコールするために使用され;第1の閾値が、CからTへのまたはGからAへのトランジションをコールするための特異度の第1のレベルを提供し;第2の閾値が、CからTへのまたはGからAへのトランジションをコールするための特異度の第2のレベルを提供し;特異度の第1のレベルが、特異度の第2のレベルにほぼ等しいか、または特異度の第1のレベルが、特異度の第2のレベルの10%、5%、4%、3%、2%、1%、0.5%、0.2%もしくは0.1%以内である、先行する実施形態のいずれか1つに記載の方法である。
実施形態10は、第1および第2の閾値が、CからTへのおよび/またはGからAへのトランジションに特異的である、直前の実施形態に記載の方法である。
実施形態11は、第1および第2の閾値が、少なくとも1つの対照試料または複数の対照試料から決定され、必要に応じて、少なくとも1つの対照試料または複数の対照試料が、がんを有すると疑われていない個体に由来する、実施形態9または10に記載の方法である。
実施形態12は、位置特異的バックグラウンド誤り率の第1の群が、第1のセットの分子の配列のための複数の位置のために使用され;位置特異的バックグラウンド誤り率の第2の群が、第2のセットの分子の配列のための複数の位置のために使用され;第2の群が、第1の群の対応する位置特異的バックグラウンド誤り率よりも高い位置特異的バックグラウンド誤り率を含み;第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップが、位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、CからTへのまたはGからAへのトランジション変異の観察を要求する、実施形態1~8のいずれか1つに記載の方法である。
実施形態13は、第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも2、3、4または5倍、位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、CからTへのまたはGからAへのトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態14は、第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも95%、98%、99%、99.5%または99.9%の信頼水準と一致する量だけ、位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、CからTへのまたはGからAへのトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態15は、位置特異的バックグラウンド誤り率の第1および第2の群が、複数の対照試料から決定され、必要に応じて、対照試料が、がんを有すると疑われていない個体に由来する、実施形態12~14のいずれか1つに記載の方法である。
実施形態16は、位置特異的バックグラウンド誤り率の第1および第2の群が、複数の対照試料を使用して決定されており、必要に応じて、対照試料が、がんを有すると疑われていない個体に由来する、実施形態12~14のいずれか1つに記載の方法である。
実施形態17は、位置特異的バックグラウンド誤り率の第1および第2の群が、病歴データを使用して決定された、実施形態12~14のいずれか1つに記載の方法である。
実施形態18は、位置特異的バックグラウンド誤り率の第1および第2の群が、それぞれ高メチル化および低メチル化画分由来の分子のリードおよび/または配列を使用して決定された、実施形態12~14のいずれか1つに記載の方法である。
実施形態19は、中等度画分由来の分子の配列リードを得るステップ;
中等度画分由来の分子の配列の第3のセットを決定するステップ;および
配列の第3のセットに基づき複数の塩基をコールするステップをさらに含む、先行する実施形態のいずれか1つに記載の方法である。
中等度画分由来の分子の配列の第3のセットを決定するステップ;および
配列の第3のセットに基づき複数の塩基をコールするステップをさらに含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態20は、CからTへのおよびGからAへのトランジション変異が第1のセットの分子の配列に基づきコールされるよりも低い厳密性で、CからTへのおよびGからAへのトランジション変異が第3のセットの配列に基づきコールされる、直前の実施形態に記載の方法である。
実施形態21は、CからTへのおよびGからAへのトランジション変異が第2のセットの配列に基づきコールされるのと同じ仕方で、またはCからTへのおよびGからAへのトランジション変異が第2のセットの配列に基づきコールされるよりも高い厳密性で、CからTへのおよびGからAへのトランジション変異が第3のセットの配列に基づきコールされる、直前の実施形態に記載の方法である。
実施形態22は、DNAの試料を解析する方法であって、
それぞれ試料の高メチル化および低メチル化画分由来の配列リードの第1および第2のセットを得るステップ;ならびに
配列リードの第1および第2のセット由来の配列を決定するステップであって、
(i)第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求する;あるいは
(ii)CからTへのまたはGからAへのトランジション変異が、第1のセットのリードに基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列を使用せずに第2のセットの分子の配列に基づき参照配列と比べてコールされる、または第2のセットの分子の少なくとも1つの配列が、CからTへのもしくはGからAへのトランジション変異を含む場合に限り、CからTへのもしくはGからAへのトランジション変異が、参照配列と比べてコールされる、ステップを含む方法である。
それぞれ試料の高メチル化および低メチル化画分由来の配列リードの第1および第2のセットを得るステップ;ならびに
配列リードの第1および第2のセット由来の配列を決定するステップであって、
(i)第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求する;あるいは
(ii)CからTへのまたはGからAへのトランジション変異が、第1のセットのリードに基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列を使用せずに第2のセットの分子の配列に基づき参照配列と比べてコールされる、または第2のセットの分子の少なくとも1つの配列が、CからTへのもしくはGからAへのトランジション変異を含む場合に限り、CからTへのもしくはGからAへのトランジション変異が、参照配列と比べてコールされる、ステップを含む方法である。
実施形態23は、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態24は、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つのリードにおけるトランジション変異の観察を要求する、実施形態22または23のいずれか1つに記載の方法である。
実施形態25は、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも4つのリードにおけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態26は、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも5つのリードにおけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態27は、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも2つのリードにおけるトランジション変異の観察を要求する、実施形態22~26のいずれか1つに記載の方法である。
実施形態28は、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つのリードにおけるトランジション変異の観察を要求する、直前の実施形態に記載の方法である。
実施形態29は、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも少なくとも2つ多いリードにおけるトランジション変異の観察を要求する、実施形態22~28のいずれか1つに記載の方法である。
実施形態30は、中等度画分由来の配列リードの第3のセットを得るステップをさらに含み、配列が、第1および第2のセットに加えて第3のセットから決定される、先行する実施形態のいずれか1つに記載の方法である。
実施形態31は、CからTへのおよびGからAへのトランジション変異が第1のセットのリードに基づきコールされるよりも低い厳密性で、CからTへのおよびGからAへのトランジション変異が第3のセットのリードに基づきコールされる、直前の実施形態に記載の方法である。
実施形態32は、CからTへのおよびGからAへのトランジション変異が第2のセットのリードに基づきコールされるのと同じ仕方で、CからTへのおよびGからAへのトランジション変異が第3のセットのリードに基づきコールされる、直前の実施形態に記載の方法である。
実施形態33は、高メチル化画分のDNAおよび低メチル化画分のDNAが、示差的にタグ付けされている、先行する実施形態のいずれか1つに記載の方法である。
実施形態34は、高メチル化画分のDNAおよび低メチル化画分のDNAが、バーコードを含む配列タグで示差的にタグ付けされている、先行する実施形態のいずれか1つに記載の方法である。
実施形態35は、高メチル化および低メチル化画分が、試料のDNAを、固体支持体に固定化されたメチル結合試薬と接触させることにより調製された、先行する実施形態のいずれか1つに記載の方法である。
実施形態36は、メチル結合試薬が、MBDを含む、直前の実施形態に記載の方法である。
実施形態37は、メチル結合試薬が、MeCPを含む、実施形態36に記載の方法である。
実施形態38は、メチル結合試薬が、メチル化ヌクレオチドに結合する抗体を含み、必要に応じて、メチル化ヌクレオチドが、メチル化シトシンである、実施形態36に記載の方法である。
実施形態39は、試料のDNAを、固体支持体に固定化されたメチル結合試薬と接触させ、メチル結合試薬への示差的結合に基づき低メチル化画分および高メチル化画分を得るステップを含む、実施形態35~38のいずれか1つに記載の方法である。
実施形態40は、シーケンシング前に高メチル化画分のDNAおよび低メチル化画分のDNAに示差的タグを付加するステップを含む、実施形態35~39のいずれか1つに記載の方法である。
実施形態41は、配列を決定するステップが、配列リードの第1および第2のセットを参照配列にマッピングして、マッピングされた配列リードを産生するステップを含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態42は、試料のまたは高メチル化および低メチル化画分のDNAが、富化または捕捉された目的の領域を含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態43は、目的の領域について試料のもしくは高メチル化および低メチル化画分のDNAを富化するステップ、または試料または高メチル化および低メチル化画分から目的の領域を捕捉するステップを含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態44は、富化または捕捉するステップが、DNAを標的特異的プローブのセットと接触させ、それによって、DNA分子の捕捉されたセットが産生される、ステップを含む、直前の実施形態に記載の方法である。
実施形態45は、目的の領域が、配列可変標的領域を含む、実施形態42~44のいずれか1つに記載の方法である。
実施形態46は、標的特異的プローブのセットが、配列可変標的セットに特異的な標的結合プローブを含む、直前の実施形態に記載の方法である。
実施形態47は、配列可変標的領域セットのフットプリントが、少なくとも25kBまたは少なくとも50kBである、直前の実施形態に記載の方法である。
実施形態48は、目的の領域が、エピジェネティック標的領域を含む、実施形態42~47のいずれか1つに記載の方法である。
実施形態49は、標的特異的プローブのセットが、エピジェネティック標的セットに特異的な標的結合プローブを含む、直前の実施形態に記載の方法である。
実施形態50は、目的の領域が、配列可変標的領域セットおよびエピジェネティック標的領域セットを含む、実施形態42~49のいずれか1つに記載の方法である。
実施形態51は、配列可変標的領域セットに少なくとも10個の領域、およびエピジェネティック標的領域セットに少なくとも100個の領域が存在する、直前の実施形態に記載の方法である。
実施形態52は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズよりも少なくとも2倍大きい、実施形態50~51のいずれか1つに記載の方法である。
実施形態53は、エピジェネティック標的領域セットのフットプリントが、配列可変標的領域セットのサイズよりも少なくとも10倍大きい、直前の実施形態に記載の方法である。
実施形態54は、標的特異的プローブのセットが、エピジェネティック標的セットに対応するcfDNAよりも大きい捕捉収量で、配列可変標的セットに対応するcfDNAを捕捉するように構成されている、実施形態52または53に記載の方法である。
実施形態55は、配列可変標的領域セットが、10~30キロベースの範囲内のフットプリントを有する、実施形態50~54のいずれか1つに記載の方法である。
実施形態56は、配列可変標的領域セットが、30~60キロベースの範囲内のフットプリントを有する、実施形態50~54のいずれか1つに記載の方法である。
実施形態57は、配列可変標的領域セットが、60キロベース~1メガベースの範囲内のフットプリントを有する、実施形態50~54のいずれか1つに記載の方法である。
実施形態58は、配列可変標的領域セットが、1~2メガベースの範囲内のフットプリントを有する、実施形態50~54のいずれか1つに記載の方法である。
実施形態59は、エピジェネティック標的領域セットが、0.2~0.8メガベースの範囲内のフットプリントを有する、実施形態50~58のいずれか1つに記載の方法である。
実施形態60は、エピジェネティック標的領域セットが、0.8~1.5メガベースの範囲内のフットプリントを有する、実施形態50~58のいずれか1つに記載の方法である。
実施形態61は、エピジェネティック標的領域セットが、1.5~3メガベースの範囲内のフットプリントを有する、実施形態50~58のいずれか1つに記載の方法である。
実施形態62は、エピジェネティック標的領域セットが、3~8メガベースの範囲内のフットプリントを有する、実施形態50~58のいずれか1つに記載の方法である。
実施形態63は、エピジェネティック標的領域セットが、高メチル化可変標的領域セットを含む、実施形態50~62のいずれか1つに記載の方法である。
実施形態64は、エピジェネティック標的領域セットが、低メチル化可変標的領域セットを含む、実施形態50~63のいずれか1つに記載の方法である。
実施形態65は、エピジェネティック標的領域セットが、断片化可変標的領域セットを含む、実施形態50~64のいずれか1つに記載の方法である。
実施形態66は、断片化可変標的領域セットが、転写開始部位領域を含む、直前の実施形態に記載の方法である。
実施形態67は、断片化可変標的領域セットが、CTCF結合領域を含む、実施形態65または66に記載の方法である。
実施形態68は、配列可変標的セットの捕捉されたDNAが、エピジェネティック標的領域セットの捕捉されたDNAよりも高いシーケンシング深度までシーケンシングされる、実施形態50~67のいずれか1つに記載の方法である。
実施形態69は、配列可変標的セットの捕捉されたDNAが、エピジェネティック標的領域セットの捕捉されたcfDNA分子よりも、少なくとも2倍、3倍もしくは4倍高いシーケンシング深度までシーケンシングされる、または4~10倍もしくは4~100倍高いシーケンシング深度までシーケンシングされる、直前の実施形態に記載の方法である。
実施形態70は、配列可変標的セットの捕捉されたDNAが、シーケンシング前に、エピジェネティック標的領域セットの捕捉されたDNAと共にプールされる、実施形態50~69のいずれか1つに記載の方法である。
実施形態71は、配列可変標的セットの捕捉されたDNAおよびエピジェネティック標的領域セットの捕捉されたDNAが、同じシーケンシングセルにおいてシーケンシングされる、実施形態50~70のいずれか1つに記載の方法である。
実施形態72は、高メチル化および低メチル化画分のDNAが、捕捉前に増幅される、実施形態50~71のいずれか1つに記載の方法である。
実施形態73は、試料が、生体組織または生体液から得られた、先行する実施形態のいずれか1つに記載の方法である。
実施形態74は、試料が、血液から得られた、先行する実施形態のいずれか1つに記載の方法である。
実施形態75は、試料のDNAが、無細胞DNAを含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態76は、試料のDNAが、無細胞DNAから本質的になる、先行する実施形態のいずれか1つに記載の方法である。
実施形態77は、試料が、増殖性障害または固形腫瘍を有するまたはこれを有すると疑われる対象に由来する、先行する実施形態のいずれか1つに記載の方法である。
実施形態78は、試料が、増殖性障害または固形腫瘍のための処置を受けているまたはこれを受けたことがある対象に由来する、先行する実施形態のいずれか1つに記載の方法である。
実施形態79は、配列リードから決定された配列に基づき、対象が増殖性障害または固形腫瘍を有する可能性を決定するステップをさらに含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態80は、増殖性障害または固形腫瘍が、がんである、直前の3つの実施形態のいずれか1つに記載の方法である。
一部の実施形態では、本明細書に開示されている方法の結果は、報告を生成するための入力として使用される。報告は、紙または電子書式であり得る。例えば、本明細書に開示されている方法によって得られるCからTへのまたはGからAへのトランジション変異の分類は、そのような報告において直接表示することができる。その代わりにまたはその上、CからTへのまたはGからAへのトランジション変異が存在するか否かに関する分類に基づく診断情報または治療推奨が、報告に含まれてよい。
本明細書に開示されている方法の様々なステップは、同じもしくは異なる時点で、同じもしくは異なる地理的な位置、例えば、国において、および/または同じもしくは異なる人々によって実行され得る。
本明細書に組み込まれ、その一部を構成する添付の図面はある特定の実施形態を説明し、記述した説明とともに、本明細書に開示した方法、コンピュータ可読媒体、およびシステムのある特定の原理を説明するために役立つ。本明細書で提供する説明は、例として含まれ、限定するものではない添付の図面と併せて読めば、より良く理解される。文脈が他を指示しない限り、同様の参照番号は図面全体で同様の成分を特定することが理解されよう。図面のいくつかまたはすべては説明目的の概略図であり、必ずしも示された要素の実際の相対的寸法または位置を描いているのではないことも理解されよう。
詳細な説明
次に、本発明のある特定の実施形態を詳細に参照する。そのような実施形態と併せて本発明について説明するが、本発明をこれらの実施形態に限定することを意図するものではないことが理解されるであろう。それとは反対に、本発明は、添付の特許請求の範囲によって定義される本発明の内に含まれ得るあらゆる代替、修正および均等物を網羅することを意図する。
次に、本発明のある特定の実施形態を詳細に参照する。そのような実施形態と併せて本発明について説明するが、本発明をこれらの実施形態に限定することを意図するものではないことが理解されるであろう。それとは反対に、本発明は、添付の特許請求の範囲によって定義される本発明の内に含まれ得るあらゆる代替、修正および均等物を網羅することを意図する。
本教示について詳細に説明する前に、特定の組成物またはプロセスステップは変動し得るため、本開示は、そのようなものに限定されないことを理解されたい。本明細書および添付の特許請求の範囲において使用される場合、文脈がそれ以外のことを明らかに指示しない限り、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、複数の参照を含むことに留意されたい。よって、例えば、「1つの核酸(a nucleic acid)」の参照は、複数の核酸を含み、「1つの細胞(a cell)」の参照は、複数の細胞を含む、等々。
数的範囲は、範囲を定義する数を包括する。測定された値および測定可能な値は、測定に関連する有効桁および誤差を考慮に入れた、近似値であることが理解される。また、「を含む(comprise)」、「を含む(comprises)」、「を含む(comprising)」、「を含有する(contain)」、「を含有する(contains)」、「を含有する(containing)」、「を含む(include)」、「を含む(includes)」および「を含む(including)」の使用は、限定を意図するものではない。前述の概略的な説明および詳細な説明は両者共に、単に例示的かつ説明的なものであり、教示を制限するものではないことを理解されたい。
上述の明細書に特に記されていない限り、様々な構成成分「を含む」ものを列挙する本明細書における実施形態はまた、列挙されている構成成分「からなる」または「から本質的になる」ものとして考慮され;様々な構成成分「からなる」ものを列挙する本明細書における実施形態はまた、列挙されている構成成分「を含む」または「から本質的になる」ものとして考慮され;様々な構成成分「から本質的になる」ものを列挙する本明細書における実施形態はまた、列挙されている構成成分「からなる」または「を含む」ものとして考慮される(この互換性は、特許請求の範囲におけるこれらの用語の使用には適用されない)。
本明細書で使用されているセクションの見出しは、秩序立てることを目的としており、決して開示されている主題の限定として解釈されるべきではない。参照により本明細書に組み込まれるいずれかの文書または他の材料が、定義を含む本明細書のいずれかの明確な内容と矛盾する場合、本明細書が優先される。
I.定義
I.定義
「参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップ」は、試料由来の配列リードが、許容される信頼度で、参照配列と比べて、シーケンシングされている核酸の所与の位置における変異の存在を支持するという結論を下すステップを指す。一部の実施形態では、結論は、配列品質の尺度(例えば、Phred品質スコア)等の他のパラメーターと必要に応じて組み合わせて、コンピューターにより下される、および/または当該位置に差が出現するリードの数に基づく。一部の実施形態では、結論は、例えば、病歴データもしくは健康なコホート等の対照群由来のデータから推定され得る変異対立遺伝子分率および/もしくはバックグラウンド誤り率の尺度等の他のパラメーターと必要に応じて組み合わせて、コンピューターにより下される、ならびに/または当該位置に差が出現する分子の数に基づく。これらの実施形態では、分子計数は、配列リードの分子バーコードおよび/またはゲノム座標(co-ordinate)を使用して推定される。変異を含むアセンブルされた配列を生成するステップ、および変異を収載する報告を生成するステップは、変異をコールするステップの非限定的な例である。アセンブルされた配列または報告は、利用者または他の個体に対して表示、印刷、または他の仕方で伝達され得る。
「無細胞DNA」、「cfDNA分子」または単純に「cfDNA」は、対象におい細胞外形態で(例えば、血液、血清、血漿中に、またはリンパ液、脳脊髄液、尿もしくは痰等の他の体液中に)発生するDNA分子を含み、細胞内に含有されることも他の仕方で細胞に結合されることもないDNAを含む。DNAは、大型の複雑な生命体、例えば、哺乳動物の細胞(単数または複数)に本来存在したが、DNAは、細胞(複数可)から生物中に見出される流体への放出を受けた。典型的に、cfDNAは、in vitro細胞溶解ステップを行う必要なく流体の試料を得ることにより得ることができ、これは、流体中に存在する細胞の除去(例えば、細胞を除去するための血液の遠心分離)も含む。
所与の標的領域セットに対するプローブの収集物の「捕捉収量」は、典型的な条件下で収集物が捕捉する標的領域セットに対応する核酸の量(例えば、別の標的領域セットと比べた量、または絶対量)を指す。例示的で典型的な捕捉条件は、65℃で10~18時間にわたる、厳密なハイブリダイゼーション用の緩衝剤を含有する少ない反応体積(約20μL)における試料核酸およびプローブのインキュベーションである。捕捉収量は、絶対的な用語で、またはプローブの複数の収集物については、相対的な用語で表現することができる。標的領域の複数のセットに対する捕捉収量が比較される場合、収量は、標的領域セットのフットプリントサイズに対して正規化される(例えば、1キロベースあたりの基盤で)。よって、例えば、第1および第2の標的領域のフットプリントサイズが、それぞれ50kbおよび500kbである場合(0.1の正規化因数(normalization factor)を生じる)、第1の標的領域セットに対応する捕捉されたDNAの体積あたりの質量の濃度が、第2の標的領域セットに対応する捕捉されたDNAの体積あたりの質量の濃度の0.1倍を超えるときに、第1の標的領域セットに対応するDNAは、第2の標的領域セットに対応するDNAよりも多い収量で捕捉される。さらに別の例として、同じフットプリントサイズを使用して、第1の標的領域セットに対応する捕捉されたDNAが、第2の標的領域セットに対応する捕捉されたDNAの体積あたりの質量の濃度の0.2倍の体積あたりの質量の濃度を有する場合、第1の標的領域セットに対応するDNAは、第2の標的領域セットに対応するDNAの2倍の大きさの捕捉収量で捕捉された。
1つまたは複数の標的核酸を「捕捉する」または「富化する」ステップは、非標的核酸から1つまたは複数の標的核酸を優先的に単離または分離するステップを指す。
核酸の「捕捉されたセット」は、捕捉を受けた核酸を指す。
「標的領域セット」または「標的領域のセット」または「標的領域」は、捕捉のために標的化されたおよび/またはプローブのセットによって標的化された(例えば、配列相補性により)複数のゲノム遺伝子座または複数のゲノム領域を指す。
「標的領域セットに対応する」は、cfDNA等の核酸が、標的領域セットにおける遺伝子座に起源を持つこと、または標的領域セットに対する1つもしくは複数のプローブに特異的に結合することを意味する。
プローブまたは他のオリゴヌクレオチドと標的配列との文脈における「特異的に結合する」は、適切なハイブリダイゼーション条件下で、オリゴヌクレオチドまたはプローブが、その標的配列またはその複製にハイブリダイズして、安定したプローブ:標的ハイブリッドを形成し、一方でそれと同時に、安定したプローブ:非標的ハイブリッドの形成が最小化されることを意味する。よって、プローブは、非標的配列よりも十分に大きい程度まで、標的配列またはその複製にハイブリダイズして、標的配列の捕捉または検出を可能にする。適切なハイブリダイゼーション条件は、当技術分野で周知である、配列組成に基づき予測することができる、またはルーチンの検査方法を使用することにより決定することができる(例えば、参照により本明細書に組み込まれるSambrook et al., Molecular Cloning, A Laboratory Manual, 2nd ed. (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989)の§§1.90~1.91、7.37~7.57、9.47~9.51および11.47~11.57、特に、§§9.50~9.51、11.12~11.13、11.45~11.47および11.55~11.57を参照)。
「配列可変標的領域セット」は、新生物細胞(例えば、腫瘍細胞およびがん細胞)におけるヌクレオチド置換、挿入、欠失または遺伝子融合もしくは転位等の配列の変化を示すことができる標的領域のセットを指す。
「エピジェネティック標的領域セット」は、新生物細胞(例えば、腫瘍細胞およびがん細胞)および非腫瘍細胞(例えば、免疫細胞、腫瘍微小環境由来の細胞)における非配列修飾を顕在化することができる標的領域のセットを指す。このような修飾は、DNAの配列を変化させない。非配列修飾変化の例は、メチル化(増加または減少)、ヌクレオソーム分布、CTCF結合、転写開始部位、調節性タンパク質結合領域、およびDNAに結合することができる他のいずれかのタンパク質の変化を含むがこれらに限定されない。本目的のため、新生物、腫瘍またはがん関連の限局的増幅および/または遺伝子融合に対して感受性である遺伝子座もまた、エピジェネティック標的領域セットに含まれ得るが、その理由として次のことが挙げられる:例えば、限局的増幅および/または遺伝子融合は、それらの検出が1個または数個の個々の位置における塩基コールの精度に依存しないため、相対的に浅いシーケンシング深度で検出され得るという点において、シーケンシングによるコピー数の変化の検出または参照ゲノムにおける2つ以上の遺伝子座にマッピングする融合された配列の検出は、ヌクレオチド置換、挿入または欠失の検出よりも、上に記述される例示的なエピジェネティック変化の検出に類似する傾向がある。例えば、エピジェネティック標的領域セットは、断片長または断片終点位置分布を解析するための標的領域のセットを含むことができる。
循環する腫瘍DNAまたはctDNAは、腫瘍細胞またはがん細胞に起源を持つcfDNAの構成成分である。一部の実施形態では、cfDNAは、正常細胞に起源を持つDNAおよび腫瘍細胞に起源を持つDNA(すなわち、ctDNA)を含む。腫瘍細胞は、それが腫瘍内に留まっているか腫瘍から離れたか(例えば、転移性がん細胞および循環する腫瘍細胞の場合のように)に関係なく、腫瘍に起源を持つ新生物細胞である。
用語「高メチル化」は、核酸分子の集団(例えば、試料)内の他の核酸分子と比べて核酸分子(複数可)の増加したレベルまたは程度のメチル化を指す。一部の実施形態では、高メチル化DNAは、少なくとも1個のメチル化残基、少なくとも2個のメチル化残基、少なくとも3個のメチル化残基、少なくとも5個のメチル化残基、少なくとも10個のメチル化残基、少なくとも20個のメチル化残基、少なくとも25個のメチル化残基または少なくとも30個のメチル化残基を含むDNA分子を含むことができる。
用語「低メチル化」は、核酸分子の集団(例えば、試料)内の他の核酸分子と比べて核酸分子(複数可)の減少したレベルまたは程度のメチル化を指す。一部の実施形態では、低メチル化DNAは、非メチル化DNA分子を含む。一部の実施形態では、低メチル化DNAは、0個のメチル化残基、多くても1個のメチル化残基、多くても2個のメチル化残基、多くても3個のメチル化残基、多くても4個のメチル化残基または多くても5個のメチル化残基を含むDNA分子を含むことができる。
用語「メチル化ヌクレオチド」は、チミンのピリミジン環に取り付けられたメチル以外の、メチル基が取り付けられたヌクレオチドを指す。メチル化ヌクレオチドの例は、5-メチルシトシンまたは7-メチルグアニンを含むヌクレオチドである。
本明細書で使用される場合、「分子の配列」およびその文法的なバリアントは、同じ本来の試料分子に由来する分子由来のリードを含む複数のリードから決定される配列を指す。リードは、例えば、タグまたはバーコードの配列;試料配列の最初および最後のヌクレオチドに対応するゲノム位置;ならびに/または5’タグ配列の直後のおよび/もしくは3’タグ配列の直前の複数の塩基の配列(複数可)のうち1つまたは複数に基づき、同じ本来の試料分子に由来すると決定することができる。一部の実施形態では、分子の配列における各塩基は、当該位置におけるリードの最小数の一致に基づき決定される、例えば、少なくとも2、3、4、5、6、7、8、9または10個のリード;要求されるリードの数は、コールが、DNAの両方の鎖または一方の鎖のみのリードによって支持されるか否かに依存することができる、例えば、分子の配列の両方の鎖のためのリードが存在する場合と比べて、配列の一方の鎖のみのためのリードが存在する場合、要求されるリードの数は、1、2、3、4または5個のリードだけ増加することができる。
用語「またはこれらの組合せ(単数)」および「またはこれらの組合せ(複数)」は、本明細書で使用される場合、この用語に先行する、収載されている用語のありとあらゆる並べ替えおよび組合せを指す。例えば、「A、B、Cまたはこれらの組合せ」は、A、B、C、AB、AC、BCまたはABCのうち少なくとも1つを含むことを意図し、特定の文脈における順序が重要である場合、BA、CA、CB、ACB、CBA、BCA、BACまたはCABも含むことを意図する。この例に続けて、BB、AAA、AAB、BBC、AAABCCCC、CBBAAA、CABABBその他等、1つまたは複数の項目または用語の反復を含有する組合せが明確に含まれる。当業者であれば、典型的に、文脈からそれ以外のことが明らかとならない限り、いずれかの組合せにおける項目または用語の数には限界がないことを理解するであろう。
「または」は、文脈がそれ以外を要求しない限り、包括的な意味で使用される、すなわち、「および/または」と均等である。
II.例示的な方法
II.例示的な方法
DNAの試料を解析する方法が本明細書に提供される。一部の実施形態では、方法は、それぞれ高メチル化および低メチル化画分由来の配列リードの第1および第2のセットを得るステップを含む。一部の実施形態では、方法は、それぞれ高メチル化および低メチル化画分由来の分子の配列の第1および第2のセットを得るステップを含む。分子の配列は、例えば、DNAの試料を複数の画分に分配するステップであって、複数の画分が、高メチル化画分および低メチル化画分を含む、ステップ;高メチル化および低メチル化画分におけるDNAをタグ付けして、分子バーコードを含むタグ付けされた核酸を生成するステップ;高メチル化画分由来の分子の配列リードおよび低メチル化画分由来の分子の配列リードを得るステップであって、配列リードが、分子バーコード配列および試料配列を含む、ステップ;ならびに(a)分子バーコード配列ならびに(b)試料配列の最初および最後のヌクレオチドに対応するゲノム位置のうち少なくとも1つに基づき、配列リードをファミリーに群分けするステップであって、ファミリーが、試料における単一のDNA分子に由来する配列リードを含む、ステップによって得ることができる。一部の実施形態では、方法は、配列リードまたは分子の配列の第1および第2のセット由来の配列を決定するステップを含む。用語「配列」は、集団的な意味で使用されており、1つの連続的な配列を必ずしも暗示しない。すなわち、これは、全ゲノム配列(例えば、複数の染色体配列を含む)、ゲノム遺伝子座もしくは遺伝子のセット、配列の他のいずれかのセット、個々の位置における塩基の同一性、またはこれらの組合せを指すことができる。一部の実施形態では、方法は、高メチル化画分由来の分子の配列の第1のセットおよび低メチル化画分由来の分子の配列の第2のセットを決定するステップを含む。一部の実施形態では、方法は、低メチル化画分由来の分子の配列のセットを得るステップを含む。分子の配列は、例えば、DNA試料を複数の画分に分配するステップであって、複数の画分が、高メチル化画分および低メチル化画分を含む、ステップ;低メチル化画分におけるDNAをタグ付けして、分子バーコードを含むタグ付けされた核酸を生成するステップ;低メチル化画分由来の分子の配列リードを得るステップであって、配列リードが、分子バーコード配列および試料配列を含む、ステップ;ならびに(a)分子バーコード配列ならびに(b)試料配列の最初および最後のヌクレオチドに対応するゲノム位置のうち少なくとも1つに基づき、配列リードをファミリーに群分けするステップであって、ファミリーが、試料における単一のDNA分子に由来する配列リードを含む、ステップによって得ることができる。一部の実施形態では、方法は、配列リードまたは分子の配列のセット由来の配列を決定するステップを含む。
方法は、参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップを含むことができる。参照配列は、試料が得られた生物(例えば、ヒト等の哺乳動物)のための標準ゲノム配列であり得る。その代わりに、参照配列は、試料が得られた同じ対象由来の別の配列であり得る;そのような場合、参照配列は、例えば、健康な組織またはより初期の時点に由来し得る。
一部の実施形態では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求する。一部の実施形態では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子の配列におけるトランジション変異の観察を要求する。本明細書の他の箇所に記載されている通り、高メチル化画分(例えば、cfDNAの)が、低メチル化画分よりも損傷された(例えば、脱アミノ化された)DNAを高頻度で含有することが決定され、これにより、DNAが起源を持つ細胞における実際の配列に対応しない、見かけ上のCからTへのまたはGからAへのトランジション変異を有する配列リードがもたらされる。参照配列と比べた実際のin vivo変異に対応しない脱アミノ化塩基は、人為現象的脱アミノ化と称することができる。いずれか特定の理論に制約されることは望まないが、例えば、高メチル化DNAは、脱アミノ化等の損傷に対してより感受性であり得る、または脱アミノ化剤等の損傷剤へとより曝露され得ることが可能であるため、損傷された(例えば、脱アミノ化された)DNAは、高メチル化画分に優先的に分配され得る。したがって、人為現象的脱アミノ化のリスクが増加する可能性があり、したがって、高メチル化画分由来のDNAをシーケンシングする場合に偽陽性のCからTへのまたはGからAへのトランジション変異をコールする可能性がある。第1のセットのリードまたは分子に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするための、より多い数のリードまたは分子におけるトランジション変異の観察の要求は、人為現象的脱アミノ化の頻度の増加を代償し、高メチル化画分から決定された配列におけるトランジション変異の偽陽性コールの上昇のリスクを低下または排除することができる。
例えば、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも3つのリードにおけるトランジション変異の観察を要求することができる。そのような実施形態では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、1または2つのリード、例えば、2つのリードにおけるトランジション変異の観察を要求することができる。一部の実施形態では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、その塩基を含むリードの少なくとも部分におけるトランジション変異の観察を要求することができる。部分は、例えば、その塩基を含む10,000個のリードあたり3個のリード、またはその塩基を含むリードの少なくとも0.1%、0.5%、1%、2%、5%、10%、20%、30%もしくは40%であり得る。一部の実施形態では、リードの部分は、その塩基を含むリードの0.1%未満であり得る。一部の実施形態では、リードの部分は、その塩基を含むリードの少なくとも40%であり得る。必要に応じて、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、その塩基を含む10,000個のリードあたり1もしくは2個のリード、例えば、その塩基を含む10,000個のリードあたり2個のリード、またはその塩基を含むリードの少なくとも0.1%、0.5%、1%、2%、5%、10%、20%もしくは30%におけるトランジション変異の観察を要求することができ、要求される観察の数は、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップに要求される数よりも少ない。
別の例では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも3つの分子におけるトランジション変異の観察を要求することができる。そのような実施形態では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、1または2つの分子、例えば、2つの分子におけるトランジション変異の観察を要求することができる。一部の実施形態では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、その塩基を含む10,000個の分子あたり少なくとも3個の分子の配列、またはその塩基を含む分子の配列の少なくとも0.1%、0.5%、1%、2%、5%、10%、20%、30%もしくは40%におけるトランジション変異の観察を要求することができる。必要に応じて、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、その塩基を含む10,000個の分子あたり1もしくは2個の分子の配列、例えば、その塩基を含む10,000個の分子あたり2個の分子の配列、または10,000個あたり少なくとも3個、その塩基を含む分子の配列の0.1%、0.5%、1%、2%、5%、10%、20%もしくは30%におけるトランジション変異の観察を要求することができ、要求される観察の数は、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップに要求される数よりも少ない。
別の例では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも4つのリードにおけるトランジション変異の観察を要求することができる。そのような実施形態では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、1、2または3つのリード、例えば、2または3つのリードにおけるトランジション変異の観察を要求することができる。
別の例では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも4つの分子におけるトランジション変異の観察を要求することができる。そのような実施形態では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、1、2または3つの分子、例えば、2または3つの分子におけるトランジション変異の観察を要求することができる。
別の例では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも5つのリードにおけるトランジション変異の観察を要求することができる。そのような実施形態では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、1、2、3もしくは4つのリード、例えば、2、3もしくは4つのリード、またはより具体的には、2もしくは3つのリードにおけるトランジション変異の観察を要求することができる。
別の例では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも5つの分子におけるトランジション変異の観察を要求することができる。そのような実施形態では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、1、2、3もしくは4つの分子、例えば、2、3もしくは4つの分子、またはより具体的には、2もしくは3つの分子におけるトランジション変異の観察を要求することができる。より一般には、CからTへのまたはGからAへのトランジション変異をコールするステップに要求される観察の数は、次の表1に示す通りであり得る。
適切な値は、試料の品質、配列データの深度、ならびに特異度(偽陽性を回避)および感度(偽陰性を回避)の相対的な重要性のうち1つもしくは複数、または全てに基づき選択することができる。一部の実施形態では、第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも少なくとも2つ多いリードにおけるトランジション変異の観察を要求する。一部の実施形態では、第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップは、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも少なくとも2つ多い分子におけるトランジション変異の観察を要求する。
一部の実施形態では、CからTへのまたはGからAへのトランジション変異は、第1のセットのリードに基づき参照配列と比べてコールされない。一部の実施形態では、CからTへのまたはGからAへのトランジション変異は、第1のセットの分子の配列に基づき参照配列と比べてコールされない。一部の実施形態では、CからTへのまたはGからAへのトランジション変異は、第1のセットのリードを使用せずに第2のセットのリードに基づき参照配列と比べてコールされる。一部の実施形態では、CからTへのまたはGからAへのトランジション変異は、第1のセットの分子の配列を使用せずに第2のセットの分子の配列に基づき参照配列と比べてコールされる。例えば、CからTへのまたはGからAへのトランジション変異がコールされる限りにおいて、それらは、低メチル化画分からの、または低メチル化画分および本明細書の他の箇所において考察される1つもしくは複数の中等度画分からの証拠にのみ基づきコールされ得る。そのような実施形態は、高メチル化画分中の損傷を受けた(例えば、脱アミノ化された)DNAに起因する偽陽性のCからTへのまたはGからAへのトランジション変異をコールするリスクを除外する。一部の実施形態では、CからTへのまたはGからAへのトランジション変異は、第2のセットの分子の少なくとも1つの配列(例えば、第2のセットの分子の少なくとも2つの配列)が、CからTへのまたはGからAへのトランジション変異を含む場合に限り、参照配列と比べてコールされる。一部の実施形態では、CからTへのまたはGからAへのトランジション変異は、第2のセットの少なくとも1つのリード(例えば、第2のセットの少なくとも2つのリード)が、CからTへのまたはGからAへのトランジション変異を含む場合に限り、参照配列と比べてコールされる。
一部の実施形態では、中等度画分由来の配列リードの第3のセットが得られ、それから、中等度画分由来の分子の配列の第3のセットが決定され得る。これらの実施形態の一部では、CからTへのおよびGからAへのトランジション変異が第1のセットの分子の配列に基づきコールされるよりも低い厳密性で、CからTへのまたはGからAへのトランジション変異が第3のセットの分子の配列に基づきコールされ得る。これらの実施形態の一部では、CからTへのおよびGからAへのトランジション変異が第2のセットの分子の配列に基づきコールされるのと同じ仕方で、CからTへのおよびGからAへのトランジション変異が第3のセットの分子の配列に基づきコールされ得る。一部の実施形態では、CからTへのおよびGからAへのトランジション変異が第2のセットの分子の配列に基づきコールされるよりも高い厳密性で、CからTへのおよびGからAへのトランジション変異が第3のセットの分子の配列に基づきコールされ得る。
一部の実施形態では、中等度画分由来の配列リードの第3のセットが得られ、それから、中等度画分由来の配列リードの第3のセットが、第1および第2のセットに加えて決定され得る。一部の実施形態では、CからTへのおよびGからAへのトランジション変異が第1のセットのリードに基づきコールされるよりも低い厳密性で、CからTへのまたはGからAへのトランジション変異が第3のセットのリードに基づきコールされ得る。一部の実施形態では、CからTへのおよびGからAへのトランジション変異が第2のセットのリードに基づきコールされるのと同じ仕方で、CからTへのおよびGからAへのトランジション変異が第3のセットのリードに基づきコールされる。一部の実施形態では、CからTへのおよびGからAへのトランジション変異が第2のセットのリードに基づきコールされるよりも高い厳密性で、CからTへのおよびGからAへのトランジション変異が第3のセットのリードに基づきコールされる。
一部の実施形態では、閾値が、分子の配列に基づきCからTへのまたはGからAへのトランジションをコールするために使用され得る。例えば、一部の実施形態では、第1の閾値は、第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジションをコールするために使用され、第2の閾値は、第2のセットの分子の配列に基づきCからTへのまたはGからAへのトランジションをコールするために使用される。一部の実施形態では、第1の閾値は、CからTへのまたはGからAへのトランジションをコールするための特異度の第1のレベルを提供し、第2の閾値は、CからTへのまたはGからAへのトランジションをコールするための特異度の第2のレベルを提供する。一部の実施形態では、特異度の第1のレベルは、特異度の第2のレベルにほぼ等しい。他の実施形態では、特異度の第1のレベルは、特異度の第2のレベルの10%、5%、4%、3%、2%、1%、0.5%、0.2%または0.1%以内である。一部の実施形態では、第1および第2の閾値は、CからTへのおよび/またはGからAへのトランジションに特異的である。
一部の実施形態では、第1および第2の閾値は、複数の対照試料から決定され得る。一部の実施形態では、第1および第2の閾値は、少なくとも1つの対照試料から決定される。これらの実施形態の一部では、対照試料は、がんを有すると疑われていない個体由来であってもよい。
一部の実施形態では、バックグラウンドシーケンシング誤り率は、本開示の方法に組み込まれ得る。例えば、位置特異的バックグラウンド誤り率の第1の群は、第1のセットの配列の第1のセットの配列のための複数の位置のために使用され得る。一部の例は、第2のセットの配列のための複数の位置のために使用される位置特異的バックグラウンド誤り率の第2の群をさらに含む。これらの例では、第2の群は、第1の群の対応する位置特異的バックグラウンド誤り率よりも高い位置特異的バックグラウンド誤り率を含む。これらの実施形態の一部では、第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップは、位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、CからTへのまたはGからAへのトランジション変異の観察を要求する。
一部の実施形態では、第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも2、3、4または5倍、位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、CからTへのまたはGからAへのトランジション変異の観察を要求する。
一部の実施形態では、第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップは、少なくとも95%、98%、99%、99.5%または99.9%の信頼水準と一致する量だけ、位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、CからTへのまたはGからAへのトランジション変異の観察を要求する。信頼水準は、例えば、標準偏差、平均の標準誤差、信頼区間、tスコアおよびZスコアを含み得る統計的尺度を使用して、適切な統計学に基づき決定され得る。一部の実施形態では、位置特異的バックグラウンド誤り率の第1および第2の群は、複数の対照試料から決定された。一部の実施形態では、対照試料は、がんを有すると疑われていない個体由来であってもよい。一部の実施形態では、位置特異的バックグラウンド誤り率の第1および第2の群は、病歴データ、例えば、以前に得られた配列データのセットにおける所定の信頼閾値に適合しない明らかな変異の頻度を使用して決定された。一部の実施形態では、位置特異的バックグラウンド誤り率の第1および第2の群は、例えば実行時に、それぞれ高メチル化および低メチル化画分由来の分子のリードおよび/または配列を使用して決定された。
1.分配するステップ;エピジェネティック特徴の分析
1.分配するステップ;エピジェネティック特徴の分析
本明細書に記載されるある特定の実施形態では、本方法は、例えば高メチル化および低メチル化画分、ならびに必要に応じて、1つまたは複数の追加の(例えば、中等度にメチル化された)画分ならびに/または高メチル化および低メチル化画分のサブ画分を提供するために、DNAの試料を分配するステップを含む。一般的に、試料中のDNA、例えば、本明細書の他の箇所に記載したcfDNAの捕捉されたセットは、解析、例えば、シーケンシング、またはタグ付けおよびシーケンシングの前に、核酸の1つまたは複数の特徴(例えば、メチル化)に基づき物理的に分配され得る。このアプローチは、例えば、高メチル化可変エピジェネティック標的領域が腫瘍細胞に特徴的な高メチル化を示すかどうか、または低メチル化可変エピジェネティック標的領域が腫瘍細胞に特徴的な低メチル化を示すかどうかを決定するために使用され得る。加えて、不均一な核酸集団を分配することによって、例えば、集団の1つの分画(または画分)中により多く存在するまれな核酸分子を富化することによって、まれなシグナルを増加させてもよい。例えば、高メチル化DNA中に存在するが、低メチル化DNA中には存在が少ない(または存在しない)遺伝的バリエーション(例えば、CからTへのまたはGからAへのトランジション変異以外の遺伝的バリエーション)は、試料を高メチル化核酸分子および低メチル化核酸分子に分配することによって、より容易に検出することができる。試料の複数の分画を解析することによって、ゲノムの単一の遺伝子座または核酸の種の多次元解析を実施することができ、したがってより高い感度を達成することができる。
一部の例では、不均一な核酸試料は、2つまたはそれよりも多くの画分(例えば、少なくとも3、4、5、6または7つの画分)に分配される。一部の実施形態では、各分画は、示差的にタグ付けされる。次いで、タグ付けされた画分は、集合的な試料調製および/またはシーケンシングのために共にプールされ得る。分配-タグ付け-プールするステップは、1回よりも多く行われ得、分配の各ラウンドは、異なる特徴に基づき行われ(本明細書に提供される実施例)、他の画分および分配手段とは区別される示差的タグを使用してタグ付けされる。
分配のために使用され得る特徴の例には、配列長さ、メチル化レベル、ヌクレオソーム結合、配列ミスマッチ、免疫沈殿、および/またはDNAに結合するタンパク質が含まれる。得られた画分は、以下の核酸形態のうち1つまたは複数を含み得る:一本鎖DNA(ssDNA)、二本鎖DNA(dsDNA)、短いDNA断片および長いDNA断片。一部の実施形態では、核酸の不均一な集団は、1つまたは複数のエピジェネティック改変を有する核酸と、1つまたは複数のエピジェネティック改変を有さない核酸とに分配される。エピジェネティック改変の例には、メチル化の存在または非存在;メチル化のレベル;メチル化の型(例えば、5-メチルシトシン対他の型のメチル化、例えば、アデニンメチル化および/またはシトシンヒドロキシメチル化);ならびに1つまたは複数のタンパク質、例えばヒストンとの会合および会合のレベルが含まれる。あるいはまたは加えて、核酸の不均一な集団は、ヌクレオソームに関連する核酸分子と、ヌクレオソームを欠く核酸分子とに分配され得る。あるいはまたは加えて、核酸の不均一な集団は、一本鎖DNA(ssDNA)と二本鎖DNA(dsDNA)とに分配され得る。あるいはまたは加えて、核酸の不均一な集団は、核酸長さに基づいて分配してもよい(例えば、最大160bpの分子および160bpよりも長い長さを有する分子)。
一部の例では、各分画(異なる核酸形態を代表する)は、示差的に標識され、画分は、シーケンシングの前に共にプールされる。他の例では、異なる形態は、別個にシーケンシングされる。
図1は、分配するステップを含む例示的なスキームを示す。異なる核酸(101)の集団は、2つまたはそれよりも多くの異なる画分(103a、b)に分配される(102)。各分画(103a、b)は、異なる核酸形態の代表である。各分画は、明確にタグ付けされる(104)。タグ付けされた核酸は、シーケンシング(108)の前に共にプールされる(107)。リードは、in silicoで解析される。タグを使用して、異なる画分からのリードを選別する。遺伝子バリアントを検出するための解析を、画分毎のレベルおよび全核酸集団レベルで実施することができる。明らかなCからTへのまたはGからAへのトランジション変異は、本明細書の他の箇所に詳細に記載したより厳密なパラメーター、またはCからTへのもしくはGからAへのトランジション変異をコールするために簡単に使用することができない高メチル化画分由来の分子のリードもしくは配列を使用して、高メチル化画分について別個に解析され得る。例示的な解析には、遺伝子バリアント、例えば、CNV、SNV、インデル、各分画中の核酸の融合を決定するためのin silico解析が含まれ得る。一部の例では、in silico解析には、クロマチン構造を決定することが含まれ得る。例えば、配列リードのカバレッジが、クロマチンのヌクレオソーム画分を決定するために使用され得る。より高いカバレッジは、ゲノム領域におけるより高いヌクレオソーム占有率と相関し得るが、より低いカバレッジは、より低いヌクレオソーム占有率またはヌクレオソーム枯渇領域(NDR)と相関し得る。
試料には、ヌクレオチド、および通常は非共有結合的な1つまたは複数のタンパク質への結合に対する複製後改変を含む改変が異なる核酸を含み得る。
本明細書の他の箇所に記載した任意のタイプの試料が使用され得る。ある実施形態では、核酸の集団は、新生物、腫瘍もしくはがんを有すると疑われる対象、または新生物、腫瘍もしくはがんと以前に診断された対象由来の組織、血清、血漿または血液試料から得られるものである。核酸の集団は、メチル化の異なるレベルを有する核酸を含む。メチル化は、いずれか1つまたは複数の複製後改変または転写改変から生じ得る。複製後改変には、ヌクレオチドのシトシン、特に、核酸塩基の5位でのシトシンの改変、例えば、5-メチルシトシン、5-ヒドロキシメチルシトシン、5-ホルミルシトシンおよび5-カルボキシルシトシンが含まれる。
一部の実施形態では、元の集団中の核酸は、一本鎖および/または二本鎖であり得る。核酸の一本鎖性対二本鎖性に基づく分配は、例えば、ssDNAを分配するために標識された捕捉プローブを使用すること、およびdsDNAを分配するために二本鎖アダプターを使用することによって成し遂げられ得る。
分配するステップは、特徴の相違に基づき核酸に選択的に結合するか、または核酸を分離する、任意の適切な試薬、例えば、本明細書の他の箇所に記載した試薬のいずれかを使用して実施することができる。試薬は、所望の特異性を有する抗体、天然結合パートナーもしくはそのバリアント(Bock et al., Nat Biotech 28: 1106-1114 (2010);Song et al., Nat Biotech 29: 68-72 (2011))、または例えば、所与の標的に対する特異性を有するファージディスプレイによって選択された人工ペプチドであり得る。
本明細書で企図される試薬の例には、本明細書に記載されるメチル結合ドメイン(MBD)およびメチル結合タンパク質(MBP)が含まれる。
同様に、異なる形態の核酸を分配するステップは、遊離または未結合核酸からヒストンに結合した核酸を分離することができるヒストン結合タンパク質を使用して実施することができる。本明細書に開示される方法において使用され得るヒストン結合タンパク質の例には、RBBP4(RbAp48)およびSANTドメインペプチドが含まれる。
一部の試薬および改変に関して、試薬への結合は、核酸が改変を有するか否かに応じて本質的に全か無かの様式で起こり得るが、分離は程度の問題であり得る。そのような例では、改変で過剰出現する核酸は、改変で過少出現する核酸より大きい程度に試薬に結合する。あるいは、改変を有する核酸は、全か無かの様式で結合し得る。しかし、様々なレベルの改変が結合剤から逐次的に溶出され得る。
例えば、一部の実施形態では、分配は、バイナリであるか、または改変の程度/レベルに基づき得る。例えばすべてのメチル化断片は、メチル結合ドメインタンパク質(例えば、MethylMinerメチル化DNA富化キット(Thermo Fisher Scientific))を使用して非メチル化断片から分配することができる。次いで、追加の分配は、メチル結合ドメインおよび結合した断片を含む溶液中の塩濃度を調節することによって、異なるレベルのメチル化を有する断片を溶出するステップを伴い得る。塩濃度が増加すると、より大きいメチル化レベルを有する断片が溶出される。
一部の例では、最終画分は、異なる程度の改変(改変の過剰出現または過少出現)を有する核酸の代表である。過剰出現および過少出現は、集団における鎖あたりの改変の数の中央値と比較した、核酸が有する改変の数によって定義することができる。例えば、試料中の核酸中の5-メチルシトシン残基の数の中央値が2である場合、2つよりも多くの5-メチルシトシン残基を含む核酸はこの改変では過剰出現され、1またはゼロ個の5-メチルシトシン残基を有する核酸は過少出現される。親和性分離の効果は、結合相で改変において過剰出現される核酸および非結合相(すなわち、溶液中)で改変において過少出現される核酸を富化することである。結合相における核酸は、その後の処理の前に溶出させることができる。
MethylMinerメチル化DNA富化キット(Thermo Fisher Scientific)を使用する場合、様々なレベルのメチル化を、逐次的溶出を使用して分配することができる。例えば、低メチル化画分(例えば、メチル化なし)を、核酸集団に、磁気ビーズに結合したキットからのMBDを接触させることによってメチル化画分から分離することができる。ビーズを使用して、非メチル化核酸からメチル化核酸を分離する。次いで、1つまたは複数の溶出ステップを逐次的に実施して、異なるレベルのメチル化を有する核酸を溶出する。例えば、メチル化核酸の第1のセットを、160mMまたはそれよりも高い塩濃度、例えば、少なくとも200mM、300mM、400mM、500mM、600mM、700mM、800mM、900mM、1000mMまたは2000mMで溶出することができる。そのようなメチル化核酸を溶出後、磁気分離を再度使用して、高レベルのメチル化核酸を低レベルのメチル化を有する核酸から分離する。溶出および磁気分離ステップを繰り返して、低メチル化画分(例えば、メチル化なしの代表)、メチル化画分(低レベルのメチル化の代表)、および高メチル化画分(高レベルのメチル化の代表)等の様々な画分を作製することができる。
一部の方法では、親和性分離のために使用した作用剤に結合した核酸を、洗浄ステップに供する。洗浄ステップは、親和性剤に弱く結合した核酸を洗い流す。そのような核酸を、平均値または中央値に近い程度まで改変を有する核酸(すなわち、固相に結合したままである核酸と、試料に作用剤を最初に接触させた場合に固相に結合しない核酸との間の中等度)において富化することができる。
親和性分離は、異なる程度の改変を有する核酸の少なくとも2つ、時に3つまたはそれよりも多くの画分をもたらす。画分は依然として別個であるが、少なくとも1つの画分、通常は2つまたは3つ(またはそれよりも多く)の画分の核酸は、通常、アダプターの成分として提供される核酸タグに連結され、異なる画分中の核酸は、1つの画分のメンバーを別の画分のメンバーから区別する異なるタグを受ける。同じ画分の核酸分子に連結されたタグは、互いに同じまたは異なり得る。しかし、互いに異なる場合、タグは、それらが結合される分子を、特定の画分のものであると同定するために、それらのコードの一部を共通して有することができる。
メチル化等の特徴に基づく核酸試料の分割に関するさらなる詳細に関して、参照により本明細書に組み込まれるWO2018/119452号を参照されたい。
一部の実施形態では、核酸分子は、特異的タンパク質またはその断片に結合する核酸分子およびその特異的タンパク質またはその断片に結合しない核酸分子に基づき、異なる画分に分画され得る。
核酸分子は、DNA結合タンパク質に基づき分画され得る。タンパク質-DNA複合体は、タンパク質の特異的性質に基づき分画され得る。そのような性質の例には、様々なエピトープ、改変(例えば、ヒストンのメチル化またはアセチル化)または酵素活性が含まれる。DNAに結合し得、分画のための基礎としての役割を果たし得るタンパク質の例には、プロテインAおよびプロテインGが含まれ得るがこれらに限定されない。任意の好適な方法が、タンパク質結合領域に基づき核酸分子を分画するために使用され得る。タンパク質結合領域に基づき核酸分子を分画するために使用される方法の例には、SDS-PAGE、クロマチン免疫沈降(ChIP)、ヘパリンクロマトグラフィーおよび非対称フィールドフロー分画(AF4)が含まれるがこれらに限定されない。
一部の実施形態では、核酸の分配は、核酸を、メチル化結合タンパク質(「MBP」)のメチル化結合ドメイン(「MBD」)と接触させることによって実施される。MBDは、5-メチルシトシン(5mC)に結合する。MBDは、ビオチンリンカーを介して、常磁性ビーズ、例えば、Dynabeads(登録商標)M-280ストレプトアビジンにカップリングされる。異なる程度のメチル化を有する分画への分配は、NaCl濃度を増加させることにより分画を溶出させることによって実施され得る。
本明細書で企図されるMBPの例には、以下が含まれるがこれらに限定されない:
(a)MeCP2は、未改変のシトシンよりも5-メチル-シトシンに優先的に結合するタンパク質である;
(b)RPL26、PRP8およびDNAミスマッチ修復タンパク質MHS6は、未改変のシトシンよりも5-ヒドロキシメチル-シトシンに優先的に結合する;
(c)FOXK1、FOXK2、FOXP1、FOXP4およびFOXI3は、未改変のシトシンよりも5-ホルミル-シトシンに好適に結合する(Iurlaro et al., Genome Biol. 14: R119 (2013));
(d)1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体。
(a)MeCP2は、未改変のシトシンよりも5-メチル-シトシンに優先的に結合するタンパク質である;
(b)RPL26、PRP8およびDNAミスマッチ修復タンパク質MHS6は、未改変のシトシンよりも5-ヒドロキシメチル-シトシンに優先的に結合する;
(c)FOXK1、FOXK2、FOXP1、FOXP4およびFOXI3は、未改変のシトシンよりも5-ホルミル-シトシンに好適に結合する(Iurlaro et al., Genome Biol. 14: R119 (2013));
(d)1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体。
一般的に、溶出は、分子あたりのメチル化部位の数の関数であり、より多くのメチル化を有する分子は、増加した塩濃度下で溶出する。メチル化の程度に基づきDNAを別個の集団に溶出させるために、増加するNaCl濃度の一連の溶出緩衝液を使用することができる。塩濃度は、約100mM~約2500mMのNaClの範囲であり得る。一実施形態では、処理は、3つの画分をもたらす。分子は、第1の塩濃度の溶液と接触され、含まれる分子はメチル結合ドメインを含み、この分子は、ストレプトアビジン等の捕捉部分に結合され得る。第1の塩濃度で、分子の集団はMBDに結合し、集団は非結合のままである。非結合集団は、「低メチル化」集団として分離され得る。例えば、DNAの低メチル化形態を代表する第1の画分は、低い塩濃度、例えば、100mMまたは160mMで非結合のままの画分である。中等度にメチル化されたDNAを代表する第2の画分は、中等度の塩濃度、例えば、100mM~2000mMの濃度を使用して溶出される。これは、試料からも分離される。DNAの高メチル化形態を代表する第3の画分は、高い塩濃度、例えば、少なくとも約2000mMを使用して溶出される。
a.画分のタグ付け
a.画分のタグ付け
一部の実施形態では、DNAの試料の2つまたはそれよりも多くの画分、例えば、各分画は、示差的にタグ付けされているか、または示差的にタグ付けされる。タグは、核酸等の分子であり得、タグが関連する分子の特色を示す情報を含む。例えば、分子は、試料タグ(1つの試料中の分子を異なる試料中の分子から区別する)、画分タグ(1つの画分中の分子を異なる画分中の分子から区別する)または分子タグ(互いから異なる分子を区別する(一意的および非一意的なタグ付けシナリオの両方で))を有し得る。ある特定の実施形態では、タグは、1つのバーコードまたはバーコードの組合せを含み得る。本明細書で使用される場合、用語「バーコード」は、文脈に応じて、特定のヌクレオチド配列を有する核酸分子、またはヌクレオチド配列自体を指す。バーコードは、例えば、10~100ヌクレオチドを有し得る。バーコードのコレクションは、特定の目的で所望される通り、変性配列を有し得るか、またはある特定のハミング距離を有する配列を有し得る。そのため、例えば、試料インデックス、画分インデックスまたは分子インデックスは、分子の異なる末端にそれぞれ結合した1つのバーコードまたは2つのバーコードの組合せから構成され得る。
タグは、タグ(または複数のタグ)を特定の画分と相関させるために、個々のポリヌクレオチド集団画分を標識するために使用され得る。あるいは、タグは、分配するステップを用いない本発明の実施形態において使用され得る。一部の実施形態では、単一のタグが、特異的画分を標識するために使用され得る。一部の実施形態では、複数の異なるタグが、特異的画分を標識するために使用され得る。特異的画分を標識するために複数の異なるタグを使用する実施形態では、1つの画分を標識するために使用されるタグのセットは、他の画分を標識するために使用されるタグのセットに関して容易に識別することができる。一部の実施形態では、タグは、追加の機能を有し得、例えば、タグは、試料供給源をインデックスするために使用され得るか、または一意的分子識別子として使用され得るか(例えば、Kinde et al., Proc Nat'l Acad Sci USA 108: 9530-9535 (2011)、Kou et al., PLoS ONE,11: e0146638 (2016)におけるように、シーケンシング誤差を変異から識別することによってシーケンシングデータの品質を改善するために使用され得る)、または例えば、米国特許第9,598,731号に記載されるように、非一意的分子識別子として使用され得る。同様に、一部の実施形態では、タグは、追加の機能を有し得、例えば、タグは、試料供給源をインデックスするために使用され得るか、または非一意的分子識別子として使用され得る(シーケンシング誤差を変異から識別することによってシーケンシングデータの品質を改善するために使用され得る)。
一実施形態では、画分タグ付けは、各画分中の分子を画分タグでタグ付けすることを含む。画分を再び合わせ、分子をシーケンシングした後、画分タグは供給源画分を同定する。別の実施形態では、異なる画分は、例えばバーコードの対から構成される異なるセットの分子タグでタグ付けされる。このように、各分子バーコードは、供給源画分、および画分内の分子を区別するために有用であることを示す。例えば、35個のバーコードの第1のセットは、第1の画分中の分子をタグ付けするために使用され得、一方で、35個のバーコードの第2のセットは、第2の画分中の分子をタグ付けするために使用され得る。
一部の実施形態では、分配および画分タグでのタグ付けの後に、分子を単一の試行でのシーケンシングのためにプールしてもよい。一部の実施形態では、試料タグを、例えば、画分タグの付加およびプールの後のステップにおいて分子に付加する。試料タグは、単一のシーケンシング試行におけるシーケンシングのために複数の試料から生成された材料をプールすることを容易にすることができる。
あるいは、一部の実施形態では、画分タグは、試料および画分と相関し得る。単純な例として、第1のタグは、第1の試料の第1の画分を示し得;第2のタグは、第1の試料の第2の画分を示し得;第3のタグは、第2の試料の第1の画分を示し得;第4のタグは、第2の試料の第2の画分を示し得る。
タグは、1つまたは複数の特徴に基づき既に分配された分子に結合してもよいが、ライブラリ中の最終のタグ付けされた分子は、もはやその特徴を保有していなくてもよい。例えば、一本鎖DNA分子が分配およびタグ付けされ得るが、ライブラリ中の最終のタグ付けされた分子は、おそらく二本鎖である。同様に、DNAをメチル化の異なるレベルに基づき分配に供してもよいが、最終のライブラリでは、これらの分子に由来するタグ付けされた分子はおそらくメチル化されていない。したがって、ライブラリ中の分子に結合したタグは典型的には、最終的なタグ付けされた分子が由来する「親分子」の特徴を示し、必ずしもタグ付けされた分子自体の特徴ではない。
一例として、バーコード1、2、3、4等を使用して第1の画分中の分子をタグ付けおよび標識し;バーコードA、B、C、D等を使用して第2の画分中の分子をタグ付けおよび標識し;ならびにバーコードa、b、c、d等を使用して第3の画分中の分子をタグ付けおよび標識する。示差的にタグ付けされた画分を、シーケンシング前にプールすることができる。示差的にタグ付けされた画分を、別個にシーケンシングすることができ、または例えば、Illuminaシーケンサーの同じフローセルにおいて、共に同時にシーケンシングすることができる。
シーケンシング後、遺伝子バリアントを検出するためのリードの解析を、画分毎のレベルおよび全核酸集団レベルで実施することができる。タグを使用して、異なる画分からのリードを選別する。解析には、配列情報、ゲノム座標の長さ、カバレッジおよび/またはコピー数を使用して遺伝的およびエピジェネティックバリエーション(メチル化、クロマチン構造等のうち1つまたは複数)を決定するためのin silico解析が含まれ得る。一部の実施形態では、より高いカバレッジは、ゲノム領域におけるより高いヌクレオソーム占有率と相関し得るが、より低いカバレッジは、より低いヌクレオソーム占有率またはヌクレオソーム枯渇領域(NDR)と相関し得る。
b.核酸の5-メチルシトシンパターンの決定;バイサルファイトシーケンシング
b.核酸の5-メチルシトシンパターンの決定;バイサルファイトシーケンシング
バイサルファイトに基づくシーケンシングおよびその異形は、メチル化状態に関する単一塩基分解能情報を提供し得る核酸のメチル化パターンを決定する手段を提供する。一部の実施形態では、メチル化パターンを決定するステップは、5-メチルシトシン(5mC)を非メチル化シトシンから区別するステップを含む。一部の実施形態では、メチル化パターンを決定するステップは、N-メチルアデニンを非メチル化アデニンから区別するステップを含む。一部の実施形態では、メチル化パターンを決定するステップは、5-ヒドロキシメチルシトシン(5hmC)、5-ホルミルシトシン(5fC)および5-カルボキシルシトシン(5caC)を非メチル化シトシンから区別するステップを含む。バイサルファイトシーケンシングの例には、酸化的バイサルファイトシーケンシング(OX-BS-seq)、Tet支援バイサルファイトシーケンシング(TAB-seq)および還元バイサルファイトシーケンシング(redBS-seq)が含まれるがこれらに限定されない。
酸化的バイサルファイトシーケンシング(OX-BS-seq)は、最初に5hmCを5fCに変換し、次いで、バイサルファイトシーケンシングによって進行することによって、5mCと5hmCとの間を区別するために使用される。Tet支援バイサルファイトシーケンシング(TAB-seq)も、5mcと5hmCとを区別するために使用され得る。TAB-seqでは、5hmCは、グルコシル化によって保護される。次いで、Tet酵素が、バイサルファイトシーケンシングによって進行する前に、5mCを5caCに変換するために使用される。還元バイサルファイトシーケンシングは、5fCを改変シトシンと区別するために使用される。
一般的に、バイサルファイトシーケンシングでは、核酸試料を2つのアリコートに分割し、1つのアリコートがバイサルファイトで処置される。一部の実施形態では、高メチル化画分は、そのような2つのアリコートに分割される。バイサルファイトは、ネイティブのシトシンおよびある特定の改変シトシンヌクレオチド(例えば、5-ホルミルシトシンまたは5-カルボキシルシトシン)をウラシルに変換するが、他の改変シトシン(例えば、5-メチルシトシン、5-ヒドロキシルメチルシトシン)は変換されない。2つのアリコートからの分子の核酸配列の比較は、どのシトシンがウラシルに変換されたかおよび変換されなかったかを示す。その結果として、改変されたおよび改変されなかったシトシンが決定され得る。試料の2つのアリコートへの最初の分割は、少量の核酸のみを含む試料、および/または無細胞DNAを含む体液等の不均一な細胞/組織起源から構成される試料にとって不利である。
したがって、一部の実施形態では、バイサルファイトシーケンシングは、例えば以下のように、試料を2つのアリコートに最初に分割することなく実施される。一部の実施形態では、集団中の核酸は、本明細書に記載される部分のいずれか等の捕捉部分、すなわち、捕捉または固定され得る標識に連結される。捕捉部分の試料核酸への連結後、試料核酸は、増幅のための鋳型としての役割を果たす。増幅後、元の鋳型は、捕捉部分に連結されたままであるが、アンプリコンは、捕捉部分に連結されない。
捕捉部分は、増幅および/またはシーケンシングプライマー結合部位も提供し得るアダプターの成分として試料核酸に連結され得る。一部の方法では、試料核酸は、両端でアダプターに連結され、両方のアダプターは捕捉部分を有する。好ましくは、アダプター中の任意のシトシン残基は、バイサルファイトの作用に対して保護するために、例えば、5-メチルシトシンによって改変される。一部の例では、捕捉部分は、切断可能な連結(例えば、光切断可能なデスチオビオチン-TEG、またはUSER(商標)酵素、Chem. Commun. (Camb). 51: 3266-3269 (2015)で切断可能なウラシル残基)によって元の鋳型に連結され、この場合では、捕捉部分は、所望により除去され得る。
アンプリコンは、変性され、捕捉タグに対する親和性試薬と接触させる。元の鋳型は親和性試薬に結合するが、増幅に起因する核酸分子は結合しない。したがって、元の鋳型は、増幅に起因する核酸分子から分離され得る。
増幅に起因する核酸分子からの元の鋳型の分離後、元の鋳型は、バイサルファイト処置に供され得る。あるいは、増幅産物は、バイサルファイト処置に供され得るが、元の鋳型集団は供されない。そのような処置後、それぞれの集団が増幅され得る(元の鋳型集団の場合では、ウラシルをチミンに変換する)。集団は、捕捉のためのビオチンプローブハイブリダイゼーションにも供され得る。次いで、それぞれの集団が解析され、配列を比較して、元の試料中のどのシトシンが5-メチル化(または5-ヒドロキシルメチル化)されたかを決定する。鋳型集団におけるTヌクレオチド(ウラシルに変換された非メチル化シトシンに対応する)および増幅集団の対応する位置でのCヌクレオチドの検出は、非改変Cを示す。元の鋳型および増幅集団の対応する位置でのCの存在は、元の試料中の改変Cを示す。
一部の実施形態では、方法は、分子タグ付けされたDNAライブラリの逐次的DNA-seqおよびバイサルファイト-seq(BIS-seq)NGSライブラリ調製を使用する(WO2018/119452号、例えば、図4を参照されたい)。このプロセスは、アダプター(例えば、ビオチン)の標識化、ライブラリ全体のDNA-seq増幅、親分子の回収(例えば、ストレプトアビジンビーズプルダウン)、バイサルファイト変換およびBIS-seqによって実施される。一部の実施形態では、方法は、バイサルファイト処置を伴っておよび伴わずに、親ライブラリ分子の逐次的NGS-分取増幅による単一塩基分解能で5-メチルシトシンを同定する。これは、2つのアダプター鎖の1つに標識(例えば、ビオチン)を有するBIS-seqにおいて使用される5-メチル化NGS-アダプター(方向性を有するアダプター;5-メチルシトシン置換を伴うY字形/フォーク形)を改変することによって達成され得る。試料DNA分子は、アダプターをライゲーションされ、増幅される(例えば、PCRによって)。親分子のみが標識されたアダプター末端を有するので、それらは、標識特異的捕捉法(例えば、ストレプトアビジン-磁気ビーズ)によってそれらの増幅された子孫から選択的に回収され得る。親分子は、5-メチル化マークを保持するので、捕捉されたライブラリにおけるバイサルファイト変換は、BIS-seqにおいて単一塩基分解能の5-メチル化状態を生じ、対応するDNA-seqに対する分子情報を保持する。一部の実施形態では、バイサルファイト処置されたライブラリは、標準的なマルチプレックスNGSワークフローにおいて試料タグDNA配列の添加によって、捕捉/NGSの前に処置されていないライブラリと組み合わされ得る。BIS-seqワークフローでのように、バイオインフォマティクス解析は、ゲノムのアラインメントおよび5-メチル化塩基の同定に関して実施され得る。つまり、この方法は、ライブラリの増幅後に5-メチルシトシンマークを有する親のライゲーションされた分子を選択的に回収する能力を提供し、それによってバイサルファイト変換されたDNAを並行して処理することを可能にする。これは、ワークフローから抽出されたDNA-seqの情報の品質/感度におけるバイサルファイト処置の破壊的特質を克服する。この方法を用いて、回収されたライゲーションされた親DNA分子(標識アダプターを介して)は、完全なDNAライブラリの増幅を可能にし、エピジェネティックDNA改変を誘発する処置の並行適用を可能にする。本開示は、シトシン-5-メチル化(5-メチルシトシン)を同定するためのBIS-seq法の使用を考察するが、BIS-seq法の使用は、多くの実施形態で必要ではない。BIS-seqの異形は、ヒドロキシメチル化シトシン(5hmC;OX-BS-seq、TAB-seq)、ホルミルシトシン(5fC;redBS-seq)およびカルボキシルシトシンを同定するために開発されている。これらの方法論は、本明細書に記載される逐次的な/並行したライブラリ調製と共に実行され得る。
c.改変核酸解析の代替法
c.改変核酸解析の代替法
一部のそのような方法では、異なる程度の改変(例えば、核酸分子あたり0、1、2、3、4、5つまたはそれよりも多くのメチル基)を有する核酸の集団を、改変の程度に応じて、集団の分画前にアダプターと接触させる。アダプターは、集団中の核酸分子の一端または両端のいずれかに結合する。好ましくは、アダプターは、タグの組合せの数が、低い確率をもたらす十分な数の異なるタグを含み、例えば、同じ開始点および終止点を有する2つの核酸の95、99または99.9%が、同じタグの組合せを受ける。アダプターの結合後、核酸は、アダプター内のプライマー結合部位に結合するプライマーから増幅される。アダプターは、同じまたは異なるタグ(例えば、同じまたは異なる配列のタグ)を有するかにかかわらず、同じまたは異なるプライマー結合部位を含み得るが、好ましくは、アダプターは同じプライマー結合部位を含む。増幅後、核酸は、改変を有する核酸に好ましくは結合する作用剤(例えば、以前に記載されたそのような作用剤)と接触させる。核酸は、作用剤への結合から核酸が改変を有する程度が異なる少なくとも2つの画分(例えば、高メチル化画分および低メチル化画分)に分離される。例えば、作用剤が改変を有する核酸に対して親和性を有する場合、改変で過剰出現する核酸(集団における中央値の出現と比較して)は、優先的に作用剤に結合するが、改変で過小出現する核酸は、作用剤に結合しないか、または作用剤から、より容易に溶出される。分離後、異なる画分は、次いでさらなる処理ステップに供され得、これは、典型的には、別個にであるが並行して、さらなる増幅、および本明細書の他の箇所に記載した配列解析を含む。次いで、異なる画分からの配列データが比較され得る。
そのような分離スキームは、以下の例示的な手順を使用して実施され得る。核酸は、プライマー結合部位およびタグを含むY字形のアダプターの両端に連結される。分子が増幅される。次いで、増幅された分子は、5-メチルシトシンに優先的に結合する抗体と接触させることによって分画されて、2つの画分が生じる。一方の画分は、メチル化が欠如している元の分子およびメチル化を失っている増幅コピーを含む。他方の画分は、メチル化を有する元のDNA分子を含む。次いで、2つの画分は、処理され、メチル化画分のさらなる増幅と共に別個にシーケンシングされる。次いで、2つの画分の配列データが比較され得る。この例では、タグは、メチル化DNAと非メチル化DNAとの間を区別するために使用されないが、同じ開始点および終止点を有するリードが同じまたは異なる分子に基づくか否かを決定することができるように、これらの画分内の異なる分子間を区別するために使用される。
本明細書に記載される方法は、核酸の少なくとも一部が1つまたは複数の改変シトシン残基、例えば、5-メチルシトシンおよび以前に記載された他の改変のいずれかを含む核酸の集団(例えば、高メチル化画分)を解析するステップをさらに含んでいてもよい。これらの方法では、核酸の集団を、5C位置で改変された1つまたは複数のシトシン残基、例えば、5-メチルシトシンを含むアダプターと接触させる。好ましくは、そのようなアダプター中のすべてのシトシン残基もまた改変されるか、またはアダプターのプライマー結合領域中のすべてのそのようなシトシンが改変される。アダプターは、集団中の核酸分子の両端に結合する。好ましくは、アダプターは、タグの組合せの数が、低い確率をもたらす十分な数の異なるタグを含み、例えば、同じ開始点および終止点を有する2つの核酸の95、99または99.9%が、同じタグの組合せを受ける。そのようなアダプターにおけるプライマー結合部位は、同じまたは異なり得るが、好ましくは、同じである。アダプターの結合後、核酸は、アダプターのプライマー結合部位に結合するプライマーから増幅される。増幅された核酸は、第1および第2のアリコートに分割される。第1のアリコートは、さらなる処理を伴いまたは伴わずに、配列データに関してアッセイされる。第1のアリコート中の分子の配列データは、このようにして、核酸分子の最初のメチル化状態にかかわらず決定される。第2のアリコート中の核酸分子は、バイサルファイトで処置される。この処置は、非改変シトシンをウラシルに変換する。次いで、バイサルファイト処置された核酸は、核酸に連結されたアダプターの元のプライマー結合部位に対するプライマーによってプライムされる増幅に供される。これらの核酸はアダプターのプライマー結合部位にシトシンを保持するが、増幅産物がバイサルファイト処置においてウラシルへの変換を受けているこれらのシトシン残基のメチル化を失っているので、アダプターに元々連結された核酸分子(その増幅産物とは異なる)のみがここで増幅可能である。このようにして、少なくともその一部がメチル化されている集団中の元の分子のみが増幅を受ける。増幅後、これらの核酸は、配列解析に供される。第1および第2のアリコートから決定される配列の比較は、数ある中でも、核酸集団中のシトシンがメチル化に供されたことを示し得る。
そのような解析は、以下の例示的な手順を使用して実施され得る。メチル化DNAは、プライマー結合部位およびタグを含む両端でY字形のアダプターに連結される。アダプター中のシトシンは、5-メチル化される。プライマーのメチル化は、その後のバイサルファイトステップにおいてプライマー結合部位を保護する働きをする。アダプターの結合後、DNA分子が増幅される。増幅産物は、バイサルファイト処置を伴っておよび伴わずに、シーケンシングのために2つのアリコートに分割される。バイサルファイトシーケンシングに供されないアリコートは、さらなる処理を伴ってまたは伴わずに、配列解析に供され得る。他のアリコートは、バイサルファイトによって処置され、これは、非メチル化シトシンをウラシルに変換する。シトシンのメチル化によって保護されたプライマー結合部位のみが、元のプライマー結合部位に特異的なプライマーと接触した場合に増幅を支持し得る。このようにして、第1の増幅からのコピーではない元の分子のみが、さらなる増幅に供される。次いで、さらに増幅された分子が、配列解析に供される。次いで、2つのアリコートからの配列が比較され得る。上記で考察された分離スキームにおけるように、アダプター中の核酸タグは、メチル化DNAと非メチル化DNAとの間を区別するために使用されないが、同じ画分内の核酸分子を区別するために使用される。
2.標的領域;示差的捕捉およびシーケンシング深度
2.標的領域;示差的捕捉およびシーケンシング深度
一部の実施形態では、本方法は、標的領域の複数のセットのための試験対象から得られるcfDNAを捕捉するステップを含む。標的領域は、エピジェネティック標的領域を含み、これは、それらが腫瘍または健康な細胞が起源であるか否かに応じて、メチル化レベルおよび/または断片化パターンの差異を示し得る。標的領域は、配列可変標的領域も含み、これは、それらが腫瘍または健康な細胞が起源であるか否かに応じて、配列の差異を示し得る。捕捉するステップは、cfDNA分子の捕捉されたセットを生じ、配列可変標的領域セットに対応するcfDNA分子は、エピジェネティック標的領域セットに対応するcfDNA分子よりもcfDNA分子の捕捉されたセットの高い捕捉収量で捕捉される。
一部の実施形態では、本方法は、試験対象から得られたcfDNAを、標的特異的プローブのセットと接触させるステップを含み、標的特異的プローブのセットは、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収量で配列可変標的領域セットに対応するcfDNAを捕捉するように構成される。
より高いシーケンシング深度が、エピジェネティック標的領域を解析するために必要であり得るよりも十分な信頼性または精度で配列可変標的領域を解析するために必要であり得るので、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収量で、配列可変標的領域セットに対応するcfDNAを捕捉することが有益であり得る。より高いシーケンシング深度は、DNA分子あたりより多くのリードをもたらし得、領域あたりより多くの一意的分子を捕捉することによって容易になり得る。断片化パターン(例えば、転写開始部位またはCTCF結合部位の摂動について試験するため)または断片の存在量(例えば、高メチル化画分および低メチル化画分中の)を決定するために必要なデータの容量は、一般的に、がんに関係する配列の変異の存在または非存在を決定するために必要なデータの容量よりも少ない。標的領域セットを異なる収量で捕捉することにより、同じシーケンシング実行(例えば、プールされた混合物を使用して、および/または同じシーケンシングセルにおいて)における異なるシーケンシング深度まで標的領域をシーケンシングすることを容易にし得る。
様々な実施形態では、本方法は、上記の考察と一致して、捕捉されたcfDNAを、例えば、エピジェネティックおよび配列可変標的領域セットに関して異なる程度のシーケンシング深度までシーケンシングするステップをさらに含む。
a.捕捉されたセット;示差的捕捉およびシーケンシング深度
a.捕捉されたセット;示差的捕捉およびシーケンシング深度
一部の実施形態では、DNA(例えば、cfDNA)の捕捉されたセットが提供される。開示される方法に関して、例えば、本明細書に記載される捕捉するステップおよび/または分配するステップの後、DNAの捕捉されたセットが提供され得る。捕捉されたセットは、配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するDNAを含み得る。一部の実施形態では、捕捉された配列可変標的領域DNAの量は、標的化された領域のサイズ(フットプリントサイズ)の差異について正規化した場合、捕捉されたエピジェネティック標的領域DNAの量よりも多い。
あるいは、配列可変標的領域セットに対応するDNAおよびエピジェネティック標的領域セットに対応するDNAをそれぞれ含む、第1および第2の捕捉されたセットを提供してもよい。第1および第2の捕捉されたセットを組み合わせて、組み合わせた捕捉されたセットを提供してもよい。
上記で考察された組み合わせた捕捉されたセットを含む、配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するDNAを含む捕捉されたセットにおいて、配列可変標的領域セットに対応するDNAは、エピジェネティック標的領域セットに対応するDNAよりも高い濃度で、例えば1.1~1.2倍高い濃度、1.2~1.4倍高い濃度、1.4~1.6倍高い濃度、1.6~1.8倍高い濃度、1.8~2.0倍高い濃度、2.0~2.2倍高い濃度、2.2~2.4倍高い濃度、2.4~2.6倍高い濃度、2.6~2.8倍高い濃度、2.8~3.0倍高い濃度、3.0~3.5倍高い濃度、3.5~4.0、4.0~4.5倍高い濃度、4.5~5.0倍高い濃度、5.0~5.5倍高い濃度、5.5~6.0倍高い濃度、6.0~6.5倍高い濃度、6.5~7.0倍高い、7.0~7.5倍高い濃度、7.5~8.0倍高い濃度、8.0~8.5倍高い濃度、8.5~9.0倍高い濃度、9.0~9.5倍高い濃度、9.5~10.0倍高い濃度、10~11倍高い濃度、11~12倍高い濃度、12~13倍高い濃度、13~14倍高い濃度、14~15倍高い濃度、15~16倍高い濃度、16~17倍高い濃度、17~18倍高い濃度、18~19倍高い濃度、または19~20倍高い濃度で存在し得る。濃度の差の程度は、定義の節で考察したように、標的領域のフットプリントサイズに関する正規化を説明する。
i.エピジェネティック標的領域セット
i.エピジェネティック標的領域セット
エピジェネティック標的領域セットは、新生物(例えば、腫瘍またはがん)細胞からのDNAと、健康な細胞、例えば非新生物循環細胞からのDNAとを識別する可能性がある1つまたは複数のタイプの標的領域を含み得る。そのような領域の例示的なタイプを、本明細書において詳細に考察する。エピジェネティック標的領域セットはまた、例えば本明細書に記載される1つまたは複数の対照領域も含み得る。
一部の実施形態では、エピジェネティック標的領域セットは、少なくとも100kb、例えば、少なくとも200kb、少なくとも300kb、または少なくとも400kbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、100~1000kb、例えば、100~200kb、200~300kb、300~400kb、400~500kb、500~600kb、600~700kb、700~800kb、800~900kb、および900~1,000kbの範囲のフットプリントを有する。
一部の実施形態では、エピジェネティック標的領域セットは、少なくとも1000kb、少なくとも2000kb、少なくとも3000kb、少なくとも4000kb、少なくとも5000kb、少なくとも6000kb、少なくとも7000kb、少なくとも8000kb、少なくとも9000kb、または少なくとも1Mbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、1Mb~20Mb、例えば、1~1.2Mb、1.2~1.4Mb、1.4~1.6Mb、1.6~1.8Mb、1.8~2Mb、2~2.25Mb、2.25~2.5Mb、2.5~2.75Mb、2.75~3Mb、3~3.25Mb、3.25~3.5Mb、3.5~3.75Mb、3.75~4Mb、4.~4.25Mb、4.25~4.5Mb、4.5~4.75Mb、4.75~5Mb、5~5.5Mb、5.5~6Mb、6~6.5Mb、6.5~7Mb、7~7.5Mb、7.5~8Mb、8~8.5Mb、8.5~9Mb、9~9.5Mb、9.5~10Mb、10~12Mb、12~14Mb、14~16Mb、16~18Mbおよび18~20Mbの範囲内のフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、0.2~0.8メガベース、0.8~1.5メガベース、1.5~3メガベースまたは3~8メガベースの範囲内のフットプリントを有する。
一部の実施形態では、エピジェネティック標的領域セットは、少なくとも1000kb、少なくとも2000kb、少なくとも3000kb、少なくとも4000kb、少なくとも5000kb、少なくとも6000kb、少なくとも7000kb、少なくとも8000kb、少なくとも9000kb、または少なくとも1Mbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、1Mb~20Mb、例えば、1~1.2Mb、1.2~1.4Mb、1.4~1.6Mb、1.6~1.8Mb、1.8~2Mb、2~2.25Mb、2.25~2.5Mb、2.5~2.75Mb、2.75~3Mb、3~3.25Mb、3.25~3.5Mb、3.5~3.75Mb、3.75~4Mb、4.~4.25Mb、4.25~4.5Mb、4.5~4.75Mb、4.75~5Mb、5~5.5Mb、5.5~6Mb、6~6.5Mb、6.5~7Mb、7~7.5Mb、7.5~8Mb、8~8.5Mb、8.5~9Mb、9~9.5Mb、9.5~10Mb、10~12Mb、12~14Mb、14~16Mb、16~18Mbおよび18~20Mbの範囲内のフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、0.2~0.8メガベース、0.8~1.5メガベース、1.5~3メガベースまたは3~8メガベースの範囲内のフットプリントを有する。
(a)高メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットは、1つまたは複数の高メチル化可変標的領域を含む。一般的に、高メチル化可変標的領域は、観察されたメチル化レベルの増加が、試料(例えば、cfDNAの試料)が新生物細胞、例えば腫瘍またはがん細胞によって産生されるDNAを含有する可能性の増加を示す領域を指す。例えば、腫瘍抑制遺伝子のプロモーターの高メチル化は、繰り返し観察されている。例えば、Kang et al., Genome Biol. 18:53 (2017)およびそこに引用されている参考文献を参照されたい。
一部の実施形態では、エピジェネティック標的領域セットは、1つまたは複数の高メチル化可変標的領域を含む。一般的に、高メチル化可変標的領域は、観察されたメチル化レベルの増加が、試料(例えば、cfDNAの試料)が新生物細胞、例えば腫瘍またはがん細胞によって産生されるDNAを含有する可能性の増加を示す領域を指す。例えば、腫瘍抑制遺伝子のプロモーターの高メチル化は、繰り返し観察されている。例えば、Kang et al., Genome Biol. 18:53 (2017)およびそこに引用されている参考文献を参照されたい。
結腸直腸がんにおけるメチル化可変標的領域に関する広範な考察は、Lam et al., Biochim Biophys Acta. 1866:106-20 (2016)に提供される。これらは、VIM、SEPT9、ITGA4、OSM4、GATA4、およびNDRG4を含む。結腸直腸がん(CRC)の研究に基づく遺伝子またはその一部を含む高メチル化可変標的領域の例示的なセットを表2Aに提供する。これらの遺伝子の多くはおそらく、結腸直腸がん以外のがんに対しても関連を有し、例えばTP53は、極めて重要な腫瘍抑制因子として広く認識されており、この遺伝子の高メチル化に基づく不活化は、共通の腫瘍形成機構であり得る。
一部の実施形態では、高メチル化可変標的領域は、表2Aに記載の複数の遺伝子またはその一部、例えば、表2Aに記載の遺伝子またはその一部の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。例えば、標的領域として含まれる各々の遺伝子座に関して、遺伝子の転写開始部位と終止コドン(代替的にスプライシングされる遺伝子に関しては最後の終止コドン)との間に結合するハイブリダイゼーション部位を有する1つまたは複数のプローブが存在し得る。一部の実施形態では、この1つまたは複数のプローブは、表2Aに記載の遺伝子またはその一部の上流および/または下流の300bp以内、例えば、200または100bp以内に結合する。
様々なタイプの肺がんにおけるメチル化可変標的領域は、例えば、Ooki et al., Clin. Cancer Res. 23:7141-52 (2017);Belinksy, Annu. Rev. Physiol. 77:453-74 (2015);Hulbert et al., Clin. Cancer Res. 23:1998-2005 (2017);Shi et al., BMC Genomics 18:901 (2017);Schneider et al., BMC Cancer. 11:102 (2011);Lissa et al., Transl Lung Cancer Res 5(5):492-504 (2016);Skvortsova et al., Br. J. Cancer. 94(10):1492-1495 (2006);Kim et al., Cancer Res. 61:3419-3424 (2001);Furonaka et al., Pathology International 55:303-309 (2005);Gomes et al., Rev. Port. Pneumol. 20:20-30 (2014);Kim et al., Oncogene. 20:1765-70 (2001);Hopkins-Donaldson et al., Cell Death Differ. 10:356-64 (2003);Kikuchi et al., Clin. Cancer Res. 11:2954-61 (2005);Heller et al., Oncogene 25:959-968 (2006);Licchesi et al., Carcinogenesis. 29:895-904 (2008);Guo et al., Clin. Cancer Res. 10:7917-24 (2004);Palmisano et al., Cancer Res. 63:4620-4625 (2003);およびToyooka et al., Cancer Res. 61:4556-4560, (2001)において詳細に考察されている。
肺がんの研究に基づく遺伝子またはその一部を含む例示的な高メチル化可変標的領域セットを表2Bに提供する。これらの遺伝子の多くはおそらく、肺がん以外のがんに対しても関連を有する可能性があり、例えばCasp8(カスパーゼ8)は、プログラム細胞死における重要な酵素であり、この遺伝子の高メチル化に基づく不活化は、肺がんに限定されない共通の腫瘍形成機構であり得る。加えて、いくつかの遺伝子が表2Aおよび表2Bの両方に出現し、一般性を示している。
表2Bにおいて同定された標的領域に関する前述の実施形態のいずれかを、表2Aにおいて同定された標的領域に関する上記の実施形態のいずれかと組み合わせてもよい。一部の実施形態では、高メチル化可変標的領域は、表2Aまたは表2Bに記載される複数の遺伝子またはその一部、例えば表2Aまたは表2Bに記載される遺伝子またはその一部の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。
追加の高メチル化標的領域を、例えばがんゲノムアトラス(Cancer Genome Atlas)から得てもよい。Kang et al., Genome Biology 18:53 (2017)は、乳房、結腸、腎臓、肝臓、および肺からの高メチル化標的領域を使用してCancer Locatorと呼ばれる確率論的方法の構築を記載している。一部の実施形態では、高メチル化標的領域は、1つまたは複数のタイプのがんに対して特異的であり得る。したがって一部の実施形態では、高メチル化標的領域は、乳がん、結腸がん、腎臓がん、肝臓がん、および肺がんのうちの1つ、2つ、3つ、4つ、または5つにおいて高メチル化を集合的に示す高メチル化標的領域の1つ、2つ、3つ、4つ、または5つのサブセットを含む。
(b)低メチル化可変標的領域
グローバルな低メチル化は、様々ながんにおいて共通して観察される現象である。例えば、Hon et al., Genome Res. 22:246-258 (2012)(乳がん);Ehrlich, Epigenomics 1:239-259 (2009)(結腸がん、卵巣がん、前立腺がん、白血病、肝細胞がん、および子宮頸がんにおける低メチル化に関する知見を記載する総説論文)を参照されたい。例えば、反復エレメント、例えばLINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、およびサテライトDNA等の領域、ならびに通常は健康な細胞中でメチル化されている遺伝子間領域は、腫瘍細胞中ではメチル化の低減を示し得る。したがって一部の実施形態では、エピジェネティック標的領域セットは、低メチル化可変標的領域を含み、観察されたメチル化レベルの減少は、試料(例えば、cfDNAの試料)が、新生物細胞、例えば腫瘍細胞またはがん細胞によって産生されたDNAを含有する可能性の増加を示している。
グローバルな低メチル化は、様々ながんにおいて共通して観察される現象である。例えば、Hon et al., Genome Res. 22:246-258 (2012)(乳がん);Ehrlich, Epigenomics 1:239-259 (2009)(結腸がん、卵巣がん、前立腺がん、白血病、肝細胞がん、および子宮頸がんにおける低メチル化に関する知見を記載する総説論文)を参照されたい。例えば、反復エレメント、例えばLINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、およびサテライトDNA等の領域、ならびに通常は健康な細胞中でメチル化されている遺伝子間領域は、腫瘍細胞中ではメチル化の低減を示し得る。したがって一部の実施形態では、エピジェネティック標的領域セットは、低メチル化可変標的領域を含み、観察されたメチル化レベルの減少は、試料(例えば、cfDNAの試料)が、新生物細胞、例えば腫瘍細胞またはがん細胞によって産生されたDNAを含有する可能性の増加を示している。
一部の実施形態では、低メチル化可変標的領域は、反復エレメントおよび/または遺伝子間領域を含む。一部の実施形態では、反復エレメントは、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、および/またはサテライトDNAのうちの1つ、2つ、3つ、4つ、または5つを含む。
がん関連低メチル化を示す例示的な特定のゲノム領域は、例えばhg19ヒトゲノム構築物に従って、ヒト第1染色体のヌクレオチド8403565~8953708および151104701~151106035を含む。一部の実施形態では、低メチル化可変標的領域は、重複するか、またはこれらの領域の1つもしくは両方を含む。
(c)CTCF結合領域
CTCFは、クロマチンの組織化に寄与し、しばしばコヒーシンと共局在するDNA結合タンパク質である。CTCF結合部位の摂動は、多様な異なるがんにおいて報告されている。例えば、2015年6月8日にオンライン発行された、Katainen et al., Nature Genetics, doi:10.1038/ng.3335;Guo et al., Nat. Commun. 9:1520 (2018)を参照されたい。CTCF結合は、シーケンシングによって、例えば断片長解析を通して検出することができる、cfDNAの認識可能なパターンをもたらす。例えば、シーケンシングに基づく断片長解析に関する詳細は、その各々が参照により本明細書に組み込まれる、Snyder et al., Cell 164:57-68 (2016);WO2018/009723号;および米国特許出願公開第20170211143A1号に提供されている。
CTCFは、クロマチンの組織化に寄与し、しばしばコヒーシンと共局在するDNA結合タンパク質である。CTCF結合部位の摂動は、多様な異なるがんにおいて報告されている。例えば、2015年6月8日にオンライン発行された、Katainen et al., Nature Genetics, doi:10.1038/ng.3335;Guo et al., Nat. Commun. 9:1520 (2018)を参照されたい。CTCF結合は、シーケンシングによって、例えば断片長解析を通して検出することができる、cfDNAの認識可能なパターンをもたらす。例えば、シーケンシングに基づく断片長解析に関する詳細は、その各々が参照により本明細書に組み込まれる、Snyder et al., Cell 164:57-68 (2016);WO2018/009723号;および米国特許出願公開第20170211143A1号に提供されている。
このように、CTCF結合の摂動は、cfDNAの断片化パターンの変動をもたらす。そのため、CTCF結合部位は、1つのタイプの断片化可変標的領域を表す。
多くの公知のCTCF結合部位が存在する。例えば、インターネット上のinsulatordb.uthsc.edu/で入手可能であるCTCFBSDB(CTCF Binding Site Database);Cuddapah et al., Genome Res. 19:24-32 (2009);Martin et al., Nat. Struct. Mol. Biol. 18:708-14 (2011);Rhee et al., Cell. 147:1408-19 (2011)を参照されたく、それらはその各々が参照により本明細書に組み込まれる。例示的なCTCF結合部位は、hg19またはhg38ヒトゲノム構築物に従って、第8染色体上のヌクレオチド56014955~56016161および第13染色体上のヌクレオチド95359169~95360473である。
したがって、一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合領域を含む。一部の実施形態では、CTCF結合領域は、少なくとも10、20、50、100、200、もしくは500個のCTCF結合領域、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個のCTCF結合領域、例えば上記のまたはCTCFBSDBもしくは上記で引用したCuddapahら、Martinら、もしくはRheeらの論文の1つもしくは複数におけるCTCF結合領域を含む。
一部の実施形態では、CTCF部位の少なくとも一部はメチル化されていてもメチル化されていなくてもよく、メチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流の領域を含む。
(d)転写開始部位
転写開始部位もまた、新生物細胞において摂動を示し得る。例えば、造血系列の健康な細胞における様々な転写開始部位でのヌクレオソーム組織化は、健康な個体におけるcfDNAに実質的に寄与するが、新生物細胞におけるそれらの転写開始部位でのヌクレオソーム組織化とは異なり得る。これは、異なるcfDNAパターンをもたらすが、これらは例えば、一般的にSnyder et al., Cell 164:57-68 (2016);WO2018/009723号;および米国特許出願公開第20170211143A1号において考察されるように、シーケンシングによって検出することができる。
転写開始部位もまた、新生物細胞において摂動を示し得る。例えば、造血系列の健康な細胞における様々な転写開始部位でのヌクレオソーム組織化は、健康な個体におけるcfDNAに実質的に寄与するが、新生物細胞におけるそれらの転写開始部位でのヌクレオソーム組織化とは異なり得る。これは、異なるcfDNAパターンをもたらすが、これらは例えば、一般的にSnyder et al., Cell 164:57-68 (2016);WO2018/009723号;および米国特許出願公開第20170211143A1号において考察されるように、シーケンシングによって検出することができる。
このように、転写開始部位の摂動もまた、cfDNAの断片化パターンの変動をもたらす。そのため、転写開始部位もまた、1つのタイプの断片化可変標的領域を表す。
ヒト転写開始部位は、インターネット上のdbtss.hgc.jpで利用可能なDBTSS(DataBase of Human Transcription Start Sites)から入手可能であり、参照により本明細書に組み込まれる、Yamashita et al., Nucleic Acids Res. 34(Database issue): D86-D89 (2006)に記載されている。
したがって、一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位を含む。一部の実施形態では、転写開始部位は、少なくとも10、20、50、100、200、もしくは500個の転写開始部位、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個の転写開始部位、例えばDBTSSに記載される転写開始部位を含む。一部の実施形態では、転写開始部位の少なくとも一部はメチル化されていてもメチル化されていなくてもよく、メチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流の領域を含む。
(e)局所的増幅
(e)局所的増幅
局所的増幅は、体細胞変異であるが、これらは、メチル化の変化等のある特定のエピジェネティック変化を検出するためのアプローチと類似の様式でリード頻度に基づきシーケンシングによって検出することができる。そのため、がんにおける局所的増幅を示し得る領域を、エピジェネティック標的領域セットに含めることができ、そうした領域は、AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA、およびRAF1のうちの1つまたは複数を含み得る。例えば一部の実施形態では、エピジェネティック標的領域セットは、前述の標的の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、または18個を含む。
(f)メチル化対照領域
データの検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットは、DNAががん細胞または正常細胞に由来するか否かにかかわらず、本質的に全ての試料においてメチル化されているまたはメチル化されていないと予想される対照領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において低メチル化されると予想される対照低メチル化領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において高メチル化されると予想される対照高メチル化領域を含む。
ii.配列可変標的領域セット
データの検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットは、DNAががん細胞または正常細胞に由来するか否かにかかわらず、本質的に全ての試料においてメチル化されているまたはメチル化されていないと予想される対照領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において低メチル化されると予想される対照低メチル化領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において高メチル化されると予想される対照高メチル化領域を含む。
ii.配列可変標的領域セット
一部の実施形態では、配列可変標的領域セットは、がんにおいて体細胞変異を受けることが公知である複数の領域を含む。
一部の実施形態では、配列可変標的領域セットは、がんを有する対象の既定の比率が、パネルにおける1つまたは複数の異なる遺伝子またはゲノム領域において遺伝子バリアントまたは腫瘍マーカーを示すように選択される複数の異なる遺伝子またはゲノム領域(「パネル」)を標的とする。パネルは、シーケンシング領域を固定数の塩基対に限定するように選択され得る。パネルは、例えば、本明細書において他所で記載されるようにプローブの親和性および/または量を調節することによって、DNAの所望の量をシーケンシングするように選択され得る。パネルはさらに、所望の配列リードの深度を達成するように選択され得る。パネルは、シーケンシングされた塩基対の量に関して所望の配列リード深度または配列リードカバレッジを達成するように選択され得る。パネルは、試料中の1つまたは複数の遺伝子バリアントの検出に関して、理論的感度、理論的特異度、および/または理論的精度を達成するように選択され得る。
領域のパネルを検出するためのプローブは、目的のゲノム領域(ホットスポット領域)ならびにヌクレオソーム認識プローブ(例えば、KRASコドン12および13)を検出するためのプローブを含み得、ヌクレオソーム結合パターンおよびGC配列組成によって影響を受けるcfDNAカバレッジおよび断片サイズ変動の解析に基づいて捕捉を最適化するように設計され得る。本明細書において使用される領域はまた、ヌクレオソーム位置およびGCモデルに基づいて最適化された非ホットスポット領域も含み得る。
目的のゲノム位置の一覧の例は、表3および表4に見出され得る。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3の遺伝子の少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、または70個のうちの少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3のSNVの少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、または70個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3の融合の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、または6個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3のインデルの少なくとも1個、少なくとも2個、または3個のうちの少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4の遺伝子の少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、または73個のうちの少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4のSNVの少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、または73個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4の融合の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、または6個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4のインデルの少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、または18個のうちの少なくとも一部を含む。目的のこれらのゲノム位置の各々は、所与のパネルに関する骨格領域またはホットスポット領域として同定され得る。目的のホットスポットゲノム位置の一覧の例は、表5に見出され得る。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表5の遺伝子の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のうちの少なくとも一部を含む。各々のホットスポットゲノム領域を、関連する遺伝子、それが存在する染色体、遺伝子座を表すゲノムの開始位置および終止位置、遺伝子座の塩基対の長さ、遺伝子によってカバーされるエクソン、ならびに目的の所与のゲノム領域が捉えようとし得る重要な特色(例えば、変異のタイプ)を含むいくつかの特徴と共に記載する。
加えてまたはあるいは、適した標的領域セットは、文献から入手可能である。例えば、参照により本明細書に組み込まれる、Gale et al., PLoS One 13: e0194630 (2018)は、配列可変標的領域セットの一部または全てとして使用することができる35個のがんに関係する遺伝子標的のパネルを記載している。これらの35個の標的は、AKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53、およびU2AF1である。
一部の実施形態では、配列可変標的領域セットは、少なくとも10、20、30、または35個のがんに関係する遺伝子、例えば上記のがんに関係する遺伝子からの標的領域を含む。一部の実施形態では、配列可変標的領域セットは、少なくとも10kb、少なくとも20kb、少なくとも30kb、少なくとも40kb、少なくとも50kb、少なくとも75kb、少なくとも100kb、少なくとも200kb、少なくとも300kb、または少なくとも400kbのフットプリントを有する。一部の実施形態では、配列可変標的領域セットは、100~1000kb、例えば、100~200kb、200~300kb、300~400kb、400~500kb、500~600kb、600~700kb、700~800kb、800~900kb、および900~1000kbの範囲内のフットプリントを有する。一部の実施形態では、配列可変標的領域セットは、少なくとも1000kb、少なくとも2000kb、少なくとも3000kb、少なくとも4000kb、少なくとも5000kb、少なくとも6000kb、少なくとも7000kb、少なくとも8000kb、少なくとも9000kb、または少なくとも1Mbのフットプリントを有する。一部の実施形態では、配列可変標的領域セットは、1Mb~10Mb、例えば1~1.2Mb、1.2~1.4Mb、1.4~1.6Mb、1.6~1.8Mb、1.8~2Mb、2~2.25Mb、2.25~2.5Mb、2.5~2.75Mb、2.75~3Mb、3~3.25Mb、3.25~3.5Mb、3.5~3.75Mb、3.75~4Mb、4.~4.25Mb、4.25~4.5Mb、4.5~4.75Mb、4.75~5Mb、5~5.5Mb、5.5~6Mb、6~6.5Mb、6.5~7Mb、7~7.5Mb、7.5~8Mb、8~8.5Mb、8.5~9Mb、9~9.5Mbおよび9.5~10Mbの範囲内のフットプリントを有する。一部の実施形態では、配列可変標的領域セットは、10~30キロベース、30~60キロベース、60キロベース~1メガベースまたは1~2メガベースの範囲内のフットプリントを有する。
3.対象;試料タイプ/供給源
3.対象;試料タイプ/供給源
一部の実施形態では、DNA(例えば、cfDNAまたは組織試料から得られたDNA)は、がんを有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNAまたは組織試料から得られたDNA)は、がんを有すると疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNAまたは組織試料から得られたDNA)は、腫瘍を有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNAまたは組織試料から得られたDNA)は、腫瘍を有すると疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNAまたは組織試料から得られたDNA)は、新生物を有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNAまたは組織試料から得られたDNA)は、新生物を有すると疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNAまたは組織試料から得られたDNA)は、腫瘍、がんまたは新生物から寛解状態にある対象(例えば、化学療法、外科的切除、放射線またはそれらの組合せ後)から得られる。前述の実施形態のいずれかでは、がん、腫瘍もしくは新生物、または疑われるがん、腫瘍もしくは新生物は、肺、結腸、直腸、腎臓、乳房、前立腺または肝臓のものであり得る。一部の実施形態では、がん、腫瘍もしくは新生物、または疑われるがん、腫瘍もしくは新生物は、肺のものである。一部の実施形態では、がん、腫瘍もしくは新生物、または疑われるがん、腫瘍もしくは新生物は、結腸または直腸のものである。一部の実施形態では、がん、腫瘍もしくは新生物、または疑われるがん、腫瘍もしくは新生物は、乳房のものである。一部の実施形態では、がん、腫瘍もしくは新生物、または疑われるがん、腫瘍もしくは新生物は、前立腺のものである。前述の実施形態のいずれかでは、対象は、ヒト対象であり得る。
一部の実施形態では、対象は、がん、例えば本明細書において上記のまたは他の箇所で述べたがんのいずれかを有すると以前に診断された。そのような対象は、1つまたは複数の以前のがん処置、例えば、外科手術、化学療法、放射線および/または免疫療法を以前に受けていてもよい。一部の実施形態では、試料(例えば、cfDNAまたは組織試料から得られたDNA)は、以前に診断され、1つまたは複数の以前のがん処置後の1つまたは複数の予め選択された時点で処置された対象から得られる。
対象から得られた試料(例えば、cfDNAまたは組織試料から得られたDNA)は、配列情報セットを提供するためにシーケンシングされ得、これは、配列可変標的領域セットの捕捉されたDNA分子を、本明細書において他の箇所で詳細に記載されているように、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングすることを含み得る。
4.標的特異的プローブのコレクション
4.標的特異的プローブのコレクション
一部の実施形態では、本明細書に開示される方法において使用される標的特異的プローブのコレクションは、配列可変標的領域セットに特異的な標的結合プローブおよびエピジェネティック標的領域セットに特異的な標的結合プローブを含む。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの捕捉収量は、エピジェネティック標的領域セットに特異的な標的結合プローブの捕捉収量よりも高い(例えば、少なくとも2倍高い)。一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットに特異的なその捕捉収量よりも高い(例えば少なくとも2倍高い)配列可変標的領域セットに特異的な捕捉収量を有するように構成される。
一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの捕捉収量は、エピジェネティック標的領域セットに特異的な標的結合プローブの捕捉収量よりも少なくとも1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.5、4、4.5、5、6、7、8、9、10、11、12、13、14または15倍高い。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの捕捉収量は、エピジェネティック標的領域セットに特異的な標的結合プローブの捕捉収量よりも1.25~1.5、1.5~1.75、1.75~2、2~2.25、2.25~2.5、2.5~2.75、2.75~3、3~3.5、3.5~4、4~4.5、4.5~5、5~5.5、5.5~6、6~7、7~8、8~9、9~10、10~11、11~12、13~14または14~15倍高い。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの捕捉収量は、エピジェネティック標的領域セットに特異的な標的結合プローブの捕捉収量よりも少なくとも5倍高い。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの捕捉収量は、エピジェネティック標的領域セットに特異的な標的結合プローブの捕捉収量よりも5~10倍高い。
一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットについてのその捕捉収量よりも少なくとも1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.5、4、4.5、5、6、7、8、9、10、11、12、13、14または15倍高い配列可変標的領域セットに特異的な捕捉収量を有するように構成される。一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットに特異的なその捕捉収量よりも1.25~1.5、1.5~1.75、1.75~2、2~2.25、2.25~2.5、2.5~2.75、2.75~3、3~3.5、3.5~4、4~4.5、4.5~5、5~5.5、5.5~6、6~7、7~8、8~9、9~10、10~11、11~12、13~14または14~15倍高い配列可変標的領域セットに特異的な捕捉収量を有するように構成される。一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットに特異的な標的結合プローブの捕捉収量よりも少なくとも5倍高い配列可変標的領域セットに特異的な捕捉収量を有するように構成される。一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットに特異的な標的結合プローブの捕捉収量よりも5~10倍高い配列可変標的領域セットに特異的な捕捉収量を有するように構成される。
プローブのコレクションは、濃度、異なる長さおよび/または化学(例えば、親和性に影響を及ぼす)ならびにそれらの組合せを含む様々な方法で、配列可変標的領域セットについてのより高い捕捉収量を提供するように構成され得る。親和性は、プローブの長さを調節することによって、および/または以下で考察されるヌクレオチド改変を含めることによって、モジュレートされ得る。
一部の実施形態では、配列可変標的領域セットに特異的な標的特異的プローブは、エピジェネティック標的領域セットに特異的な標的結合プローブよりも高濃度で存在する。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに特異的な標的結合プローブの濃度よりも少なくとも1.25、1.5、1.75、2、2.25、2.5、2.75、3、3.5、4、4.5、5、6、7、8、9、10、11、12、13、14または15倍高い。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに特異的な標的結合プローブの濃度よりも1.25~1.5、1.5~1.75、1.75~2、2~2.25、2.25~2.5、2.5~2.75、2.75~3、3~3.5、3.5~4、4~4.5、4.5~5、5~5.5、5.5~6、6~7、7~8、8~9、9~10、10~11、11~12、13~14または14~15倍高い。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに特異的な標的結合プローブの濃度よりも少なくとも2倍高い。そのような実施形態では、濃度は、各セットの中の個々のプローブの体積あたりの質量の平均濃度を指し得る。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに特異的な標的結合プローブの濃度よりも少なくとも5倍高い。一部の実施形態では、配列可変標的領域セットに特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに特異的な標的結合プローブの濃度よりも5~10倍高い。
一部の実施形態では、配列可変標的領域セットに特異的な標的特異的プローブは、エピジェネティック標的領域セットに特異的な標的結合プローブよりもそれらの標的に対する高親和性を有する。親和性は、異なるプローブ化学を使用することによるのを含む当業者には公知の任意の方法でモジュレートされ得る。例えば、(ある特定の配列の文脈における)シトシン5-メチル化等のある特定のヌクレオチド改変、2’糖位置にヘテロ原子を提供する改変、およびLNAヌクレオチドは、二本鎖核酸の安定性を増加させることができ、そのような改変を有するオリゴヌクレオチドはそれらの相補的配列に対する比較的高い親和性を有することを示す。例えば、Severin et al., Nucleic Acids Res. 39: 8740-8751 (2011);Freier et al., Nucleic Acids Res. 25: 4429-4443 (1997);米国特許第9,738,894号を参照されたい。また、より長い配列長さは、一般的に増加した親和性を提供する。核酸塩基のヒポキサンチンによるグアニンの置換等の他のヌクレオチド改変は、オリゴヌクレオチドとその相補的配列との間の水素結合の量を低減することによって、親和性を低減させる。一部の実施形態では、配列可変標的領域セットに特異的な標的特異的プローブは、それらの標的に対するそれらの親和性を増加させる改変を有する。一部の実施形態では、あるいはまたは加えて、エピジェネティック標的領域セットに特異的な標的特異的プローブは、それらの標的に対するそれらの親和性を減少させる改変を有する。一部の実施形態では、配列可変標的領域セットに特異的な標的特異的プローブは、エピジェネティック標的領域セットに特異的な標的特異的プローブよりも長い平均長さおよび/または高い平均融解温度を有する。これらの実施形態は、捕捉収量における所望の倍数差、例えば、上記の任意の倍数差またはその範囲を達成するために、上記で考察されたように相互におよび/または濃度の差異と組み合わされ得る。
一部の実施形態では、標的特異的プローブは、捕捉部分を含む。捕捉部分は、本明細書に記載される捕捉部分のいずれか、例えば、ビオチンであってもよい。一部の実施形態では、標的特異的プローブは、例えば、共有結合的に、または捕捉部分の結合対の相互作用等を通して非共有結合的に、固体支持体に連結される。一部の実施形態では、固体支持体は、磁気ビーズ等のビーズである。
一部の実施形態では、配列可変標的領域セットに特異的な標的特異的プローブおよび/またはエピジェネティック標的領域セットに特異的な標的特異的プローブは、上記で考察されたベイトセット、例えば、遺伝子等の領域のパネルにわたって敷き詰められるように選択された捕捉部分および配列を含むプローブである。
一部の実施形態では、標的特異的プローブは、単一の組成物で提供される。単一の組成物は、溶液(液体または凍結)であってもよい。あるいは、組成物は、凍結乾燥物であってもよい。
あるいは、標的特異的プローブは、複数の組成物として、例えば、エピジェネティック標的領域セットに特異的なプローブを含む第1の組成物および配列可変標的領域セットに特異的なプローブを含む第2の組成物を含む複数の組成物として提供され得る。これらのプローブは、濃度および/または捕捉収量の前述の倍数差のいずれかを有する組み合わされたプローブ組成物を提供するために、適切な比率で混合され得る。あるいは、それらは、それぞれ、捕捉されたエピジェネティック標的領域および配列可変標的領域を含む第1および第2の組成物を提供するために、別個の捕捉手順で(例えば、試料のアリコートで、または同じ試料で逐次的に)使用され得る。
a.エピジェネティック標的領域に特異的なプローブ
a.エピジェネティック標的領域に特異的なプローブ
エピジェネティック標的領域セットに対するプローブは、新生物(例えば、腫瘍またはがん)細胞からのDNAと、健康な細胞、例えば非新生物循環細胞からのDNAとを識別する可能性がある1つまたは複数のタイプの標的領域に特異的なプローブを含み得る。そのような領域の例示的なタイプは、本明細書において、例えば、捕捉されたセットに関する上記のセクションにおいて詳細に考察される。エピジェネティック標的領域セットに対するプローブはまた、例えば本明細書に記載される1つまたは複数の対照領域に対するプローブも含み得る。
一部の実施形態では、エピジェネティック標的領域プローブセットに対するプローブは、少なくとも100kb、例えば、少なくとも200kb、少なくとも300kb、または少なくとも400kbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、100~1000kb、例えば、100~200kb、200~300kb、300~400kb、400~500kb、500~600kb、600~700kb、700~800kb、800~900kb、および900~1,000kbの範囲内のフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、少なくとも1000kb、少なくとも2000kb、少なくとも3000kb、少なくとも4000kb、少なくとも5000kb、少なくとも6000kb、少なくとも7000kb、少なくとも8000kb、少なくとも9000kb、または少なくとも1Mbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、1Mb~20Mb、例えば、1~1.2Mb、1.2~1.4Mb、1.4~1.6Mb、1.6~1.8Mb、1.8~2Mb、2~2.25Mb、2.25~2.5Mb、2.5~2.75Mb、2.75~3Mb、3~3.25Mb、3.25~3.5Mb、3.5~3.75Mb、3.75~4Mb、4.~4.25Mb、4.25~4.5Mb、4.5~4.75Mb、4.75~5Mb、5~5.5Mb、5.5~6Mb、6~6.5Mb、6.5~7Mb、7~7.5Mb、7.5~8Mb、8~8.5Mb、8.5~9Mb、9~9.5Mb、9.5~10Mb、10~12Mb、12~14Mb、14~16Mb、16~18Mbおよび18~20Mbの範囲内のフットプリントを有する。
i.高メチル化可変標的領域
i.高メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、1つまたは複数の高メチル化可変標的領域に特異的なプローブを含む。高メチル化可変標的領域は、上述の標的領域のいずれかであり得る。例えば、一部の実施形態では、高メチル化可変標的領域に特異的なプローブは、表1に記載の複数の遺伝子座、例えば表1に記載の遺伝子座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%または100%に特異的なプローブを含む。一部の実施形態では、高メチル化可変標的領域に特異的なプローブは、表2に記載の複数の遺伝子座、例えば表2に記載の遺伝子座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%または100%に特異的なプローブを含む。一部の実施形態では、高メチル化可変標的領域に特異的なプローブは、表1または表2に記載の複数の遺伝子座、例えば表1または表2に記載の遺伝子座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%または100%に特異的なプローブを含む。一部の実施形態では、標的領域として含まれる各遺伝子座に関して、遺伝子の転写開始部位と終止コドン(代替的にスプライシングされる遺伝子に関しては最後の終止コドン)との間に結合するハイブリダイゼーション部位を有する1つまたは複数のプローブが存在し得る。一部の実施形態では、1つまたは複数のプローブは、記載した位置の300bp以内、例えば200または100bp以内で結合する。一部の実施形態では、プローブは、上記に記載した位置と重複するハイブリダイゼーション部位を有する。一部の実施形態では、高メチル化標的領域に特異的なプローブは、乳がん、結腸がん、腎臓がん、肝臓がん、および肺がんのうちの1つ、2つ、3つ、4つ、または5つにおいて高メチル化を集合的に示す高メチル化標的領域のうちの1つ、2つ、3つ、4つ、または5つのサブセットに特異的なプローブを含む。
ii.低メチル化可変標的領域
ii.低メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、1つまたは複数の低メチル化可変標的領域に特異的なプローブを含む。低メチル化可変標的領域は、上述の標的領域のいずれかであり得る。例えば、1つまたは複数の低メチル化可変標的領域に特異的なプローブは、反復エレメント、例えばLINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、およびサテライトDNA等の領域に対するプローブを含み得、通常は健康な細胞中でメチル化されている遺伝子間領域は、腫瘍細胞中ではメチル化の低減を示し得る。
一部の実施形態では、低メチル化可変標的領域に特異的なプローブは、反復エレメントおよび/または遺伝子間領域に特異的なプローブを含む。一部の実施形態では、反復エレメントに特異的なプローブは、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、傍セントロメアタンデムリピート、および/またはサテライトDNAのうちの1つ、2つ、3つ、4つ、または5つに特異的なプローブを含む。
がん関連低メチル化を示すゲノム領域に特異的な例示的なプローブは、ヒト第1染色体のヌクレオチド8403565~8953708および/または151104701~151106035に特異的なプローブを含む。一部の実施形態では、低メチル化可変標的領域に特異的なプローブは、ヒト第1染色体のヌクレオチド8403565~8953708および/または151104701~151106035と重複する領域またはそれを含む領域に特異的なプローブを含む。
iii.CTCF結合領域
iii.CTCF結合領域
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、CTCF結合領域に特異的なプローブを含む。一部の実施形態では、CTCF結合領域に特異的なプローブは、少なくとも10、20、50、100、200、もしくは500個のCTCF結合領域、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個のCTCF結合領域、例えば上記のまたはCTCFBSDBもしくは上記で引用したCuddapah et al.、Martin et al.、もしくはRhee et al.の論文等の1つもしくは複数におけるCTCF結合領域に特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、CTCF結合部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bpまたは少なくとも1000bp上流および下流の領域を含む。
iv.転写開始部位
iv.転写開始部位
一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、転写開始部位に特異的なプローブを含む。一部の実施形態では、転写開始部位に特異的なプローブは、少なくとも10、20、50、100、200、もしくは500個の転写開始部位、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個の転写開始部位、例えばDBTSSに記載される転写開始部位等に特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットに対するプローブは、転写開始部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bpまたは少なくとも1000bp上流および下流の配列に対するプローブを含む。
v.局所的増幅
v.局所的増幅
上記で述べたように、局所的増幅は、体細胞変異であるが、これらは、メチル化の変化等のある特定のエピジェネティック変化を検出するためのアプローチと類似の様式でリード頻度に基づきシーケンシングによって検出することができる。そのため、上記で考察されたように、がんにおいて局所的増幅を示し得る領域を、エピジェネティック標的領域セットに含めることができる。一部の実施形態では、エピジェネティック標的領域セットに特異的なプローブは、局所的増幅に特異的なプローブを含む。一部の実施形態では、局所的増幅に特異的なプローブは、AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CAおよびRAF1のうちの1つまたは複数に特異的なプローブを含む。例えば、一部の実施形態では、局所的増幅に特異的なプローブは、前述の標的の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17または18のうちの1つまたは複数に特異的なプローブを含む。
vi.対照領域
vi.対照領域
データの検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットに特異的なプローブは、本質的に全ての試料においてメチル化されると予想される対照メチル化領域に特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットに特異的なプローブは、本質的に全ての試料において低メチル化されると予想される対照低メチル化領域に特異的なプローブを含む。
b.配列可変標的領域に特異的なプローブ
b.配列可変標的領域に特異的なプローブ
配列可変標的領域セットに対するプローブは、がんにおいて体細胞変異を受けることが公知である複数の領域に特異的なプローブを含み得る。プローブは、本明細書に記載される任意の配列可変標的領域セットに対して特異的であり得る。例示的な配列可変標的領域セットは、本明細書において、例えば、捕捉されたセットに関する上記のセクションにおいて詳細に考察される。
一部の実施形態では、配列可変標的領域プローブセットは、少なくとも10kb、例えば、少なくとも20kb、少なくとも30kbまたは少なくとも40kbのフットプリントを有する。一部の実施形態では、配列可変標的領域プローブセットは、10~100kb、例えば、10~20kb、20~30kb、30~40kb、40~50kb、50~60kb、60~70kb、70~80kb、80~90kbおよび90~100kbの範囲内のフットプリントを有する。一部の実施形態では、配列可変標的領域プローブセットは、少なくとも10kb、少なくとも20kb、少なくとも30kb、少なくとも40kb、少なくとも50kb、少なくとも75kb、少なくとも100kb、少なくとも200kb、少なくとも300kb、または少なくとも400kbのフットプリントを有する。一部の実施形態では、配列可変標的領域プローブセットは、100~1000kb、例えば、100~200kb、200~300kb、300~400kb、400~500kb、500~600kb、600~700kb、700~800kb、800~900kb、および900~1000kbの範囲内のフットプリントを有する。一部の実施形態では、配列可変標的領域プローブセットは、少なくとも1000kb、少なくとも2000kb、少なくとも3000kb、少なくとも4000kb、少なくとも5000kb、少なくとも6000kb、少なくとも7000kb、少なくとも8000kb、少なくとも9000kb、または少なくとも1Mbのフットプリントを有する。一部の実施形態では、配列可変標的領域プローブセットは、1Mb~10Mb、例えば1~1.2Mb、1.2~1.4Mb、1.4~1.6Mb、1.6~1.8Mb、1.8~2Mb、2~2.25Mb、2.25~2.5Mb、2.5~2.75Mb、2.75~3Mb、3~3.25Mb、3.25~3.5Mb、3.5~3.75Mb、3.75~4Mb、4.~4.25Mb、4.25~4.5Mb、4.5~4.75Mb、4.75~5Mb、5~5.5Mb、5.5~6Mb、6~6.5Mb、6.5~7Mb、7~7.5Mb、7.5~8Mb、8~8.5Mb、8.5~9Mb、9~9.5Mbおよび9.5~10Mbの範囲内のフットプリントを有する。
一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表3の遺伝子の少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、または70個のうちの少なくとも一部に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表3のSNVの少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、または70個に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表3の融合の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、または6個に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表3のインデルの少なくとも1個、少なくとも2個、または3個のうちの少なくとも一部に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表4の遺伝子の少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、または73個のうちの少なくとも一部に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表4のSNVの少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも55個、少なくとも60個、少なくとも65個、少なくとも70個、または73個に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表4の融合の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、または6個に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表4のインデルの少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、または18個のうちの少なくとも一部に特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに特異的なプローブは、表5の遺伝子の少なくとも1個、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも11個、少なくとも12個、少なくとも13個、少なくとも14個、少なくとも15個、少なくとも16個、少なくとも17個、少なくとも18個、少なくとも19個、または少なくとも20個のうちの少なくとも一部に特異的なプローブを含む。
一部の実施形態では、配列可変標的領域セットに特異的なプローブは、少なくとも10、20、30または35のがんに関係する遺伝子、例えば、AKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53およびU2AF1からの標的領域に特異的なプローブを含む。
c.プローブの組成物
c.プローブの組成物
一部の実施形態では、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを含む単一の組成物が使用される。プローブは、本明細書に記載される任意の濃度比でそのような組成物の中に提供され得る。
一部の実施形態では、エピジェネティック標的領域セットに対するプローブを含む第1の組成物および配列可変標的領域セットに対するプローブを含む第2の組成物が提供される。第1の組成物中のプローブの濃度の第2の組成物中のプローブの濃度に対する比は、本明細書に記載される比のいずれかであり得る。
5.捕捉されたcfDNAを含む組成物
5.捕捉されたcfDNAを含む組成物
一部の実施形態では、捕捉されたcfDNAを含む組成物が生成され、および/または本明細書に開示される方法において使用される。捕捉されたcfDNAは、例えば、エピジェネティック標的領域セットに対応するDNAの濃度よりも高い配列可変標的領域セットに対応するDNAの濃度(上記で考察されたフットプリントのサイズについて正規化される)を含む、捕捉されたセットに関する本明細書に記載される特色のいずれかを有し得る。一部の実施形態では、捕捉されたセットのcfDNAは配列タグを含み、これは、本明細書に記載されるように、cfDNAに付加され得る。一般的に、配列タグを含めることによって、それらの天然に存在するタグ付けされていない形態とは異なるcfDNA分子がもたらされる。
そのような組成物は、本明細書に記載されるプローブセットまたはシーケンシングプライマーをさらに含んでいてもよく、これらのそれぞれは、天然に存在する核酸分子とは異なっていてもよい。例えば、本明細書に記載されるプローブセットは捕捉部分を含んでいてもよく、シーケンシングプライマーは天然に存在しない標識を含んでいてもよい。
6.MBDビーズ分配ライブラリの分子タグ識別のための例示的な方法
6.MBDビーズ分配ライブラリの分子タグ識別のための例示的な方法
NGSによるMBDビーズ分配ライブラリの分子タグ同定のための例示的な方法は、以下の通りである。
i)メチル結合ドメインタンパク質-ビーズ精製キットを使用する、抽出されたDNA試料(例えば、必要に応じて本明細書に記載される標的捕捉に供されたヒト試料から抽出された血漿DNA)の物理的分配であり、下流の処理のためにプロセスからのすべての溶出を保存する。
ii)示差的分子タグおよびNGS可能なアダプター配列の各分画への並行適用。例えば、高メチル化画分、残留メチル化(「洗浄」)画分および低メチル化画分が、分子タグを有するNGS-アダプターにライゲーションされる。
iii)すべての分子タグ付けされた画分を再び合わせる、およびその後のアダプター特異的DNAプライマー配列を使用する増幅。
iv)目的のゲノム領域(例えば、がん特異的遺伝子バリアントおよび示差的にメチル化された領域)を標的にする、再び合わせ増幅した総ライブラリの捕捉/ハイブリダイゼーション。
v)試料タグを付け加える、捕捉されたDNAライブラリの再増幅。異なる試料がプールされ、NGS機器において多重的にアッセイされる。
vi)分子タグが一意的分子を同定するために使用されるNGSデータのバイオインフォマティクス解析、および示差的にMBD分配された分子への試料のデコンボリューション。この解析は、標準的な遺伝子シーケンシング/バリアント検出と同時にゲノム領域について相対的な5-メチルシトシンに対する情報を生じさせ得る。本明細書の他の箇所で詳細に考察されるように、解析は、配列リードの第1および第2のセットから配列を決定することを含み、(i)第1のセットのリードまたは分子の配列に基づく参照配列に対するCからTへのまたはGからAへのトランジション変異をコールするステップは、第2のセットのリードまたは分子の配列に基づく参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求するか、あるいは(ii)CからTへのまたはGからAへのトランジション変異は、第1のセットのリードまたは分子の配列に基づき参照配列と比べてコールされない。
i)メチル結合ドメインタンパク質-ビーズ精製キットを使用する、抽出されたDNA試料(例えば、必要に応じて本明細書に記載される標的捕捉に供されたヒト試料から抽出された血漿DNA)の物理的分配であり、下流の処理のためにプロセスからのすべての溶出を保存する。
ii)示差的分子タグおよびNGS可能なアダプター配列の各分画への並行適用。例えば、高メチル化画分、残留メチル化(「洗浄」)画分および低メチル化画分が、分子タグを有するNGS-アダプターにライゲーションされる。
iii)すべての分子タグ付けされた画分を再び合わせる、およびその後のアダプター特異的DNAプライマー配列を使用する増幅。
iv)目的のゲノム領域(例えば、がん特異的遺伝子バリアントおよび示差的にメチル化された領域)を標的にする、再び合わせ増幅した総ライブラリの捕捉/ハイブリダイゼーション。
v)試料タグを付け加える、捕捉されたDNAライブラリの再増幅。異なる試料がプールされ、NGS機器において多重的にアッセイされる。
vi)分子タグが一意的分子を同定するために使用されるNGSデータのバイオインフォマティクス解析、および示差的にMBD分配された分子への試料のデコンボリューション。この解析は、標準的な遺伝子シーケンシング/バリアント検出と同時にゲノム領域について相対的な5-メチルシトシンに対する情報を生じさせ得る。本明細書の他の箇所で詳細に考察されるように、解析は、配列リードの第1および第2のセットから配列を決定することを含み、(i)第1のセットのリードまたは分子の配列に基づく参照配列に対するCからTへのまたはGからAへのトランジション変異をコールするステップは、第2のセットのリードまたは分子の配列に基づく参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求するか、あるいは(ii)CからTへのまたはGからAへのトランジション変異は、第1のセットのリードまたは分子の配列に基づき参照配列と比べてコールされない。
上記の例示的な方法は、本明細書の他の箇所において記載される本開示による方法の任意の適合性の特色をさらに含み得る。
7.例示的なワークフロー
7.例示的なワークフロー
分配およびライブラリ調製のための例示的なワークフローが、本明細書に提供される。一部の実施形態では、分配およびライブラリ調製のワークフローの一部またはすべての特色は、組み合わせて使用されてもよい。上記の例示的なワークフローは、本明細書の他の箇所において記載される本開示による方法の任意の適合性の特色をさらに含み得る。
a.分配するステップ
a.分配するステップ
一部の実施形態では、試料DNA(例えば、1ngと300ngとの間)を、適切な量のメチル結合ドメイン(MBD)緩衝液(MBD緩衝液の量は使用されるDNAの量に依存する)およびMBDタンパク質にコンジュゲートされた磁気ビーズと混合し、一晩インキュベートする。メチル化DNA(高メチル化DNA)は、このインキュベーションの間に磁気ビーズ上のMBDタンパク質に結合する。非メチル化(低メチル化DNA)またはメチル化が少ないDNA(中等度にメチル化)は、増加する塩の濃度を含有する緩衝液によってビーズから洗い流される。例えば、非メチル化、低メチル化および/または中等度のメチル化DNAを含有する1つ、2つ、またはそれより多くの分画が、そのような洗浄から得られ得る。最終的に、高い塩濃度の緩衝液を使用して、高度にメチル化されたDNA(高メチル化DNA)をMBDタンパク質から溶出させる。一部の実施形態では、これらの洗浄は、増加するメチル化レベルを有するDNAの3つの画分(低メチル化画分、中等度メチル化分画、および高メチル化画分)をもたらす。
一部の実施形態では、DNAの3つの画分は、ライブラリ調製の酵素的ステップのための調製において脱塩され、濃縮される。
b.ライブラリ調製
b.ライブラリ調製
一部の実施形態では(例えば、画分中のDNAを濃縮した後)、分配されたDNAを、例えば、DNA分子の末端オーバーハングを伸張させることによってライゲーション可能にし、アデノシン残基を断片の3’末端に付加し、および各DNA断片の5’末端をリン酸化する。DNAリガーゼおよびアダプターを添加して、各分配DNA分子に各末端でアダプターをライゲーションする。これらのアダプターは、他の画分において使用されるアダプター中の画分タグから区別可能である画分タグ(例えば、非ランダム、非一意的バーコード)を含有する。ライゲーション後、3つの画分は、一緒にプールされて、増幅される(例えばアダプターに特異的なプライマーを用いる、例えばPCRによって)。
PCR後、増幅されたDNAは、捕捉前に洗浄および濃縮され得る。増幅されたDNAを、目的の特異的領域を標的にする本明細書に記載されるプローブのコレクション(例えば、ビオチン化RNAプローブまたはssDNAプローブまたはdsDNAプローブであり得る)と接触させる。混合物は、例えば塩緩衝液中で、例えば一晩インキュベートされる。プローブは、捕捉され(例えば、ストレプトアビジン磁気ビーズを使用して)、例えば一連の塩洗浄によって、捕捉されなかった増幅されたDNAから分離し、それによって捕捉されたDNAセットを提供する。捕捉後、捕捉されたセットのDNAは、PCRによって増幅される。一部の実施形態では、PCRプライマーは、試料タグを含有し、それによって試料タグをDNA分子に組み込む。一部の実施形態では、異なる試料からのDNAは、一緒にプールされ、次いで、例えばIllumina NovaSeqシーケンサーを使用して、多重シーケンシングされる。
III.本方法の一般的な特色
1.試料
III.本方法の一般的な特色
1.試料
試料は、対象から単離した任意の生体試料であってよい。試料は身体試料であってよい。試料には、身体組織、例えば、既知のまたは疑われる固形腫瘍、全血、血小板、血清、血漿、糞便、赤血球、白血球(white blood cell)または白血球(leucocyte)、内皮細胞、組織生検材料、脳脊髄液、滑液、リンパ液、腹水、間質または細胞外の流体、歯肉溝滲出液を含む細胞間の空間内の流体、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿が含まれ得る。試料は、体液、特に、血液およびその分画、ならびに尿であることが好ましい。試料は、もともと対象から単離した形態であってよく、あるいは細胞等の成分を除去もしくは添加する、またはある成分を別の成分に対して富化するように、さらに処理に供されたものであってもよい。したがって、解析のための好ましい体液は、無細胞核酸を含有する血漿または血清である。試料を対象から単離または入手し、試料分析の場所に移送することができる。試料を望ましい温度、例えば、室温、4℃、-20℃、および/または-80℃で保存し、輸送することができる。試料を試料分析の場所で対象から単離または入手することができる。対象は、ヒト、哺乳動物、動物、コンパニオン動物、奉仕動物、またはペットであり得る。対象はがんを有し得る。対象は、がんまたは検出可能ながん症状を有していなくてもよい。対象は、1つまたは複数のがん治療、例えば、化学療法、抗体、ワクチンまたは生物学的製剤のうちの任意の1つまたは複数で処置されたことがあり得る。対象は、寛解の状態にあり得る。対象は、がんまたは任意のがんに関連する遺伝子変異/障害にかかりやすいと診断されていてもよく診断されていなくてもよい。
血漿の体積は、シーケンシングされる領域の所望のリード深度に依存する。例示的な体積は、0.4~40ml、5~20ml、10~20mlである。例えば、体積は、0.5mL、1mL、5mL、10mL、20mL、30mL、または40mLであり得る。試料採取される血漿の体積は5~20mLであり得る。
一部の実施形態では、試料は、組織から得たDNA試料であり得る。そのような実施形態では、組織試料から得たDNAを、酵素的手段(例えば、フラグメンターゼ(fragmentase))または機械的手段(例えば、超音波処理によるせん断)によって断片化することができる。
試料は、ゲノム等価物を含有する種々の量の核酸を含み得る。例えば、DNA約30ngの試料は、約10,000(104)個のハプロイドヒトゲノム等価物を含有し得、cfDNAの場合には約2000億(2×1011)個の個々のポリヌクレオチド分子を含有し得る。同様に、DNA約100ngの試料は、約30,000個のハプロイドヒトゲノム等価物を含有し得、cfDNAの場合には約6000億個の個々の分子を含有し得る。
試料は、異なる供給源から、例えば、同じ対象の細胞および無細胞供給源から、異なる対象の細胞および無細胞供給源からの核酸を含み得る。試料は、変異を有する核酸を含み得る。例えば、試料は、生殖細胞系変異および/または体細胞変異を有するDNAを含み得る。生殖細胞系変異とは、対象の生殖細胞系DNAに存在する変異を指す。体細胞変異とは、対象の体細胞を起源とする変異、例えば、がん細胞を指す。試料は、がん関連変異(例えば、がん関連体細胞変異)を有するDNAを含み得る。試料は、エピジェネティックバリアント(すなわち、化学的またはタンパク質改変)を含み得、ここで、エピジェネティックバリアントは、がん関連変異等の遺伝子バリアントの存在に関連する。一部の実施形態では、試料は、遺伝子バリアントの存在に関連するエピジェネティックバリアントを含み、ここで、試料は、遺伝子バリアントを含まない。
増幅前の試料中の無細胞核酸の例示的な量は、約1fg~約1μg、例えば、1pg~200ng、1ng~100ng、10ng~1000ngの範囲である。例えば、量は、最大約600ng、最大約500ng、最大約400ng、最大約300ng、最大約200ng、最大約100ng、最大約50ng、または最大約20ngの無細胞核酸分子であり得る。量は、少なくとも1fg、少なくとも10fg、少なくとも100fg、少なくとも1pg、少なくとも10pg、少なくとも100pg、少なくとも1ng、少なくとも10ng、少なくとも100ng、少なくとも150ng、または少なくとも200ngの無細胞核酸分子であり得る。量は、最大1フェムトグラム(fg)、10fg、100fg、1ピコグラム(pg)、10pg、100pg、1ng、10ng、100ng、150ng、200ng、250ngまたは300ngの無細胞核酸分子であり得る。方法は、1フェムトグラム(fg)~200ngを得るステップを含み得る。一部の実施形態では、使用されるDNAの量は、1fgから1μgの間であり得る。
無細胞核酸は、細胞に含まれることも、他の方法で細胞に結合していることもない核酸、または、言い換えれば、インタクトな細胞の除去後に試料中に残存する核酸である。無細胞核酸には、ゲノムDNA、ミトコンドリアDNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体低分子RNA(snoRNA)、Piwi相互作用RNA(piRNA)、長鎖非コードRNA(長鎖ncRNA)、またはこれらのいずれかの断片を含む、DNA、RNA、およびそれらのハイブリッドが含まれる。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死およびアポトーシスを経て体液中に放出され得る。一部の無細胞核酸、例えば循環腫瘍DNA(ctDNA)は、がん細胞から体液中に放出される。その他は、健康な細胞から放出される。一部の実施形態では、cfDNAは、無細胞胎児DNA(cffDNA)である。一部の実施形態では、無細胞核酸は、腫瘍細胞によって産生される。一部の実施形態では、無細胞核酸は、腫瘍細胞と非腫瘍細胞の混合物によって産生される。
無細胞核酸は、約100~500ヌクレオチドの例示的なサイズ分布を有し、110~約230ヌクレオチドの分子が、分子の約90%に相当し、最頻値は約168ヌクレオチドであり、第2の小さなピークは240~440ヌクレオチドの間の範囲である。
一部の実施形態では、試料中のDNAは、無細胞DNAから本質的になる。これは、試料中のDNAすべてまたはほぼすべて、例えば、重量またはモル分率で少なくとも90%のDNAがcfDNAであることを意味する。一部の実施形態では、重量またはモル分率で試料中の少なくとも95%、97%、98%、99%、99.5%、または99.9%のDNAがcfDNAである。一部の実施形態では、試料中のDNAは無細胞DNAからなる。
無細胞核酸は、分画または分配ステップを経て体液から単離され得、ここでは、溶液中に見出される無細胞核酸が、インタクトな細胞および体液の他の不溶性成分から分離される。分配は、遠心分離または濾過等の手法を含み得る。あるいは、体液中の細胞を溶解し、無細胞および細胞の核酸を共に処理することができる。一般に、緩衝液の添加および洗浄ステップの後、核酸をアルコールで沈殿させることができる。夾雑物または塩を除去するためのシリカ系カラム等のさらなる清浄ステップを使用することができる。手順のある特定の態様、例えば収量を最適化するために、非特異的バルク担体核酸、例えば、バイサルファイトシーケンシング、ハイブリダイゼーション、および/またはライゲーションのためのC1 DNA、DNAまたはタンパク質を反応全体にわたって添加することができる。
そのような処理の後、試料は、二本鎖DNA、一本鎖DNAおよび一本鎖RNAを含む種々の形態の核酸を含み得る。一部の実施形態では、それらをその後の処理および分析のステップに含めることができるように、一本鎖DNAおよびRNAを二本鎖形態に変換することができる。
試料中の二本鎖DNA分子および二本鎖DNA分子に変換された一本鎖核酸分子を一方の末端または両末端のいずれかでアダプターと連結することができる。典型的には、二本鎖分子を、4種すべての標準のヌクレオチドの存在下で5’-3’ポリメラーゼおよび3’-5’エキソヌクレアーゼ(またはプルーフリーディング機能)を有するポリメラーゼで処理することにより、平滑末端化する。Klenow大断片およびT4ポリメラーゼは適切なポリメラーゼの例である。平滑末端化DNA分子を少なくとも部分的に二本鎖のアダプター(例えば、Y字形またはベル形のアダプター)とライゲーションすることができる。あるいは、試料核酸およびアダプターの平滑末端に相補的ヌクレオチドを付加して、ライゲーションを容易にすることができる。本明細書では、平滑末端ライゲーションおよび粘着末端ライゲーションのどちらも意図されている。平滑末端ライゲーションでは、核酸分子およびアダプタータグの両方が平滑末端を有する。粘着末端ライゲーションでは、典型的には、核酸分子は「A」オーバーハングを有し、アダプターは「T」オーバーハングを有する。
2.タグ
2.タグ
バーコードを含むタグをアダプターに組み込むまたは他の方法で結合することができる。タグは、他の方法の中でも、ライゲーション、重複伸長PCRによって組み込むことができる。
a.分子タグ付け戦略
a.分子タグ付け戦略
分子タグ付けとは、配列リードの起源である分子を弁別することを可能にするタグ付けの慣例を指す。タグ付け戦略は、一意的タグ付けおよび非一意的タグ付け戦略に分けることができる。一意的タグ付けでは、試料中の分子のすべてまたは実質的にすべてが異なるタグを有し、したがって、タグ情報だけに基づいてリードを元の分子に割り当てることができる。そのような方法に使用されるタグは、時には「一意的タグ」と称される。非一意的タグ付けでは、同じ試料中の異なる分子が同じタグを有し得、したがって、配列リードを元の分子に割り当てるために、タグ情報に加えて他の情報が使用される。そのような情報には、開始および終止座標、分子がマッピングされる座標、開始座標または終止座標単独等が含まれ得る。そのような方法に使用されるタグは、時には「非一意的タグ」と称される。したがって、試料中のすべての分子に一意的なタグを付ける必要はない。試料内の同定可能なクラスの範囲内に入る分子に一意的なタグを付けることで十分である。したがって、異なる同定可能なファミリーの分子は、タグ付けされた分子の正体に関する情報を失うことなく、同じタグを有し得る。
非一意的タグ付けのある特定の実施形態では、使用される異なるタグの数は、特定の群のすべての分子が異なるタグを有する可能性が非常に高くなるようにする(例えば、少なくとも99%、少なくとも99.9%、少なくとも99.99%または少なくとも99.999%)ために十分であり得る。バーコードをタグとして使用する場合、およびバーコードを分子の両末端に、例えばランダムに付着させる場合、バーコードの組合せも一緒になってタグを構成し得ることに留意すべきである。この数は次いで、クラス内に入る分子の数に応じたものになる。例えば、クラスは、参照ゲノム内の同じ開始-終止位置にマッピングされるすべての分子であり得る。クラスは、特定の遺伝子座、例えば、特定の塩基または特定の領域(例えば、最大100塩基または遺伝子または遺伝子のエクソン)にわたってマッピングされるすべての分子であり得る。ある特定の実施形態では、クラスの中の分子の数zを一意的に同定するために使用される異なるタグの数は、2*z、3*z、4*z、5*z、6*z、7*z、8*z、9*z、10*z、11*z、12*z、13*z、14*z、15*z、16*z、17*z、18*z、19*z、20*zまたは100*zのいずれか(例えば、下限)と100,000*z、10,000*z、1000*zまたは100*zのいずれか(例えば、上限)との間であってよい。
例えば、ヒト無細胞DNA約3ng~30ngの試料中、およそ103~104個の分子が特定のヌクレオチド座標にマッピングされ、約3~10個の分子が任意の開始座標を同じ終止座標と共有することが予想される。したがって、そのような分子のすべてに一意的なタグを付けるためには約50~約50,000種の異なるタグ(例えば、約6~220種のバーコード組合せ)で十分であり得る。1つのヌクレオチド座標にマッピングされる103~104個の分子すべてに一意的なタグを付けるためには、約100万~約2000万種の異なるタグが必要になる。
一般に、反応における一意的または非一意的タグバーコードの割り当ては、米国特許出願第20010053519号、同第20030152490号、同第20110160078号、ならびに米国特許第6,582,908号および米国特許第7,537,898号および米国特許第9,598,731号に記載されている方法およびシステムに従う。タグは、試料核酸にランダムにまたは非ランダムに連結され得る。
一部の実施形態では、タグ付けされた核酸をマイクロウェルプレートにローディングした後、シーケンシングする。マイクロウェルプレートは、96、384、または1536マイクロウェルを有してよい。一部の場合には、一意的タグ対マイクロウェルの予測される比で導入される。例えば、一意的タグを、ゲノム試料あたり約1個よりも多く、約2個よりも多く、約3個よりも多く、約4個よりも多く、約5個よりも多く、約6個よりも多く、約7個よりも多く、約8個よりも多く、約9個よりも多く、約10個よりも多く、約20個よりも多く、約50個よりも多く、約100個よりも多く、約500個よりも多く、約1000個よりも多く、約5000個よりも多く、約10000個よりも多く、約50,000個よりも多く、約100,000個よりも多く、約500,000個よりも多く、約1,000,000個よりも多く、約10,000,000個よりも多く、約50,000,000個よりも多くまたは約1,000,000,000個よりも多くの一意的タグがローディングされるように、ローディングすることができる。一部の場合には、一意的タグを、ゲノム試料あたり約2個未満、約3個未満、約4個未満、約5個未満、約6個未満、約7個未満、約8個未満、約9個未満、約10個未満、約20個未満、約50個未満、約100個未満、約500個未満、約1000個未満、約5000個未満、約10000個未満、約50,000個未満、約100,000個未満、約500,000個未満、約1,000,000個未満、約10,000,000個未満、約50,000,000個未満または約1,000,000,000個未満の一意的タグがローディングされるように、ローディングすることができる。一部の場合には、試料ゲノムあたりにローディングされる一意的タグの平均数は、ゲノム試料あたり約1個未満、約2個未満、約3個未満、約4個未満、約5個未満、約6個未満、約7個未満、約8個未満、約9個未満、約10個未満、約20個未満、約50個未満、約100個未満、約500個未満、約1000個未満、約5000個未満、約10000個未満、約50,000個未満、約100,000個未満、約500,000個未満、約1,000,000個未満、約10,000,000個未満、約50,000,000個未満もしくは約1,000,000,000個未満、または、約1個よりも多く、約2個よりも多く、約3個よりも多く、約4個よりも多く、約5個よりも多く、約6個よりも多く、約7個よりも多く、約8個よりも多く、約9個よりも多く、約10個よりも多く、約20個よりも多く、約50個よりも多く、約100個よりも多く、約500個よりも多く、約1000個よりも多く、約5000個よりも多く、約10000個よりも多く、約50,000個よりも多く、約100,000個よりも多く、約500,000個よりも多く、約1,000,000個よりも多く、約10,000,000個よりも多く、約50,000,000個よりも多くもしくは約1,000,000,000個よりも多くの一意的タグである。
好ましいフォーマットは、標的核酸の両末端にライゲーションされる、20~50個の異なるタグ(例えば、バーコード)を使用する。例えば、標的分子の両末端にライゲーションされる35個の異なるタグ(例えば、バーコード)により35×35の順列が創出され、これは、35個のタグに対して1225種のタグ組合せと等しい。そのようなタグの数は、同じ開始および終止点を有する異なる分子が、異なる組合せのタグを受ける高い確率(例えば、少なくとも94%、99.5%、99.99%、99.999%)を有するために十分である。他のバーコード組合せには、10から500の間の任意の数、例えば、約15×15、約35×35、約75×75、約100×100、約250×250、約500×500が含まれる。
一部の場合には、一意的タグは、所定のまたはランダムなまたは半ランダムな配列オリゴヌクレオチドであり得る。他の場合には、複数のバーコードを使用することができ、したがって、複数内のバーコードは互いに必ずしも一意的ではない。この例では、バーコードを個々の分子にライゲーションすることができ、したがって、バーコードとそれがライゲーションされる配列との組合せにより、個別に追跡することができる一意的配列が創出される。本明細書に記載されるように、非一意的バーコードと、配列リードの出発(開始)および終了(終止)部分の配列データを組み合わせて検出することにより、一意的正体を特定の分子に割り当てることが可能になる。個々の配列リードの塩基対の長さまたは数も、そのような分子に一意的正体を割り当てるために使用することができる。本明細書に記載されるように、一意的正体が割り当てられた核酸の単一ストランドからの断片によって、親ストランドからの断片のその後の同定が可能になり得る。
3.増幅
3.増幅
アダプターが隣接する試料核酸を、PCRおよび他の増幅方法によって増幅することができる。増幅は、典型的には、増幅すべきDNA分子に隣接するアダプター内のプライマー結合部位に結合するプライマーによってプライミングされる。増幅方法は、熱サイクリングから生じる変性、アニーリングおよび伸長のサイクルを伴うか、または転写媒介増幅におけるように定温であってもよい。他の増幅方法には、リガーゼ連鎖反応、鎖置換増幅(strand displacement amplification)、核酸配列に基づく増幅、および配列に基づく自己持続複製が含まれる。
本方法では、アダプターへの連結前に二本鎖核酸の少なくとも50%、60%、70%または80%の増幅がもたらされる、Tテイル付きおよびCテイル付きアダプターを用いたdsDNAライゲーションを実施することが好ましい。本方法では、Tテイル付きアダプター単独で実施される対照方法と比べて増幅される分子の量または数が少なくとも10%、15%または20%増加することが好ましい。
4.ベイトセット;捕捉部分;富化
4.ベイトセット;捕捉部分;富化
上記のように、試料中の核酸を捕捉ステップに供することができ、ここでは、標的配列を有する分子がその後の分析のために捕捉される。標的捕捉は、ビオチンまたは以下に言及される他の例等の捕捉部分で標識されたオリゴヌクレオチドベイトを含むベイトセットの使用を伴い得る。プローブは、遺伝子等の領域のパネルにわたってタイリングするために選択される配列を有し得る。一部の実施形態では、ベイトセットは、それぞれ本明細書の他の箇所で考察されている配列可変標的領域セットおよびエピジェネティック標的領域セットのもの等の標的領域のセットについてより高いおよびより低い捕捉収率を有し得る。一部の実施形態では、ベイト(すなわち、プローブ)は、RNA、ssDNAまたはdsDNAであり得る。ベイトセットを試料と、ベイトを有する標的分子のハイブリダイゼーションを可能にする条件下で組み合わせる。次いで、捕捉された分子を、捕捉部分を使用して単離する。例えば、ビオチン捕捉部分をビーズベースのストレプトアビジンによって。そのような方法は、例えば、参照により本明細書に組み込まれる、2017年12月26日発行の米国特許第9,850,523号にさらに記載されている。
捕捉部分には、限定なく、ビオチン、アビジン、ストレプトアビジン、特定のヌクレオチド配列を含む核酸、抗体によって認識されるハプテン、および磁気的に誘引可能な粒子が含まれる。抽出部分は、ビオチン/ストレプトアビジンまたはハプテン/抗体等の結合対のメンバーであり得る。一部の実施形態では、分析物に付着した捕捉部分を、単離可能な部分に付着したその結合対、例えば、磁気的に誘引可能な粒子または遠心分離によって沈降させることができる大きな粒子等によって捕捉する。捕捉部分は、捕捉部分を有する核酸の捕捉部分を欠く核酸からの親和性分離を可能にする任意の型の分子であってよい。例示的な捕捉部分は、固相に連結したもしくは連結可能なストレプトアビジンに結合することによって親和性分離を可能にするビオチン、または固相に連結したもしくは連結可能な相補的オリゴヌクレオチドに結合することによって親和性分離を可能にするオリゴヌクレオチドである。
5.シーケンシング
5.シーケンシング
必要に応じてアダプターが隣接する試料核酸は、事前の増幅を伴いまたは伴わずに、一般にシーケンシングに供される。シーケンシング法または必要に応じて利用される市販のフォーマットには、例えばSangerシーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単分子シーケンシング、ナノポアに基づくシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シーケンシング(NGS)、合成による単分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、マキサム-ギルバートシーケンシング、プライマーウォーキング、PacBioを、SOLiDを、Ion Torrentを、またはNanoporeプラットフォームを使用するシーケンシングが含まれる。高メチル化画分由来の分子のリードまたは配列から検出されるCからTへのまたはGからAへのトランジション変異をより高い厳密性でコールすることを含む本明細書に記載した原理は、当業者により、メチル化を直接検出するシーケンシング手法、例えば、Oxford NanoporeまたはPacBioを使用するシーケンシングに適用され得る。シーケンシング反応は種々の試料処理ユニットで実施することができ、その中には複数のレーン、複数のチャネル、複数のウェル、または実質的に同時に複数の試料のセットを処理するその他の手段が含まれ得る。試料処理ユニットには、複数の試行を同時に処理することができる複数の試料チャンバーも含まれ得る。
シーケンシング反応は、がんのまたは他の疾患のマーカーを含有する1つまたは複数の核酸断片型または領域に対して実施され得る。シーケンシング反応は、試料中に存在する任意の核酸断片に対しても実施され得る。配列反応は、ゲノムの少なくとも約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%、または100% に対して実施され得る。他の場合では、配列反応は、ゲノムの約5%未満、約10%未満、約15%未満、約20%未満、約25%未満、約30%未満、約40%未満、約50%未満、約60%未満、約70%未満、約80%未満、約90%未満、約95%未満、約99%未満、約99.9%未満、または約100%未満に対して実施され得る。
同時シーケンシング反応は、多重シーケンシング手法を使用して実施してよい。一部の実施形態では、無細胞ポリヌクレオチドは、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回のシーケンシング反応によってシーケンシングされる。他の実施形態では、無細胞ポリヌクレオチドは、約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回未満のシーケンシング反応によってシーケンシングされる。シーケンシング反応は、典型的には逐次的にまたは同時に実施される。その後のデータ解析は一般にシーケンシング反応の全部または一部について実施される。一部の実施形態では、データ解析は少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回のシーケンシング反応について実施される。他の実施形態では、データ解析は約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回未満のシーケンシング反応について実施してよい。リード深度の例は、遺伝子座(例えば塩基の位置)あたり約1000~約50000リードである。
a.示差的なシーケンシング深度
a.示差的なシーケンシング深度
一部の実施形態では、配列可変標的領域セットに対応する核酸は、エピジェネティック標的領域セットに対応する核酸よりも高いシーケンシング深度までシーケンシングされる。例えば、配列バリアント標的領域セットに対応する核酸についてのシーケンシング深度は、エピジェネティック標的領域セットに対応する核酸についてのシーケンシング深度の少なくとも1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、もしくは15倍、または1.25倍~1.5倍、1.5倍~1.75倍、1.75倍~2倍、2倍~2.25倍、2.25倍~2.5倍、2.5倍~2.75倍、2.75倍~3倍、3倍~3.5倍、3.5倍~4倍、4倍~4.5倍、4.5倍~5倍、5倍~5.5倍、5.5倍~6倍、6倍~7倍、7倍~8倍、8倍~9倍、9倍~10倍、10倍~11倍、11倍~12倍、13倍~14倍、14倍~15倍、もしくは15倍~100倍であり得る。一部の実施形態では、前記シーケンシング深度は少なくとも2倍である。一部の実施形態では、前記シーケンシング深度は少なくとも5倍である。一部の実施形態では、前記シーケンシング深度は少なくとも10倍である。一部の実施形態では、前記シーケンシング深度は4倍~10倍である。一部の実施形態では、前記シーケンシング深度は4倍~100倍である。これらの実施形態のそれぞれは、配列可変標的領域セットに対応する核酸がエピジェネティック標的領域セットに対応する核酸よりも高いシーケンシング深度までシーケンシングされる程度を指す。
一部の実施形態では、配列可変標的領域セットに対応する捕捉されたcfDNAおよびエピジェネティック標的領域セットに対応する捕捉されたcfDNAを、例えば、同じシーケンシングセル(例えば、Illuminaシーケンサーのフローセル等)中、および/または別々に捕捉されたセットの組換えによって生じたプールされた組成物もしくは同じ容器中の配列可変標的領域セットに対応するcfDNAおよびエピジェネティック標的領域セットに対応する捕捉されたcfDNAの捕捉によって得られた組成物であり得る同じ組成物中で同時にシーケンシングする。
b.シーケンシングのための調製
b.シーケンシングのための調製
一部の実施形態では、一方または両方の末端に一本鎖のオーバーハングを有する二本鎖核酸に平滑末端を酵素的に形成することによるシーケンシングのための核酸の集団が調製される。これらの実施形態では、集団は典型的にはヌクレオチド(例えばA、C、G、およびTまたはU)の存在下に5’-3’DNAポリメラーゼ活性および3’-5’エキソヌクレアーゼ活性を有する酵素で処理される。必要に応じて使用され得る酵素またはその触媒断片の例には、Klenow大断片およびT4ポリメラーゼが含まれる。5’オーバーハングでは、酵素は典型的には対向するストランドの上の後退した3’末端を、それが5’末端と重なって平滑末端を生成するまで伸長する。3’オーバーハングでは、酵素は一般に3’末端から対向するストランドの5’末端まで、時にはそれを越えて、消化する。この消化が対向するストランドの5’末端を越えて進めば、ギャップは5’オーバーハングに使用する同じポリメラーゼ活性を有する酵素によってフィルインされ得る。二本鎖核酸における平滑末端の形成により、例えばアダプターの結合およびその後の増幅が容易になる。
一部の実施形態では、核酸の集団はさらなる処理、例えば一本鎖核酸から二本鎖核酸への変換および/またはRNAからDNA(例えば相補的DNA、即ちcDNA)への変換に供される。これらの形態の核酸も、必要に応じてアダプターに連結され、増幅される。
事前の増幅ありとなしで、上記の平滑末端を形成するプロセスに供する核酸、および必要に応じて試料中の他の核酸をシーケンシングして、シーケンシングされた核酸を産生することができる。シーケンシングされた核酸は、核酸の配列(例えば配列情報)、またはその配列が決定された核酸と称し得る。シーケンシングは、試料中の個々の核酸分子の増幅産物のコンセンサス配列から直接または間接的に試料中の個々の核酸分子の配列データを提供するように、実施することができる。
一部の実施形態では、平滑末端の形成の後の試料中の一本鎖オーバーハングを有する二本鎖核酸は、バーコードを含むアダプターに両末端で連結され、シーケンシングは核酸配列およびアダプターによって導入されたインラインバーコードを決定する。平滑末端DNA分子は、必要に応じて、少なくとも部分的に二本鎖のアダプター(例えばY字形またはベル形のアダプター)の平滑末端にライゲーションされる。あるいは、試料核酸およびアダプターの平滑末端に相補的ヌクレオチドのテイルを付けてライゲーションを容易にする(例えば付着末端ライゲーションのため)ことができる。
核酸試料は、典型的には同じ核酸の任意の2つのコピーが両末端に連結されたアダプターからの同じアダプターバーコードの組合せを受ける確率が低くなる(例えば約1または0.1%未満)ように、十分な数のアダプターと接触させられる。このようにしてアダプターを使用することにより、参照核酸上の同じ出発点および停止点を有し、同じバーコードの組合せに連結された核酸配列のファミリーの特定が可能になる。そのようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を表わし得る。ファミリーメンバーの配列をコンパイルして、平滑末端の形成およびアダプターの結合によって改変された元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を誘導することができる。換言すれば、試料中の核酸の特定された位置を占めるヌクレオチドは、ファミリーメンバー配列における対応する位置を占めるヌクレオチドのコンセンサスであると決定することができる。ファミリーには、二本鎖核酸の一方または両方のストランドの配列が含まれ得る。ファミリーのメンバーが二本鎖核酸からの両方のストランドの配列を含むならば、配列をコンパイルしてコンセンサスヌクレオチドまたは配列を誘導する目的のために、1つのストランドの配列をその相補体に変換することができる。いくつかのファミリーは単一メンバーの配列のみを含む。この場合には、この配列は増幅前の試料中の核酸の配列とみなすことができる。あるいは、単一メンバー配列のみを有するファミリーを、その後の解析から除外してもよい。
シーケンシングされた核酸におけるヌクレオチドの変動(例えばSNVまたはインデル)は、シーケンシングされた核酸を参照配列と比較することによって決定することができる。参照配列は既知の配列、例えば対象からの既知の全部または一部のゲノム配列(例えばヒト対象の全ゲノム配列)であることが多い。参照配列は、例えばhG19またはhG38であってよい。上記のように、シーケンシングされた核酸は、試料中の核酸について直接決定された配列、またはそのような核酸の増幅産物の配列のコンセンサスを表わし得る。比較は、参照配列の1つまたは複数の指定された位置で実施することができる。シーケンシングされた核酸のサブセットは、それぞれの配列が最大限にアラインメントされた場合に、参照配列の指定された位置に対応する位置を含んで特定することができる。そのようなサブセットの中で、シーケンシングされた核酸がもしあれば、指定された位置にヌクレオチドの変動を含むか、必要に応じてもしあれば、参照ヌクレオチドを含む(例えば参照配列と同じ)かを、決定することができる。ヌクレオチドバリアントを含むサブセット中のシーケンシングされた核酸の数が選択した閾値を超えれば、バリアントヌクレオチドを指定された位置においてコールすることができる。閾値は、他の可能性の中でも、ヌクレオチドバリアントを含むサブセットの中の少なくとも1、2、3、4、5、6、7、8、9、もしくは10個等のシーケンシングされた核酸の単純な数であってもよく、またはヌクレオチドバリアントを含むサブセットの中のシーケンシングされた核酸の少なくとも0.5、1、2、3、4、5、10、15、もしくは20等の比であってもよい。参照配列の中の任意の指定された目的の位置について、比較を繰り返すことができる。時には、参照配列の少なくとも約20、100、200、または300の隣接する位置、例えば約20~500、または約50~300の隣接する位置を占める指定された位置について、比較を実施してもよい。
本明細書に記載したフォーマットおよび適用を含む核酸シーケンシングに関するさらなる詳細は、例えば、そのそれぞれがこれにより全体が参照により本明細書に組み込まれる、Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016)、Liu et al., J. of Biomedicine and Biotechnology, Volume 2012, Article ID 251364:1-11 (2012)、Voelkerding et al., Clinical Chem., 55: 641-658 (2009)、MacLean et al., Nature Rev. Microbiol., 7: 287-296 (2009)、Astier et al., J Am Chem Soc., 128(5):1705-10 (2006)、米国特許第6,210,891号、米国特許第6,258,568号、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号、米国特許第5,912,148号、米国特許第6,130,073号、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号、米国特許第7,329,492号、米国特許第7,170,050号、米国特許第7,302,146号、米国特許第7,313,308号、および米国特許第7,476,503号にも提供されている。
6.解析
6.解析
シーケンシングにより、複数の配列リードまたはリードが生成し得る。配列リードまたはリードは、長さが約150塩基未満または長さが約90塩基未満のヌクレオチドデータの配列を含み得る。一部の実施形態では、リードは、長さが約80塩基と約90塩基との間、例えば、約85塩基である。一部の実施形態では、本開示の方法は、例えば、長さが約50塩基未満または約30塩基未満の非常に短いリードに適用される。配列リードデータは、配列データならびにメタ情報を含み得る。配列リードデータは、例えば、VCFファイル、FASTAファイル、またはFASTQファイルを含む任意の適切なファイルフォーマットで記憶することができる。
FASTAは、配列データベースを検索するためのコンピュータプログラムを指し得、FASTAという名称は標準ファイルフォーマットも指し得る。例えば、FASTAは、これによりその全体が参照により本明細書に組み込まれるPearson & Lipman, 1988, Improved tools for biological sequence comparison, PNAS 85:2444-2448に記載されている。FASTAフォーマットにおける配列は1行の説明で始まり、複数行の配列データが続く。説明行は第1欄における「より大(>)」符号によって配列データから区別される。「>」符号に続く単語は配列の識別子であり、行の残りは説明である(いずれも任意)。「>」と識別子の第1文字との間にスペースはなくてもよい。テキストのすべての行は80文字よりも短いことが推奨されている。「>」で始まる別の行が現れた場合には配列は終了する。これは別の配列の始まりを示す。
FASTQフォーマットは、生物学的配列(通常、ヌクレオチド配列)とそれに対応する品質スコアとの両方を記憶するための、テキストに基づくフォーマットである。これはFASTAフォーマットに類似しているが、配列データに続く品質スコアを有する。簡潔のため、配列文字と品質スコアの両方が単一のASCII文字によって符号化されている。FASTQフォーマットは、例えば、これによりその全体が参照により本明細書に組み込まれる、Cock et al. ("The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants," Nucleic Acids Res 38 (6): 1767-1771, 2009)に記載されているIlluminaのGenome Analyzer等のハイスループットシーケンシング装置の出力を記憶するための事実上の標準である。
FASTAおよびFASTQファイルについて、メタ情報は説明行を含み、配列データの行を含まない。一部の実施形態では、FASTQファイルについて、メタ情報は品質スコアを含む。FASTAおよびFASTQファイルについて、配列データは説明行の後に始まり、典型的には必要に応じて「-」を有するIUPAC多義コードのあるサブセットを使用して存在する。ある実施形態では、配列データには、必要に応じて任意に「-」またはU(例えば、ギャップまたはウラシルを表す)を含むA、T、C、G、およびN文字が使用され得る。
一部の実施形態では、少なくとも1つのマスター配列リードファイルおよび出力ファイルが、(例えば、ASCII;ISO/IEC 646;EBCDIC;UTF-8;またはUTF-16等の符号化を使用して)プレインテキストファイルとして記憶される。本開示によって提供されるコンピュータシステムは、プレインテキストファイルを開くことができるテキストエディタープログラムを含み得る。テキストエディタープログラムは、コンピュータスクリーン上にテキストファイル(例えばプレインテキストファイル等)の内容を提示して、(例えばモニター、キーボード、およびマウスを使用して)人がテキストを編集することを可能にすることができるコンピュータプログラムを指し得る。テキストエディターの例には、限定なくMicrosoft Word、emacs、pico、vi、BBEdit、およびTextWranglerが含まれる。テキストエディタープログラムは、コンピュータスクリーン上にプレインテキストファイルを表示し、メタ情報および配列リードを、ヒトが読める(例えば、バイナリ符号化ではなく、その代わりに印刷または手書きで使用され得るような英数字を使用する)フォーマットで示すことを可能とし得る。
FASTAまたはFASTQファイルを参照して方法を論じたが、本開示の方法およびシステムは、例えば、Variant Call Format(VCF)フォーマットのファイルを含む任意の適切な配列ファイルフォーマットを圧縮するために使用され得る。典型的なVCFファイルは、ヘッダーセクションとデータセクションとを含み得る。ヘッダーは、それぞれが文字「##」で始まる任意の数のメタ情報行、および単一の「#」文字で始まるTABで区切られたフィールド定義行を含有する。フィールド定義行は必須の8個の欄を命名し、ボディセクションはフィールド定義行によって定義された欄を埋めるデータの行を含有する。VCFフォーマットは、例えばこれによりその全体が参照により本明細書に組み込まれるDanecek et al. ("The variant call format and VCF tools," Bioinformatics 27 (15): 2156-2158, 2011)に記載されている。ヘッダーセクションは圧縮されたファイルに書き込むメタ情報として処理され得、データセクションはそのそれぞれが固有のものであった場合のみにマスターファイルに記憶され得る行として処理され得る。
一部の実施形態は、配列リードのアセンブリを提供する。アラインメントによるアセンブリでは、例えば、配列リードは相互にアラインメントされるか、または参照配列に対してアラインメントされる。それぞれのリードを今度は参照ゲノムに対してアラインメントすることによって、リードのすべてが相互の関係において位置決めされてアセンブリが生成される。さらに、配列リードを参照配列に対してアラインメントする、またはマッピングすることは、配列リード内のバリアント配列を同定するためにも使用され得る。本明細書に記載した方法およびシステムと組み合わせてバリアント配列を同定することを使用して、疾患もしくは状態の診断または予後判定をさらに助け、または処置の決定を導くことができる。
一部の実施形態では、ステップのいずれかまたはすべてが自動化される。あるいは、本開示の方法は、全体としてまたは部分的に、例えばそれぞれが必要に応じてC++等のコンパイラ型言語で書かれ、次いでコンパイルされバイナリとして配布される1つまたは複数の専用プログラムに具現化してもよい。本開示の方法は、全体としてまたは部分的に、既存の配列解析プラットフォーム内のモジュールとして、またはそのプラットフォーム内の機能性を呼び出すことによって、実装されてもよい。一部の実施形態では、本開示の方法は、すべてが単一の開始キュー(例えば、人の活動、別のコンピュータプログラム、または機械に起因する誘発事象の1つまたは組合せ)に応答して自動的に呼び出されるいくつかのステップを含む。したがって、本開示は、ステップのいずれかまたはステップの任意の組合せがキューに応答して自動的に起こり得る方法を提供する。「自動的に」は一般に、介在する人の入力、影響、または相互作用がないこと(例えば、元のまたはキュー以前の人の活動にのみ応答すること)を意味する。
本開示の方法は、対象の核酸試料の正確なかつ感度の良い解釈を含む種々の形態の出力も包含し得る。検索の出力はコンピュータファイルのフォーマットで提供され得る。一部の実施形態では、出力はFASTAファイル、FASTQファイル、またはVCFファイルである。出力を処理してテキストファイル、または、例えば、核酸の配列を参照ゲノムの配列にアラインメントさせた配列データを含有するXMLファイルを生成させてもよい。他の実施形態では、処理により、参照ゲノムに対する対象核酸の1つまたは複数の変異を記述する座標またはストリングを含有する出力が得られる。アラインメントストリングには、Simple UnGapped Alignment Report (SUGAR)、Verbose Useful Labeled Gapped Alignment Report (VULGAR)、およびCompact Idiosyncratic Gapped Alignment Report (CIGAR)(例えばこれによりその全体が参照により本明細書に組み込まれるNing et al., Genome Research 11(10):1725-9, 2001に記載されている)が含まれ得る。これらのストリングは、例えば、European Bioinformatics Institute(Hinxton、UK)のExonerate配列アラインメントソフトウェアで実装され得る。
一部の実施形態では、例えばCIGARストリングを含む配列アラインメントマップ(SAM)またはバイナリアラインメントマップ(BAM)ファイル等の配列アラインメントが生成される(SAMフォーマットは、例えば、これによりその全体が参照により本明細書に組み込まれる、Li et al., "The Sequence Alignment/Map format and SAMtools," Bioinformatics, 25(16):2078-9, 2009に記載されている)。一部の実施形態では、CIGARは、1行あたり1個のギャップアラインメントを呈示するまたは含む。CIGARは、CIGARストリングとして報告される圧縮されたペアワイズアラインメントフォーマットである。CIGARストリングは、長い(例えば、ゲノムの)ペアワイズアラインメントを表すのに有用であり得る。CIGARストリングは、参照ゲノム配列に対するリードのアラインメントを表すSAMフォーマットで使用され得る。
CIGARストリングは、確立されたモチーフに従い得る。それぞれの文字の前には事象のベースカウントを与える数字がある。使用する文字にはM、I、D、N、およびSが含まれ得る(M=マッチ;I=挿入;D=欠失;N=ギャップ;S=置換)。CIGARストリングは、マッチおよび/またはミスマッチおよび欠失(またはギャップ)の配列を定義する。例えば、CIGARストリング2MD3M2D2Mは、アラインメントが2つのマッチ、1つの欠失(いくらかスペースを節約するため、数字1は省略する)、3つのマッチ、2つの欠失、および2つのマッチを含有することを示し得る。
IV.コンピュータシステム
IV.コンピュータシステム
本開示の方法は、コンピュータシステムを使用して、またはその助けによって、実装することができる。例えば、そのような方法は、DNA試料を複数の画分に分配するステップであって、複数の画分が、高メチル化画分および低メチル化画分を含む、ステップ;高メチル化および低メチル化画分におけるDNAをタグ付けして、タグ付けされた核酸を生成するステップであって、タグ付けされた核酸が、分子バーコードを含む、ステップ;高メチル化画分由来の分子の配列リードおよび低メチル化画分由来の分子の配列リードを得るステップであって、配列リードが、分子バーコード配列および試料配列を含む、ステップ;(a)分子バーコード配列ならびに(b)試料配列の最初および最後のヌクレオチドに対応するゲノム位置のうちの少なくとも1つに基づき、配列リードをファミリーに群分けするステップであって、ファミリーが、試料における単一のDNA分子に由来する配列リードを含む、ステップ;高メチル化画分由来の分子の配列の第1のセットおよび低メチル化画分由来の分子の配列の第2のセットを決定するステップ;ならびに配列の第1および第2のセットに基づき複数の塩基をコールするステップであって、(i)第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子におけるトランジション変異の観察を要求する;あるいは(ii)CからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列に基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列を使用せずに第2のセットの分子の配列に基づき参照配列と比べてコールされる、またはCからTへのもしくはGからAへのトランジション変異が、第2のセットの分子の少なくとも1つの配列が、CからTへのもしくはGからAへのトランジション変異を含む場合に限り、参照配列と比べてコールされる、ステップを含み得る。
図2は、本開示の方法を実装するようにプログラムされるか、または他の方法で構成されたコンピュータシステム201を示す。コンピュータシステム201は種々の態様の試料調製、シーケンシング、および/または解析を制御することができる。一部の例では、コンピュータシステム201は、核酸のシーケンシングを含む試料調製および試料解析を実施するように構成されている。
コンピュータシステム201は、中央処理ユニット(CPU、本明細書では「プロセッサー」および「コンピュータプロセッサー」ともいう)205を含み、これは、シングルコアもしくはマルチコアプロセッサーでよく、または並列処理のための複数のプロセッサーでもよい。コンピュータシステム201が、メモリーまたはメモリーロケーション210(例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリー)、電子的記憶ユニット215(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース220(例えば、ネットワークアダプター)、ならびに周辺機器225、例えば、キャッシュ、他のメモリー、データストレージ、および/または電子ディスプレイアダプターも含む。メモリー210、記憶ユニット215、インターフェース220、および周辺機器225は、マザーボード等の通信ネットワークまたはバス(実線)を通じてCPU205と通信する。記憶ユニット215は、データを記憶するためのデータ記憶ユニット(またはデータリポジトリ)であってよい。コンピュータシステム201は、通信インターフェース220の助けによってコンピュータネットワーク230に作動可能に連結することができる。コンピュータネットワーク230は、インターネット(Internet)、インターネット(internet)および/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/またはエクストラネットであってよい。コンピュータネットワーク230は、一部の場合には、遠隔通信および/またはデータネットワークである。コンピュータネットワーク230は、1つまたは複数のコンピュータサーバを含んでよく、分散コンピューティング、例えばクラウドコンピューティングを可能にすることができる。コンピュータネットワーク230は、コンピュータシステム201の助けがある一部の場合には、ピアツーピアネットワークを実装することができ、これは、デバイスがコンピュータシステム201に連結されてクライアントまたはサーバとして挙動することを可能にし得る。
CPU205は機械可読命令のシーケンスを実行することができ、これはプログラムまたはソフトウェアに具現化することができる。命令はメモリーロケーション、例えばメモリー210に記憶してよい。CPU205によって実施される演算の例には、フェッチ、解読、実行、およびライトバック(writeback)が含まれ得る。
記憶ユニット215は、ファイル、例えばドライバー、ライブラリ、および保存されたプログラムを記憶することができる。記憶ユニット215は、ユーザによって生成されたプログラムおよび記録されたセッション、ならびにプログラムに関連する出力を記憶することができる。記憶ユニット215は、ユーザデータ、例えば、ユーザの選好およびユーザプログラムを記憶することができる。一部の場合におけるコンピュータシステム201は、コンピュータシステム201の外部の、例えばイントラネットまたはインターネットを通じてコンピュータシステム201と通信するリモートサーバ上に位置するような1つまたは複数の追加的なデータ記憶ユニットを含み得る。データは、例えば通信ネットワークまたは物理的なデータ転送を使用して(例えば、ハードドライブ、サムドライブ、または他のデータ記憶機構を使用して)ある場所から別の場所に転送してよい。
コンピュータシステム201は、ネットワーク230を通じて1つまたは複数のリモートコンピュータシステムと通信することができる。実施形態について、コンピュータシステム201は、ユーザ(例えば、オペレータ)のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、携帯PC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android(登録商標)可能デバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが含まれる。ユーザは、ネットワーク230を介してコンピュータシステム201にアクセスすることができる。
本明細書に記載した方法は、コンピュータシステム201の電子的記憶場所、例えば、メモリー210または電子的記憶ユニット215等に記憶された機械(例えば、コンピュータプロセッサー)実行可能なコードによって実装することができる。機械実行可能または機械可読なコードは、ソフトウェアの形態で提供され得る。使用の間、コードはプロセッサー205によって実行され得る。一部の場合には、コードは記憶ユニット215から取り出され、プロセッサー205による容易なアクセスのためにメモリー210に記憶される。一部の状況では、電子的記憶ユニット215を除外することができ、機械実行可能な命令がメモリー210に記憶される。
ある態様では、本開示は、少なくとも1つの電子プロセッサーによって実行された場合に、DNA試料を複数の画分に分配するステップであって、複数の画分が、高メチル化画分および低メチル化画分を含む、ステップ;高メチル化および低メチル化画分におけるDNAをタグ付けして、タグ付けされた核酸を生成するステップであって、タグ付けされた核酸が、分子バーコードを含む、ステップ;高メチル化画分由来の分子の配列リードおよび低メチル化画分由来の分子の配列リードを得るステップであって、配列リードが、分子バーコード配列および試料配列を含む、ステップ;(a)分子バーコード配列ならびに(b)試料配列の最初および最後のヌクレオチドに対応するゲノム位置のうちの少なくとも1つに基づき、配列リードをファミリーに群分けするステップであって、ファミリーが、試料における単一のDNA分子に由来する配列リードを含む、ステップ;高メチル化画分由来の分子の配列の第1のセットおよび低メチル化画分由来の分子の配列の第2のセットを決定するステップ;ならびに配列の第1および第2のセットに基づき複数の塩基をコールするステップであって、(i)第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子におけるトランジション変異の観察を要求する;あるいは(ii)CからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列に基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、第1のセットの分子の配列を使用せずに第2のセットの分子の配列に基づき参照配列と比べてコールされる、またはCからTへのもしくはGからAへのトランジション変異が、第2のセットの分子の少なくとも1つの配列が、CからTへのもしくはGからAへのトランジション変異を含む場合に限り、参照配列と比べてコールされる、ステップを含む方法の少なくとも一部分を実施するコンピュータ実行可能命令を含む非一過性コンピュータ可読媒体を提供する。
コードは、コードを実行するように適合されたプロセッサーを有する機械で使用するためにプリコンパイルされ、かつ構成され得るか、または実行時にコンパイルすることができる。コードは、プリコンパイルされたものとして、またはコンパイルしつつコードを実行することを可能にするように選択され得るプログラミング言語で記述して供給することができる。
本明細書で提供するシステムおよび方法の態様、例えばコンピュータシステム201は、プログラミング中に具現化し得る。本技術の種々の態様は、典型的には機械(またはプロセッサー)実行可能なコードおよび/または機械可読媒体の型に含まれまたは具現化される関連するデータの形態で「製品」または「製造物品」として考えることができる。機械実行可能なコードは、電子的記憶ユニット、例えばメモリー(例えばリードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリー)またはハードディスクに記憶することができる。「記憶」型媒体には、コンピュータの有形のメモリー、プロセッサーもしくは同様のもの、またはその関連するモジュール、例えば種々の半導体メモリー、テープドライブ、ディスクドライブおよび同様のもののいずれかまたはすべてが含まれ、これらはソフトウェアプログラミングのため、いつでも非一過性記憶を提供し得る。
ソフトウェアの全部または一部は、時にはインターネットまたは他の種々の遠隔通信ネットワークを通じて通信してよい。そのような通信は、例えば1つのコンピュータまたはプロセッサーから別のコンピュータまたはプロセッサーへ、例えばマネージメントサーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのローディングを可能にし得る。したがって、ソフトウェアエレメントを有し得る別の型の媒体には、ローカルデバイスの間で物理的インターフェースにわたって、有線および光地上通信のネットワークを通じて、種々のエアリンクを介して使用されるもののような光、電気、および電磁波が含まれる。そのような波を運搬する物理的エレメント、例えば有線または無線のリンク、光リンク、または同様のものも、ソフトウェアを有する媒体と考えてよい。本明細書で使用される場合、非一過性な有形「記憶」媒体に制限しなければ、コンピュータまたは機械「可読媒体」等の用語は、実行のための命令をプロセッサーに提供することに寄与する任意の媒体を意味する。
したがって、機械可読媒体、例えばコンピュータ実行可能なコードは、有形記憶媒体、搬送波媒体、または物理的送信媒体を含むがこれらに限定されない多くの形態をとり得る。非揮発性記憶媒体には、例えば図に示すデータベース等を実装するために使用されるような任意のコンピュータ等の記憶デバイスのいずれか等の光または磁気のディスクが含まれる。揮発性記憶媒体には、そのようなコンピュータプラットフォームの主メモリー等のダイナミックメモリーが含まれる。有形送信媒体には、共軸ケーブル、銅線および光ファイバ(コンピュータシステム中のバスを含むワイヤを含む)が含まれる。搬送波送信媒体は、電気的もしくは電磁気的な信号、またはラジオ周波数(RF)および赤外(IR)データ通信中に生成されるもののような音響もしくは光の波の形態をとり得る。したがってコンピュータ可読媒体の一般的な形態には、例えばフロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、他の任意の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH(登録商標)-EPROM、他の任意のメモリーチップまたはカートリッジ、搬送波輸送データもしくは命令、そのような搬送波を輸送するケーブルもしくはリンク、またはそれからコンピュータがプログラミングコードおよび/またはデータを読み取ることができる他の任意の媒体が含まれる。コンピュータ可読媒体のこれらの形態の多くは、1つまたは複数の命令の1つまたは複数のシーケンスを実行のためにプロセッサーに搬送することに関与し得る。
コンピュータシステム201は、例えば試料分析の1つまたは複数の結果を提供するためのユーザインターフェース(UI)を含む電子的ディスプレイを含むか、またはそれと通信し得る。UIの例には、限定なくグラフィカルユーザインターフェース(GUI)およびウェブベースユーザインターフェースが含まれる。
コンピュータシステムおよびネットワーク、データベース、ならびにコンピュータプログラム製品に関するさらなる詳細は、例えば、そのそれぞれがこれにより全体が参照により本明細書に組み込まれるPeterson, Computer Networks: A Systems Approach, Morgan Kaufmann, 5th Ed. (2011)、Kurose, Computer Networking: A Top-Down Approach, Pearson, 7th Ed. (2016)、Elmasri, Fundamentals of Database Systems, Addison Wesley, 6th Ed. (2010)、Coronel, Database Systems: Design, Implementation, & Management, Cengage Learning, 11th Ed. (2014)、Tucker, Programming Languages, McGraw-Hill Science/Engineering/Math, 2nd Ed. (2006)、およびRhoton, Cloud Computing Architected: Solution Design Handbook, Recursive Press (2011)にも提供されている。
V.適用
1.がんおよび他の疾患
V.適用
1.がんおよび他の疾患
本方法は、対象における状態、特にがんの存在を診断するため、状態を特徴付ける(例えば、がんをステージ分類するまたはがんの不均一性を決定する)ため、状態の処置に対する応答をモニタリングするため、状態が発生するリスクまたは状態のその後の経過の予後判定をもたらすために、使用され得る。本開示は、特定の処置選択肢の有効性の決定においても有用であり得る。処置が上首尾であれば、より多くのがんが死滅し、DNAが脱落するので、上首尾の処置選択肢では対象の血液において検出されるコピー数変動またはまれな変異の量が増加し得る。他の例では、これは起こらない場合がある。別の例では、おそらく、ある特定の処置選択肢は、がんの遺伝子プロファイルと経時的に相関し得る。この相関は、治療の選択において有用であり得る。
さらに、処置後にがんが寛解することが観察される場合、本方法を使用して、残留疾患または疾患の再発をモニタリングすることができる。
一部の実施形態では、本明細書に開示した方法およびシステムは、患者における所与の疾患または状態を核酸バリアントが体細胞または生殖細胞系列の起源であるという分類に基づいて処置するための、カスタマイズされたまたは標的化された療法を同定するために使用され得る。典型的には、考慮される疾患は、ある型のがんである。そのようながんの非限定的な例には、胆道がん、膀胱がん、頭頸部がん、移行上皮癌、尿路上皮癌、脳がん、神経膠腫、星状細胞腫、乳癌、化生性癌、子宮頸がん、子宮頸部扁平上皮癌、直腸がん、結腸直腸癌、結腸がん、遺伝性非ポリポーシス大腸がん、結腸直腸腺癌、消化管間質腫瘍(GIST)、子宮内膜癌、子宮内膜間質肉腫、食道がん、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、明細胞腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、慢性骨髄単球性白血病(CMML)、肝がん、肝癌、ヘパトーマ、肝細胞癌、胆管細胞癌、肝芽腫、肺がん、非小細胞肺がん(NSCLC)、中皮腫、B細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型B細胞性リンパ腫、マントル細胞リンパ腫、T細胞リンパ腫、非ホジキンリンパ腫、前駆Tリンパ芽球性リンパ腫/白血病、末梢性T細胞リンパ腫、多発性骨髄腫、上咽頭癌(NPC)、神経芽細胞腫、中咽頭がん、口腔扁平上皮癌、骨肉腫、卵巣癌、膵がん、膵管腺癌、偽乳頭状新生物、腺房細胞癌、前立腺がん、前立腺腺癌、皮膚がん、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃がん、胃癌、消化管間質腫瘍(GIST)、子宮がん、または子宮肉腫が含まれる。がんの型および/またはステージは、変異、まれな変異、インデル、コピー数変動、トランスバージョン、転座、逆位、欠失、異数性、部分的な異数性、倍数性、染色体の不安定性、染色体の構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、および核酸5-メチルシトシンの異常な変化を含む遺伝的バリエーションから検出され得る。
遺伝的データも、がんの特定の形態を特徴付けるために使用され得る。がんは、多くの場合、組成およびステージ分類の両方が不均一である。遺伝子プロファイルデータにより、がんの特定の亜型について特徴付けることが可能になり得、それは、その特定の亜型の診断または処置において重要であり得る。この情報により、対象または実践者に特定の型のがんの予後判定に関する手がかりがもたらされ得、また、対象または実践者のいずれかが疾患の進行に応じて処置選択肢を適合させることも可能になる。一部のがんは、進行してより侵攻性かつ遺伝的に不安定なものになり得る。他のがんは、良性、非活動性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患進行の決定において有用であり得る。
さらに、本開示の方法は、対象における異常な状態の不均一性を特徴付けるために使用され得る。そのような方法には、例えば対象に由来する細胞外ポリヌクレオチドの遺伝子プロファイルを生成することが含まれ得、ここで、遺伝子プロファイルは、コピー数変動およびまれな変異の解析から得られた複数のデータを含む。一部の実施形態では、異常な状態は、がんである。一部の実施形態では、異常な状態は、不均一なゲノム集団をもたらするものであり得る。がんの例では、一部の腫瘍が異なるがんのステージにある腫瘍細胞を含むことが分かっている。他の例では、不均一性は、多数の疾患病巣を含み得る。重ねて、がんの例では、多数の腫瘍病巣が存在し得、その場合、おそらく、1つまたは複数の病巣は主要部位から拡散した転移の結果である。
本方法は、不均一な疾患における異なる細胞に由来する遺伝情報の合計である指紋またはデータのセットを生成するまたはプロファイリングするために使用され得る。このデータのセットは、コピー数変動、エピジェネティックバリエーション、および変異の解析を単独でまたは組合せで含み得る。
本方法は、がん、または他の疾患を診断、予後判定、モニタリングまたは観察するために使用され得る。一部の実施形態では、本発明の方法は、胎児の診断、予後判定またはモニタリングは伴わず、したがって、非侵襲性出生前検査は対象としない。他の実施形態では、これらの方法体系は、妊娠中の対象に対して、DNAおよび他のポリヌクレオチドが母体分子と共循環し得るまだ生まれていない対象のがんまたは他の疾患を診断、予後判定、モニタリングまたは観察するために使用され得る。
本明細書に開示した方法およびシステムを使用して必要に応じて評価される他の遺伝に基づく疾患、障害、または状態の非限定的な例には、軟骨形成不全症、アルファ1アンチトリプシン欠損症、抗リン脂質症候群、自閉症、常染色体優性多発性嚢胞腎疾患、シャルコー・マリー・トゥース(CMT)、ネコなき症、クローン病、嚢胞性線維症、ダーカム病、ダウン症候群、デュアン症候群、デュシェンヌ型筋ジストロフィー、第V因子ライデン栓友病、家族性高コレステロール血症、家族性地中海熱、脆弱性X症候群、ゴーシェ病、ヘモクロマトーシス、血友病、全前脳症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋強直性ジストロフィー、神経線維腫症、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド異常、ポルフィリン症、早老症、網膜色素変性、重症複合型免疫不全症(SCID)、鎌状赤血球症、脊髄性筋萎縮症、テイ・サックス病、サラセミア、トリメチルアミン尿症、ターナー症候群、口蓋心臓顔面症候群、WAGR症候群、ウィルソン病、または同様のものが含まれる。
一部の実施形態では、本明細書に記載した方法は、本明細書に記載されるように得られた配列情報のセットを使用して、がんを有すると以前に診断された対象の以前のがん処置後の予め選択した時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップを含む。方法は、試験対象について腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップをさらに含み得る。
がん再発スコアを決定する場合、がん再発スコアは、がん再発状態を決定するためにさらに使用され得る。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクがあり得る。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクが低いまたはより低いことがあり得る。特定の実施形態では、既定の閾値に等しいがん再発スコアは、がん再発のリスクがある、またはがん再発の低いもしくはより低いリスクがあるがん再発状態をもたらし得る。
一部の実施形態では、がん再発スコアを既定のがん再発閾値と比較し、がん再発スコアががん再発閾値より上である場合、試験対象をその後のがん処置の候補として分類するか、またはがん再発スコアががん再発閾値より下である場合、治療の候補ではないと分類する。特定の実施形態では、がん再発閾値と等しいがん再発スコアは、その後のがん処置の候補であるか、または治療の候補ではないという分類をもたらし得る。
上記の方法は、試験対象におけるがん再発のリスクを決定する方法および/または試験対象をその後のがん処置の候補として分類する方法に関する節を含む本明細書の他の箇所に記載される任意の適合性の特色(1つまたは複数)をさらに含み得る。
2.試験対象におけるがん再発のリスクを決定する方法および/または試験対象をその後のがん処置の候補として分類する方法
2.試験対象におけるがん再発のリスクを決定する方法および/または試験対象をその後のがん処置の候補として分類する方法
一部の実施形態では、本明細書で提供する方法は、試験対象におけるがん再発のリスクを決定する方法である。一部の実施形態では、本明細書で提供する方法は、試験対象をその後のがん処置の候補として分類する方法である。
そのような方法のいずれかは、がんを有すると診断された試験対象から試験対象に対する1つまたは複数の以前のがん処置後の1つまたは複数の予め選択した時点においてDNA(例えば、腫瘍細胞を起源とするまたはそれに由来する)を収集するステップを含み得る。対象は本明細書に記載した対象のいずれでもよい。DNAはcfDNAであってよい。DNAは組織試料から得ることができる。
そのような方法のいずれかは、対象由来のDNAから複数の標的領域のセットを捕捉するステップであって、複数の標的領域セットが配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、捕捉されたDNA分子のセットが産生されるステップを含み得る。捕捉するステップは、本明細書の他の箇所に記載した実施形態のいずれかに従って実施され得る。
そのような方法のいずれにおいても、以前のがん処置は手術、治療組成物の投与、および/または化学療法を含み得る。
そのような方法のいずれかは、捕捉されたDNA分子をシーケンシングするステップを含み得、それにより配列情報のセットが産生される。配列可変標的領域セットの捕捉されたDNA分子は、エピジェネティック標的領域セットの捕捉されたDNA分子よりも高いシーケンシング深度までシーケンシングされ得る。
そのような方法のいずれかは、配列情報のセットを使用して、予め選択した時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップを含み得る。腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在の検出は、本明細書の他の箇所に記載したそれらの実施形態のいずれかに従って実施され得る。
試験対象におけるがん再発のリスクを決定する方法は、その試験対象について腫瘍細胞を起源とするまたはそれに由来するDNAの存在もしくは非存在、または量を示すがん再発スコアを決定するステップを含み得る。がん再発スコアは、がん再発状態を決定するためにさらに使用され得る。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクがあり得る。がん再発状態は、例えばがん再発スコアが既定の閾値より上である場合にがん再発のリスクが低いまたはより低いことがあり得る。特定の実施形態では、既定の閾値に等しいがん再発スコアは、がん再発のリスクがある、またはがん再発の低いもしくはより低いリスクがあるがん再発状態をもたらし得る。
試験対象をその後のがん処置の候補であると分類する方法は、その試験対象のがん再発スコアを既定のがん再発閾値と比較するステップを含み、がん再発スコアががん再発閾値より上である場合、その試験対象をその後のがん処置の候補であると分類するか、またはがん再発スコアががん再発閾値より下である場合、治療の候補ではないと分類する。特定の実施形態では、がん再発閾値と等しいがん再発スコアは、その後のがん処置の候補であるか、または治療の候補でないという分類をもたらし得る。一部の実施形態では、その後のがん処置は、化学療法または治療組成物の投与を含む。
そのような方法のいずれかは、がん再発スコアに基づいて試験対象の無病生存(DFS)期間を決定するステップを含み得、例えばDFS期間は1年、2年、3年、4年、5年、または10年であってよい。
一部の実施形態では、配列情報セットは配列可変標的領域配列を含み、がん再発スコアを決定するステップは、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す少なくとも第1のサブスコアを決定するステップを含み得る。
一部の実施形態では、1、2、3、4、または5から選択される配列可変標的領域における変異の数は、第1のサブスコアががん再発について陽性であると分類されるがん再発スコアをもたらすために十分である。一部の実施形態では、変異の数は1、2、または3から選択される。
一部の実施形態では、配列情報のセットは、エピジェネティック標的領域配列を含み、がん再発スコアを決定するステップは、エピジェネティック標的領域配列中の異常な配列リードの量を示す第2のサブスコアを決定するステップを含む。異常な配列リードは、健康な対象由来の対応する試料中に見出されるDNA(例えば、健康な対象由来の血液試料中に見出されるcfDNA、または組織試料が試験対象から得たものと同じ型の組織である場合に健康な対象由来の組織試料中に見出されるDNA)とは異なるエピジェネティック状態を示すリードであり得る。異常なリードは、がんに関連するエピジェネティック変化、例えば、高メチル化可変標的領域のメチル化および/または断片化可変標的領域の摂動を受けた断片化と合致し得、「摂動を受けた」は、健康な対象由来の対応する試料中に見出されるDNAとは異なることを意味する。
一部の実施形態では、高メチル化可変標的領域セットにおける高メチル化および/または断片化可変標的領域セットにおける異常な断片化が0.001%~10%の範囲に入る値よりも大きいまたはそれと等しいことを示す高メチル化可変標的領域セットおよび/または断片化可変標的領域セットに対応するリードの割合で、第2のサブスコアががん再発について陽性として分類されるのに十分である。範囲は、0.001%~1%、0.005%~1%、0.01%~5%、0.01%~2%、または0.01%~1%であり得る。
一部の実施形態では、そのような方法のいずれも、腫瘍細胞を起源とすることを示す1つまたは複数の特色を示す配列情報のセット中のリードの割合からの腫瘍DNAの割合を決定するステップを含み得る。これは、例えば高メチル化可変標的領域および断片化可変標的領域の一方または両方を含むエピジェネティック標的領域の一部または全部に対応するリードについて行われ得る(高メチル化可変標的領域の高メチル化および/または断片化可変標的領域の異常な断片化を、腫瘍細胞を起源とすることを示すものと考えることができる)。これは、配列可変標的領域に対応するリード、例えば、SNV、インデル、CNV、および/または融合等のがんと合致する変更を含むリードについて行われ得る。腫瘍DNAの割合は、エピジェネティック標的領域に対応するリードと配列可変標的領域に対応するリードの組合せに基づいて決定され得る。
がん再発スコアの決定は、少なくとも一部において腫瘍DNAの割合に基づき得、10-11~1または10-10~1の範囲の閾値よりも大きい腫瘍DNAの割合で、がん再発スコアががん再発について陽性であると分類されるのに十分である。一部の実施形態では、10-10~10-9、10-9~10-8、10-8~10-7、10-7~10-6、10-6~10-5、10-5~10-4、10-4~10-3、10-3~10-2、または10-2~10-1の範囲の閾値よりも大きいまたはそれと等しい腫瘍DNAの割合で、がん再発スコアががん再発について陽性であると分類されるのに十分である。一部の実施形態では、少なくとも10-7の閾値よりも大きい腫瘍DNAの割合で、がん再発スコアががん再発について陽性であると分類されるのに十分である。腫瘍DNAの割合が、前述の実施形態のいずれかに対応する閾値等の閾値よりも大きいことの決定は、累積確率に基づいてなされ得る。例えば、腫瘍の割合が前述の範囲のいずれかの閾値よりも大きい累積確率が少なくとも0.5、0.75、0.9、0.95、0.98、0.99、0.995、または0.999の確率閾値を超える場合、試料は陽性であるとみなされる。一部の実施形態では、確率閾値は、少なくとも0.95、例えば0.99である。
一部の実施形態では、配列情報のセットは、配列可変標的領域配列およびエピジェネティック標的領域配列を含み、がん再発スコアを決定するステップは、配列可変標的領域配列中に存在するSNV、挿入/欠失、CNVおよび/または融合の量を示す第1のサブスコアならびにエピジェネティック標的領域配列中の異常な配列リードの量を示す第2のサブスコアを決定し、第1のサブスコアと第2のサブスコアを組み合わせてがん再発スコアをもたらすステップを含む。第1のサブスコアと第2のサブスコアを組み合わせる場合、各サブスコアに独立に閾値を適用すること(例えば、配列可変標的領域中の変異の既定数よりも大きい(例えば、>1)、かつエピジェネティック標的領域中の異常な(例えば、腫瘍)リードの既定の割合よりも大きい)、または、機械学習分類器を訓練して、複数の陽性および陰性訓練試料に基づいて状態を決定することによって、組み合わせることができる。
一部の実施形態では、組み合わせたスコアの値が-4~2または-3~1の範囲に入っていれば、がん再発スコアががん再発について陽性であると分類されるのに十分である。
がん再発スコアががんの再発について陽性であると分類されるいずれかの実施形態では、対象のがん再発状態はがん再発のリスクがある、および/または対象はその後のがん処置の候補として分類され得る。
一部の実施形態では、がんは本明細書の他の箇所に記載したがんの型のいずれか1つ、例えば結腸直腸がんである。
3.治療および関連する投与
ある特定の実施形態では、本明細書に開示した方法は、体細胞または生殖細胞系列の起源である核酸バリアントの状態を与えられた患者にカスタマイズされた療法を特定し投与することに関する。一部の実施形態では、本質的にいずれのがん療法(例えば手術療法、放射線療法、化学療法、および/または同様のもの)も、これらの方法の一部として含まれ得る。典型的には、カスタマイズされた療法には少なくとも1つの免疫療法(または免疫療法剤)が含まれる。免疫療法は一般に、所与のがんの型に対する免疫応答を増強する方法を意味する。ある特定の実施形態では、免疫療法は腫瘍またはがんに対するT細胞の応答を増強する方法を意味する。
ある特定の実施形態では、本明細書に開示した方法は、体細胞または生殖細胞系列の起源である核酸バリアントの状態を与えられた患者にカスタマイズされた療法を特定し投与することに関する。一部の実施形態では、本質的にいずれのがん療法(例えば手術療法、放射線療法、化学療法、および/または同様のもの)も、これらの方法の一部として含まれ得る。典型的には、カスタマイズされた療法には少なくとも1つの免疫療法(または免疫療法剤)が含まれる。免疫療法は一般に、所与のがんの型に対する免疫応答を増強する方法を意味する。ある特定の実施形態では、免疫療法は腫瘍またはがんに対するT細胞の応答を増強する方法を意味する。
ある特定の実施形態では、体細胞または生殖細胞系列の起源である対象からの試料の核酸バリアントの状態は、参照集団からのコンパレータの結果のデータベースと比較され、その対象のためのカスタマイズされたまたは標的化された療法が特定される。典型的には、参照集団は試験対象と同じがんまたは疾患の型を有する患者、および/または試験対象と同じ療法を受けている、または受けた患者を含む。核酸バリアントとコンパレータの結果がある特定の分類基準を満たせば(例えば実質的にまたは近似的に一致すれば)、カスタマイズされたまたは標的化された療法(1つまたは複数の療法)が特定され得る。
ある特定の実施形態では、本明細書に記載したカスタマイズされた療法は、典型的には、非経口的(例えば、静脈内または皮下)に投与される。免疫療法剤を含有する医薬組成物は、典型的には、静脈内投与される。ある特定の治療剤は、経口投与される。しかし、カスタマイズされた療法(例えば、免疫療法剤等)は、例えば、頬側の、舌下、直腸、膣、尿道内、局所、眼内、鼻内および/または耳介内等の方法によっても投与され得、投与は、錠剤、カプセル剤、顆粒剤、水性懸濁剤、ゲル剤、スプレー剤、坐剤、軟膏剤(salve)、軟膏剤(ointment)、または同様のものを含み得る。
本発明の好ましい実施形態を本明細書に示し、記載したが、そのような実施形態は例としてのみ提供されることは当業者には明白になる。本発明は本明細書内で提供される特定の実施例によって限定されることを意図していない。本発明は上述の明細書を参照して記載しているが、本明細書の実施形態の記述および説明は限定する意味で解釈することを意味していない。ここで多くの変形、変化、および置換が、本発明から逸脱することなく当業者には生じるであろう。さらに、本発明のすべての態様は、種々の条件および変数に依存する本明細書で説明した特定の描写、構成、または相対的な比率に限定されないことを理解されたい。本発明の実施において本明細書に記載した開示の実施形態に対して種々の代替選択肢が採用され得ることを理解されたい。したがって、本開示はいずれのそのような選択肢、改変、変形、または均等物をも包含すべきであることが意図されている。以下の特許請求の範囲が本発明の範囲を定義すること、ならびにこれらの特許請求の範囲およびその均等物の範囲内の方法および構造がそれによって包含されることが意図されている。
上記の開示は明確さおよび理解の目的のために説明および例としていくらか詳細に記載しているが、本開示を読んで、本開示の真の範囲から逸脱することなく形態および詳細において種々の変化を加えることができ、添付の特許請求の範囲内で実施できることは、当業者には明白になる。例えば、すべての方法、システム、コンピュータ可読媒体、および/または成分の特色、ステップ、エレメント、またはその他の態様を、種々の組合せで使用することができる。
本明細書で引用したすべての特許、特許出願、ウェブサイト、その他の刊行物および書類、受託番号、および同様のものは、それぞれの別個の項目が参照により組み込まれると具体的かつ別個に指示されているかのように、同程度にあらゆる目的のために全体が参照により組み込まれる。異なるバージョンの配列が異なる時の受託番号に関連している場合には、本出願の有効な出願日における受託番号に関連するバージョンが意味される。有効な出願日は、実際の出願日、または適用される場合には受託番号に言及する優先出願の提出日のいずれか早い方を意味する。同様に、異なるバージョンの刊行物、ウェブサイト、または同様のものが異なる時に公開された場合には、他に指示されなければ、本出願の有効な出願日に最も近く公開されたバージョンが意味される。
VI.実施例
i)高メチル化画分のcfDNAにおける人為的なCからTへのおよびGからAへのトランジション変異の頻度の増加の観察
この実施例では、無細胞DNAの高メチル化分画が、予測されるよりも多数の、見かけのCからTへのおよびGからAへのトランジション変異を含有することを実証する。自己宣言した健康な個体30名からの試料を収集し、各試料を、高メチル化DNA画分および低メチル化DNA画分を含む少なくとも2つの画分に分画した。画分(高メチル化DNA画分および低メチル化DNA画分を含む)をシーケンシングし、誤り率について解析した。ここで、各分子についての誤り率は、両方のDNA鎖を表す少なくとも2つの配列リードを有するリード-レベルでの塩基の間での80%一致閾値を満たす。図3は、塩基あたりのSNV誤り率を特定のヌクレオチド置換、すなわち、AからC、AからG、AからT、CからA、CからG、CからT、GからA、GからC、GからT、TからA、TからC、およびTからGに応じて示す。バーの高さは平均SNV誤り率を表し、誤りバーはその標準誤差を表す。薄い灰色のバーは高メチル化DNA画分からの結果を表し、濃い灰色のバーは低メチル化DNA画分からの結果を表す。CからT置換および相補的なGからA置換の誤り率が最もよく見られた誤りであった。高メチル化分画ではCからTおよびGからA置換が上昇し、これにより、高メチル化分子における化学的損傷の率がより高いことが示される。
i)高メチル化画分のcfDNAにおける人為的なCからTへのおよびGからAへのトランジション変異の頻度の増加の観察
この実施例では、無細胞DNAの高メチル化分画が、予測されるよりも多数の、見かけのCからTへのおよびGからAへのトランジション変異を含有することを実証する。自己宣言した健康な個体30名からの試料を収集し、各試料を、高メチル化DNA画分および低メチル化DNA画分を含む少なくとも2つの画分に分画した。画分(高メチル化DNA画分および低メチル化DNA画分を含む)をシーケンシングし、誤り率について解析した。ここで、各分子についての誤り率は、両方のDNA鎖を表す少なくとも2つの配列リードを有するリード-レベルでの塩基の間での80%一致閾値を満たす。図3は、塩基あたりのSNV誤り率を特定のヌクレオチド置換、すなわち、AからC、AからG、AからT、CからA、CからG、CからT、GからA、GからC、GからT、TからA、TからC、およびTからGに応じて示す。バーの高さは平均SNV誤り率を表し、誤りバーはその標準誤差を表す。薄い灰色のバーは高メチル化DNA画分からの結果を表し、濃い灰色のバーは低メチル化DNA画分からの結果を表す。CからT置換および相補的なGからA置換の誤り率が最もよく見られた誤りであった。高メチル化分画ではCからTおよびGからA置換が上昇し、これにより、高メチル化分子における化学的損傷の率がより高いことが示される。
表6は、CからTまたはGからAヌクレオチド置換を有する高メチル化分子および低メチル化分子の、他のすべての置換に対する数を示す2×2分割表である。上記のように、置換を、両方の鎖を表す少なくとも2つの配列リードを有する80%一致閾値を満たすリード-レベルでの塩基によって決定した。表6において、決定された置換の数が、行の計と列の計を掛け、それを総計(n)で割ることによって決定された算出された予測置換と比較されている。自由度1を用いたカイ二乗検定によって決定された通り、高メチル化分子において、低メチル化分子におけるよりも、偶然と予想されるものより有意に多いCからTまたはGからA置換を有する分子が存在する(p値8.16×10-196)。
ii)高メチル化画分由来の分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、低メチル化画分由来の分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求する、シーケンシング法
この実施例では、高メチル化画分における人為的な脱アミノ化の配列決定の精度に対する影響を軽減する方法の実施形態を記載する。
本明細書に記載されるように、対象由来のDNA試料(例えばヒトcfDNA等のcfDNA)を得、それから高メチル化画分および低メチル化画分を含む少なくとも2つの画分を調製する。画分(高メチル化画分および低メチル化画分を含む)を、示差的にタグ付けし、次いで、プールする。目的の標的領域(例えば、配列可変標的領域およびエピジェネティック標的領域)を、捕捉用プローブを使用して捕捉し、次いで、例えば次世代および/または合成によるシーケンシング技法を使用して増幅およびシーケンシングする。
配列リードを、それらのタグ配列に基づき、高メチル化画分または低メチル化画分に由来するものとして分類し、タグ配列、試料配列の最初および最後のヌクレオチドに対応するゲノム位置、ならびに/または5’タグ配列の直後および3’タグ配列の直前の複数の塩基の配列のうちの1つまたは複数に従って、それらが起源とする元の試料分子に応じて群分けする。リードの各群について、それらが起源とする分子の配列を決定する。低メチル化画分由来の分子の配列を参照ゲノム配列にマッピングし、CからTおよびGからA変異を同定し、ここで、変異を少なくとも2つまたは3つの分子の配列において観察する。高メチル化画分由来の配列を参照ゲノム配列にマッピングし、CからTおよびGからA変異を同定し、ここで、変異を少なくとも3つ、4つ、または5つの分子の配列において観察し、要求される分子の配列の数は、低メチル化画分由来の分子の配列に基づきCからTまたはGからA変異を同定するために要求されるリードの数よりも多い。
このように決定された結果は、偽陽性のCからTおよびGからA変異が、低メチル化画分由来の分子の配列に基づきCからTまたはGからA変異を同定するために要求される分子の配列の数と低メチル化画分由来の分子の配列に基づきCからTまたはGからA変異を同定するために要求される分子の配列の数が等しい対照配列決定よりも少ない。
iii)CからTへのまたはGからAへのトランジション変異をコールするために高メチル化画分由来の分子の配列を使用しないシーケンシング法
iii)CからTへのまたはGからAへのトランジション変異をコールするために高メチル化画分由来の分子の配列を使用しないシーケンシング法
この実施例では、高メチル化画分における人為的な脱アミノ化の配列決定の精度に対する影響を軽減する方法の別の実施形態を記載する。
本明細書に記載されるように、対象由来のDNA試料(例えばヒトcfDNA等のcfDNA)を得、それから高メチル化画分および低メチル化画分を含む少なくとも2つの画分を調製する。画分(高メチル化画分および低メチル化画分を含む)を、示差的にタグ付けし、次いで、プールする。目的の標的領域(例えば、配列可変標的領域およびエピジェネティック標的領域)を、捕捉用プローブを使用して捕捉し、次いで、例えば次世代および/または合成によるシーケンシング技法を使用して増幅およびシーケンシングする。
配列リードを、それらのタグ配列に基づき、高メチル化画分または低メチル化画分に由来するものとして分類し、タグ配列、5’および3’タグ配列の直後および直前の塩基が対応するゲノム座標、ならびに/または5’および3’タグ配列の直後および直前の複数の塩基の配列のうちの1つまたは複数に従って、それらが起源とする元の試料分子に応じて群分けする。リードの各群について、それらが起源とする分子の配列を決定する。低メチル化画分由来の分子の配列を参照ゲノム配列にマッピングし、CからTおよびGからA変異を同定し、ここで、変異を少なくとも2つまたは3つの分子の配列において観察する。高メチル化画分由来の配列を参照ゲノム配列にマッピングし、参照ゲノム配列と比べたCからTおよびGからA変異のコールには使用しない。
このように決定された結果は、偽陽性のCからTおよびGからA変異が、低メチル化画分由来の分子の配列に基づきCからTまたはGからA変異を同定するために要求される分子の配列の数と低メチル化画分由来の分子の配列に基づきCからTまたはGからA変異を同定するために要求される分子の配列の数が等しい対照配列決定よりも少ない。
iv)高メチル化画分由来のリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、低メチル化画分由来のリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求するシーケンシング法
iv)高メチル化画分由来のリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、低メチル化画分由来のリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおけるトランジション変異の観察を要求するシーケンシング法
この実施例では、高メチル化画分における人為的な脱アミノ化の配列決定の精度に対する影響を軽減する方法の別の実施形態を記載する。
本明細書に記載されるように、対象由来のDNA試料(例えばヒトcfDNA等のcfDNA)を得、それから高メチル化画分および低メチル化画分を含む少なくとも2つの画分を調製する。画分(高メチル化画分および低メチル化画分を含む)を、示差的にタグ付けし、次いで、プールする。目的の標的領域(例えば、配列可変標的領域およびエピジェネティック標的領域)を、捕捉用プローブを使用して捕捉し、次いで、例えば次世代および/または合成によるシーケンシング技法を使用して増幅およびシーケンシングする。
配列リードを、それらのタグ配列に基づき、高メチル化画分または低メチル化画分に由来するものとして分類する。低メチル化画分由来の配列を参照ゲノム配列にマッピングし、CからTおよびGからA変異を同定し、ここで、変異を少なくとも2つまたは3つのリードにおいて観察する。高メチル化画分由来の配列を参照ゲノム配列にマッピングし、CからTおよびGからA変異を同定し、ここで、変異を少なくとも3つ、4つ、または5つのリードにおいて観察し、ここで、要求されるリードの数は、低メチル化画分由来の配列に基づきCからTまたはGからA変異を同定するために要求されるリードの数よりも多い。
得られた配列に含有される偽陽性のCからTおよびGからA変異は、低メチル化画分由来の配列に基づきCからTまたはGからA変異を同定するために要求されるリードの数と低メチル化画分由来の配列に基づきCからTまたはGからA変異を同定するために要求されるリードの数が等しい対照配列決定よりも少ない。
v)CからTへのまたはGからAへのトランジション変異をコールするために高メチル化画分由来のリードを使用しないシーケンシング法
v)CからTへのまたはGからAへのトランジション変異をコールするために高メチル化画分由来のリードを使用しないシーケンシング法
この実施例では、高メチル化画分における人為的な脱アミノ化の配列決定の精度に対する影響を軽減する方法の別の実施形態を記載する。
本明細書に記載されるように、対象由来のDNA試料(例えばヒトcfDNA等のcfDNA)を得、それから高メチル化画分および低メチル化画分を含む少なくとも2つの画分を調製する。画分(高メチル化画分および低メチル化画分を含む)を、示差的にタグ付けし、次いで、プールする。目的の標的領域(例えば、配列可変標的領域およびエピジェネティック標的領域)を、捕捉用プローブを使用して捕捉し、次いで、例えば次世代および/または合成によるシーケンシング技法を使用して増幅およびシーケンシングする。
配列リードを、それらのタグ配列に基づき、高メチル化画分または低メチル化画分に由来するものとして分類する。低メチル化画分由来の配列を参照ゲノム配列にマッピングし、見かけのCからTおよびGからA変異を同定し、ここで、変異を少なくとも2つまたは3つのリードにおいて観察する。高メチル化画分由来の配列を参照ゲノム配列にマッピングし、これらのリードを参照ゲノム配列と比べたCからTおよびGからA変異のコールには使用しない。
得られた配列に含有される偽陽性のCからTおよびGからA変異は、低メチル化画分由来の配列に基づきCからTまたはGからA変異を同定するために要求されるリードの数と低メチル化画分由来の配列に基づきCからTまたはGからA変異を同定するために要求されるリードの数が等しい対照配列決定よりも少ない。
vi)配列可変標的領域セットに対するプローブの濃度とエピジェネティック標的領域セットに対するプローブの濃度が異なる標的領域プローブセットの特徴付け
vi)配列可変標的領域セットに対するプローブの濃度とエピジェネティック標的領域セットに対するプローブの濃度が異なる標的領域プローブセットの特徴付け
この実施例では、リキッドバイオプシーcfDNAのエピジェネティック解析と遺伝子型解析を組み合わせる取り組みの一部として、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを含有するプローブセットの性能の評価を記載する。
cfDNAの試料を、メチル化の状態に基づく分配(したがって、高メチル化画分および低メチル化画分を含む複数の画分の生成)、末端修復、アダプターとのライゲーション、およびPCRによる増幅(例えば、アダプターを標的とするプライマーを使用する)を実施することによって処理した後、標的領域プローブセットと接触させた。
処理した試料を、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを含む標的領域プローブセットと接触させた。標的領域プローブは、目的の領域をタイリングするために設計されたビオチン化オリゴヌクレオチドの形態であった。配列可変標的領域セットに対するプローブは約50kbのフットプリントを有し、エピジェネティック標的領域セットに対するプローブは約500kbの標的領域フットプリントを有した。配列可変標的領域セットに対するプローブには、表3~5において識別される選択された領域を標的とするオリゴヌクレオチドを含め、エピジェネティック標的領域セットに対するプローブには、選択された高メチル化可変標的領域、低メチル化可変標的領域、CTCF結合標的領域、転写開始部位標的領域、局所的増幅標的領域、およびメチル化対照領域を標的とするオリゴヌクレオチドを含めた。
次いで、このように単離された捕捉されたcfDNAをシーケンシングのために調製し、Illumina HiSeqまたはNovaSeqシーケンサーを使用してシーケンシングした。結果を、配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブに対応する配列リードの多様性(配列リードの固有のファミリーの数)およびリードファミリーサイズ(各ファミリー内の個々のリードの数)に関して解析した。以下に報告する値は、70ngの入力DNAを使用して得たものである。70ngの入力は比較的高い量であると考えられ、所望のレベルの多様性およびファミリーサイズを維持する難易度が高い条件を表す。
配列可変標的領域セットに対するプローブおよびエピジェネティック標的領域セットに対するプローブを1:1の比(すなわち、2つのセットにおける個々のオリゴヌクレオチドの体積あたりの質量の濃度が等しい)で使用した場合、多様性は、配列可変標的領域について入力量に基づき予測されたものよりも約5~10%低かった。これにより、シーケンシングデータが予測された数の異なるリードファミリーを含まなかったことが示される。
プローブ比2:1および5:1(エピジェネティック:配列可変プローブセット)により、配列可変標的領域についての理論値と比べた多様性のより大きな低下がもたらされた。
プローブ比1:2または1:5(エピジェネティック: 配列可変プローブセット)により、配列可変標的領域について高レベルの多様性がもたらされ、これは、概して理論値と近く、これにより、これらの比では、エピジェネティック標的領域の存在は配列可変標的領域からの予測される数の別個のリードファミリーの生成に実質的に干渉する量では存在しなかったことが示される。
エピジェネティック標的領域に関しては、すべての比で理論値よりも実質的に低い多様性レベルがもたらされた。しかし、エピジェネティック標的領域についてのメチル化、コピー数、および同様のものの解析には、配列可変領域について意図されているヌクレオチド置換またはインデルの存在または非存在の決定と同じ程度までの高密度および深度のシーケンシングカバレッジは要求されないこと考慮すると、これは問題のあるものとは考えられない。
高メチル化画分に対応するリードまたは分子の配列に基づき偽陽性のCからTおよびGからA変異がコールされる頻度を減少させることによって精度を改善するために、上の実施例ii)~v)のいずれか1つに基本的に記載されているように配列リードを使用して配列または分子の配列を決定し、変異をコールすることができる。
vii)エピジェネティック標的領域セットと配列可変標的領域セットの組合せを使用したがんの検出
vii)エピジェネティック標的領域セットと配列可変標的領域セットの組合せを使用したがんの検出
IからIVAまで(全部で7つのステージ)の異なるステージのがんを有するがん患者由来のcfDNA試料のコホートを、プローブを1:5(エピジェネティック:配列可変プローブセット)の比で使用して、上の例vi)に記載のように処理し、シーケンシングする。配列可変標的領域配列は、実際の腫瘍バリアントを技術的誤りと区別するための十分な支持を伴ってコールされ得るSNV、挿入、欠失および融合等のゲノムの変更を検出することによって解析される。エピジェネティック標的領域配列を独立に解析して、がんにおいて血液細胞と比較して示差的にメチル化されることが示されている領域内のメチル化断片を検出する。最後に、95%の特異度でがんと合致するプロファイルが示されたかどうかを決定するために、両方の解析の結果を組み合わせて最終的な腫瘍の存在/非存在コールを生成する。
がんの検出は、ステージIIIAおよびIIICコホートについてはいずれかの手法単独で100%の感度であった。エピジェネティック標的領域配列の解析を含む他のコホートの1つを除いてすべてで感度が約10~30%増大した。1つの例外はステージIIBコホートであり、すべての試料が両方の手法に従って真陽性であったかまたは両方の手法に従って偽陰性であった。
したがって、本開示の方法および組成物は、配列に基づいたがんの検出とエピジェネティックながんの検出を組み合わせた、エピジェネティック標的領域および配列可変標的領域の異なるシーケンシング深度の感度までのシーケンシングに同時に使用可能な捕捉されたcfDNAを提供し得る。
高メチル化画分に対応するリードまたは分子の配列に基づいたCからTおよびGからA変異の偽陽性の頻度を減少させることによって精度を改善するために、基本的に上の実施例ii)~v)のいずれか1つに記載のように、配列リードを使用して配列を決定することができる。
Claims (80)
- DNAの試料を解析する方法であって、
前記DNAの試料を複数の画分に分配するステップであって、前記複数の画分が、高メチル化画分および低メチル化画分を含む、ステップ;
前記高メチル化および低メチル化画分における前記DNAをタグ付けして、タグ付けされた核酸を生成するステップであって、前記タグ付けされた核酸が、分子バーコードを含む、ステップ;
前記高メチル化画分由来の分子の配列リードおよび前記低メチル化画分由来の分子の配列リードを得るステップであって、前記配列リードが、分子バーコード配列および試料配列を含む、ステップ;
(a)前記分子バーコード配列ならびに(b)前記試料配列の最初および最後のヌクレオチドに対応するゲノム位置のうち少なくとも1つに基づき、配列リードをファミリーに群分けするステップであって、前記ファミリーが、前記試料における単一のDNA分子に由来する配列リードを含む、ステップ;
前記高メチル化画分由来の分子の配列の第1のセットおよび前記低メチル化画分由来の分子の配列の第2のセットを決定するステップ;ならびに
配列の前記第1および第2のセットに基づき複数の塩基をコールするステップであって、
(i)前記第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、前記第2のセットの分子の配列に基づき前記参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子における前記トランジション変異の観察を要求する;あるいは
(ii)CからTへのもしくはGからAへのトランジション変異が、前記第1のセットの分子の配列に基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、前記第1のセットの分子の配列を使用せずに前記第2のセットの分子の配列に基づき参照配列と比べてコールされる、または前記第2のセットの分子の少なくとも1つの配列が、前記CからTへのもしくはGからAへのトランジション変異を含む場合に限り、CからTへのもしくはGからAへのトランジション変異が、参照配列と比べてコールされる、ステップを含む、方法。 - 前記第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、前記第2のセットの分子の配列に基づき前記参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数の分子における前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つの分子における前記トランジション変異の観察を要求する、先行する請求項のいずれか一項に記載の方法。
- 前記第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも4つの分子における前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも5つの分子における前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも2つの分子における前記トランジション変異の観察を要求する、先行する請求項のいずれか一項に記載の方法。
- 前記第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つの分子における前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第1のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、前記第2のセットの分子の配列に基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも少なくとも2つ多い分子における前記トランジション変異の観察を要求する、先行する請求項のいずれか一項に記載の方法。
- 第1の閾値が、前記第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジションをコールするために使用され、第2の閾値が、前記第2のセットの分子の配列に基づきCからTへのまたはGからAへのトランジションをコールするために使用され;前記第1の閾値が、CからTへのまたはGからAへのトランジションをコールするための特異度の第1のレベルを提供し;前記第2の閾値が、CからTへのまたはGからAへのトランジションをコールするための特異度の第2のレベルを提供し;前記特異度の第1のレベルが、前記特異度の第2のレベルにほぼ等しいか、または前記特異度の第1のレベルが、前記特異度の第2のレベルの10%、5%、4%、3%、2%、1%、0.5%、0.2%もしくは0.1%以内である、先行する請求項のいずれか一項に記載の方法。
- 前記第1および第2の閾値が、CからTへのおよび/またはGからAへのトランジションに特異的である、直前の請求項に記載の方法。
- 前記第1および第2の閾値が、少なくとも1つの対照試料または複数の対照試料から決定され、必要に応じて、前記少なくとも1つの対照試料または複数の対照試料が、がんを有すると疑われていない個体に由来する、請求項9または10に記載の方法。
- 位置特異的バックグラウンド誤り率の第1の群が、前記第1のセットの分子の配列のための複数の位置のために使用され;位置特異的バックグラウンド誤り率の第2の群が、前記第2のセットの分子の配列のための複数の位置のために使用され;前記第2の群が、前記第1の群の対応する位置特異的バックグラウンド誤り率よりも高い位置特異的バックグラウンド誤り率を含み;前記第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップが、前記位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、前記CからTへのまたはGからAへのトランジション変異の観察を要求する、請求項1から8のいずれか一項に記載の方法。
- 前記第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも2、3、4または5倍、前記位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、前記CからTへのまたはGからAへのトランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第1のセットの分子の配列に基づきCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも95%、98%、99%、99.5%または99.9%の信頼水準と一致する量だけ、前記位置特異的バックグラウンド誤り率の第1の群由来の対応する率を超える頻度での、前記CからTへのまたはGからAへのトランジション変異の観察を要求する、直前の請求項に記載の方法。
- 位置特異的バックグラウンド誤り率の前記第1および第2の群が、複数の対照試料から決定され、必要に応じて、前記対照試料が、がんを有すると疑われていない個体に由来する、請求項12から14のいずれか一項に記載の方法。
- 位置特異的バックグラウンド誤り率の前記第1および第2の群が、複数の対照試料を使用して決定されており、必要に応じて、前記対照試料が、がんを有すると疑われていない個体に由来する、請求項12から14のいずれか一項に記載の方法。
- 位置特異的バックグラウンド誤り率の前記第1および第2の群が、病歴データを使用して決定された、請求項12から14のいずれか一項に記載の方法。
- 位置特異的バックグラウンド誤り率の前記第1および第2の群が、それぞれ前記高メチル化および低メチル化画分由来の分子のリードおよび/または配列を使用して決定された、請求項12から14のいずれか一項に記載の方法。
- 中等度画分由来の分子の配列リードを得るステップ;
前記中等度画分由来の分子の配列の第3のセットを決定するステップ;および
前記配列の第3のセットに基づき複数の塩基をコールするステップをさらに含む、先行する請求項のいずれか一項に記載の方法。 - CからTへのおよびGからAへのトランジション変異が前記第1のセットの分子の配列に基づきコールされるよりも低い厳密性で、CからTへのおよびGからAへのトランジション変異が前記第3のセットの配列に基づきコールされる、直前の請求項に記載の方法。
- CからTへのおよびGからAへのトランジション変異が前記第2のセットの配列に基づきコールされるのと同じ仕方で、またはCからTへのおよびGからAへのトランジション変異が前記第2のセットの配列に基づきコールされるよりも高い厳密性で、CからTへのおよびGからAへのトランジション変異が前記第3のセットの配列に基づきコールされる、直前の請求項に記載の方法。
- DNAの試料を解析する方法であって、
それぞれ前記試料の高メチル化および低メチル化画分由来の配列リードの第1および第2のセットを得るステップ;ならびに
前記配列リードの第1および第2のセット由来の配列を決定するステップであって、
(i)前記第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、第2のセットのリードに基づき前記参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおける前記トランジション変異の観察を要求する;あるいは
(ii)CからTへのもしくはGからAへのトランジション変異が、前記第1のセットのリードに基づき参照配列と比べてコールされない、またはCからTへのもしくはGからAへのトランジション変異が、前記第1のセットの分子の配列を使用せずに前記第2のセットの分子の配列に基づき参照配列と比べてコールされる、または前記第2のセットの分子の少なくとも1つの配列が、前記CからTへのもしくはGからAへのトランジション変異を含む場合に限り、CからTへのもしくはGからAへのトランジション変異が、参照配列と比べてコールされる、ステップを含む、方法。 - 前記第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、前記第2のセットのリードに基づき前記参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも多い数のリードにおける前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つのリードにおける前記トランジション変異の観察を要求する、請求項22または23のいずれか一項に記載の方法。
- 前記第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも4つのリードにおける前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも5つのリードにおける前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも2つのリードにおける前記トランジション変異の観察を要求する、請求項22から26のいずれか一項に記載の方法。
- 前記第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、少なくとも3つのリードにおける前記トランジション変異の観察を要求する、直前の請求項に記載の方法。
- 前記第1のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップが、前記第2のセットのリードに基づき参照配列と比べたCからTへのまたはGからAへのトランジション変異をコールするステップよりも少なくとも2つ多いリードにおける前記トランジション変異の観察を要求する、請求項22から28のいずれか一項に記載の方法。
- 中等度画分由来の配列リードの第3のセットを得るステップをさらに含み、前記配列が、前記第1および第2のセットに加えて前記第3のセットから決定される、先行する請求項のいずれか一項に記載の方法。
- CからTへのおよびGからAへのトランジション変異が前記第1のセットのリードに基づきコールされるよりも低い厳密性で、CからTへのおよびGからAへのトランジション変異が前記第3のセットのリードに基づきコールされる、直前の請求項に記載の方法。
- CからTへのおよびGからAへのトランジション変異が前記第2のセットのリードに基づきコールされるのと同じ仕方で、CからTへのおよびGからAへのトランジション変異が前記第3のセットのリードに基づきコールされる、直前の請求項に記載の方法。
- 前記高メチル化画分の前記DNAおよび前記低メチル化画分の前記DNAが、示差的にタグ付けされている、先行する請求項のいずれか一項に記載の方法。
- 前記高メチル化画分の前記DNAおよび前記低メチル化画分の前記DNAが、バーコードを含む配列タグで示差的にタグ付けされている、先行する請求項のいずれか一項に記載の方法。
- 前記高メチル化および低メチル化画分が、前記試料の前記DNAを、固体支持体に固定化されたメチル結合試薬と接触させることにより調製された、先行する請求項のいずれか一項に記載の方法。
- 前記メチル結合試薬が、MBDを含む、直前の請求項に記載の方法。
- 前記メチル結合試薬が、MeCPを含む、請求項36に記載の方法。
- 前記メチル結合試薬が、メチル化ヌクレオチドに結合する抗体を含み、必要に応じて、前記メチル化ヌクレオチドが、メチル化シトシンである、請求項36に記載の方法。
- 前記試料の前記DNAを、前記固体支持体に固定化された前記メチル結合試薬と接触させ、前記メチル結合試薬への示差的結合に基づき前記低メチル化画分および高メチル化画分を得るステップを含む、請求項35から38のいずれか一項に記載の方法。
- シーケンシング前に前記高メチル化画分の前記DNAおよび前記低メチル化画分の前記DNAに示差的タグを付加するステップを含む、請求項35から39のいずれか一項に記載の方法。
- 前記配列を決定するステップが、前記配列リードの第1および第2のセットを参照配列にマッピングして、マッピングされた配列リードを産生するステップを含む、先行する請求項のいずれか一項に記載の方法。
- 前記試料のまたは前記高メチル化および低メチル化画分の前記DNAが、富化または捕捉された目的の領域を含む、先行する請求項のいずれか一項に記載の方法。
- 目的の領域について前記試料のもしくは前記高メチル化および低メチル化画分の前記DNAを富化するステップ、または前記試料もしくは前記高メチル化および低メチル化画分から目的の領域を捕捉するステップを含む、先行する請求項のいずれか一項に記載の方法。
- 富化または捕捉するステップが、前記DNAを標的特異的プローブのセットと接触させ、それによって、DNA分子の捕捉されたセットが産生されるステップを含む、直前の請求項に記載の方法。
- 前記目的の領域が、配列可変標的領域を含む、請求項42から44のいずれか一項に記載の方法。
- 前記標的特異的プローブのセットが、配列可変標的セットに特異的な標的結合プローブを含む、直前の請求項に記載の方法。
- 配列可変標的領域セットのフットプリントが、少なくとも25kBまたは少なくとも50kBである、直前の請求項に記載の方法。
- 前記目的の領域が、エピジェネティック標的領域を含む、請求項42から47のいずれか一項に記載の方法。
- 前記標的特異的プローブのセットが、エピジェネティック標的セットに特異的な標的結合プローブを含む、直前の請求項に記載の方法。
- 前記目的の領域が、配列可変標的領域セットおよびエピジェネティック標的領域セットを含む、請求項42から49のいずれか一項に記載の方法。
- 前記配列可変標的領域セットに少なくとも10個の領域、および前記エピジェネティック標的領域セットに少なくとも100個の領域が存在する、直前の請求項に記載の方法。
- 前記エピジェネティック標的領域セットの前記フットプリントが、前記配列可変標的領域セットのサイズよりも少なくとも2倍大きい、請求項50から51のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットの前記フットプリントが、前記配列可変標的領域セットのサイズよりも少なくとも10倍大きい、直前の請求項に記載の方法。
- 前記標的特異的プローブのセットが、前記エピジェネティック標的セットに対応するcfDNAよりも大きい捕捉収量で、前記配列可変標的セットに対応するcfDNAを捕捉するように構成されている、請求項52または53に記載の方法。
- 前記配列可変標的領域セットが、10~30キロベースの範囲内のフットプリントを有する、請求項50から54のいずれか一項に記載の方法。
- 前記配列可変標的領域セットが、30~60キロベースの範囲内のフットプリントを有する、請求項50から54のいずれか一項に記載の方法。
- 前記配列可変標的領域セットが、60キロベース~1メガベースの範囲内のフットプリントを有する、請求項50から54のいずれか一項に記載の方法。
- 前記配列可変標的領域セットが、1~2メガベースの範囲内のフットプリントを有する、請求項50から54のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットが、0.2~0.8メガベースの範囲内のフットプリントを有する、請求項50から58のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットが、0.8~1.5メガベースの範囲内のフットプリントを有する、請求項50から58のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットが、1.5~3メガベースの範囲内のフットプリントを有する、請求項50から58のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットが、3~8メガベースの範囲内のフットプリントを有する、請求項50から58のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットが、高メチル化可変標的領域セットを含む、請求項50から62のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットが、低メチル化可変標的領域セットを含む、請求項50から63のいずれか一項に記載の方法。
- 前記エピジェネティック標的領域セットが、断片化可変標的領域セットを含む、請求項50から64のいずれか一項に記載の方法。
- 前記断片化可変標的領域セットが、転写開始部位領域を含む、直前の請求項に記載の方法。
- 前記断片化可変標的領域セットが、CTCF結合領域を含む、請求項65または66に記載の方法。
- 前記配列可変標的セットの前記捕捉されたDNAが、前記エピジェネティック標的領域セットの前記捕捉されたDNAよりも高いシーケンシング深度までシーケンシングされる、請求項50から67のいずれか一項に記載の方法。
- 前記配列可変標的セットの前記捕捉されたDNAが、前記エピジェネティック標的領域セットの前記捕捉されたcfDNA分子よりも、少なくとも2倍、3倍もしくは4倍高いシーケンシング深度までシーケンシングされる、または4~10倍もしくは4~100倍高いシーケンシング深度までシーケンシングされる、直前の請求項に記載の方法。
- 前記配列可変標的セットの前記捕捉されたDNAが、シーケンシング前に、前記エピジェネティック標的領域セットの前記捕捉されたDNAと共にプールされる、請求項50から69のいずれか一項に記載の方法。
- 前記配列可変標的セットの前記捕捉されたDNAおよび前記エピジェネティック標的領域セットの前記捕捉されたDNAが、同じシーケンシングセルにおいてシーケンシングされる、請求項50から70のいずれか一項に記載の方法。
- 前記高メチル化および低メチル化画分の前記DNAが、捕捉前に増幅される、請求項50から71のいずれか一項に記載の方法。
- 前記試料が、生体組織または生体液から得られた、先行する請求項のいずれか一項に記載の方法。
- 前記試料が、血液から得られた、先行する請求項のいずれか一項に記載の方法。
- 前記試料の前記DNAが、無細胞DNAを含む、先行する請求項のいずれか一項に記載の方法。
- 前記試料の前記DNAが、無細胞DNAから本質的になる、先行する請求項のいずれか一項に記載の方法。
- 前記試料が、増殖性障害または固形腫瘍を有するまたはこれを有すると疑われる対象に由来する、先行する請求項のいずれか一項に記載の方法。
- 前記試料が、増殖性障害または固形腫瘍のための処置を受けているまたはこれを受けたことがある対象に由来する、先行する請求項のいずれか一項に記載の方法。
- 前記配列リードから決定された配列に基づき、前記対象が増殖性障害または固形腫瘍を有する可能性を決定するステップをさらに含む、先行する請求項のいずれか一項に記載の方法。
- 前記増殖性障害または固形腫瘍が、がんである、直前の3つの請求項のいずれか一項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063018363P | 2020-04-30 | 2020-04-30 | |
US63/018,363 | 2020-04-30 | ||
PCT/US2021/030295 WO2021222828A1 (en) | 2020-04-30 | 2021-04-30 | Methods for sequence determination using partitioned nucleic acids |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023524681A true JP2023524681A (ja) | 2023-06-13 |
Family
ID=76035151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022566054A Pending JP2023524681A (ja) | 2020-04-30 | 2021-04-30 | 分配された核酸を使用した配列決定のための方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230313288A1 (ja) |
EP (1) | EP4143338A1 (ja) |
JP (1) | JP2023524681A (ja) |
CA (1) | CA3177127A1 (ja) |
WO (1) | WO2021222828A1 (ja) |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6582908B2 (en) | 1990-12-06 | 2003-06-24 | Affymetrix, Inc. | Oligonucleotides |
US20030017081A1 (en) | 1994-02-10 | 2003-01-23 | Affymetrix, Inc. | Method and apparatus for imaging a sample on a device |
ATE226983T1 (de) | 1994-08-19 | 2002-11-15 | Pe Corp Ny | Gekoppeltes ampflikation- und ligationverfahren |
GB9620209D0 (en) | 1996-09-27 | 1996-11-13 | Cemu Bioteknik Ab | Method of sequencing DNA |
GB9626815D0 (en) | 1996-12-23 | 1997-02-12 | Cemu Bioteknik Ab | Method of sequencing DNA |
US6969488B2 (en) | 1998-05-22 | 2005-11-29 | Solexa, Inc. | System and apparatus for sequential processing of analytes |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
US6818395B1 (en) | 1999-06-28 | 2004-11-16 | California Institute Of Technology | Methods and apparatus for analyzing polynucleotide sequences |
US7501245B2 (en) | 1999-06-28 | 2009-03-10 | Helicos Biosciences Corp. | Methods and apparatuses for analyzing polynucleotide sequences |
EP1218543A2 (en) | 1999-09-29 | 2002-07-03 | Solexa Ltd. | Polynucleotide sequencing |
EP1975251A3 (en) | 2000-07-07 | 2009-03-25 | Visigen Biotechnologies, Inc. | Real-time sequence determination |
US7208271B2 (en) | 2001-11-28 | 2007-04-24 | Applera Corporation | Compositions and methods of selective nucleic acid isolation |
DK2141234T3 (en) | 2003-03-21 | 2016-06-20 | Roche Innovation Ct Copenhagen As | Short interfering RNA (siRNA) analogues |
US7169560B2 (en) | 2003-11-12 | 2007-01-30 | Helicos Biosciences Corporation | Short cycle methods for sequencing polynucleotides |
CA2579150C (en) | 2004-09-17 | 2014-11-25 | Pacific Biosciences Of California, Inc. | Apparatus and method for analysis of molecules |
US7170050B2 (en) | 2004-09-17 | 2007-01-30 | Pacific Biosciences Of California, Inc. | Apparatus and methods for optical analysis of molecules |
US7482120B2 (en) | 2005-01-28 | 2009-01-27 | Helicos Biosciences Corporation | Methods and compositions for improving fidelity in a nucleic acid synthesis reaction |
US7282337B1 (en) | 2006-04-14 | 2007-10-16 | Helicos Biosciences Corporation | Methods for increasing accuracy of nucleic acid sequencing |
GB0700374D0 (en) * | 2007-01-09 | 2007-02-14 | Oncomethylome Sciences S A | NDRG family methylation markers |
US8835358B2 (en) | 2009-12-15 | 2014-09-16 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
KR102028375B1 (ko) | 2012-09-04 | 2019-10-04 | 가던트 헬쓰, 인크. | 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법 |
WO2016015058A2 (en) | 2014-07-25 | 2016-01-28 | University Of Washington | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
WO2017181146A1 (en) * | 2016-04-14 | 2017-10-19 | Guardant Health, Inc. | Methods for early detection of cancer |
WO2018009723A1 (en) | 2016-07-06 | 2018-01-11 | Guardant Health, Inc. | Methods for fragmentome profiling of cell-free nucleic acids |
US9850523B1 (en) | 2016-09-30 | 2017-12-26 | Guardant Health, Inc. | Methods for multi-resolution analysis of cell-free nucleic acids |
BR112019012958A2 (pt) | 2016-12-22 | 2019-11-26 | Guardant Health Inc | métodos e sistemas para análise de moléculas de ácido nucleico |
WO2018183897A1 (en) * | 2017-03-31 | 2018-10-04 | Grail, Inc. | Higher target capture efficiency using probe extension |
-
2021
- 2021-04-30 EP EP21727054.5A patent/EP4143338A1/en active Pending
- 2021-04-30 WO PCT/US2021/030295 patent/WO2021222828A1/en unknown
- 2021-04-30 JP JP2022566054A patent/JP2023524681A/ja active Pending
- 2021-04-30 CA CA3177127A patent/CA3177127A1/en active Pending
-
2022
- 2022-10-28 US US18/050,871 patent/US20230313288A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021222828A1 (en) | 2021-11-04 |
US20230313288A1 (en) | 2023-10-05 |
CA3177127A1 (en) | 2021-11-04 |
EP4143338A1 (en) | 2023-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11643693B2 (en) | Compositions and methods for isolating cell-free DNA | |
US11939636B2 (en) | Methods and systems for improving patient monitoring after surgery | |
US11891653B2 (en) | Compositions and methods for analyzing cell-free DNA in methylation partitioning assays | |
EP4222279A1 (en) | Methods and systems to improve the signal to noise ratio of dna methylation partitioning assays | |
US20220340979A1 (en) | Use of cell free bacterial nucleic acids for detection of cancer | |
EP4271835A1 (en) | Detection of epigenetic status using sequence-specific degradation | |
WO2022174109A1 (en) | Methods and compositions for detecting nucleic acid variants | |
JP2023502752A (ja) | メチル化ポリヌクレオチドの結合を改善するための方法、組成物およびシステム | |
JP2023524681A (ja) | 分配された核酸を使用した配列決定のための方法 | |
EP4179111B1 (en) | Methods of detecting genomic rearrangements using cell free nucleic acids | |
US20240002946A1 (en) | Methods and systems for improving patient monitoring after surgery | |
WO2023282916A1 (en) | Methods of detecting genomic rearrangements using cell free nucleic acids | |
WO2022026761A1 (en) | Methods for isolating cell-free dna | |
JP2023551292A (ja) | メチル化されたポリヌクレオチドを富化するための組成物および方法 | |
JP2024056984A (ja) | エピジェネティック区画アッセイを較正するための方法、組成物およびシステム |