CN113316645A - 变体检测的改进 - Google Patents

变体检测的改进 Download PDF

Info

Publication number
CN113316645A
CN113316645A CN201980085671.3A CN201980085671A CN113316645A CN 113316645 A CN113316645 A CN 113316645A CN 201980085671 A CN201980085671 A CN 201980085671A CN 113316645 A CN113316645 A CN 113316645A
Authority
CN
China
Prior art keywords
sample
dna
patient
sequencing
tumor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980085671.3A
Other languages
English (en)
Inventor
卡特林·海德尔
乔纳森·万
尼灿·罗森菲尔德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cancer Research Technology Ltd
Original Assignee
Cancer Research Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cancer Research Technology Ltd filed Critical Cancer Research Technology Ltd
Publication of CN113316645A publication Critical patent/CN113316645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了用于在获得自对象的样品中检测变体无细胞DNA(cfDNA)的方法,其中对样品的分析包括分离出不同片段尺寸的DNA的尺寸选择步骤。该样品可以是有限体积样品,例如少于500μl的血液、血清或血浆样品(例如,约50μl的血液或血浆样品),或具有低cfDNA含量的其他样品。所述样品可已被储存和/或干燥并且在储存之前未经处理成去除细胞或细胞物质。尺寸选择步骤可包括在分析之前,例如在DNA测序之前,滤出、耗尽或去除>200bp、>300bp、>500bp、>700bp、>1000bp、>1200bp、>1500bp或>2000bp的基因组DNA(gDNA)片段。该方法还可包括对跨越多个基因座的数据进行总结或组合的分析。

Description

变体检测的改进
技术领域
本发明部分地涉及用于检测来自例如无细胞DNA(cell-free DNA,cfDNA)来源(例如血浆)的变体DNA(例如循环肿瘤DNA(circulating tumour DNA,ctDNA))的存在或用于在法医学应用、病原体鉴定、农业和环境物种污染监测中检测变体DNA的方法。特别地,本发明的方法可用于癌症的诊断、治疗并且尤其是监测,包括在肿瘤切除之后进行的监测。
背景技术
无细胞DNA(cfDNA)(例如循环肿瘤DNA(ctDNA))被越来越多地用作监测疾病负担、对治疗的响应和复发风险的非侵入性工具1,2。治疗之后,患者可能具有低ctDNA水平,并且甚至在晚期疾病中,浓度也可能低于每样品体积数个拷贝3。在这种情况下,由于抽样统计,单个样品可包含少于一个可检测拷贝的给定突变,导致不可检出的ctDNA(即使其平均浓度非零):即ctDNA的假阴性低估1,3,4
下一代测序(next-generation sequencing,NGS)提供了在单个反应中分析血浆中大量突变的可能性。这已通过基于扩增子5,6和用于靶向测序的杂交捕获方法7-9使用标准化组5,9或覆盖对每个患者具有特异性的区域的定制组(bespoke panel)5-7示出。这些方法通常已应用于筛选或监测个体突变。尽管靶向~20个患者特异性基因座,但最近的研究在<50%的早期NSCLC患者中检出ctDNA,并且在大多数后来复发的患者中在紧接着手术后没有检出ctDNA6。这表明有效地实现这一重要临床目标需要更高的灵敏度。已经建议使用覆盖数千个突变的高度多路复用的捕获组(highly multiplexed capture panel)1,7,但是其迄今为止尚未被示出用于ctDNA分析。这些用于ctDNA分析的方法依赖于可变大小的组内的个体突变的鉴定。
个体突变的检测受到采样误差和测序背景噪声二者的限制;当信号未达到突变调用(mutation calling)的预定阈值时,这些信号中的信息就会丢失。
Newman等,2016描述了对用于检测ctDNA的CAPP-Seq方法的改进,其中采用了集成数字误差抑制(iDES CAPP-Seq)7。然而,iDES CAPP-Seq方法涉及使用位置特异性误差率进行误差校正。这需要确定每个基因座的误差率,这反过来要求在待查询(interrogate)的每个基因座处靶向至少1/(位置特异性误差率)个分子。对于降低进行分析以进行误差抑制所需的样品数目的ctDNA检测方法存在着未满足的需求。
尽管在含无细胞DNA样品中变体例如ctDNA的检测在癌症护理领域显示出了希望,但对于在低变体(例如,ctDNA)分数的情况下使信噪比最大化的方法和系统存在着未满足的需求。此外,通常用于检测这样的变体的样品量限制了这样的方法在许多临床环境和临床研究设计中应用的可能性。例如,从循环血量有限的动物模型进行纵向ctDNA监测可能是困难的或不可能的。本发明试图为这些需求提供解决方案,并提供进一步的相关优点。
发明内容
本发明人假设,通过对覆盖大量突变基因座的信号进行整合,即使当ctDNA以非常低的浓度存在时,也有可能减轻采样噪声的影响并获得对ctDNA水平的更灵敏和准确的估计(图1a)。
为了更有效地使用ctDNA信息,本发明人绕过了个体突变的“调用”,并旨在将来自覆盖多个(例如所有)肿瘤突变基因座的突变体读段的信息进行组合。本发明人发现,通过产生并组合来自血浆DNA的覆盖了在患者的肿瘤中突变的多个基因座的大量测序读段,可以实现超越先前方法灵敏度的检测。本发明人开发了称为变体读段整合(INtegration ofVAriant Reads,INVAR)的算法,其汇总覆盖数百或数千个突变基因座的突变体信号,以评估整个基因组范围内的信号是否显著高于背景或与背景不可区分(图1b)。为了以有效测序的方式为每个患者产生~106个覆盖肿瘤突变基因座的读段,本发明人采用了定制组测序(TAilored PAnel Sequencing,TAPAS;图1c)。本发明人首先为10位接受全身性抗癌治疗的IV期黑素瘤患者从肿瘤组织测序鉴定了突变。这些突变被用于设计靶向每个患者的673个突变的中位数(四分位数间距“IQR”250-1,209)的杂交捕获诱饵组,其被应用于纵向血浆样品。如本文中详细描述的,使用TAPAS数据和INVAR分析,本发明人能够检出低至百万分之一或更低的个体水平的残留ctDNA。
在对INVAR方法的进一步优化中,可以将整合进行靶向以聚焦于残留病信号的整合。特别地,本文所述的聚焦INVAR方法通过仅选择来自具有至多2个突变体分子的基因座的信号来汇总微小残留病(minimal residual disease,MRD)“MRD样信号”。其次,仅考虑具有被正向和反向(F+R)读段支持的突变的分子对信号的贡献,这构成了误差抑制和尺寸选择步骤二者。第三,对每个基因座的突变体读段基于其突变体等位基因分数进行加权,以突出在肿瘤中更为普遍的突变。第四,然后汇总信号——在一些情况下通过三核苷酸字段(trinucleotide context)。第五,使用合适的方法(例如费希尔法(Fisher's method)或布朗法(Brown's method))对P值进行积分,但仅对前N个类别进行积分,以聚焦于MRD样信号。最终结果是针对残留病检测进行了优化的聚焦INVAR算法。
因此,在第一方面中,本发明提供了用于在获得自患者的含DNA样品中检测和/或定量无细胞DNA(cfDNA)(例如循环肿瘤DNA(ctDNA))的方法(任选地,计算机执行方法),所述方法包括:
(a)提供目的基因座,所述目的基因座包含至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个代表所述患者之肿瘤的含突变基因座(“患者特异性基因座”);
(b)获得序列数据,所述序列数据包含来自所述患者的含DNA样品的多个多核苷酸片段的序列读段,其中所述序列读段跨越步骤(a)的所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个含突变基因座;
(c)任选地,执行读段压缩(collapsing)以将所述序列读段分组为读段家族;
(d)通过对突变体读段和总读段进行汇总来计算覆盖所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个患者特异性基因座中的一些或全部的突变体等位基因分数。特别地,计算突变体等位基因分数可包括根据下式对突变体读段和总读段进行汇总:
Figure BDA0003128387560000031
在某些情况下,计算突变体等位基因分数可包括在每个患者特异性基因座处计算等位基因分数的加权平均值。在某些情况下,计算突变体等位基因分数可包括对突变体读段的数目进行计数并将其与预定阈值进行比较。预定阈值在一些情况下可以是测序深度的函数,但不必是简单的总和。特别地,可以应用关于突变体读段的数目的阈值模型。
步骤(c)可以被认为是任选的,因为其功能是降噪,这在某些情况下可能不是必要的。特别是在置信度由其他机制(例如重复、使用类别等)或由于将来可能出现的测序质量提高而引起时。特别地,在执行步骤(c)时,读段压缩可以如本文进一步定义的。
在一些实施方案中,该方法还包括:
(e)将样品分类为:
(i)当发现突变体等位基因分数大于预定阈值(例如背景测序误差率)时:含有cfDNA(例如ctDNA);或
(ii)当未发现突变体等位基因分数大于或在统计学上显著大于预定阈值(例如背景测序误差率)时:不含cfDNA(例如ctDNA)或具有未知的cfDNA(例如ctDNA)状态。
在一些实施方案中,该方法包括量化获得自患者的样品中的cfDNA(例如ctDNA)的浓度或量,其中量化cfDNA(例如ctDNA)的浓度或量包括从步骤(d)中计算的突变体等位基因分数中减去背景测序误差率。在一些实施方案中,费希尔精确检验(Fisher's exacttest)的计算可以独立于所述步骤(d)。
如本文所述,在每种突变类别的背景测序误差率中观察到差异,即,不同单核苷酸替换的误差率是不同的(例如,参见图2b,其显示G>A具有比T>G更高的误差率)。实际上,在“最嘈杂”(最大误差)和最不“嘈杂”(最小误差)突变类别之间,发现了几乎40倍的误差率差异。本发明人意识到,可以考虑按类别划分突变(这可以被认为是按类别将突变划分或分组为组),同时仍对类别中的所有变体读段进行整合,以克服技术噪声,即误差,并改善对低水平cfDNA(例如ctDNA)的灵敏度(尤其参见图3a和3b,其中将“数据划分”为突变类别(即,基于突变类别将突变分组为组)导致最低检出的等位基因分数的约10倍改善(至0.3ppm))。因此,在一些实施方案中,在考虑每种突变类别的背景测序误差率的情况下,确定每种突变类别的突变体等位基因分数。
在一些实施方案中,为或已经针对所述至少2、3、4、5、6、7、8、9、10或更多个患者特异性基因座中代表的每种突变类别(例如每种碱基替换类别)(“突变类别”)确定背景测序误差率,并且对于每种突变类别在考虑该突变类别的背景测序误差率的情况下执行步骤(d)中的突变体等位基因分数计算;将每种类别的突变体等位基因分数组合以提供对样品的全局突变体等位基因分数的量度(measure)。特别地,全局突变体等位基因分数可以被计算为每种类别的背景扣除的所有个体突变体等位基因分数的平均值,其通过在该类别中观察到的读段家族的总数加权。在某些实施方案中,特别是在使用突变体读段和非突变体读段的数目来确定cfDNA的存在而不确定突变体等位基因分数的情况下,可以省略计算步骤(d)。
在一些实施方案中,所述方法包括在考虑背景测序误差率的情况下确定所计算的突变体等位基因分数的统计显著性或其他方面。在其中计算每种突变类别的突变体等位基因分数,然后组合成全局突变体等位基因分数的情况下,确定所计算的全局突变体等位基因分数的统计显著性可包括确定每种突变类别的突变体等位基因分数的个体统计显著性,然后将个体统计显著性确定值组合成全局突变体等位基因分数的全局统计显著性确定值。多种统计方法可适用于确定突变体等位基因分数的统计显著性。在特定情况下,确定突变体等位基因分数的统计显著性可以包括在考虑包含以下的列联表(contingency table)的情况下进行单侧费希尔精确检验:来自样品的突变体读段的数目,来自样品的读段的总数,以及从背景测序误差率预期的突变体读段的数目。在其中在每种突变类别的基础上计算突变体等位基因分数的某些实施方案中,确定突变体等位基因统计显著性可以包括进行多个单侧费希尔精确检验,以在考虑该突变类别的背景测序误差率的情况下确定观察到的突变体读段数目的统计显著性,从而产生每种突变类别的p值,并使用经验布朗法(EmpiricalBrown's method)将p值组合以提供样品的突变体等位基因分数的统计显著性的全局量度。
当在每种突变类别的基础上计算突变体等位基因分数时,突变类别的数目通常由被发现存在于至少2、3、4、5、6、7、8、9、10、100、1000或至少5000个代表患者的肿瘤的含突变基因座(“患者特异性基因座”)中的突变控制。在许多情况下,突变类别可包括以下突变类别中的至少2、3、4、5、6、7、8、9、10、11或全部12种:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T和T>C。在一些实施方案中,突变类别包括以下突变类别中的至少5、6、7、8、9、10、11或全部12种:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T和T>C。优选地,患者特异性基因座处的肿瘤特异性突变包括属于至少2、3、4、5、6、7、8、9、10、11或12种不同突变类别的突变。本文考虑了另外的突变类别。例如,可以基于更多的序列子集(例如通过二核苷酸字段、三核苷酸字段或通过个体基因座)来划分突变,这可以进一步改善误差率的分辨率。
如本文中所述(参见实施例8以及图11和13),在一些情况下,通过三核苷酸字段评估每种突变类别的误差率。三核苷酸字段可以是以下三核苷酸字段中的一种或更多种(例如全部):CGC、GGC、TCG、ACG、GCG、TGC、CCG、GCA、CGA、GCC、CGG、CGT、AGC、GCT、TCA、TGA、AGT、ACC、CCC、CCA、CTT、GGG、CCT、GAG、CTG、AGG、CAG、CTC、AGA、TCC、GGT、TGG、CTA、ACA、TCT、TAG、AAG、TGT、ACT、GTC、GGA、TAC、TTG、CAA、TTC、TTA、ATC、ATG、TAA、TAT、CAT、GTT、ATT、ATA、GAA、GAC、GAT、CAC、GTG、TTT、GTA、AAT、AAA和AAC。突变类别可以包括以下突变类别中的至少2、3、4、5、6、7、8、9、10、11或全部12种:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T和T>C。特别地,该方法可以仅采用全部突变类别和/或三核苷酸字段的子集。例如,该方法可以包括组合来自每个样品的2、3、4、5、6、7或8种最显著的三核苷酸字段的P值。在特定情况下,本发明的方法可以包括组合来自每个样品的6种最显著的三核苷酸字段的P值。在某些情况下,可以使用费希尔检验确定每种三核苷酸字段的p值,以在考虑该字段的背景误差率的情况下比较三核苷酸字段的突变体读段的数目。可以通过使用靶碱基的10b.p.以内但不包括靶碱基的测序数据来确定每种突变类别和三核苷酸字段的背景误差率。本发明人发现,当从三核苷酸字段通过突变类别进行误差校正时,优选的是并不是每种单个的三核苷酸字段都应被使用,因为认为仅在来自任一个样品的少量字段中预期了信号。在微小残留病(MRD)的情况下,预期ctDNA水平较低;因此,预期很少的三核苷酸字段显示真实的信号。因此,可以保证在分析期间将分析限制在较少数量的三核苷酸字段(例如,如上所限定的2、3、4、5、6、7或8种最显著的三核苷酸字段)。这可用于降低背景噪声,例如,如果对照样品随机显示高信号水平的话:这样的结果将与MRD不一致。
在一些实施方案中,步骤(b)中所获得的包含序列读段的序列数据代表定制组测序(TAPAS)序列读段、聚焦外显子序列读段、全外显子序列读段或全基因组序列读段。对序列读段的选择尤其可以反映正在研究的癌症的突变率。可以使用本文中证明的外显子组测序来鉴定源自肿瘤的突变,但也可以在较小的聚焦组或较大规模(例如全基因组)进行鉴定。在本文中所述的其中患者患有黑素瘤的实例中,外显子组测序足以鉴定每个患者的数百至数千个突变。基于癌症类型的已知突变率,外显子组测序也可满足许多具有相对较高突变率的癌症类型,例如:肺癌、膀胱癌、食管癌或结直肠癌。对于突变率为每兆碱基~1或更低的癌症,可能需要肿瘤的全基因组测序以进行突变分析。对于卵巢癌和脑癌,这将导致每个患者鉴定出数千种突变。此外,包含序列读段的序列数据可以覆盖序列肿瘤的外显子组或基因组的足够部分,以鉴定至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个含突变基因座。另外地或作为替选地,包含序列读段的序列数据可以覆盖序列肿瘤的外显子组或基因组的足够部分,以确保患者特异性基因座处的肿瘤特异性突变包括属于至少2、3、4、5、6、7、8、9、10、11或12种不同突变类别的突变。另外地或作为替选地,包含序列读段的序列数据可以覆盖肿瘤的外显子组或基因组的足够部分,以确保患者特异性基因座处的肿瘤特异性突变包括至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63或至少64种三核苷酸字段,特别是选自以下的三核苷酸字段:CGC、GGC、TCG、ACG、GCG、TGC、CCG、GCA、CGA、GCC、CGG、CGT、AGC、GCT、TCA、TGA、AGT、ACC、CCC、CCA、CTT、GGG、CCT、GAG、CTG、AGG、CAG、CTC、AGA、TCC、GGT、TGG、CTA、ACA、TCT、TAG、AAG、TGT、ACT、GTC、GGA、TAC、TTG、CAA、TTC、TTA、ATC、ATG、TAA、TAT、CAT、GTT、ATT、ATA、GAA、GAC、GAT、CAC、GTG、TTT、GTA、AAT、AAA和AAC。
在一些实施方案中,通过对直接获得自患者的肿瘤样品的DNA进行测序或通过对在高肿瘤疾病负担时(例如,在治疗性治疗开始之前或在手术切除之前)获得自液体(例如患者的血浆样品)的DNA进行测序来获得2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个代表患者的肿瘤的含突变基因座。以这种方式,可以使用相对更加丰富的源自肿瘤的DNA来源进行肿瘤序列(例如肿瘤外显子或其部分或者肿瘤基因组或其部分)的确定,然后关于哪个基因座包含肿瘤特异性突变的信息(步骤(a))可用于在序列读段(步骤(b),在源自肿瘤的DNA更加稀少时(例如在患者已接受至少一个治疗过程之后和/或在手术肿瘤切除之后)获得)上实施的本发明方法中。例如,所述方法可用于通过检测低水平的ctDNA来监测肿瘤的复发。包含2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个代表患者的肿瘤的含突变基因座的目的基因座的确定通常涉及与患者的种系DNA测序进行比较,以鉴定相对于或相比于患者的种系基因组序列,哪些基因座包含肿瘤特异性突变。例如,提取自血沉棕黄层或种系DNA的任何其他合适来源(例如唾液、毛囊、皮肤、颊拭子、白细胞)的DNA。
在一些实施方案中,通过去除已知为单核苷酸多态性(SNP)的基因座,例如通过去除在常见SNP数据库(例如1000Genomes ALL或EUR)中发现的那些位置,来过滤目的基因座。这种过滤通过排除可能是SNP的那些基因座而聚焦于信号,即肿瘤突变的基因座(参见本文中的实施例10)。
在一些实施方案中,步骤(b)中提供的包含序列读段的序列数据代表来自患者的基本上无细胞的血浆样品的多个DNA片段的序列读段。在一些实施方案中,步骤(b)中提供的包含序列读段的序列数据代表来自本文中定义的任何样品类型的多个DNA片段的序列读段。使用无细胞DNA(cfDNA)作为样品来源提供了相对无创的方法以用于获取样品(所谓的“液体活检”)。从cfDNA获得的序列读段将包含以下二者的序列读段:来源于患者的一个或更多个肿瘤的循环DNA片段分数(ctDNA分数)(如果存在的话),以及来源于非肿瘤组织或细胞的循环DNA片段分数。
在一些实施方案中,步骤(b)中所获得的包含序列读段的序列数据代表在患者已经开始对肿瘤的治疗过程之后和/或患者已经进行了对肿瘤的手术切除之后获得自患者的样品的多个多核苷酸片段的序列读段,
并且其中所述方法用于监测肿瘤的存在、生长、治疗响应或复发。在特定的实施方案中,所述方法用于监测微小残留病(MRD)的存在和/或复发。
根据本发明的这个和其他方面,患者可能是患有或曾患有选自黑素瘤、肺癌、膀胱癌、食管癌、结直肠癌、卵巢癌脑癌和/或乳腺癌的患者。特别地,患者可能已经被诊断为患有黑素瘤,包括具有或没有转移的晚期和/或浸润性黑素瘤。
在一些实施方案中,读段压缩步骤(c)包括基于片段的起始和结束位置以及独特地标记个体起始cfDNA分子的至少一个分子条码将重复测序读段分组为读段家族。如本文进一步定义,本文所用的“条码”或“分子条码”意指独特的碱基串,通常长度<20,例如<10bp,其可以作为文库制备期间的第一步连接至DNA分子。结果,读段家族可以被独特地鉴定,并因此与其起始分子联系。这允许通过“读段压缩”实现误差抑制。因此,具有相同起始和结束位置以及分子条码的重复读段可通过计算鉴定为源自相同的起始cfDNA分子,称为“读段家族”。特别地,要将读段包含在读段家族中,可能所有家族成员之间需要有最少60%、70%、75%、80%、85%、90%或甚至95%的共有序列(“共有序列阈值”)。因此,例如,如果一个读段家族中存在三个读段,并且这些读段中的两个显示共有序列,而一个在给定核苷酸位置显示例如替代碱基,则该读段家族具有2/3或66%的所得共有序列。在存在突变但是突变碱基不受共有序列要大于或等于用于包含在一个读段家族中的共有序列阈值的支持的情况下,其可被丢弃(即不在分析中进一步使用)。在特定情况下,可能需要为2、3、4或5个读段的最小家族规模。在一些情况下,在分析中可忽略不满足该最小家族规模的读段家族。家族规模越大,误差抑制的程度就越大,这是因为整个读段家族的共有序列受更大数量的独立读段的支持。因此,为了设置用于误差抑制步骤的极限,指定特定的最小家族规模阈值可以是有利的。在一些实施方案中,读段压缩步骤(c)包括基于片段的起始和结束位置以及至少一个分子条码将读段分组为读段家族,所有家族成员之间需要有最少60%、70%、80%或90%的共有序列,并且需要2、3、4或5个的最小家族规模。
如本文所述,本发明人发现,即使在宽松的设置下,计算机尺寸选择也能够富集突变体信号(即ctDNA),同时使稀有突变体等位基因的损失最小化。在某些情况下,对于较低的初始等位基因分数富集得更大(参见图4c)。因此,在一些实施方案中,可以将序列读段尺寸选择为相对于非突变体读段而倾向或富集突变体读段。在某些实施方案中,在计算机上对序列读段进行序列选择,以选择尺寸为115至160bp、115至190bp、250至400bp和/或440至460bp的读段,以便富集代表ctDNA的那些读段。通常来说,有利的是使用其中ctDNA富集而不被耗尽的尺寸范围。这些尺寸范围可能因癌症类型和分期而异。已经观察到非肿瘤DNA在166bp处达到峰值,因此在某些方面中,可以调整尺寸选择窗口以排除接近该最大值的长度的非肿瘤DNA或使其达到最少。本文还考虑了一个或更多个较窄的尺寸窗口,以用于预期导致更大的富集的尺寸选择。例如,可以采用120至155bp、120至180bp、260至390bp和/或445至455的尺寸范围。或者,尺寸选择可以较不严格,而利用较宽的尺寸选择窗口,例如110至200bp、240至410bp和/或430至470bp。在一些实施方案中,计算机尺寸选择可以对预先确定的一个或更多个(例如2或3个)尺寸窗口进行尺寸选择,所述尺寸窗口已经基于实验确定的富集所讨论样品中ctDNA的尺寸窗口而预先确定。例如,可以组合来自一个或更多个样品的序列读段,确定片段的尺寸分布,并确定突变体和野生型(即种系序列)读段的比例之间的比。用于本发明方法的尺寸窗口可以是显示相对于野生型读段而富集突变体读段的比例的那些。
在某些实施方案中,将一个或更多个过滤(filter)应用于读段家族,以便聚焦于更可能是源自肿瘤的那些家族。在一些情况下,一个或更多个过滤可以是微小残留病(MRD)过滤,例如本文实施例10中所述的那些。特别地,过滤步骤可以包括排除具有>2个突变体分子的那些基因座。作为替选地或补充地,过滤步骤可以包括仅选择(即包括)已经在正向(F)和反向(R)两个方向上进行了测序的那些片段。如实施例10中所述,仅在基因座处存在至少一个F和至少一个R读段的情况下才将突变体读段考虑为有助于基因座处的信号的要求具有抑制测序伪影(sequencing artefacts)以及选择来自在ctDNA中稍微富集的短cfDNA片段(由两个方向的读段支持)的突变体读段的双重目的(图4(a))。应用MRD过滤例如排除具有>2个突变体分子的那些基因座以及仅选择在基因座处具有至少一个F和至少一个R读段的那些读段之一或其二者,所得经过滤的基因座可称为“MRD样基因座”。
在某些实施方案中,应用肿瘤等位基因分数进行加权以提高从肿瘤中更普遍的突变施加的信号的加权(提高权重)。如本文实施例11中所述,本发明人发现,从来自血浆的cfDNA中观察到给定突变的可能性与肿瘤中给定突变的肿瘤等位基因分数成比例(见图16)。因此,本发明人相信,患者特异性肿瘤测序提供了在通过突变字段进行信号汇总之前有利地通过肿瘤等位基因分数对每个基因座的信号进行加权的机会。在一些实施方案中,通过肿瘤等位基因分数对每个基因座的突变体等位基因分数进行加权。在一些实施方案中,通过肿瘤分数对每个基因座的突变体等位基因的数目进行加权。优选地,通过将包含基因座的突变体读段家族的数目除以(1减去该基因座处的肿瘤等位基因分数)并且通过将包含基因座的读段家族的总数也除以(1减去该基因座处的肿瘤等位基因分数)对每个基因座应用肿瘤等位基因分数进行加权。这可以使用下式进行表达:
Figure BDA0003128387560000101
其中:
AF字段是给定(例如三核苷酸)字段下的等位基因频率;肿瘤AF是通过分析肿瘤(例如,通过对直接获得自肿瘤的DNA进行测序)确定的基因座的等位基因频率;并且MDR样基因座是从患者的肿瘤中确定并且已经过滤以针对微小残留病信号进行选择的含突变基因座。在实施例11中,特别是比较图15和18,可以看到通过肿瘤等位基因分数进行加权的效果。根据上式通过肿瘤等位基因分数进行加权(其在图18中进行,但是在图15中未进行)导致突变体信号的差异富集。在一些实施方案中,字段是三核苷酸字段。任选地,仅将具有最显著p值的6个三核苷酸字段组合。
在某些实施方案中,通过将样品与背景误差率进行比较来确定每种三核苷酸字段的p值。然后使用适当的技术(例如费希尔法或布朗法)将来自三核苷酸字段的前(即最显著的)n个p值组合。在某些情况下,n可以是2、3、4、5、6、7、8或更大。例如,当n=6时,可以根据下式组合来自前6种三核苷酸字段的p值:
Figure BDA0003128387560000111
在某些实施方案中,在考虑背景误差E的情况下基于所有字段中的所有信号计算全局等位基因分数AF全局。优选地,根据下式确定AF全局
Figure BDA0003128387560000112
在第二方面中,本发明提供了用于监测患者中癌症的存在、生长、预后、消退、治疗响应或复发的方法,所述方法包括:
(i)对获得自患者的含多核苷酸样品进行测序,以获得包含来自样品的多个多核苷酸片段的序列读段的序列数据,其中所述序列读段跨越至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个已被确定为患者的癌细胞中的携带突变的基因座;
(ii)使用在步骤(i)中所获得的序列数据进行本发明第一方面的方法;
(iii)至少基于将样品分类为含有ctDNA、不含ctDNA或者基于在考虑背景误差的情况下计算的等位基因分数,确定患者中癌症的存在、生长、预后、消退、治疗响应或复发,
任选地,其中所述方法用于在肿瘤切除之后监测癌症复发。
在一些情况下,测序步骤(i)可包括下一代测序(NGS),包括
Figure BDA0003128387560000121
测序或Sanger测序。通过全基因组测序(WGS),或通过使用全外显子组测序(WES)或靶向基因测序而聚焦于特定区域或基因,NGS提供了检测突变所需的速度和准确性。NGS技术的实例包括采用合成测序、杂交测序、连接测序、焦磷酸测序、纳米孔测序或电化学测序的方法。
在一些情况下,本发明该方面的方法还包括在测序之前从获得自患者或多于一个患者的样品(例如血浆样品)制备DNA文库的步骤。任选地,文库可以被条码化。
在一些情况下,本发明该方面的方法还包括在测序之前从患者获得样品的步骤。例如,可以从已经被诊断为患有癌症或可能患有癌症的患者中收集血液样品。可以对样品进行一个或更多个提取或纯化步骤,例如离心,以获得基本上无细胞的DNA来源(例如,以获得血浆样品)。该方法还可以包括确定样品的cfDNA浓度。特别预期的是,样品可以被运输和/或储存(任选地在冷冻之后)。样品收集可发生在远离测序位置的位置和/或计算机执行方法步骤可发生在远离样品收集位置和/或远离测序位置的位置(例如,计算机执行方法步骤可以借助于联网的计算机,例如借助“云”提供商来执行)。然而,在一些情况下,整个方法可以在单个位置执行,这对于癌症的“现场”确定或监测可以是有利的。
在一些情况下,本发明该方面的方法还可以包括获得肿瘤成像数据和/或测量或检测一种或更多种肿瘤生物标志物,以帮助确定癌症的存在、生长、治疗响应或复发。特别地,肿瘤成像数据可以包括计算机断层摄影(CT)数据,例如用以测量肿瘤体积。在特定情况下,生物标志物可以包含乳酸脱氢酶(LDH)浓度。肿瘤检测和/或量化的这些另外的手段可以证实通过本发明的方法进行的确定和/或可以帮助解决模棱两可的确定。
在一些情况下,该方面的方法还可以包括推荐或选择进行抗癌治疗(包括后续或持续治疗)的患者的步骤。例如,在确定样品中包含ctDNA的情况下(例如,在发现突变体等位基因分数大于(包括统计学上显著大于)背景测序误差率的情况下),可以确定患者患有癌症或具有癌症的复发,其可受益于抗癌治疗,包括化学治疗、免疫治疗、放射治疗、手术或其组合。同样,在确定样品中不含etDNA或ctDNA水平低于本发明方法的检测极限的情况下(例如,在发现突变等位基因分数不大于或不在统计学上显著大于背景测序误差率的情况下),可以确定患者不患有癌症或癌症已经缓解。因此,患者可以受益于避免不必要的抗癌治疗,该治疗可能与不希望的副作用相关。
在第三方面中,本发明提供了治疗患有或曾患有癌症的患者的方法,该方法包括:
a)实施本发明的第一或第二方面的方法;以及
b)(i)在确定样品中含有cfDNA(例如ctDNA)的情况下(例如,在发现突变体等位基因分数大于(包括统计学上显著大于)背景测序误差率的情况下),向患者施用抗癌治疗;或
(ii)在确定样品中不含cfDNA(例如ctDNA)或cfDNA(例如etDNA)水平低于本发明方法的检测极限的情况下(例如,在发现突变等位基因分数不大于或不在统计学上显著大于背景测序误差率的情况下),可以确定患者不患有癌症或癌症已经缓解,并且可以取消抗癌治疗。
在一些情况下,抗癌治疗可以选自化学治疗、免疫治疗、放射治疗和手术。特别地,抗癌治疗可包括以下一种或更多种:维罗非尼(vemurafenib)、伊匹单抗(ipilimumab)、帕唑帕尼(pazopanib)、达拉菲尼(dabrafenib)和曲美替尼(trametinib)。特别地,在患者患有或曾患有黑素瘤并且确定样品含有cfDNA(例如etDNA)的情况下,上述抗癌治疗可能是合适的。
不希望受到任何特定理论的束缚,本发明人相信本发明的方法可应用于癌症监测和cf DNA(例如etDNA)检测领域以外的地方。特别地,INVAR算法可用于法医科学(例如,在包含更大部分的另一人的DNA(例如怀疑的受害者(或犯罪者,根据环境指示))的样品中检测痕量的怀疑的犯罪者(或受害者)DNA)、农业和食品(例如,用于检测污染)、谱系追踪、临床遗传学和移植医学。INVAR方法通过汇总许多(例如所有)突变体读段并且任选地通过突变类别进行划分(进一步分析)来改善信噪比的能力使该方法在以下应用中特别有吸引力:其中怀疑样品包含与构成样品的大部分的靶DNA或其他多核苷酸(例如RNA)(包括其片段)在多个基因座的序列处不同的小部分的靶DNA或其他多核苷酸(例如RNA)(包括其片段)。
因此,在第四方面中,本发明提供了用于检测样品中的靶多核苷酸的方法,其中靶多核苷酸是样品中总多核苷酸的一小部分,其中靶多核苷酸与非靶多核苷酸在多个基因座处的序列不同,该方法包括:
(a)获得包含至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个基因座的序列信息,其中每个所述基因座处的至少一个碱基在靶多核苷酸与非靶多核苷酸之间不同(“靶特异性基因座”);
(b)获得序列数据,所述序列数据包含来自样品的多个多核苷酸片段的序列读段,其中所述序列读段跨越步骤(a)的所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个靶特异性基因座;
(c)任选地,执行读段压缩以将序列读段分组为读段家族;
(d)根据下式通过对突变体读段和总读段进行汇总来计算覆盖所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个或更多个靶特异性基因座中的一些或全部的靶多核苷酸分数:
Figure BDA0003128387560000141
(e)将所述样品分类为:
(i)当发现靶多核苷酸分数在统计学上显著大于基于背景测序误差率预期的分数时:含有所述靶多核苷酸;或
(ii)当未发现靶多核苷酸分数在统计学上显著大于基于背景测序误差率预期的分数时:不含所述靶多核苷酸或具有未知的靶多核苷酸状态。
在一些情况下,为或已经针对所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个基因座中代表的每种碱基替换类别确定背景测序误差率,任选地通过三核苷酸字段,并且其中为每种碱基替换类别执行步骤(d)中的靶多核苷酸分数计算,
并且其中对靶多核苷酸分数统计显著性的确定包括为每种碱基替换类别在考虑该碱基替换类别的背景测序误差率的情况下计算统计显著性,并且将每种碱基替换类别的经计算的统计显著性组合以提供样品的全局靶多核苷酸分数的统计显著性的量度。
靶多核苷酸可以是DNA或RNA。
根据本发明的任何方面,患者是哺乳动物,优选人。患者可已被诊断为患有癌症。在一些情况下,患者可已接受了癌症的治疗过程和/或切除癌的手术。
根据本发明的任何方面,该方法可以包括分析多个(例如2、3、4、5、6或更多个)重复中的给定样品,并且使用重复中的信号来改善在确定样品中cfDNA的存在或不存在中的置信度。在这种情况下,可以放宽本发明方法的其他限制。例如,通过使用样品重复,可以省略读段压缩步骤。然而,样品重复和读段压缩的使用不是互相排斥的,因此在某些实施方案中,样品重复和读段压缩二者可以都用在本发明的方法中。
根据本发明的任何方面,在一些实施方案中,对样品的分析包括分离出不同片段尺寸的DNA的尺寸选择步骤。
在一些实施方案中,获得自患者的样品是包含少于一个肿瘤来源的单倍体基因组的有限体积样品。
在一些实施方案中,获得自患者的样品是选自以下的有限体积样品:
(i)少于500μl、少于400、少于200、少于100μl或少于75μl的血液、血清或血浆样品(例如,约50μl的血液或血浆样品);
(ii)细针抽吸物(FNA);
(iii)淋巴结活检物;
(iv)尿、脑脊液、痰、支气管灌洗液、宫颈涂片或细胞学样品;
(v)从自所述患者中收集时起已储存超过1年、2年、3年、5年或10年的样品;以及
(vi)先前已被处理并且DNA质量指标或测序质量不合格的样品,或属于样品组的样品,该样品组的其他样品先前已被处理并且DNA质量指标或测序质量不合格。
在一些实施方案中,获得自患者的样品是:
干血斑点样品;
针刺血液样品;
在从所述患者中收集之后已储存超过1天(例如,至少一个月)或至少1年或至少10年的少于500μl的档案(archival)血液、血清或血浆样品。
在一些实施方案中,患者是健康的或患有疾病(例如,癌症)和/或其中患者是人或非人动物(例如,啮齿动物)。
在一些实施方案中,动物是具有异种植入或异种移植的人肿瘤组织的啮齿动物。
在一些实施方案中,在分析之前,例如在DNA测序之前,对获得自患者的样品进行尺寸选择步骤以产生经尺寸选择的样品,其中从所述样品中滤出、耗尽或去除>200bp、>300bp、>500bp、>700bp、>1000bp、>1200bp、>1500bp或>2000bp的基因组DNA(gDNA)片段。
在一些实施方案中,在测序文库制备之前或在测序文库制备物之后进行尺寸选择步骤。
在一些实施方案中,尺寸选择步骤是采用基于珠的gDNA片段捕获的右侧尺寸选择。
在一些实施方案中,通过广义似然比确定所述样品中ctDNA存在的可能性:
Figure BDA0003128387560000161
其中广义似然比的项如实施例14的补充方法中所定义。
在第五方面中,本发明提供了用于在获得自患者的样品中检测变体无细胞DNA(cfDNA)的方法,其中对样品的分析包括分离出不同片段尺寸的DNA的尺寸选择步骤。优选地,该方法包括去除、耗尽或滤出基因组DNA片段的尺寸选择步骤。
有利地,样品包含有限量的无细胞DNA,例如无细胞DNA的至多约200、150、100或80个人单倍体基因组等同物。在一些实施方案中,样品包含无细胞DNA的至少约2、5或10个人单倍体基因组等同物。在一些实施方案中,样品包含无细胞DNA的5至200、5至150、5至100、10至200、10至150或10至100个人单倍体基因组等同物。不希望受理论束缚,认为预期来自晚期癌症患者的50μl血滴样品包含约80个基因组拷贝作为cfDNA(基于估计的每mL血液16000个可扩增拷贝)。样品例如低体积血斑点可能特别难以分析cfDNA的存在,因为cfDNA通常以低浓度存在于大的gDNA背景下。本发明人已发现,长(gDNA)片段的这种丰度降低了任何cfDNA片段被成功捕获用于下游分析的可能性,例如在文库制备过程中与衔接分子连接以进行后续扩增,但这可以补救,以通过包括尺寸选择步骤从这样的样品的cfDNA组分中获得可用信号。
在一些实施方案中,所获得的样品是在尺寸选择步骤之前未纯化以排除细胞或细胞物质的有限体积样品。在一些实施方案中,该方法还包括在尺寸选择步骤之前的DNA提取步骤。例如,样品可以是全血样品。与例如仔细收集的血浆样品相比,样品例如全血样品由于血液中存在来自裂解的白细胞的污染基因组DNA而可能被认为是用于检测无细胞DNA信号的劣势起始材料(例如用于分析无细胞DNA以检测病理状况或生理状态的标志物)。本发明人已发现,使用尺寸选择方法并且尤其是与组合或总结跨越多个基因座数据的过程进行组合时,即使在“劣势”(低体积、gDNA污染的)样品中,也可以可靠地检测到变体无细胞DNA。在本发明的上下文中,检测“变体无细胞DNA”是指检测存在于无细胞DNA中的信号,包括但不限于来自不同来源(例如来自污染、来自突变群体、来自病理细胞群等的种系和非种系DNA)的无细胞DNA(在一个或多个区或位点处具有不同甲基化状态的无细胞DNA)的存在、数量或相对表示等。这具有重要的实际应用,因为与cfDNA分析的已建立的方案相比,例如血斑点样品的收集显著更简单并且对患者的负担也更轻,前者通常需要从静脉血样品中收集数毫升血浆,其必须迅速且仔细地处理。此外,这也有助于从动物和动物模型收集样品,包括系列样品。事实上,与用于cfDNA分析的已建立的方案相比,根据本发明所需的较低体积的血液降低了动物的共病和风险。这对兽医和研究应用都有重要的好处。此外,本发明的方法可以减少与临床护理和研究中样品的收集和处理相关的后勤负担。事实上,用于分析cfDNA的已建立的方案通常需要在含EDTA管中收集血液样品并迅速离心,或者对包含细胞防腐剂/固定剂的管进行延迟离心。相比之下,根据本发明,不需要使用这样的处理步骤:样品可以不进行处理或干燥,并且处理可以稍后,在方便的时间例如分批进行。在本发明的一些实施方案中,不使用处理步骤例如血液样品的离心和/或包含防腐剂/固定剂,并且可以在储存至少一天和/或干燥之后对全血样品进行分析。
有限体积样品可以是少于500μl、少于400、少于200、少于100μl、少于75μl的样品(例如,约50μl的血液或血浆样品)或者少于50μl的样品。样品可以是有限体积的体液样品或通过将有限体积的体液样品干燥而获得的样品。
在一些实施方案中,所获得的样品是选自以下的有限体积样品:
(i)少于500μl、少于400、少于200、少于100μl、少于75μl的血液、血清或血浆样品(例如,约50μl的血液或血浆样品)或者少于50μl的血液、血清或血浆样品;
(ii)细针抽吸物(FNA);
(iii)淋巴结活检物;
(iv)尿、脑脊液、痰、支气管灌洗液、宫颈涂片或细胞学样品;
(v)从自患者中收集时起已储存超过1年、2年、3年、5年或10年的样品;
(vi)先前已被处理并且DNA质量指标或测序质量不合格的样品,或属于样品组的样品,该样品组的其他样品先前已被处理并且DNA质量指标或测序质量不合格;
(vii)在对样品进行去除、耗尽、滤出或中和细胞物质的处理之前和/或进行去除、耗尽或滤出除无细胞DNA之外的DNA的任何DNA尺寸选择步骤之前已储存超过1天、超过2天、超过3天、超过5天、超过10天的所述样品;
(viii)收集之后已干透的样品,例如干血斑点或针刺血液样品;任选地其中所述样品已经在滤纸上或者在管或毛细管中干透;以及
(ix)包含基因组DNA或其他污染(非无细胞DNA)的样品,所述基因组DNA或其他污染(非无细胞DNA)的量使得所述无细胞DNA占所述样品中DNA的少于5%、少于3%、少于2%或少于1%。
在一些实施方案中,样品是体液样品,例如至少0.1μl、至少0.5μl、至少1μl、至少5μl或至少10μl的血液、血清或血浆样品。
在一些实施方案中,所述尺寸选择步骤包括在分析之前,例如在DNA测序或检测来自无细胞DNA的信号的其他分子生物学技术(包括但不限于聚合酶链反应(PCR)、定量PCR(qPCR)、数字PCR、使用聚合酶和/或核酸分析物(例如引物或探针)的分析、或通过与亲和试剂例如抗体结合的分析,或与核酸序列杂交)之前,滤出、耗尽或去除>200bp、>300bp、>500bp、>700bp、>1000bp、>1200bp、>1500bp或>2000bp的基因组DNA(gDNA)片段。
在一些实施方案中,该方法包括:
(i)对经尺寸选择的样品或从经尺寸选择的样品生成的文库进行DNA测序,以产生多个序列读段并分析序列读段以检测ctDNA的存在;或
(ii)对DNA修饰进行分析,所述DNA修饰例如甲基化。
(iii)使用聚合酶进行的分析,例如PCR、qPCR、数字PCR;
(iv)使用核酸试剂进行的分析,所述核酸试剂例如引物或探针或可通过杂交与样品中的DNA相互作用的其他序列;
(v)使用结合或亲和试剂进行的分析,所述结合或亲和试剂例如抗体。
在一些实施方案中,获得自患者的样品是:
干血斑点样品;
针刺血液样品;
在从所述患者中收集之后已储存超过1天(例如,至少两天、至少3天、至少一周或至少一个月)、至少1年或至少10年的少于500ul的档案血液、血清或血浆样品;
优选地,其中所述样品未被处理成去除细胞物质。。
在一些实施方案中,在从所述患者中收集之后储存至少1天、至少两天、至少1年或至少10年之前,未对样品进行去除、耗尽或过滤细胞物质和/或细胞/基因组DNA或者选择或分离无细胞DNA的处理步骤。
在一些实施方案中,患者是健康的或患有疾病(例如,癌症)和/或其中患者是人或非人动物(例如,啮齿动物)。
在一些实施方案中,动物模型是具有异种植入或异种移植的人肿瘤组织的啮齿动物。
在一些实施方案中,所述分析包括对经尺寸选择的样品或从经尺寸选择的样品生成的文库进行下一代测序(NGS)。
在一些实施方案中,所述分析包括获得代表变体在多个基因座处的存在/不存在、数量或相对表示的信号。这可以例如通过以下来实现:对经尺寸选择的样品或从经尺寸选择的样品生成的文库进行测序以生成序列读段,优选地以高度多路复用靶向方式或以全基因组(非靶向)方式。或者,这可通过使用以下一种或更多种对经尺寸选择的样品或从经尺寸选择的样品生成的文库进行分析来实现:聚合酶,例如通过进行PCR(优选高度多路复用PCR);与核酸序列杂交等。有利地,所述分析还包括通过进行总结或组合跨越多个基因座的信号的方法来对数据进行分析。优选地,所述分析查询至少50、100、500、1000、2500或5000个基因座或者全基因组。由于可能从这样的样品中获得的cfDNA基因组拷贝数很少,因此在对有限体积的样品进行分析时,预期对单基因座或有限数目的基因座进行分析的灵敏度有限。本发明人已发现,通过将尺寸选择与对跨越多个基因座的信号进行分析的多路复用方法组合,可以在这样的低体积样品中可靠地检测变体cfDNA,例如ctDNA。
在一些实施方案中,所述分析包括对经尺寸选择的样品或从经尺寸选择的样品生成的文库进行测序以生成序列读段,并且还包括通过进行总结或组合跨越多个基因座的数据的方法对选择的序列读段进行分析。优选地,获取和/或分析跨越至少50、100、500、1000、2500或5000个基因座或者全基因组的数据。在一些实施方案中,总结或组合跨越多个基因座的数据的方法选自:
进行本发明第一至第四方面中任一方面的方法;
进行拷贝数分析;
处理序列读段,以从拷贝数中性(t-MAD)得分或ichorCNA得分确定修整后的中位绝对偏差;
确定和比较不同变体cfDNA的量,其中不同变体源自不同的生物来源,任选地其中不同的生物来源选自不同的细胞类型或组织、不同的生理状态例如疾病/病理来源和健康来源、不同的生物体例如宿主生物体和外来或移植的生物来源;和/或
将所述序列读段与至少两个不同的参考基因组,例如人参考基因组和啮齿动物参考基因组进行比对,以及任选地导出与映射到参考基因组之一的读段的量或比例相关的汇总度量。
在一些实施方案中,确定和比较不同变体cfDNA的量包括测量第一变体cfDNA和第二变体cfDNA的量以及计算这些量的比率。在一些这样的实施方案中,单独针对多个基因座中的每一个确定第一变体和第二变体的量。在一些实施方案中,将第一变体和第二变体的量确定为代表多个基因座的组合量。例如,该方法可包括确定源自(i)宿主生物体例如动物模型和(ii)异种移植组织的经尺寸选择的样品中DNA的相对量。优选地,使用非靶向技术例如全基因组测序来测量该量。本发明人出人意料地发现,使用本发明的方法通过测量来自外来来源的DNA相对于来自外来患者的DNA的比率可以获得患者中DNA的外来来源状态的信息性指示(例如动物模型中的异种移植的肿瘤组织、宿主中的移植物、宿主中的病原体等)。不希望受理论束缚,认为尺寸选择步骤使得对患者DNA的偏倚(否则其可能由于宿主基因组DNA的存在而存在)减少,而不需要使用靶向技术来检测变体,这可能与偏倚有关。
在一些实施方案中,t-MAD得分通过修整来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域,然后由基因组的非修整区域的log2R=0计算中位绝对偏差来确定。
在测序文库制备步骤之前或之后进行尺寸选择步骤。
在一些实施方案中,该方法包括在尺寸选择步骤之前从样品中提取DNA以及将提取的DNA溶液的总体积调整至约20μL至约200μL、约20μL至约150μL、约20μL至约100μL、约20μL至约50μL,例如约25μL。
在一些实施方案中,尺寸选择步骤是采用基于珠的gDNA片段捕获的右侧尺寸选择。在一些实施方案中,根据制造商的说明进行用基于珠的捕获的右侧尺寸选择。在一些实施方案中,使用AMPure XP珠(Beckman Coulter)根据制造商的说明进行右侧尺寸选择。例如,所使用珠溶液的量可根据含DNA溶液的体积来确定。本发明人出人意料地发现,可对未被处理成去除细胞物质和/或细胞/基因组DNA的小体积样品(例如,小体积体液)进行分析,以通过从这样相对小体积的样品中提取无细胞DNA并对这些溶液进行基于珠的基因组DNA捕获来从所述无细胞DNA获得信号。由于样品中DNA的总量相对小,因此可以使用相应少量的珠溶液来有效地对整个样品进行尺寸选择。换句话说,整个样品可以在小体积溶液中提取,这可以使用相应小体积的珠溶液进行处理,而不会用基因组DNA使珠饱和到无法有效去除基因组DNA的程度。
在一些这样的实施方案中,该方法包括两个分开的基于珠的捕获步骤。优选地,所述两个分开的基于珠的捕获步骤以两种不同的珠与样品比例进行。有利地,第一捕获步骤可以采用比第二步骤更低的珠∶样品比例。在一些实施方案中,第一捕获步骤采用约1∶1(v/v)的珠:样品比例,其中珠体积作为包含按照制造商的说明制备的磁珠的溶液(例如来自Beckman Coulter的AMPure XP珠溶液(作为现成的溶液使用))的体积提供,并且样品作为悬浮在溶液中的提取的DNA的样品提供,优选地其中DNA溶液的总体积为约20μl至约200μl、约20μl至约150μl、约20μl至约100μl、约20μl至约50μl,例如约25μl。在一些实施方案中,第二捕获步骤采用的珠∶样品比例为3∶1(v/v)至10∶1(v/v),优选约7∶1。
在一些实施方案中,尺寸选择步骤是采用基于珠的gDNA片段捕获的右侧尺寸选择,其中使用约20μL至约200μl、约20μl至约150μl、约20μl至约100μl、约20μl至约50μl,例如约25μl的样品总体积以及按照制造商说明的相应的珠溶液总体积对样品进行尺寸选择。在一些这样的实施方案中,样品的总体积是通过从包含无细胞DNA的少于约200、150、100、80、50或20个人单倍体基因组等同物的样品或其一部分中提取DNA而获得的。如技术人员将理解的,在未被处理成去除基因组DNA或富集无细胞DNA的生物样品中,限制样品中无细胞DNA的量相当于对样品中DNA总量(包括基因组DNA)进行限制,其量取决于样品中无细胞DNA的比例。可从文献中获得多种生物样品中无细胞DNA的预期比例,以估计可预期包含上述无细胞DNA量的样品量。不希望受理论束缚,认为在尺寸选择之前限制提取的DNA样品中存在的DNA的量可以通过避免珠被基因组DNA饱和来提高尺寸选择的效率。
在一些实施方案中,在第一或第二尺寸选择步骤之后,对样品进行分析,并且如果分析确定样品中仍然存在显著量的基因组DNA,则实施第二或另外的尺寸选择步骤。第一和/或第二或另外的尺寸选择步骤可以是基于珠的捕获步骤并且可以使用比之前的尺寸选择步骤更稀释的样品或更高的珠∶样品比例。
虽然本文中示例并详细描述了基于珠的DNA样品尺寸选择方法,但其他方法是本领域已知的并且被设想用于本发明的方法中。特别地,已经建立了用于从样品(通常是已被处理成去除细胞或细胞物质的样品)中分离无细胞DNA和/或去除基因组DNA的另一些方法或方案,并且可将这些方法中的任一种应用于本发明的情况下。在一些实施方案中,可应用于已被处理成去除细胞或细胞物质的样品的任何物理尺寸选择方法可用于根据本发明的尺寸选择步骤,例如以处理如本文中所述的低体积/低量的cfDNA未经处理样品(即,在DNA提取和/或尺寸选择之前未被处理成去除细胞或细胞物质的样品)。这些可包括基于凝胶电泳的方法(手动或自动)、基于珠的方法等。
在一些实施方案中,变体无细胞DNA是循环肿瘤DNA(ctDNA)。ctDNA可来源于癌症或恶性细胞,或者来自肿瘤或病灶。
在一些实施方案中,该方法用于癌症的早期检测、癌症治疗的监测、残留病的检测,用于指导治疗决策、评估患者中癌症的状态或癌症进展或癌症对治疗的响应或者对患者进一步治疗的需求或类型。
在一些实施方案中,该方法用于在宿主生物体中检测或监测异种移植细胞。异种移植细胞可以是从已移植或注射到宿主生物体中的恶性样品、模型细胞系或携带恶性肿瘤的个体获得的肿瘤细胞。
在一些实施方案中,该方法用于检测疾病、病理或生理状态,任选地用于早期检测或检测残留病、用于监测疾病或生理状态例如妊娠,用于指导治疗决策或评估预后,其中疾病或病理状况可通过分析无细胞DNA检测到。例如,与脑组织或神经细胞相关或者来源于脑组织或神经细胞的核酸的存在可指示神经学病理状况;与胰腺或β细胞相关或者来源于胰腺或β细胞的核酸的存在可指示糖尿病的发生;与肾脏或肾细胞相关或者来源于肾脏或肾细胞的核酸的存在可指示肾衰竭的早期症状。
在一些实施方案中,该方法用于在患者中检测不同来源的DNA。例如,该方法可用于检测肿瘤来源和非肿瘤来源的无细胞DNA,用于检测胎儿无细胞DNA和母体无细胞DNA,用于检测病毒和患者来源的无细胞DNA,用于检测来源于不同的细胞类型、组织或器官的核酸,或者用于在患者中检测来源于供体物质的核酸(例如在器官移植、血液或细胞输注等之后)。
在一些实施方案中,患者是癌症的人或动物模型(例如啮齿动物)。
在一些实施方案中,变体无细胞DNA包括:
来自已移植到患者体内的供体组织或器官的cfDNA;
来自患者中妊娠中胎儿的胎儿cfDNA;或
异常甲基化的cfDNA。
在一些实施方案中,该方法用于提供信息以指导医学治疗、饮食变化或体育锻炼,或用于法医分析或鉴定样品中存在生物材料的个体或鉴定样品中存在生物材料的生物体。
在一些实施方案中,患者是患有或怀疑患有小儿癌症的人儿童。小儿癌症通常与样品采集困难有关,例如由于患者的年龄,并且样品可能具有小的体积和/或含有低水平的ctDNA。小儿癌症包括:多种脑肿瘤、淋巴瘤、白血病、神经母细胞瘤、肾母细胞瘤(Wilmstumour)、非霍奇金淋巴瘤、儿童横纹肌肉瘤、视网膜母细胞瘤、骨肉瘤、尤因肉瘤、生殖细胞瘤、胸膜肺母细胞瘤、肝母细胞瘤和肝细胞癌。
现在将参考附图通过实例的方式描述本发明的实施方案,并且本发明的实施方案不限于此。然而,根据本公开内容,本发明的许多其他方面和实施方案对于本领域技术人员而言将变得明显。
本发明包括所描述的方面和优选特征的组合,除非明显不允许或指出明确避免这样的组合。本发明的这些以及其他方面和实施方案在下面参考所附的实例和附图更详细地描述。
附图说明
图1描绘了变体读段整合(INtegration of VAriant Read)和定制组测序(TAilored PAnel Sequencing)的原理和概况。(a)即使具有完美的分析性能,单一基因座分析也可能由于随机采样而无法检出低ctDNA水平。通过对相同样品使用多路复用测定可以克服这一问题。表格指示了被不同水平的输入材料和靶向突变所查询的片段的数目:在1,000个输入基因组中查询的1,000个突变基因座导致采样了106个分子。(b)为了克服采样误差,我们整合了数百至数千个突变的信号,并将样品(而非突变)归类为对ctDNA呈显著阳性或未检出。血浆中覆盖已知肿瘤基因分型基因座的测序读段称为“患者特异性”读段,而相邻基因座以及在其他患者中评估的相同基因座可用于估计背景噪声率。(c)如本文所述,首先进行肿瘤测序,使得能够设计患者特异性的杂交捕获诱饵。这些用于捕获无细胞DNA并对血浆中中位673个基因座(范围90至5,312个)进行测序,实现每个样品中每个SNV基因座的1,367x的中位质量过滤深度(IQR 761至1,886x)。
图2示出了在误差抑制之后观察到的误差率。(a)箱形图示出了在通过读段压缩成读段家族进行误差抑制之后保留的分子的比例,其中最小家族规模要求为1至5个读段家族(上图)。对于每个家族规模阈值,示出了每个读段家族的误差率(下图)。将靶向变体任一侧10bp的脱靶(但在诱饵上)测序读段用于确定误差率。(b)非误差抑制(蓝色;较高)和误差抑制(红色;较低)的误差率,其中最小家族规模为5,序列变化分为12种突变类别。为了表征数据在所示中位数附近的分布,对数据进行重新采样或“自举(bootstrapped)”,从而从数据中重复获取多个样品以对其进行表征。在这种情况下,数据被自举了100次,并且示出了95%的置信区间。
图3示出了INVAR的灵敏度分析和按类别检测。(a)具有误差抑制(50ng输入)、未将数据划分为突变类别的情况下的加标稀释实验的预期的与观察到的等位基因分数的图。实心圆圈表示使用INVAR对ctDNA的显著检出。示出了误差抑制数据的总体背景误差率(红色水平线,虚线)。(b)示出了使用INVAR进行检测并且按突变类别划分数据的相同的加标稀释。示出了总体背景误差率和最低噪声突变类别的误差率(红色水平线,虚线)。背景扣除是按类别进行的。达到了至0.3ppm的显著检出。(c)在计算机上对分析的基因座的数目进行了下采样,在50至5,000个突变中进行测试(方法)。示出了对于具有稀释至不同水平的突变体DNA的样品(所指示的)的灵敏度。利用2500个突变,以~50%的灵敏度检出了0.3ppm下的稀释的ctDNA。(d)使用非患者特异性数据评估假阳性检出率,评估了不同数量突变的特异度。利用2500个突变,假阳性率小于1/200。
图4示出了血浆中肿瘤来源的和野生型DNA片段的尺寸谱。(a)将患者特异性基因座处的误差抑制的读段家族划分为突变家族和野生型家族。以红色示出了5bp仓(bin)中突变体读段的比例,并且以蓝色示出了野生型读段。(b)对于每个仓,将标准化突变体与野生型读段之间的比确定为富集比。在~140bp和~300bp处观察到最大富集,约对应于核小体DNA减去接头DNA的长度。富集的仓着色为蓝色。(c)对于基于(b)中的富集仓进行计算机尺寸选择的每个样品,示出了突变体等位基因分数的百分比富集。富集的样品着色为蓝色。将指数曲线拟合到数据。
图5示出了INVAR-TAPAS的临床应用。(a)对于进行用不同的阴影框表示的连续多次治疗的一个患者(MR1004),将ctDNA突变体等位基因分数随时间作图。实心圆圈表示对ctDNA的显著检出。基于所获得的总深度,将未检出的时间点绘制在最大可能的等位基因分数处。在尺寸选择之后,实现了对第四时间点的检测,并用另外的圆圈表示。(b)对于同一患者,示出了随时间的总肿瘤体积。(c)示出了该患者随时间推移接受的全身治疗以及RECIST反应数据。PD=进行性疾病。(d)对于所有患者,将来自CT成像的肿瘤体积针对ctDNA突变体等位基因分数作图;观察到皮尔逊相关性为0.67(P=0.0002)。(e)其ctDNA水平在治疗开始之后降低至低于10ppm的患者(n=10)(红色)具有比其ctDNA水平在任何时间点均从未降至低于该阈值的患者(n=10)(淡蓝色)长24个月的总体存活(对数秩检验,P=0.009)。(f)对于具有突变体DNA的显著检出的每个文库(方法),将进入文库制备物中的DNA输入质量针对通过INVAR确定的该样品中的突变体DNA分数作图。蓝线表示基于在该基因座对至少一个突变体分子采样的概率,单一基因座的检测在何处具有95%的灵敏度。
图6示出了抗性突变的从头检测。(a)对于患者MR1022,将先前在COSMIC中鉴定的单个突变相对于治疗期间的时间作图。在三个纵向血浆时间点从头鉴定了NRAS Q61K突变;该突变先前未在患者的肿瘤中鉴定出。(b)示出了同一患者随时间的多个肿瘤病灶的体积,总体积以粗体显示。(c)显示出患者MR1022的病灶位置的CT成像。
图7示出了多个突变上的信号的整合。(a)示出了每个患者每个外显子组所鉴定的突变的数目。(b)对于具有高ctDNA水平的一个示例性血浆样品,示出了每个患者特异性基因座的等位基因分数。y轴限制为100。可以在所有基因座上对突变体读段进行汇总,以得到经深度加权的平均突变体等位基因分数;该整合的突变体等位基因分数用红色的垂直虚线表示(标记为“平均值”)。
图8示出了具有误差抑制(3.7ng输入)、未将数据划分为突变类别的情况下的经验加标稀释实验的预期的与观察到的等位基因分数的图。实心圆圈表示使用INVAR对ctDNA的显著检出。示出了误差抑制数据的总体背景误差率(红色水平线,虚线)。
图9示出了每个患者的ctDNA的富集比。对于每个患者,在来自误差抑制数据的所有其血浆样品上对突变体和野生型读段进行汇总。对于每个5bp仓,示出了突变体与野生型片段的比例之间的比。富集比>1的仓着色为蓝色。
图10示出了血浆ctDNA与临床参数之间的关系。(a)将血浆ctDNA突变体等位基因分数针对匹配的时间点的乳酸脱氢酶(LDH)浓度作图。实心圆圈表示ctDNA的显著检出。用红色虚线表示LDH的正常上限245U/L。(b)基线ctDNA浓度与总体存活呈负相关(皮尔逊r=-0.61;P=0.04)。
图11示出了按三核苷酸字段和突变类别划分的突变计数。对来自具有IV期黑素瘤的10个患者的新鲜冷冻肿瘤活检物进行测序。
图12示出了肿瘤突变体等位基因分数的直方图。对来自具有IV期黑素瘤的10个患者的新鲜冷冻肿瘤活检物进行测序。中位肿瘤突变等位基因分数估计为~25%。
图13示出了按照三核苷酸字段和突变类别的背景误差率图。误差率确定为在字段中非参考的总读段家族的比例。使用TAPAS对来自健康个体的血浆进行测序,并以最小家族规模阈值2进行了误差抑制。为了被考虑,因此F和R读段二者中需要信号。
图14示出了加标稀释实验的突变体等位基因分数的直方图。
图15示出了通过加标实验的稀释水平的每个基因座的突变体读段数的图。每个点代表一个基因座。未示出具有零个突变体读段的点。假定使用PE150进行测序,并且cfDNA分子为~160bp,则在F和R读段二者中用TAPAS测序的单个突变在该基因座处将具有2个突变体读段。
图16示出了肿瘤外显子组等位基因分数对血浆TAPAS等位基因分数的图。来自具有高ctDNA水平的患者的血浆样品用于突变表示的这种分析。
图17示出了血浆中低于1%突变体等位基因分数的基因座比例对肿瘤等位基因分数的图。突变体等位基因分数<1%的基因座的比例在具有低突变体等位基因分数的肿瘤突变基因座处最大。
图18示出了每个基因座的加标稀释实验突变体读段家族,以肿瘤等位基因分数(1-肿瘤AF)加权。使用与图15相同的稀释实验。
图19示出了测试和对照样品在肿瘤AF加权之前和之后的突变体总和。仅示出了突变总和<=4的基因座。测试样品的突变体读段显示为蓝色,并且对照显示为红色。测试和对照的突变体读段的绝对数量被下采样为与该图相等。虚线代表线y=x和y=2x以供参考。
图20示出了使用外显子组测序的测试和对照样品在肿瘤AF加权之前和之后的突变体总和。仅示出了突变体总和<=4的基因座。测试样品的突变体读段显示为蓝色,并且对照显示为红色。未进行读段家族的下采样。虚线代表线y=x和y=2x以供参考。
图21示出了使用血浆外显子组测序在没有分子条码的情况下的5×10-5的突变体等位基因分数的检测。示出了测试和对照样品的P值,并针对其来自INVAR的全局等位基因分数作图。每个点代表一个样品。检出的样品显示为蓝色,并且未检出的显示为红色。使用具有97.5%特异度的对照样品凭经验设置P值阈值。
图22示出了在TAPAS数据上应用非靶向INVAR。将该加标稀释实验的预期等位基因分数(AF)针对由INVAR确定的全局等位基因分数(AF)作图。测试样品显示为蓝色,并且对照显示为红色。
图23-用于变体读段整合的研究纲要和原理。(a)在具有高ctDNA水平的样品中(显示为蓝色,上图),可在血浆中被通过热点测定或有限基因组覆盖的基因座(粉红色阴影)上发现多个携带突变的DNA片段(橙色)。可以使用多种测定将这些与来自健康细胞的背景非突变体读段(灰色)区分开来。在具有非常低的etDNA丰度的样品中(下图),覆盖宽度有限的测定可能无法检出任何突变体片段,而这些更可能通过跨越肿瘤中的大量突变基因座(绿色垂直虚线)来检测。偶发突变也可能以低比例发生,但在此图中未显示。(b)对使用INVAR进行的ctDNA分析的可能工作点范围的说明,对分析的单倍体基因组与突变数作图。对角线表示产生相同数目的信息性读段(informative read,IR,等同于hGA x靶基因座)的多种方式。当前的方法经常集中于分析每个患者覆盖1至30个突变的~10ng DNA(基因组的300至10,000个单倍体拷贝)。这通常导致~10,000IR,导致经常遇到的检测极限为0.01%至0.1%6,10。在这项研究中,我们开发了分析框架INVAR(图24),其利用来自更大数目的靶向突变的信息。使用患者特异性杂交捕获组,我们获得了大多数样品的104至106个IR(见图25和图26)。我们使用cfDNA的WES和WGS与INVAR一起检测来自有限输入的ctDNA(图27和图28)。ng,纳克;mL,毫升。(c)通过INVAR方法使用测序数据的概述。对于每个患者,通过分析其肿瘤样品和非癌材料产生了个体突变列表。在这项研究中,WES用于分析肿瘤和血沉棕黄层DNA。在匹配的患者中(以彩色框显示),以及在来自相同组群(cohort)的未在肿瘤或血沉棕黄层分析中未发现该基因座突变的另外的患者中(以灰色框显示),收集每个目的基因座的数据。可以通过对所有样品应用标准化测序组(例如WES/WGS)(图27和图28)或通过将多个患者特异性突变列表组合到在多个患者上进行测序的定制组中(图25和图26)来产生这样的数据。对于每个患者,INVAR汇总了覆盖患者特异性突变列表的基因座的测序信息。来自其他患者的这些基因座中的数据(“非匹配突变”)用于确定背景突变率和ctDNA检测截止值。(d)为了以高的深度在大的患者特异性突变列表上产生测序数据,将通过肿瘤基因分型产生的患者特异性突变列表用于定义杂交捕获组,将该杂交捕获组应用于从血浆样品中提取的DNA。
图24-INVAR方法的开发和分析性能。(a)变体读段整合。为了克服采样误差,汇总了覆盖数百至数千个突变的信息。在这里,我们将样品(而不是个体突变)分类为显著包含ctDNA或未检出。“信息性读段”(IR,以蓝色显示)是从患者样品产生的与同一患者的突变列表中的基因座重叠的读段。这些中的一些可能在目的基因座中携带突变(以橙色显示)。在相同基因座处的来自其他患者血浆样品的读段(“非患者特异性”)用作对照数据,以计算由于测序误差、PCR伪影或生物学背景信号而可能发生的背景误差率的比率(rate)(以紫色显示)。INVAR结合了有关片段长度和肿瘤等位基因分数的其他测序信息,以增强检测。(b)在不同的误差抑制设置(补充方法)之后,误差率降低。(c)数据过滤之后根据三核苷酸字段和突变类别的误差率。在同一突变类别中,误差率的变化可超过一个数量级,这突出表明需要相对于其三核苷酸字段来评估基因座。(d)来自三个不同患者组群的突变体片段的Log2富集比。通过INVAR算法为针对ctDNA富集的尺寸范围分配更多权重。(e)用于评估INVAR的灵敏度的加标稀释实验。使用利用INVAR的误差抑制数据,在所有稀释的重复中均检出ctDNA(至3.6ppm),并且在3个重复中的2个中,以3.6×10-7的预期的ctDNA等位基因分数(补充方法)。在没有来自癌症患者的加标DNA的情况下,使用来自相同健康个体的11个重复的误差抑制数据,在覆盖患者特异性突变列表的汇总的6.3×106个信息性读段中未观察到突变体读段。(f)在计算机上将分析的基因座数目下采样至1至5,000个突变之后,评估了加标稀释系列中的灵敏度(补充方法)。
图25-覆盖患者特异性捕获组的变体读段的整合。(a)在来自覆盖三个组群的66位癌症患者的144个血浆样品中,分析的单倍体基因组的数目(hGA;计算为独特读段的平均深度)和靶向突变的数目。使用覆盖患者特异性突变列表的定制的杂交捕获组对这些进行测序(图23d),实现了覆盖中位628个突变基因座的185的读段压缩后中位独特深度(hGA)(方法)。每个杂交捕获组组合了来自同一组群的多个患者的突变列表,并被应用于来自多个患者的血浆样品,以产生患者匹配的读段和对照数据二者(图23c)。虚对角线表示产生指示的IR的靶向基因座hGA的数目。(b)覆盖了这三个群组中的情况,利用不同数目的所分析突变可获得的信息性读段的数目。灵敏度的提高与IR直接相关,在当前的INVAR的实施(方法)中,最小检出ctDNA分数为2/IR。红线表示利用覆盖通过肿瘤WES鉴定的所有突变的定制组所获得的IR的分布。浅绿色/深绿色线表示如果对每个样品分析1或20个突变(基于每个基因座的平均IR计算)时产生的IR。还可以通过使用全基因组测序(WGS)指导定制组的设计(橙色曲线,基于我们在WES中观察到的突变率推断)来提高IR。使用来自WES的突变列表,超过106个IR的样品以橙色阴影显示,并且具有少于2×104个IR的样品以蓝色阴影显示。(c)示出了设计过程、分析和可能的结局的示意图:ctDNA可被检出、尽管具有高IR但是未检出,或者在某些情况下由于少的突变或低的独特测序深度而获得低IR。因为分析灵敏度有限,后一种情况应定义为技术失败。在常规实施中,这种情况可以利用以下进行再分析:另外的测序以提高深度,分析另外的材料,或者使用更广泛的肿瘤测序(例如,通过WGS)产生扩展的突变列表,其可用于设计修正的捕获组。(d)每个样品的针对IR作图的所检出ctDNA分数的二维表示。如果其分数浓度(IMAF)高于2/IR(落在于1/IR处绘制的虚线上方),则ctDNA可被检出。在一些样品中,获得了>106个IR,并且检出了低至数ppm的分数的ctDNA(橙色阴影区域)。在一些样品中,几乎没有获得IR,导致有限的灵敏度。在我们的研究中,我们使用的阈值为20,000个IR(最左侧的虚线),因此将具有未检出的ctDNA且小于20,000个IR的样品排除为技术失败(144个样品中共有6个;深蓝色阴影区域)。该区域外的样品具有检出的ctDNA,或估计的ctDNA水平低于0.01%(未检出>20,000个IR;此值的置信范围因每个样品而异,并且取决于IR)。排除作为技术失败的那些样品后,对于组合的3个组群的ctDNA总检出率从73.6%提高到76.2%。可以使用替代阈值,例如66666个IR,导致检出水平为0.003%或30ppm(由第二条虚线和浅蓝色阴影区域指示)。排除其中未达到检测灵敏度0.003%的样品(11个样品),组群上的ctDNA检出率提高到82.6%。(e)对一名具有转移性黑素瘤患者在数个治疗方案(用阴影框表示)的过程中,将ctDNA IMAF和肿瘤体积相对于时间作图。在利用抗BRAF靶向治疗进行治疗期间,ctDNA被检出至2.5ppm,此时疾病体积为约1.3cm3
图26-在早期和晚期疾病中通过INVAR的ctDNA检测。(a)在这项研究的样品中检出的ctDNA分数水平(IMAF),对于三个组群中的每一个,其以升序显示。实心圆圈表示其中分析的单倍体基因组的数目低于给出所测量的IMAF的完美单一基因座测定的95%检测限的样品(补充方法)。空圆圈表示技术失败,即IR<20,000的未检出(ND)ctDNA的样品。(b)以与上述(a)部分相同的顺序针对每个样品检出的癌症基因组的拷贝数,计算为突变体片段的数目除以查询的基因座的数目。(c)与来自健康志愿者的样品相比,用于在诊断时在I至IIIA期NSCLC患者的血浆中检测ctDNA的ROC分析。在97.4%的特异度下,在50%的I期患者中检出ctDNA(IA期5例中有20%,并且IB期5例中有80%;10例中有9例是腺癌)。(d)对于在手术后的前6个月检出ctDNA(蓝线)或未检出(红线)的样品,在患有II至III期黑素瘤的患者中在手术切除后无疾病个体的比例。在手术后的6个月内具有检出的ctDNA的患者(P=0.007)中,包括5年期内复发的患者的一半中,无病期显著较差。(e)估计了对于测序的不同数目的IR的ctDNA的检出率。在IV期黑素瘤组群的基线样品(蓝色)中,IR与检测值之间存在线性关系(R2=0.95)。在诊断时的I至IIIA期NSCLC(绿色)和手术后的II至III期黑素瘤(红色)中,观察到IR与检出率之间存在线性关系,并推断出ctDNA的预测的检出率。ND,未检出。
图27-使用INVAR对来自WES/WGS数据的ctDNA的灵敏检测。(a)一般INVAR方法的示意概述。使用全外显子组或基因组测序对肿瘤(和血沉棕黄层)和血浆样品进行平行测序,并可以使用从肿瘤(和血沉棕黄层)测序中推导的突变列表将INVAR应用于血浆WES/WGS数据。(b)将INVAR应用于来自21个血浆样品的平均测序深度为238x(读段压缩前)的WES数据以及来自33个血浆样品的平均测序深度为0.6x(读段压缩前)的WGS数据。对于每个样品,将IMAF值相对于独特IR的数目作图。与定制捕获组相比,此深度下的WES产生较低IR,但在某些情况下,IR超过105。在低深度下WGS产生<10,000个IR,这是因为基于这些情况下的肿瘤测序程度,突变列表仅跨越了外显子组。虚垂直线表示20,000IR阈值,而虚对角线表示1/IR。(c)对于用WES分析的21个样品观察到的IMAF,其从低到高排序。ND,未检出。(d)使用平均深度为0.6x的sWGS数据对6位具有IV期黑素瘤的患者血浆中ctDNA水平进行纵向监测,使用具有患者特异性突变表的INVAR进行分析(基于WES肿瘤谱分析,每个患者包括>500个突变)。实心圆圈表示通过对INVAR可能性的ROC分析以>0.99的特异度水平进行检测(方法,图36)。对于其他样品,基于每个样品的信息性读段数目(空圆圈和条),示出了ctDNA水平的95%置信区间。ND,未检出。
图28-单个血滴中ctDNA的检测。(a)对通过DNA提取、随后的尺寸选择和低深度WGS来分析干血斑点的概述。在应用INVAR或分析拷贝数异常之前,使用独特分子标识符(UMI)压缩读段。右边的图示出了整个基因组的读段密度。(b)携带肿瘤突变等位基因(浅蓝色)和参考等位基因(深蓝色)的读段的片段长度,其来自从癌症患者中收集的干血斑点中提取的DNA的测序。(c)我们通过浅层全基因组测序分析了从卵巢癌异种移植模型中采集的血斑点(左图中所示)中提取的DNA。与人基因组比对的读段长度(红色)比与小鼠基因组比对的读段长度(蓝色)短。(d)通过WGS分析的样品的分析的hGA和突变的数目,其来自全血斑点(红色菱形)或以平均深度为0.6x WGS(相当于0.6x hGA)测序的文库(黑色圆圈,数据如图27d中所示)。深蓝色阴影框表示当使用来自1至2滴血液的WGS数据时实现的工作点,其可以达到~105的IR和低于10-4的灵敏度。浅蓝色阴影框表示使用sWGS数据时的工作点。(e)使用平均0.1x或10x覆盖率(相当于0.1和10hGA),对具有不同癌症类型的患者的干血斑点进行WGS分析的预测灵敏度。基于不同癌症类型的已知的每Mbp基因组的突变率24,可以估计每滴可获得的信息性读段的数目。以拷贝数变异为基础的ctDNA检测限显示为3%对拍摄对象(eye)的指导28
图29-患者特异性分析克服了常规和有限输入情况下的采样误差。当存在高水平的ctDNA时,基因组和热点分析足以检测ctDNA。然而,如果ctDNA浓度低(由于患者中低ctDNA浓度,或有限的材料可用性),则这些通用测定由于采样噪声而具有很高的假阴性结果风险。利用大的患者特异突变列表允许在多个基因座处对突变体读段进行采样,从而在由于超低的ctDNA水平或有限的起始材料而导致具有很少的突变体读段时,能够检测ctDNA。
图30-INVAR算法的概述。(a)INVAR利用患者彼此对照,并使用单独的健康对照。在这项研究中,从肿瘤和血沉棕黄层测序产生个体突变列表。在匹配的患者中以及在来自相同组群的未在肿瘤或血沉棕黄层分析中发现该基因座突变的其他患者中,对每个目的基因座测序。这可以通过将一般组应用于所有样品(例如WES/WGS,图27)或通过将多个患者特异性突变列表组合到组合的定制组(其在多个患者上进行测序(图25和图26))中来完成。对于每个患者,INVAR汇总了患者特异性突变列表的基因座上的测序信息。在这些基因座中来自其他患者的数据(“不匹配突变”)用于确定背景突变率和检测截止值(补充方法)。通过相同组分析了来自健康个体的其他样品,该数据未用于INVAR算法以确定患者样品中ctDNA的检测,但用于评估健康个体中的假阳性率。(b)整合变体读段工作流程。INVAR利用血浆测序数据并需要患者特异性突变列表,这可以来源于肿瘤或血浆测序。将过滤应用于测序数据,然后将数据划分为:患者特异性(属于该患者的基因座)、非患者特异性(不属于该患者的基因座)和靶标附近(所有患者特异性基因座的10bp以内的碱基)。患者特异性和非患者特异性的数据均注释有影响观察真正突变概率的特征。应用离群抑制以鉴定与患者特异性信号总体水平不一致的突变体信号。接下来,考虑到注释的特征,汇总覆盖所有基因座的信号,以产生每个样品的INVAR得分。基于非患者特异性样品,使用ROC分析确定每个组群的INVAR分数阈值。健康对照样品分别经历相同的步骤以建立每个组群的特异度值。
图31-INVAR的肿瘤突变列表表征。(a)每个患者的体细胞突变数,按癌症类型和组群排序。(b)每个组设计中包括的每种突变类别的频率。(c)通过三核苷酸字段的突变计数,按突变类别着色。(d)每种癌症类型的肿瘤样品中肿瘤突变等位基因分数的分布,按突变类别着色。
图32-背景误差率的表征。(a)具有和不具有定制INVAR过滤的误差抑制(家族规模2)和无误差抑制的背景误差率。通过汇总所有考虑的碱基中的所有非参考碱基来计算背景误差率。为了评估背景误差率,使用了患者特异性基因座任一侧的10bp,但排除了患者特异性基因座本身(“靶标附近”,补充方法)。(b)由于不同的最小家族规模要求而导致的总体背景误差率,以及每种设置下保留的读段家族的比例。(c)在均衡每组读段家族的数目后,按突变类别为健康对照个体(蓝色)和患者样品(红色)计算背景误差率。互补突变类别被组合。在健康样品和患者样品之间进行t检验。NS,不显著。
图33-误差率过滤和基因座噪声过滤的应用。(a)对利用为INVAR数据开发的不同过滤进行的分类的误差率的概述(补充方法)。(b)在基因座处要求正向和反向读段的效果;利用该过滤保留了中位84.0%的野生型读段和中位92.4%的突变体读段。(c)对于每种三核苷酸字段,在每个背景误差过滤之前和之后对背景误差率(每个三核苷酸)作图,突出了每种误差过滤的累加益处。(d)基于从对照样品产生的所有读段(按组群划分)对每个基因座的背景误差率进行表征。通过基因座噪声过滤的基因座以蓝色显示,未通过过滤的基因座以红色显示。被此过滤列入黑名单的基因座的比例在右上角指示。(e)每个基因座独特的去重深度的直方图(分为三个组群)。此范围为103~104,并将每个个体基因座的定量或背景误差率限制为0.1%~0.01%。为了估计具有更大深度的背景噪声率,将基因座根据三核苷酸字段分组(图24c)。
图34-患者特异性离群抑制过滤。(a)观察到具有比该患者其余基因座显著更大的信号的基因座可能是由于该基因座处的噪声、污染或错误基因分型的SNP基因座(红色,参见方法)。(b)离群抑制对所有组群的影响的概述。在对照样品中突变体信号降低了3倍,而在患者样品中保留了突变体信号的96.1%。(c)所有组群(患者和对照样品)的原始数据点,离群抑制的数据点用红色表示。
图35-利用肿瘤等位基因分数信息和血浆DNA片段长度增强ctDNA信号。(a)比较了在血浆中具有和不具有检出信号的基因座之间的肿瘤等位基因分数。在血浆中具有信号的基因座在患者样品中具有显著更高的肿瘤等位基因分数。当对非患者特异性样品进行此分析时,肿瘤等位基因分数没有显著提高(t检验(Student′s t-test),NS,无显著性;***=P<0.0001)。(b)肿瘤和血浆突变体等位基因分数的比较。使用误差抑制数据,将肿瘤基因座分组为0.01突变体等位基因分数的仓,并针对不同水平的稀释系列确定在血浆中观察到的基因座的比例。通过每种颜色指示加标稀释系列的稀释水平。在每个稀释水平,在肿瘤等位基因分数与血浆中观察到的基因座比例之间存在正相关。(c)对于每个组群,为突变体和野生型片段产生尺寸谱。(d)组群之间的突变体片段分布的比较。在下采样突变体读段的数目以匹配所有组群之后,使用双侧Wilcoxon秩检验对这些进行比较。(e)不同平滑程度的片段尺寸分布,用于向片段尺寸分配权重(补充方法)。
图36-所有组群和数据类型的ROC曲线和特异度。将特异度确定为分析特异度(基于来自其他患者的对照数据;黑线)和临床特异度(基于健康个体数据;红线)二者。对于II至III期黑素瘤(手术后)组群,分析对于结局是盲性的,并且5年内未复发的患者也被包含在ROC分析中;因此,该组群的最大可能“灵敏度”(如所定义的)为复发患者的分数(18/33=54.5%)。INVAR检测出18例复发患者中的9例(ROC显示灵敏度为9/33=27.3%)。此组没有运行健康的对照。该表示出了所选阈值处的特异度。
图37-晚期黑素瘤中ctDNA水平的表征。(a)输入质量和观察到的IMAF的比较。对于具有检出ctDNA的每个文库,将用于文库制备物的DNA输入质量针对通过INVAR确定的IMAF作图。黑线表示在考虑样品中预期的突变体拷贝数的情况下,基于没有突变体拷贝被采样的可能性的阈值,低于该阈值时,完美单一基因座测定将具有<95%的灵敏度。在这项研究中,使用完美单一基因座测定并利用所使用的血浆DNA输入量,48%的样品将无法被检出。(b)在我们的研究中(皮尔逊r=0.67,P=0.0002)以及使用CAPP-Seq6和使用TRACERx组群中的多路复用PCR7测量NSCLC中每个患者的多个突变的以前的出版物中ctDNA和肿瘤体积的比较。与以前的分析中相比,在本研究中肿瘤体积与ctDNA水平之间的关系更陡峭。这可能是由于使用INVAR对较低浓度下ctDNA的检出,而其可能被其他测定漏掉或过高估计。(c)晚期黑素瘤患者中血清乳酸脱氢酶与IMAF之间的关系。观察到皮尔逊相关得分为0.46(P=0.0058)。在250IU/L(LDH的正常上限)下绘制虚线。(d)晚期黑素瘤患者的纵向ctDNA谱。使用误差抑制的个性化测序数据,将每个患者的IMAF值随时间作图。垂直虚线表示放射学进展的时间。
图38-早期组群中IMAF值的表征。(a)早期NSCLC组群中的IMAF值。标明了每个样品的样品病理和阶段。低灵敏度样品(LS)表示分析了少于20,000个独特分子(IR)的样品。(b)对早期NSCLC组群的检测概述。将患者按阶段和ctDNA检测分组。在具有>20,000个IR的样品上计算灵敏度。(c)II至III期切除的黑素瘤组群(n=38)的患者特征汇总表。(d)在II至III期切除的黑素瘤组群中,具有检出ctDNA的患者的总体存活明显较差(P=0.02,Cox比例风险模型)。具有检出ctDNA的患者的中位存活为2.6年(95%CI 1.1至5.3),对比于未达到的中位(95%CI 3.1-未达到的中位)。(e)我们估计了不同水平的IR的ctDNA的检出率(补充方法)。我们观察到IV期黑素瘤组群的基线样品(蓝色)中IR数量与检出率之间存在线性关系(R2=0.95)。在具有105个IR的100%的基线样品中检出ctDNA,而开始处理后,需要106至107个IR以检测所有纵向样品,这反映了较低的ctDNA水平。
图39-对全外显子组测序数据应用INVAR。(a)从血浆WES获得的IMAF与从匹配样品的定制捕获方法获得的IMAF进行比较,显示出相关性为0.95。(b)通过血浆WES的hGA(指示读段压缩之后独特覆盖的深度)和靶向的突变的数目。与定制捕获方法相比,WES样品具有较少hGA,并且在二维空间中占据了更左侧的空间,表明INVAR可以从有限的数据和文库中测序的很少基因组拷贝检测ctDNA。
图40-从干血斑点的ctDNA检测。(a)人50μL干血斑点洗脱液的生物分析仪迹线,其示出了高水平的基因组DNA污染,需要右侧珠选择以分离cfDNA。在此阶段没有显示50~300bp的短片段。(b)从尺寸选择的血斑点DNA生成的文库的尺寸谱。总体尺寸谱与cfDNA的相当,在~166bp处具有峰。(c)使用统计学方法用于多样性估计8,估计来自50μL干血斑点的cfDNA基因组拷贝数。(d)从血斑点以及从同一个体的匹配的血浆样品生成的文库的sWGS的拷贝数谱。(e)来自小鼠卵巢异种移植模型的50μL干血斑点的拷贝数谱(方法)。还示出了原始人腹水样品和移植肿瘤的拷贝数谱。蓝色(在0轴附近)、红色(在0轴上方)和绿色(在0轴下方)颜色的片段分别指示拷贝数中性、增加和损失的区域。(f)由在尺寸选择之后与(a)中相同的干血斑点、由来自同一个体和时间点的匹配的血浆样品以及匹配的肿瘤组织生成的测序文库sWGS的拷贝数谱。数据显示,尽管(a)中示出了高水平的基因组DNA污染,但在尺寸选择之后可从血斑点样品中检测到拷贝数谱。(g)使用iChorCNA的每个拷贝数仓的log2比率的相关性,比较匹配的血斑点与血浆数据之间的仓。两个样品之间所有仓的log2比率的相关性为0.75(皮尔逊r,p<2.2x10-16)。(h)由获得自高分级浆液性卵巢癌患者(卵巢癌组群)的干血斑点生成的测序文库sWGS的拷贝数谱。
图41-REMARK流程图。示出了这项研究中分析的患者的数目。基于ctDNA的检测和对于每一个产生的信息性读段(IR)的数目对患者进行分类。在该流程图中将所有组群(手术后的II至III期黑素瘤、I至IIIA期NSCLC和IV期黑素瘤)组合。
图42-使用干血斑点对小鼠异种移植模型的纵向分析。(a)和(b)示出了两个样品的与人基因组(红色)和小鼠基因组(蓝色)比对的读段片段长度,表明与人基因组(肿瘤)比对的读段短于与小鼠基因组(健康)比对的那些。(c)相同小鼠异种移植模型在基线处以及16天和29天的治疗之后的拷贝数谱。来自同一只小鼠(来自治疗中的不同时间点)的血斑点显示出相似的拷贝数事件。(d)人读段分数(片段长度>30的与人参考基因组特异性比对的读段数除以片段长度>30的与人参考基因组特异性比对的读段数+片段长度>30的与小鼠参考基因组特异性比对的读段数)与肿瘤体积(mm3,计算为测量的肿瘤高度、宽度和深度(以mm计)的乘积)之间的相关性。该线示出了对数据进行拟合的线性模型。(e)在该纵向研究中,许多对象(PDX小鼠)的入比率(如(d)中计算的,对应于估计的ctDNA水平)和肿瘤体积(mm3,如(d)中计算的)显示出相似的谱。前五个谱用于对照小鼠(无药物处理),并且最后五个谱为用药物处理的那些。(f)使用人特异性引物和肿瘤体积(mm3,如(d)中计算的)绘制示例性对象(PDX小鼠)的目标长分散核元件(long interspersed nuclear element,LINE)的数字PCR定量。
具体实施方式
在描述本发明时,将采用以下术语,并且意在如下所定义。
本文中使用的“和/或”应被视为具体公开了在具有或不具有另一个的情况下的两个指出的特征或部件中的每一个。例如,“A和/或B”应被视为具体公开了以下每一种:(i)A、(ii)B和(iii)A和B,就像每个在本文中单独列出一样。
本文中使用的“计算机执行方法”应被视为意指其执行涉及使用计算机、计算机网络或其他可编程设备的方法,其中该方法的一个或更多个特征完全或部分地通过计算机程序实现。
本文中根据本发明的任何方面使用的“患者”旨在等同于“对象”,并且具体包括健康个体和患有疾病或障碍(例如,增生性障碍,例如癌症)的个体二者。患者可以是人、伴侣动物(例如狗或猫)、实验动物(例如小鼠、大鼠、兔、猪或非人灵长类动物)、具有异种植入或异种移植肿瘤或肿瘤组织(例如来自人肿瘤)的动物、家畜或农场动物(例如猪、牛、马或羊)。优选地,患者是人患者。在某些情况下,患者是已经被诊断患有、被怀疑患有癌症或者被分类为处于发展癌症之风险中的人患者。
本文中使用的“样品”可以是生物样品,例如无细胞DNA样品、细胞(包括循环肿瘤细胞)或组织样品(例如活检物)、生物流体、提取物(例如获得自对象的蛋白质或DNA提取物)。特别地,样品可以是肿瘤样品、含有DNA的生物流体样品、血液样品(包括血浆或血清样品)、尿样品、宫颈涂片、脑脊液样品或非肿瘤组织样品。已经发现尿和宫颈涂片含有细胞,并且因此可以提供根据本发明使用的合适样品。适合根据本发明使用的其他样品类型包括细针抽吸物、淋巴结、手术切缘(surgical margin)、骨髓或来自肿瘤微环境的其他组织,其中可发现或预期发现痕量肿瘤DNA。样品可以是从对象新鲜获得的样品(例如抽血),或可以是在进行确定之前已被处理和/或储存的样品(例如冷冻、经固定或进行一个或更多个纯化、富集或提取步骤,包括离心)。样品可以通过富集或扩增过程从上述生物样品中的一种或更多种获得。例如,样品可以包含由生物样品产生的DNA文库,并且可以任选地是条码化或以其他方式标记的DNA文库。可以例如在治疗过程中连续地从单一患者获取多个样品。此外,可以从多个患者获取多个样品。样品制备可以如本文的材料和方法部分中所述。此外,已经证明本发明的方法能检测尿样品中的肿瘤来源的突变体DNA(数据未示出)。因此,在本文中特别考虑了使用血液或尿样品作为可能包含待检测的突变肿瘤DNA的患者DNA的来源。对于法医学应用,样品可以是具有或怀疑具有混合的DNA或RNA(例如靶标和背景,例如犯罪者DNA或RNA和受害者DNA或RNA)的任何流体或组织或物品。为了分析污染物,样品可以是具有或怀疑具有混合的DNA或RNA(例如靶标和背景,例如污染源(例如病原体)DNA或RNA和非污染源DNA或RNA)的任何流体、生物体、物品、食品或植物。
本文在一些实施方案中使用的“右侧尺寸选择”采用AMPure珠,如https://research.fhcrc.org/content/dam/stripe/hahn/methods/mol_biol/SPRIselect%20User%20Guide.pdf(其全部内容通过引用并入本文)所述。特别地,在一些实施方案中使用的1x选择步骤意味着在1.2x和0.95x的曲线之间的截止值,因此估计在约200至300bp。
本文中使用的“血斑点”在一些实施方案中可以是干血斑点样品。通常来说,将血液样品在滤纸上吸干并干燥。可以通过用刺血针从手指、脚后跟或脚趾吸取一滴或几滴血液(例如约50μl)到特制的吸收性滤纸上来收集干血斑点样品。可以使血液完全浸透纸张,并且通常可以风干数小时。标本可以存放在低透气性的塑料袋中,其中添加有干燥剂以降低湿度,并可以保持在环境温度下。
患者特异性基因座的确定
根据本发明的一些实施方案,可以鉴定出携带对患者的肿瘤具有特异性的突变的基因座。在一些情况下,对肿瘤DNA进行测序,以获得每个样品平均8Gb的独特映射读段,其中平均80%的碱基对被>20个读段覆盖。在一些情况下,可以从获得自肿瘤样品的序列数据选择单核苷酸变体(SNV)(相对于例如来自血沉棕黄层样品的种系序列)。在一些情况下,患者特异性基因座是显示具有从肿瘤测序确定的≥1个突变体读段和≥10个总读段的SNV的那些。在某些情况下,如果基因座在种系序列(例如血沉棕黄层样品)中显示出1个正向(F)和1个反向(R)非参考读段(读段去重之后),则其可能被排除。任选地,如果基因座是在常见SNP数据库(例如1000Genomes数据库)中鉴定的SNP,则其可能被排除。
提供序列读段
可以直接提供或获得序列读段数据,例如通过对cfDNA样品或文库进行测序,或者通过获取或提供有已经生成的测序数据,例如通过从非易失性或易失性计算机存储器、数据存储或网络位置检索序列读段数据。在通过对样品进行测序而获得序列读段的情况下,输入DNA的中位质量在某些情况下可以为1至100ng,例如2至50ng或3至10ng。可以扩增DNA以获得具有例如100至1000ng DNA的文库。每个患者特异性基因座处序列读段(例如经质量过滤的序列读段)的中位测序深度可以为500x至2000x,例如750x至1500x或甚至1200x至1400x。序列读段可以是以合适的数据格式,例如FASTQ。
序列数据处理和误差抑制
在读段压缩成读段家族的步骤之前或作为其一部分,可以对序列读段数据(例如FASTQ文件)进行一个或更多个处理或清理步骤。例如,可以使用选自FastQC v0.11.5、用于去除衔接子序列的工具(例如cutadapt v1.9.1)的一种或更多种工具来处理序列数据文件。序列读段(例如,修整的序列读段)可以与合适的参考基因组(例如人基因组hg19)进行比对。
如本文所用,“读段”或“测序读段”可以被理解为意指已经从一个分子读取并且读取一次的序列。取决于执行的测序,每个分子可以读取许多次。
如本文所用,“读段家族”可被认为意指来自同一分子(因此重复)的多个测序读段。由于它们来自同一起始分子,因此每个读段在读段比对后在人基因组中将具有相同的起始和结束位置。另外,当在PCR和测序之前将分子条码连接到起始分子时,每个读段家族也将具有相同的分子条码。通过分子条码的误差抑制过程在以下URL中进行了描述:https://github.com/umich-brcf-bioinffConnor/blob/master/doc/METHODS.rst(其如2018年3月5日所示的内容明确地通过引用并入本文)。
如本文所用,“压缩”或“读段压缩”可被理解为意指,考虑到读段家族(重复读段的集合),可以通过对于每个碱基位置产生覆盖家族的共有序列来进行用于PCR和测序误差的误差抑制。因此,将N(数目)个读段的家族“压缩”为一个读段的共有序列,可以预期该共有序列包含较少的误差。
可以基于片段的起始和结束位置以及定制内联条码来执行读段压缩。合适的工具之一是以下中描述的CONNOR:https://github.com/umich-brcf-bioinffConnor/blob/master/doc/METHODS.rst(其如2018年3月5日所示的全部内容明确地通过引用并入本文)。可以将CONNOR与设置为8.8、0.85、0.9或0.95的共有序列频率阈值-f一起使用。可以将CONNOR与设置为2、3、4、5、6、7、8、9或10的最小家族规模阈值-s一起使用。优选地,共有序列频率阈值为0.9,并且最小家族规模阈值为5。
如本文的材料和方法部分中所述,可以在确定突变体和野生型读段/读段家族的数目的过程中应用质量过滤。
在某些情况下,将一个或更多个MRD过滤应用于肿瘤来源的MRD读段家族。特别地,MRD过滤步骤可以包括以下之一或二者:
(i)排除具有>2个突变体分子的那些基因座;以及
(ii)仅选择(即包括)已经在正向(F)和反向(R)两个方向上进行了测序的那些片段。
如本文所用,“条码”或“分子条码”可被理解为意指独特的碱基串,通常是但不一定是长度<10bp,例如本发明使用的分子条码的长度可以为6、7、8、9或10bp),其可以作为文库制备过程中的第一步连接到一个或更多个DNA分子上。结果,读段家族(来自上文)可以被独特地鉴定,并因此与其起始分子联系。如上所述,这允许通过“读段压缩”实现误差抑制。
确定背景测序误差率
在某些情况下,可以使用每个患者特异性基因座的任一侧的区域(例如,任一侧20、15、10或5bp)来确定每种突变类别的误差率。在某些情况下,仅在发现非参考碱基存在于正向F和反向R读段二者中时,才接受非参考碱基。在某些情况下,如果基因座在≥3个独立的文库中显示为突变误差抑制家族,则可以基于具有更高的基因座特异性误差率将其过滤掉(“列入黑名单”)。
可以进行测序误差分析以确定背景误差率,而与突变类别无关,并且通过按突变类别划分数据来进行。可以通过采用类别中的突变体读段之和与类别中的读段总数之比来确定误差率。在某些情况下,该比数据可利用替代重采样100次,以获得误差率的95%置信区间。
变体读段整合(INVAR)
根据本发明的一些实施方案,对于特定患者特异性基因座的变体读段,仅当观察到的变体(例如SNV)与在该基因座处的肿瘤序列中确定的突变匹配时,其才可以被接受。例如,如果基于肿瘤测序/基因分型预期到C>T突变,但是在突变体读段中观察到C>A,则该突变体读段可以被忽略并且可以从患者特异性信号中排除。作为替选地或补充地,仅当该位置存在至少≥1个F和≥1个R读段家族时,才将基因座视为有助于信号。这具有两个优点:降低来自测序的单链伪影,以及在某些测序平台(例如PE150测序)上使检测偏向于在F和R读段之间具有更大重叠的短片段。
对于每个样品,可以如下所示在所有患者特异性基因座上计算突变体等位基因分数:
Figure BDA0003128387560000401
在某些情况下,可以通过三核苷酸字段来计算突变体等位基因分数。通过字段的突变体等位基因分数可根据下式基于肿瘤加权的读段家族:
Figure BDA0003128387560000402
其中:
AF字段是给定(例如三核苷酸)字段下的等位基因频率;肿瘤AF是通过对直接获得自肿瘤的DNA进行测序而确定的基因座等位基因频率;并且MDR样基因座是从患者的肿瘤中确定并且已经过滤以针对微小残留病信号进行选择的含突变基因座。
可以使用单侧费希尔精确检验来确定观察到的突变体读段数目的显著性,其中考虑具有两种目的样品和来自背景误差率的突变体读段和总读段的数目的列联表。
按突变类别划分的突变体等位基因分数确定
在本发明的一些实施方案中,基于从肿瘤测序在该基因座处预期的突变类别,可以将每个样品划分为多种突变类别(例如,以下SNV类别中的2、3、4、5、6、7、8、9、10、11或全部12种:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T和T>C)。如以上的那样,可以整合每种类别的变体读段。可以在考虑该突变类别的背景误差率的情况下使用多个单侧费希尔精确检验来确定观察到的突变体读段家族的数目的显著性。此方法将为每个样品生成12个P值,然后可以使用经验布朗法将其组合。如果样品在一个类别中没有数据,则该类别可被视为具有零个突变体读段,因此P值为1。
为了进一步改善特异性,在一些实施方案中,本发明的方法可能需要样品具有≥2个单独类别的突变体读段;这确保了检测是基于进行多种类型的误差处理的多个基因座处存在的信号。
统计显著性确定
在某些情况下,可以对患者特异性(测试)和非患者特异性(对照)样品使用接受者操作特性分析来确定通过INVAR获得的组合P值的显著性阈值。例如,分析可以采用R中的OptimalCutpoints包和使得分类准确性最大化的“MaxEfficiency”法。
背景扣除
在某些情况下,可以从观察到的等位基因分数中减去背景误差率。可以在考虑或不考虑按照类别的误差率差异的情况下执行此操作。如果观察到的突变体等位基因分数小于背景误差率,则可以将背景扣除的等位基因分数设置为零。对于样品的按照突变类别的背景扣除,可以从每种类别的突变体等位基因分数中减去该类别的误差率。然后可以从每个单独的背景扣除的等位基因分数中计算平均等位基因分数,并对该类别中观察到的读段家族总数进行加权。
使用iChorCNA的拷贝数变异的确定iChorCNA是一种软件,它实施了一种方法,用于从浅层全基因组测序(sWGS)数据量化cfDNA中的肿瘤含量并提供这样的样品中的拷贝数预测,而无需事先了解肿瘤突变。Adalsteinsson等(Nature Communications 8:1324,2017-参考文献28)的第7至8页提供了该方法的详细信息。简而言之,iChorCNA同时预测SCNA的片段并估计肿瘤分数,说明亚克隆性和肿瘤倍性。这是使用隐马尔可夫模型(HiddenMarkov Model)(作为贝叶斯框架实现,每个模型参数都有先验)进行的,以预测拷贝数变异的片段(其中拷贝数状态与基因组的每个部分(仓)相关)并从测序数据估计肿瘤分数。使用给定数据的期望最大化(EM)算法来估计模型参数。在E步骤中,使用前向-后向算法计算后验概率(给定数据和当前参数估计的每个仓分配拷贝数的概率)。在M步骤中,使用最大后验估计值(使以下乘积最大化的值:给定来自前一次迭代的数据和参数估计值的分配拷贝数的概率与给定来自当前迭代的估计值的数据和分配的拷贝数的概率)估计参数的更新估计值。当完整数据对数似然在两次连续迭代之间变化小于0.1%时,认为已获得收敛参数。获得隐马尔可夫模型的收敛参数后,然后使用这些参数应用维特比算法来寻找所有仓的最佳拷贝数状态路径。iChorCNA方法为每个基因组仓产生最可能的拷贝数状态(例如作为log2比率)、样品中肿瘤分数的估计值和倍性估计值作为输出。出于本公开内容的目的,这些结果(例如,一个或多个特定仓的估计拷贝数状态、肿瘤分数的估计值和倍性估计值)中的任何一个可被视为代表iChor得分。
使用根据拷贝数中性(t-MAD)的修整后的中位绝对偏差确定拷贝数变异。这种方法在共同未决的PCT申请PCT/EP2019/080506中进行了描述。特别地,t-MAD得分可通过修整来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域并由基因组的非修整区域的log2R=0计算中位绝对偏差来确定。
以下通过实例的方式给出,并且不应解释为对权利要求范围的限制。
实施例
材料和方法
样品和数据收集
MelResist(REC号11/NE/0312)是一项对黑素瘤的全身治疗(包括BRAF靶向治疗和免疫治疗)的响应和抗性机制的转化研究。对于该组群中的每个患者,在开始治疗之前收集新鲜冷冻转移性肿瘤活检物和血浆样品,并且在治疗期间的不同时间点收集血浆。患者可接受随时间的多种治疗路线。人口统计和临床结局是前瞻性地收集的。这项研究由剑桥癌症试验单位-癌症主题(Cambridge Cancer Trials Unit-Cancer Theme)协调。
每次临床随访时,在S-Monovette 9mL EDTA管中纵向收集外周血样品。对于本研究,从其连续收集的样品中分析了每个患者的多至8个样品。在基线处将全血的一份等分试样储存在-80℃下以用于种系DNA。对于血浆收集,在抽血的一个小时内将样品以1600g离心10分钟,然后再进行20,000g下10分钟的另外的离心。将血浆等分试样储存在-80℃下。
从新鲜冷冻组织和血浆提取DNA
将多至30mg的每个新鲜冷冻组织活检样品与600μL RLT缓冲液(QIAGEN)组合,然后放入Precellys CD14管(Bertin Technologies)中,并以20秒间隔5秒的两连发以6,500rpm进行匀浆。然后按照制造商的方案使用AllPrep提取试剂盒(Qiagen)提取DNA。
按照制造商的方案使用Gentra Puregene Blood Kit(Qiagen)从10mL全血中提取基因组DNA。使用Qubit(ThermoFisher Scientific)对洗脱的DNA浓度进行定量。
使用2mL QIAamp方案使用QIAsymphony仪器(Qiagen)提取血浆样品。对于每个QIAsymphony批次,提取24个样品,其中包括健康个体对照样品(Seralab)。将血浆样品在90μl水中洗脱,并储存在-80℃下。
成像
需要CT成像以作为每个患者护理标准的一部分,并对CT成像进行了回顾性检查。在所有情况下,切片厚度为5mm。由经验丰富的操作员在放射科医生的指导下,使用MATLAB(Mathworks,Natick,MA)中编写的定制软件在CT图像上逐切片勾勒出所有最大直径大于~5mm的病灶的轮廓。随后将轮廓以NifTI格式导入到LIFEx软件应用程序25中进行处理。然后,LIFEx将肿瘤体积作为来自其基于纹理的处理模块的输出参数进行报告。
无细胞DNA量化
为了量化每个样品的cfDNA浓度,使用分别用ROX和FAM标记的针对管家基因RPP30的Taq-man探针(Sigma Aldrich)和独特的XenT基因座使用Biomark HD(Fluidigm)进行数字PCR。使用了55个PCR循环。RPP30测定的长度为65bp。将每μl洗脱液的RPP30 DNA拷贝的估计数目用于确定原始样品中的cfDNA浓度。
外显子组和靶向测序
使用SureSelectXT Human All Exon 50Mb(Agilent)诱饵组或定制靶向测序诱饵组,如Varela等26描述的进行肿瘤和血沉棕黄层(种系)文库的制备、测序和变异调用。对每个库的八个样品进行多路复用,并且将每个库加载到HiSeq 2000(Illumina)的两个泳道上,得到每个样品平均8Gb的独特映射读段,平均80%的碱基对被>20个读段覆盖。如先前所述27,使用Sanger CGP癌基因V3组对365个与癌症相关的基因进行了靶向测序。对于此探索性分析,TAPAS组设计中包括了所有来自肿瘤测序的突变调用(参见结果)。如果基因座在血沉棕黄层样品中显示1个正向(F)和1个反向(R)非参考读段(读段去重之后),则将该基因座排除。
定制组测序文库制备
使用Rubicon ThruPLEX Tag-seq试剂盒一式两份地制备来自10个患者的TAPAS文库。用于血浆DNA文库(IQR 3.2至10.0ng)的中位输入质量为4.4ng。为了比较分子条码化文库与非分子条码化文库之间的误差率,使用Rubicon ThruPLEX Plasma-seq试剂盒制备了另外的血浆文库。在需要时,在进行文库制备之前使用SpeedVac(ThemoFisher)在30℃下将cfDNA样品真空浓缩。
基于每个样品中DNA的起始浓度,根据制造商的建议28,ThruPLEX方案中的PCR扩增循环数目在7至15个循环之间变化。在扩增和样品条码化之后,使用Ampure XT珠(BeckmanCoulter)以1∶1比例对文库进行纯化。使用Illumina/ROX低文库定量试剂盒(Roche)以一式三份的两个样品稀释度确定文库浓度。在BioanalVser HS芯片(Agilent)上运行1∶10稀释的文库以确定文库片段尺寸。
根据制造商的建议29,在添加i5和i7封闭寡聚物(IDT)的情况下使用AgilentSureSelectXT方案捕获了每个文库的333至750ng。合并文库以在1至3丛库直至1000ng的最大捕获输入之间进行捕获。13个循环用于捕获后扩增。捕获后文库用Ampure XT珠以1∶1.8的比例进行纯化,然后进行量化,并如以前一样确定文库片段的尺寸。合并HiSeq 4000的每个泳道的中位9个TAPAS文库。
序列数据处理和误差抑制
在所有FASTQ文件上运行FastQC v0.11.5,然后使用cutadapt v1.9.1移除在衔接子序列的单独FASTA中指定的已知5′和3′衔接子序列。使用种子长度为19的BWA-memv0.7.13将经修整的FASTQ文件与hg19基因组进行比对。使用Picardtoolsv2.2.4MarkDuplicates标记重复项。使用Samtools v1.3.1给BAM文件编索引。使用GATKv3.7进行了已知插失的局部重排和碱基质量再校准。接下来,从BAM文件中移除了根据由ENCODE联合确定的具有高的测序噪声水平而有待忽略的区域(也称为“被列入黑名单的区域”)。
误差抑制
使用Connor30对ThruPLEX Tag-seq文库BAM文件进行误差抑制,所述Connor基于片段的起始和结束位置以及定制的内联分子条码产生了重复测序读段之间的共有序列。在对误差率与保留数据比率进行分析之后,将共有序列频率阈值-f设置为0.9,并将最小家族规模阈值-s设置为5;低于这些阈值的读段家族被丢弃。ThruPLEX Plasma-seq文库也用作具有相同设置使用定制shell脚本的Connor的输入。该脚本在每个读段的适当末尾添加了假的条码和起源,并修改了CIGAR字符串。
质量过滤
在患者特异性基因座处使用Samtools mpileup v1.3.1来确定原始和误差抑制数据的突变体和野生型读段/读段家族的数目。使用了以下设置:-d10000(最大深度阈值)--ffUNMAP(排除未映射的读段)-q 13(最小Phred映射质量评分)-Q13(最小Phred碱基质量评分)-x(忽略重叠)-f ucsc.hg19.fasta。VCF Parser31v1.6--split用于分隔多等位基因调用,并且SnpSift extractFields用于提取目的列。为了分析未经误差抑制的TAPAS数据,在基因座处需要至少5个读段;误差抑制数据的阈值为至少1个读段家族(由5个成员组成)。如果在单独数据点(即单个样品中的单基因座)处的映射质量/链偏倚(MQSB)<0.01(如由Samtools mpileup确定的),则将该基因座过滤。
TAPAS基线血浆突变调用
将TAPAS应用于患者的第一个血浆时间点,以调用在平铺的目的基因中或在患者特异性变体任一侧的诱饵区域中的变体,其可能已在单独肿瘤外显子组测序中被遗漏。Mutect2(GATK)用于初始突变调用,并被赋予hg19 COSMIC数据库VCF、dbSNP数据库VCF、诱饵组BED文件(包括抗性基因座和目的基因)。匹配的血沉棕黄层外显子组BAM被用作种系样品。
背景误差率的确定
为了了解背景误差率,使用了来自TAPAS数据的脱靶碱基。来自患者的测序数据用于此目的,因为可以基于血沉棕黄层的外显子组测序去除种系事件,并且可排除已知的肿瘤基因座。因此,每个患者特异性变体的任一侧10bp用于确定每种SNV类别的误差率。我们指出在F和R读段二者中都必须存在非参考碱基。为避免误差率可能的生物污染,如果基因座在COSMIC中具有≥1个重叠突变,则将该基因座排除。此外,在误差抑制之后,对属于同一患者的所有样品中的每个基因座单独进行评估,并且如果基因座在≥3个单独的文库中显示了突变体误差抑制家族,则将其从进一步的分析中忽略。考虑到每个读段家族的背景误差率为~6×10-5,在来自同一个体的≥3个样品(每个患者的中位6个样品中)的单基因座处偶尔观察到突变体读段家族的概率(每个基因座平均200个读段家族)给出了~1×10-12的二项式概率。
进行此分析以确定背景误差率,其不考虑突变类别,并且通过按突变类别划分数据来进行。误差率通过取类别中的突变体读段之和与类别中的读段总数的比值来确定。对该数据进行100次重采样并进行替换以获得误差率的95%置信区间。
变体读段整合
仅对患者特异性基因座进行ctDNA的检测,即,如果基于肿瘤基因分型预期了C>T突变,但观察到C>A,则将突变体读段忽略并且其无助于患者特异性信号。此外,仅在该位置存在至少有≥1个F和≥1个R读段家族时,认为基因座对信号有贡献。这有两个优点:降低来自测序的单链伪影,以及将检测偏向使用PE150测序在F和R读段之间有较大重叠的短片段。
对于每个样品,如下计算所有患者特异性基因座上的突变体等位基因分数:
Figure BDA0003128387560000461
使用单尾费希尔精确检验来确定观察到的突变体读段数目的显著性,其中考虑具有两种目的样品和来自背景误差率的突变体读段和总读段的数目的列联表。
按类别检测
由于在SNV类别之间观察到误差率的差异,因此基于从肿瘤测序在该基因座处预期的突变类别将每个样品分为12种。如上所述整合了每个类别的变体读段。使用了多个单尾费希尔精确检验来在考虑该突变类别的背景误差率的情况下确定观察到的突变体读段数目的显著性。这产生了每个样品12个P值,然后使用经验布朗方法将其组合,经验布朗方法是可用于将依赖性P值组合的费希尔法的延伸16。如果样品在一个类别中没有数据,则将该类别处理为具有零个突变体读段,并且因此P值为1。为进一步改善该方法的特异度,我们要求样品具有≥2个单独类别的突变体读段;这是为了确保检测是基于存在于进行不同类型的误差处理的多个基因座中的信号。
显著性阈值确定
用相同的测序组对所有患者进行测序,并且由于99.9%的变体是每个患者专有的(即仅是该个体独有的),因此可以使用所有其他患者来确定ctDNA检测的假阳性并且因此设置该组群的P值阈值。该方法利用了执行的冗余测序,并利用了从每个个体测序的多个样品以排除种系变异。因此,基于在患者肿瘤中每个基因座是否突变将TAPAS数据划分为患者特异性的和非患者特异性的。非患者特异性数据用于确定显著性阈值。
为了将患者用作对照,应将技术噪声与可在血浆中检测到但在肿瘤中遗漏的任何真实生物学信号分开。因此,使用误差抑制的非患者特异性数据,如果基因座包含来自同一个体的≥3个独立文库中的突变体读段家族,则在进一步的分析中将该基因座忽略(“列入黑名单”),我们计算出其几乎不可能被观察到以保证忽视这些基因座(P=1×10-12,参见背景误羞率的确定)。作为结果,从进一步的分析中忽略了12,558个中的44个基因座(0.35%)(“列入黑名单”)。尽管患者的不完善的肿瘤和血沉棕黄层基因分型可能会导致对照样品中的残留生物信号,但这比对具有相同组的许多对照样品进行测序并丢弃非患者特异性数据的成本更为优选。
使用使评分类准确性最大化的R中的OptimalCutpoints包和‘MaxEfficiency'方法,使用患者特异性(测试)和非患者特异性(对照)样品上的接受者操作特性分析来确定通过INVAR获得的组合P值的显著性阈值。
用于灵敏度的实验性加标稀释
3.7ng加标稀释实验
从一个健康个体(Seralab)获得血浆cfDNA,并在高肿瘤负荷时间点从一个患者(MR1004;2,746个患者特异性突变)获得突变cfDNA。用水平衡洗脱液的cfDNA浓度,然后用健康cfDNA以1∶5的比例连续稀释患者的样品,以得到原始cfDNA洗脱液的最终15,625×稀释物。使用ThruPLEX Plasma-seq试剂盒一式两份进行文库制备,用于所有文库的输入为3.7ng。
50ng加标稀释实险
合并来自6个患者的等质量血浆cfDNA以产生具有总共9,636个患者特异性变体的假设的患者。从11个健康个体(Seralab)产生血浆cfDNA的合并物。用水平衡患者样品和健康合并物的cfDNA浓度,然后用健康cfDNA以1∶10的比例连续稀释患者样品,以得到原始1×合并样品的100,000×稀释物。用ThruPLEX Tag-seq试剂盒一式两份进行文库制备,每个文库的输入量为多至50ng。对于预期等位基因分数大于TAPAS检测极限且无误差抑制的文库,我们降低文库制备的输入材料以保存肯定能被检测到的患者血浆DNA。
突变的计算机下采样
为了测试具有不同数目突变的INVAR-TAPAS的检测限,将患者特异性混合物实验和所有非患者特异性数据二者均下采样至50至5,000个突变。在每个采样突变组中总是包含BRAF,以模拟针对BRAFmut患者的组设计。对突变迭代采样100次,并使用INVAR测试ctDNA的检测。
ctDNA量化的背景扣除
为了准确地确定低至百万分率的突变体等位基因分数,从观察到的等位基因分数中减去背景误差率。可以在考虑或不考虑按类别的误差率差异的情况下执行此操作。如果观察到的突变体等位基因分数小于背景误差率,则将背景扣除的等位基因分数设为零。
对于样品的按突变类别的背景扣除,从该类别的突变体等位基因分数中减去12种类别中每种类别的误差率。然后从每个单独的背景扣除的等位基因分数计算出平均等位基因分数,对在该类别中观察到的读段家族的总数目进行加权。
从头突变检测
基于显示为生物学信号的证据,先前排除了通过列入黑名单去除的变体(即,如上所述基于具有更高的基因座特异性误差率而被滤除)。我们尝试调用来自该黑名单的突变以用于已知突变的变体。因此,将数据与COSMIC数据库相交以用于已知的驱动突变(重叠突变数≥5)。对于每个突变基因座,使用非患者特异性数据(即,其肿瘤已被基因分型为针对该突变呈阴性的患者)确定该基因座的背景误差率。在考虑样品总深度以及背景中突变体读段和总深度的情况下,使用单尾费希尔精确检验来检验该样品中突变体读段数目的显著性。P值阈值设置为0.05,并通过Bonferroni方法针对多个假设进行校正。通过汇总多个暂时分开的样品中的突变体读段来确认个体突变调用。
实施例1-从肿瘤和血浆中患者特异性突变的鉴定
为了在患者肿瘤中突变的确定基因座处获得高测序深度,基于在肿瘤活检的测序中鉴定的单核苷酸变体(SNV)设计了定制的杂交捕获测序组。从基线转移活检的外显子组测序(9个患者)或靶向测序(1个患者)中选择具有≥1个突变体读段和≥10个总读段的SNV。每个患者鉴定的SNV的中位数目为673(IQR 250-1,209;图7a)。确定了患者特异性变体(未示出)。此外,为了允许从头鉴定血浆中的突变,在组设计中包括以下基因的编码序列和非翻译区:ARID2、BRAF、CDKN2A、NF1、PTEN和TP53,以及37个在黑素瘤中通常突变的另外的基因中的热点基因座(未示出)。最终的组设计覆盖1.527Mbp。
将最终的诱饵组应用于从连续收集的血浆cfDNA样品一式两份生成的文库,该样品在两年内收集(每个患者最多8个样品)。从2mL血浆中提取DNA,并且用于血浆DNA文库(IQR 3.2至10.0ng)的中位输入质量为4.4ng。合并HiSeq 4000(PE150)的每个泳道的中位9个TAPAS文库(IQR 8-12)。对于每个患者特异性基因座,每个样品的质量过滤读段(方法)的中位深度为1,367x(IQR 761-1,886x)。
为了鉴定可能已被肿瘤测序遗漏的组所覆盖的另外的突变,在预期ctDNA水平更高时,在药物治疗开始之前或开始时的第一个血浆时间点进行了另一个突变调用步骤。血浆突变调用为每个患者添加了中位19个SNV突变(IQR 9-22;未示出)以用于后续分析,对于整个组群给出总共12,558个患者特异性SNV。在我们的组群中观察到的从头鉴定SNV的比率与先前报道10的黑素瘤中每Mb 14.4个编码突变的估算值一致(IQR=8.0-24.9)。在10个患者中的9个中发现了BRAF V600E突变,并且任意两个患者之间共有另外18个突变。总体而言,99.9%的靶突变基因座是个体患者独有的。
实施例2-背景误差率的表征
我们试图了解TAPAS测序数据中具有和不具有误差抑制的背景误差率(即观察到未预期的突变碱基的比率)。研究了患者特异性变体任一侧的碱基,因为其具有与患者特异性变体相当的测序深度,并且会受到相同的技术偏差。为了利用患者样品的这种脱靶测序,如果种系事件和潜在的生物信号在来自同一个体的样品中多次发生(方法),则将它们排除;这些基因座被留作后续的从头突变调用。
通过使用读段压缩确定整个读段家族的共有序列,可以实现误差抑制。为了实现这一点,将重复读段基于起始和结束片段位置(以前称为‘内源条码’11,12)和分子条码分组为‘读段家族’。压缩读段家族,并且最低要求设置为所有家族成员之间对于待调用碱基的≥90%的共有序列。没有误差抑制的情况下,平均背景误差率为2×10-4。在应用误差抑制之前,我们确定了每个读段家族的最佳最小重复数(‘家族规模’)。图2a中示出了保留的读段家族的比率以及最低家族规模要求为1、2、3和5的数据的相应误差率。最小家族规模阈值1(其包含规模>1的读段压缩家族加上规模=1的未压缩家族)将误差率降低至2.3×10-5。选择最小家族规模要求5,其将背景误差率进一步降低至5.9×10-6,同时保留了42%的读段家族。对家族规模较不严格的标准将保留更多的读段,但测序噪音提高。
实施例3-变体读段整合(INVAR)
使用严格的误差抑制水平(在90%的家族成员中要求共有序列,最小家族规模为5)以及中位4.4ng的输入,我们在每个时间点获得了中位3.2×105个读段家族(IQR 8.7×104至6.2×105),每个都覆盖了在该患者癌症中突变的基因座。在每个这样的读段家族对应单个分子的假设下,即使起始材料仅包含~1300个基因组拷贝,我们也由此能够为每个样品探测成千上万个靶分子。
当ctDNA水平低时,许多患者特异性基因座在该位置将没有突变体DNA片段(图7b)。因此,为克服采样误差,使用INVAR对所有患者特异性读段家族进行汇总并一起进行分析(图1b)。对于每个样品,如下计算所有患者特异性基因座上的“全局”突变体等位基因分数:
Figure BDA0003128387560000511
使用单侧费希尔精确检验考虑具有两种目的样品和来自背景误差率的突变体读段和总读段的数目的列联表的情况下确定观察到的突变体读段数目的显著性。仅当存在来自PE150测序数据的至少一个正向(F)和一个反向(R)读段时才将突变体读段视为对基因座处的信号有贡献;这可抑制测序伪影,并且还偏向于来自在cfDNA片段中富集的短ctDNA片段(由两个方向上的读段覆盖)的数据13-15
基于杂交捕获测序中碱基替换之间误差率的已知差异7,我们使用INVAR按突变类别评估了TAPAS数据中的误差率。数据划分为12类(C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T、T>C),其在误差抑制之前和之后两种情况下显示了按类别的误差率差异(图2b)。我们在最嘈杂的和最不嘈杂的类别之间鉴定了几乎40倍的误差率差异。这些数据表明了利用低误差率突变类别来克服技术噪声并改善对低水平ctDNA的灵敏度的可能性。
我们基于将来自每个样品的读段家族划分为12个类别开发了检测ctDNA的算法;使用费希尔精确检验单独为每种误差类别推导出P值,并使用经验布朗方法对P值进行组合,所述经验布朗方法是可用于将依赖性P值组合的费希尔法的延伸16(方法)。为了进一步提高该方法的特异度,我们指定了突变体信号必须存在于至少两个突变类别中,从而降低了对个体噪声基因座或类别进行检测的依赖性。
使用相同的测序组对所有患者进行测序,并且由于99.9%的变体是每个患者独有的,因此对于每种检测算法,可以使用所有其他患者来确定ctDNA检测的假阳性并由此设置该组群的P值阈值。这种方法利用了执行的冗余测序,否则其将被丢弃,并利用从每个个体测序的多个样品来排除种系变异(方法)。因此,基于基因座在患者的肿瘤中是否突变将测序数据划分为“患者特异性的”和“非患者特异性的”。使用使评分类准确性最大化的R中的OptimalCutpoints包,使用患者特异性(测试)和非患者特异性(对照)样品上的接受者操作特性分析凭经验确定检测的显著性阈值。根据本发明,ROC分析可用于鉴定基于使灵敏度和特异度两者最大化的最佳阈值,或者可将特异度固定在特定水平例如99.5%上,并查询灵敏度。
实施例4-INVAR—TAPAS的灵敏度分析
为了评估INVAR-TAPAS的灵敏度,使用来自在TAPAS组中覆盖了2,743个突变的患者的血浆DNA以每个文库3.7ng一式两份产生加标稀释实验。使用利用内源条码的误差抑制,我们首先在不将读段划分为突变类别的情况下应用INVAR,并以预期的突变体等位基因分数1.9×10-6检测了样品(图8)。因此,实现了百万分率(ppm)的检测。具有该相同输入(约1,100个单倍体基因组)的完美单基因座测定的检测限(具有95%灵敏度)为2.7×10-3个突变体等位基因分数,高出三个数量级。预期突变体等位基因分数为1.9ppm的检测样品的观察到的突变体等位基因分数为27ppm。由于观察到的等位基因分数由背景误差率(6ppm)加上真实信号构成,因此从观察到的等位基因分数中减去背景误差率,得出的“背景扣除的”等位基因分数为22ppm,比预期的突变体等位基因分数高约一个数量级。在低输入水平下,测序噪声和采样误差二者仍然会妨碍准确量化。
接下来,以多至50ng输入cfDNA一式两份进行第二加标稀释实验,并使用分子条码。对于该实验,合并来自6个患者的DNA,并将其在健康个体DNA中进行连续稀释(方法)。患者的cfDNA合并物包含总共9,636个患者特异性突变。50ng输入DNA对应于来自该组群的3.0mL血浆中的cfDNA(中位cfDNA浓度为5,160拷贝/mL)。在不按类别分析的情况下使用INVAR,我们以9ppm的观察到的等位基因分数检测了预期的3ppm突变体等位基因分数加标样品(图3a)。在如前所述的背景扣除之后,样品的观察到的突变体等位基因分数为3.3ppm(预期的突变体等位基因分数为3.0ppm)。这突出表明,对于接近背景误差率的等位基因分数的量化,扣除背景误差变得越来越重要,因为背景占信号的比率将越来越大。
如上所述,然后通过将样品划分为12个突变类别来应用INVAR。通过利用突变类别之间的误差率差异,可实现低至0.3ppm的显著检出(图3b)。此检测限比先前的捕获测序方法1低两个数量级,并且比利用相同文库输入质量(50ng,相当于15,000个基因组拷贝)的完美单基因座测定的检测限(具有95%灵敏度)低2至3个数量级。如前,进行背景扣除,不同之处在于按类别进行扣除,然后通过使用深度加权的平均值进行组合。我们观察到0.3ppm预期的加标稀释的背景扣除的等位基因分数为0.4ppm,表明ctDNA量化的高度线性低至百万分率。
为了用较小的组设计测试此方法的灵敏度,将50至5,000个突变的子集在计算机上与BRAF V600基因座一起随机采样,并迭代地重复进行按突变类别使用INVAR的ctDNA检测(方法)。每个采样组中包含BRAF V600以模拟对于BRAFmut患者的组设计。图3c中示出了每种突变数目实现的灵敏度;具有2500个突变,可以以接近50%的灵敏度检测到0.3ppm。我们凭经验将此方法对2500个突变的特异度确定为99.6%(图3d)。
实施例5-计算机尺寸选择
使用读段的起始和结束位置确定片段尺寸分布。将来自所有血浆样品的误差抑制数据组合,并计算片段的分布(图4a)。对于每个5bp尺寸仓,确定了突变体与野生型之间的比率(图4b)。在比核小体DNA尺寸(166bp的倍数)短~20至30bp的片段中观察到了ctDNA的富集。在双核小体峰中富集的幅度大于单核小体峰。一个患者显示出突变体三核小体DNA的证据(图9)。尽管先前的数据已证明突变体片段比野生型片段短13,14,17,但这些数据表明突变体DNA始终比单、双和三核小体DNA短。
鉴于这些发现,我们旨在通过计算机尺寸选择来富集突变体信号。基于显示ctDNA富集的尺寸范围,在计算机上对115至190bp、250至400bp和440至460bp的尺寸范围内的读段的数据进行了尺寸选择。选择这些相对宽的范围以便使稀有突变体等位基因的损失最小化,因为突变体和野生型片段的尺寸分布大多重叠。过度严格的尺寸选择可能会导致稀有突变体分子的丢失,该问题随着ctDNA水平接近百万分率变得越来越严重。原则上,随着更多的输入DNA和进一步的测序,可以应用更窄的过滤以产生更强的富集因子。当应用于血浆样品和加标稀释时,相对于野生型,尺寸选择产生了ctDNA的中位6.3%的富集,同时保留了93.7%的突变体读段。尺寸选择之后的富集程度与样品的起始突变体等位基因分数相关,并且与降低的突变体等位基因分数呈指数关系(图4c)。来自具有最低突变体等位基因分数(<1ppm)的50ng加标实验的样品显示出最大程度的富集,可能是因为其具有最高水平的污染野生型读段。在一个患者(MR1004)中,利用9.1ppm的突变体等位基因分数,尺寸选择使得能够检测出先前未检出的突变体信号(图5a)。在通过体积CT分析确定的患者具有总计1.3cm3疾病时的时间点处观察到了这一点(图5a,b)。在维罗非尼靶向治疗期间,尺寸选择对患者MR1004的第二个时间点没有提供益处(图5a,c),因为有零个突变体读段家族。
实施例6-残留肿瘤体积的检测
在整个组群中,将ctDNA突变体等位基因分数与体积CT成像数据进行了比较,其显示皮尔逊相关性为0.67(P=0.0002;图5d),与先前公开的研究6,8一致。该比较排除了一个患者(MR1014),因为其具有低体积的皮下转移瘤,该皮下转移瘤通过国际RECIST标准18无法测量但仍可贡献ctDNA。通过取该样品中读段家族数目的倒数,推断出患者MR1004的未检出的时间点的最大可能突变体等位基因分数(图5a)为3.4ppm,根据泊松分布和完美测定进行调整以给出对一个突变体分子进行采样的概率为95%。
在所有时间点,ctDNA与血清乳酸脱氢酶(用于黑素瘤患者的预后标志物)之间的皮尔逊相关性为0.86(P=2.2×10-15;图10a)。在43%的时间点,患者具有检出的ctDNA但正常的LDH,反映出与蛋白质标志物相比ctDNA的低生理背景。总之,这些数据表明ctDNA可以发挥类似于LDH的预后作用,并且对残留病具有增强的灵敏度。
开始全身治疗之后,10个患者中有3个患者的ctDNA降至低于10ppm的水平。我们发现,与具有较高残留ctDNA水平的患者相比,ctDNA降至低于10ppm的患者的总体存活延长了24个月(中位954相对于229天;对数秩检验P=0.009;图5e)。同样,基线ctDNA水平显示出与总体存活成反比(皮尔逊r=-0.61,P=0.04;图10b)。在整个组群中,ctDNA的首次升高在放射学进展之前中位54天(IQR 0至112天)。从明显升高的时间点起计算提前时间;利用比所分析的样品之间的55天(IQR 28-73.5)的中位时间更频繁的血浆采样,这可以得到进一步改善。
尽管用于文库制备的DNA输入质量有限(每个文库中位4.4ng,1320个单倍体基因组),但40%的血浆样品具有显著检出的等位基因分数,其低于使用完美单基因座测定(图5r)的理论检测线(具有95%灵敏度)。值得注意的是,我们观察到cfDNA浓度与ctDNA突变体等位基因分数之间的皮尔逊相关性为0.27,表明低的总cfDNA水平可伴随低的ctDNA水平,这使得利用依赖于个体突变体基因座的测定来检测低水平的ctDNA甚至更具挑战性。
实施例7-从头突变检测
当ctDNA水平足够高时,可以从头鉴定抗性突变,并可以通过突变的等位基因分数的变化来监测克隆的进化9。图6中显示了来自一个患者(MR1022)的实例,显示了在COSMIC数据库19中出现具有≥5次的个体突变的等位基因分数(图6a),以及个体肿瘤病灶体积(图6b)和肿瘤病灶位置(图6c)。通过测试热点突变基因座(方法),从来自总共两个患者的血浆样品中从头显著检出了上升的NRAS Q61K突变;这些突变在这些患者的基线肿瘤活检中没有发现。对于个体突变调用,在每个样品的基础上进行检测。在低的信号和输入材料水平的情况下,在对每个样品进行收集和测序时,整合来自测序样品的变体读段可通过允许汇总多个具有低于阈值的etDNA水平的样品来提高灵敏度。
讨论
数千个肿瘤来源的突变的多路复用深度测序与变体读段整合的组合使得我们能够检测低至0.3ppm的etDNA。通过表征来自cfDNA测序数据的误差率和片段化模式,我们优化了用于cfDNA的杂交捕获测序的工作流程。在这项研究中,我们通过使用通过基线肿瘤活检的外显子组或靶向测序鉴定的所有突变,对每个患者的大量突变进行了分析。尽管用于文库制备中的DNA输入量有限(比用于其他高灵敏度扩增子和杂交捕获方法6,8低约10倍),但这仍实现了灵敏分析。使用误差抑制来降低背景测序误差,并使用计算机尺寸选择来增强突变信号。通过产生覆盖每个患者的已知肿瘤突变的大量患者特异性读段,TAPAS补偿了小输入量,以及由于误差抑制和尺寸选择而导致的数据丢失,同时仍保留了足够的突变体读段以进行高灵敏度的检测。结果,实现了高灵敏度(低于百万分率)和高特异度(>99.5%)二者。
INVAR-TAPAS利用突变类别之间的误差率差异来检测稀有突变体等位基因,同时有效地利用可用数据。按照突变类别进行检测然后组合每个测试统计量允许每个类别基于其背景误差率对整体信号做出贡献。我们使用了用于组合相关数据集的P值的方法16以考虑突变类别之间的依赖性。在这里,我们使用了12种突变类别的分析;更大的数据集可能能够基于更大数目的序列子集进行分析,例如通过三核苷酸字段或通过单独的基因座,这可能会进一步改善误差率的分辨率。
使用误差抑制的数据,将突变体和野生型读段二者的尺寸谱可视化,同时使来自PCR和/或测序的混杂误差最小化。我们确认ctDNA在短血浆cfDNA片段中富集,并为双核小体DNA中突变体DNA的富集提供了证据,这可能有助于癌症患者的血浆中具有更长突变体DNA的先前发现20,21。我们将尺寸选择应用于我们的数据,这最初在非侵入性产前检测领域22(其中胎儿DNA片段比母体片段短23)中得到证明,并且开始在实验中用于癌症患者样品17。Fan等22强调了利用尺寸选择来保留突变体分子的挑战,我们确认这在很大程度上是由于突变体和野生型片段高度重叠的尺寸分布所致。在当前的研究中,我们选择了宽松的尺寸选择以保留很大一部分起始突变体分子,并证明了宽松的截止值可以提供益处,尤其是当突变体分数非常低时(在1ppm突变体等位基因分数和更低的范围内)。随着更大的测序深度和DNA输入,更严格的过滤可以提供进一步的富集。
INVAR-TAPAS利用了源自肿瘤的突变的知识,其需要分析具有高肿瘤含量的初始样品。该方法具有用于监测治疗之后的疾病复发的潜在效用,特别是在可获得肿瘤组织DNA以用于测序的手术之后。在一个实例中,我们证明了该方法检测到了具有9.1ppm ctDNA的小至1.3cm3的残留病;观察到的该突变体等位基因分数与从先前描述的模型6中对于给定肿瘤体积的预测等位基因分数一致,并且表明INVAR-TAPAS在理论上可以在CT检测的检测限处鉴定病灶。用高灵敏度方法在早期检测复发或疾病进展可能有助于更早开始辅助治疗或改变治疗。为了指导后续治疗,我们证明了可以从头鉴定突变,尽管其灵敏度与在该基因座处分析的分子数目成正比,这可能是限制性的。可以进一步整合多个纵向样品中的信号以增强在有限输入DNA的情况下的鉴定。本方法的一个优点是,先前样品中的低水平信号可以提供证据来支持后续样品中的突变检测。因此,每个纵向样品支持另一个。
可以使用来自血浆的不同类型的输入数据和不同的突变列表以告知分析来实施这种定制方法。如在这里证明的,可以使用外显子组测序来鉴定肿瘤来源的突变,但也可以跨越更小的聚焦组或更大规模(例如全基因组)。在10个黑素瘤患者的该组群中,外显子组测序足以鉴定出每个患者数百至数千个突变。基于已知的癌症类型突变率24,外显子组测序也可以满足许多具有相对高突变率的癌症类型,例如:肺癌、膀胱癌、食道癌或结直肠癌。对于突变率为每兆碱基~1或更低的癌症24,可期望对肿瘤进行全基因组测序以进行突变分析:对于卵巢癌和脑癌,这将导致鉴定出每个患者数千个突变。
为了生成用于INVAR的数据,我们使用了利用患者特异性组的靶向测序(例如TAPAS),其可以提供对大数目突变的深度测序,但需要开发患者特异性的测序组。这对于从纵向样品生成INVAR数据具有成本效益,因为它们可以使用同一TAPAS组进行分析。在不同的实现方式中,没有设计患者特异性组的全外显子组测序或全基因组测序可产生适用于INVAR的类似数据。尽管降低了工作流程的复杂性,但是利用这种方法,许多测序数据将无法覆盖肿瘤突变的基因座(并且因此对于INVAR不是信息性的),导致除非进行更多测序,否则较少患者特异性读段家族可用于INVAR。随着测序成本的降低,以及随着个性化肿瘤学的出现,肿瘤测序变得越来越频繁,我们建议,整合来自血浆cfDNA的误差抑制的测序的变体读段将提供高灵敏度的治疗监测、疾病监测和残留病检测手段。
实施例8-使用三核苷酸字段
肿瘤测序
为了在患者肿瘤中突变的确定基因座处获得高测序深度,基于在对来自48个患有II-IV期黑素瘤的患者的新鲜冷冻或FFPE肿瘤活检进行的测序中鉴定出的单核苷酸变体(SNV)设计了定制测序组。对所有肿瘤活检进行突变调用,并过滤变体调用以排除常见的SNP位点、重复区域和在患者匹配种系DNA中具有信号的基因座(方法)。
在新鲜冷冻肿瘤活检测序(图11和12)和FFPE活检测序(数据未示出)中评估了突变谱。大多数突变为C>T,其中GGA和TCC字段最为普遍,反映了UV特征的优势(图11)。肿瘤突变的中位突变体等位基因分数估计为~0.25。
血浆测序
我们发现,使用最小家族规模阈值为2的误差抑制数据,来自杂交捕获测序的血浆中的背景误差率在三核苷酸字段之间有所不同(图13)。使用三核苷酸字段能够通过汇总整个字段的读段家族来确定低至1千万分之一的背景误差率;为了在每个基因座水平上实现相同的背景误差估计精度,将需要对大量样品进行测序。使用三核苷酸字段能够最大限度地保留误差抑制之后的读段家族(图2a),同时误差率范围跨越两个数量级。
修改INVAR以处理字段
当ctDNA水平低时,许多患者特异性基因座在该位置处将没有突变体DNA片段。因此,为克服采样误差,使用INVAR对所有患者特异性读段家族均进行汇总并一起进行分析。对于每个样品,通过三核苷酸字段对突变体读段和总读段家族进行汇总,并确定比率:
Figure BDA0003128387560000571
使用单侧费希尔精确检验确定对于每个字段观察到的突变体读段数目的显著性,生成每个样品的P值向量。每个P值向量的长度在样品之间有所不同,因为每个患者中代表的字段的数目基于该患者的突变谱而有所不同。为了解决这个问题,并考虑到在微小残留病(MRD)背景中仅存在小数目分子的情况,我们组合了每个样品的来自6种最显著的三核苷酸字段的P值。在测试样品和对照样品二者上均进行了此操作,并使用对照确定具有97.5%特异度的P值截止值。
实施例9-将UV来源的二核苷酸突变用于黑素瘤
皮肤黑素瘤的高突变率几乎完全归因于丰富的胞嘧啶核苷向胸腺嘧啶核苷(C>T)转变,这是UV诱发的突变的特征(Hodis等,2012)。我们在我们的数据中证实了这种突变特征(图11)。在C>T转变中,十分之一的突变是CC>TT(Brash,2015),这与我们数据中包含CC或GG的情况下的大量突变保持一致(图11)。
在黑素瘤中,CC>TT突变为实现超低误差率提供了机会,因为任何随机PCR/测序误差都必须连续两次发生。可根据CC>TT突变自身的突变类别对其进行汇总,而单独的插失各自都具有分开的误差谱。因此,CC>TT突变在数据中可能足够普遍以允许对足够数目的分子进行查询,以利用低噪声谱。我们目前正在生成脚本以从最小家族规模为2的误差抑制的数据中鉴定在相邻碱基中具有CC>TT的突变体读段。这些突变可以被视为具有其自己的INVAR误差谱的分开的类别。
实施例10-INVAR-微小残留病(MRD)信号的整合
为了优化INVAR以检测残留病,我们使用患者cfDNA与健康个体cfDNA的混合物产生了加标稀释系列,并表征了最低稀释度下的信号发生。对于该实验,合并了来自6个患者的cfDNA以产生具有总计9,636个患者特异性突变的理论患者。然后将该合并物在健康个体DNA中进行连续稀释(方法)。
用于稀释实验的个体患者特异性突变的突变体等位基因分数的直方图示于图14中。随着样品被进一步稀释,突变体等位基因分数的直方图向左移动,这是因为提高比率的基因座未被采样。尽管如此,在低ctDNA水平下,在低突变体等位基因分数(<0.03)下见到了观察到的基因座。此信号代表对随机分布在靶向的整个患者特异性基因座上的突变体分子的随机采样,其示于图15中。
在最低残留病水平下,ctDNA将见于个体基因座处的个体突变体分子中。许多突变体分子完全集中在一个基因座上而不代表其他基因座是极不可能的,并且这得到了我们的数据的支持(图14和15)。具有出乎意料地高的信号水平的基因座相对于其余基因座可能是SNP或噪声碱基。因此,基于此特征,我们提出了MRD过滤,其专门聚焦于源自具有<=4个突变体读段(允许在一个基因座存在多至2个分子,在F和R读段二者中读取)并且突变体等位基因分数<0.03(需要足够多的总读段家族来确定该信号不是来自SNP)的基因座的信号。
使用这种方法,通过聚焦于具有50个总分子中的2个或更少分子的基因座而对SNP(预期AF=50%)进行错误基因分型的概率为1×10-12(50个中2个或更少成功;p=0.5)。通过在肿瘤测序阶段进行的先前SNP过滤进一步降低这种情况,从而基于常见的SNP数据库(即1000Genomes ALL,EUR)对基因座进行过滤。
此外,我们还对每个基因座的突变体读段数目设置了下限。仅在基因座处存在至少一个F和一个R读段时,才将突变体读段认为对基因座处的信号有贡献。假定我们用PE150进行测序,则需要重叠的F和R突变体读段支持将具有抑制测序伪影和选择来自对于ctDNA稍微富集的短cfDNA片段(由两个方向的读段支持)的突变体读段的双重目的(图4)。
总之,这些上述参数将INVAR算法集中于汇总来自突变体分子的信号,所述突变体分子在MRD的字段下最有可能源自随机取样的肿瘤。
实施例11-INVAR肿瘤等位基因分数进行加权
我们评估了在ctDNA高的时间点处血浆中突变的表达。我们发现了肿瘤外显子组AF与血浆AF之间的相关性(图16)。因此,在血浆中观察到给定突变的可能性与肿瘤AF成比例。这与Jamal-Hanjani等(2016)进行的工作是一致的。
患者特异性测序提供了利用这样的肿瘤先验信息的机会。这样,在通过突变字段汇总信号之前,通过肿瘤AF对每个基因座的INVAR信号进行加权。通过将该基因座处的突变体读段家族数目和总读段家族数目二者除以1-肿瘤等位基因分数来进行此操作。这使更有可能在血浆中包含真实信号的基因座上具有更大的权重。
每个基因座的突变体家族的原始数目示于图15中。图18示出了肿瘤加权之后的相同数据。图19中示出了稀释实验和下采样至测试与对照之间相同数目的突变体读段的7个健康对照样品的加权之前和之后的每个基因座的突变体总和。这表明由于加权导致了测试样品与对照样品之间突变体信号的富集具有差异。
实施例12-INVAR应用于外显子组测序数据
接下来,我们将INVAR应用于外显子组测序数据,以证明其对非个性化测序数据的可适性。对来自患有IV期疾病的患者的样品子集进行血浆外显子组测序。
对于外显子组测序数据,我们没有使用分子条码,以证明INVAR可应用于其中分子条码的使用频率较低的现有的外显子组数据。鉴于INVAR旨在靶向许多基因座,目的家族分布在多个基因组区域并且因此降低了与内源条码发生冲突的可能性。通过外显子组测序所获得的每个基因座的降低的家族数目进一步降低了这种可能性。我们合并了HiSeq 4000的每个泳道的3至6个外显子组文库(每个样品60至100M读段)。
图20中示出了在肿瘤加权之前和之后在经MRD过滤的基因座处突变体读段的数目,突出了需要2个突变体读段(1F和1R)的效用以及来自测试样品和对照样品的突变体读段家族之间的权重程度二者。在肿瘤特异性加权之后,在所有血浆样品中实现了检测,从而实现将一个患者中的ctDNA量化低至~5×10-5AF(图21)。因此,无需事先设计个性化测序组即可将INVAR应用于测序数据。
实施例13-非靶向INVAR
与调用单独的基因座相反,汇总整个三核苷酸字段的信号使得INVAR能够被潜在地推广至血浆测序数据,而无需先验肿瘤知识。这可能在没有可用的肿瘤测序的患者中具有适用性,但是预期代价将会是由于对任何真实突变体信号没有贡献的基因座的丰度导致的较低灵敏度和量化ctDNA水平的能力降低。
最初,我们像以前一样使用TAPAS数据并应用最小家族规模为2的误差抑制。接下来,鉴定数据中具有>=50个读段家族的所有碱基,并在每个位置处确定每个的突变体信号。
为了关注仅由ctDNA产生的突变体信号,排除了公共外显子组中前100个经常突变的基因(Shyr等,2014),以及线粒体染色体和从Shyr等(2014,补充方法)鉴定出的基因的经常突变家族。
在加标稀释实验中,对具有足够家族的所有碱基进行了INVAR。在将基因座列入黑名单(即,基于具有较高基因座特异性误差率而滤除某些基因座)之后以及应用MRD过滤(仅对于1F+1R MRD信号)之后,我们显示了以非靶向方式使用INVAR的初步证据(图22)。
实施例14-通过整合覆盖数千个突变基因座的变体读段来监测低负荷癌症中百万分率的ctDNA-DNA尺寸选择之后从干血斑点的ctDNA检测
材料和方法
患者组群。从纳入MelResist(REC 11/NE/0312)、AVAST-M(REC 07/Q1606/15,ISRCTN81261306)30和LUCID(REC 14/WM/1072)研究的患者中收集样品。由充分受过研究相关训练的研究/专科护士或临床医生负责同意进入研究。MelResist是在患有IV期黑素瘤的患者中对黑素瘤的全身治疗(包括BRAF靶向治疗和免疫治疗)的响应和抗性机制的转化研究。AVAST-M在患有IIB-III期黑素瘤的在手术之后具有复发风险的患者中评估贝伐单抗的效力的随机对照试验;仅选择来自观察组的患者以进行此分析。LUCID是对计划接受具有治愈目的的根治治疗(手术或放射治疗+/-化学治疗)的I-IIIB期非小细胞肺癌患者(NSCLC)的前瞻性和观察性研究。剑桥癌症试验单位-癌症主题协调所有研究,并且前瞻性地收集了人口统计学和临床结果。图41以REMARK图示出了通过该研究的患者流向。
样品收集和处理。从患有IV期皮肤黑素瘤的患者收集治疗之前的新鲜冷冻肿瘤活检物。获得福尔马林固定石蜡包埋(FFPE)肿瘤组织以用于AVAST-M和LUCID(来自手术)试验。对于进行AVAST-M研究的患者,在肿瘤切除的12周内收集血浆样品,并在3个月之后收集之后续样品(如果有的话)。对进行LUCID研究的患者在手术前收集了一份血浆和相匹配的血沉棕黄层样品。作为MelResist研究的一部分,在患有IV期黑素瘤的患者的治疗期间收集纵向样品。每次诊所就诊时,在S-Monovette 9mL EDTA管中收集外周血样品。对于血浆收集,在抽血的一个小时内将样品以1600g离心10分钟,并随后进行20m000g持续10分钟的另外的离心。将所有等分试样储存在-80℃下。
组织和血浆提取和量化。将FFPE样品切成多至8μm的切片,并产生一张H&E染色的载片,由组织病理学家描画其肿瘤区域的轮廓。对标记的肿瘤区域进行宏观解剖,并使用QIAamp DNA FFPE组织试剂盒使用标准方案进行DNA提取,不同之处在于在56℃下孵育过夜以及在加热块上以500rpm搅拌。将DNA每次使用20μL ATE缓冲液以全速离心进行洗脱两次。提取之后,使用
Figure BDA0003128387560000611
FFPE DNA Repair Mix按照制造商的方案进行DNA修复。在进行DNA提取之前,首先将新鲜冷冻组织活检物匀浆,其如下进行:将多至30mg的每个新鲜冷冻组织活检样品与600μL RLT缓冲液合并,然后放入Precellys CD14管(BertinTechnologies)中并以6,500rpm匀浆两次,每次20秒,间隔5秒。随后,按照制造商的方案使用Qiagen AllPrep提取试剂盒。
使用Gentra Puregene Blood试剂盒(Qiagen)根据制造商的方案从多至1mL的全血或血沉棕黄层中提取基因组DNA。样品在两轮70μL缓冲液AE中洗脱,并在离心之前孵育3分钟。使用QIAsymphony(Qiagen)利用QIAamp方案提取多至4mL血浆。将DNA在90μl洗脱缓冲液中洗脱并储存在-80℃下。使用QIAsymphony仪器(Qiagen)使用2至4mL QIAamp方案提取血浆样品。对于每个QIAsymphony批次,提取24个样品,其包括阳性和阴性对照。
在提取新鲜冷冻、FFPE和基因组DNA之后,使用Qubit荧光计以及dsDNA宽范围测定(ThermoFisher Scientific)对洗脱的DNA浓度进行量化。为了量化血浆DNA洗脱液的无细胞DNA浓度,使用Biomark HD(Fluidigm)以及管家基因RPP30的Taq-man探针(SigmaAldrich)进行数字PCR。使用了55个PCR循环。RPP30测定的长度为65bp。每μl洗脱液的RPP30DNA拷贝的估计数目用于确定原始样品中无细胞DNA的浓度。
肿瘤文库制备。使用Covaris LE 220(Covaris,Massachusetts,USA)将FFPE肿瘤组织DNA样品(多至150ng)和血沉棕黄层DNA样品(75ng)修剪至150bp的长度。使用了使用8microTUBE-15AFA Beads Strip V2的最终片段长度为150bp并且输入体积为15μl的标准Covaris方案。修剪之后,使用Bioanalyser(Agilent)验证片段化模式。
使用ThruPLEX DNA-seq试剂盒(Rubicon)制备测序文库。分别使用100ng和50ng经修剪的肿瘤和血沉棕黄层DNA,并根据制造商的说明实施方案。根据制造商的建议,在文库制备过程中扩增循环的次数有所不同。用Illumina/ROX low Library Quantification试剂盒(Roche)使用qPCR确定文库浓度。使用Bioanalyser(Agilent)确定文库片段尺寸。文库制备之后,使用45Mbp外显子组诱饵用The TruSeq Exome Library Kit(Illumina)进行外显子组捕获。将三个文库在一个捕获反应中多路复用,并将250ng的每个文库用作输入。为了与ThruPLEX文库兼容,在每个杂交步骤过程中通过添加1μl的i5和i7 TruSeq HT xGen通用封闭寡聚物(IDT)来更改方案。为了补偿提高的杂交体积,将CT3缓冲液的体积调整至51μl。进行两轮杂交,每轮持续24小时。如上所述使用qPCR和Bioanalyser进行文库QC。将样品多路复用并用HiSeq4000(Illumina)进行测序。
如Varela等31所述的,使用SureSelectXT Human All Exon 50Mb(Agilent)诱饵组进行新鲜冷冻肿瘤活检物和相匹配的血沉棕黄层文库制备。将样品多路复用并用HiSeq2000(Illumina)进行测序。
肿瘤突变调用。对于新鲜冷冻肿瘤活检物,如Varela等31所述的进行突变调用。对于FFPE肿瘤活检物,用Mutect2使用以下缺省设置进行突变调用:--cosmic v77/cosmic.vcf和--dbsnp v147/dbsnp.vcf。为了使保留的突变的数目最大化,保留实现Mutect2通过(LUCID和AVAST-M样品)或肿瘤LOD>5.3(AVAST-M样品)的变体。如下过滤突变调用:
1.血沉棕黄层突变体等位基因分数等于零
2.突变不在同源区
3.突变不在多等位基因基因座处
4. 1000Genomes ALL和EUR频率等于零
5.最小独特肿瘤深度为5。
另外,对于黑素瘤组群中的FFPE数据,将Costello等32提出的用于C/A误差的过滤用于抑制C/A伪影。结果,我们为64个患有II-IV期黑素瘤和I-IIIA期肺癌的患者生成了患者特异性突变列表。每个患有黑素瘤和肺癌的患者分别鉴定出中位625(IQR 411—1076)和388(IQR 230-600)个患者特异性突变(图31)。这些突变列表用于设计定制捕获测序组和用作INVAR方法的输入二者。
血浆文库制备。需要时,在文库制备之前使用SpeedVac(ThemoFisher)在30℃下真空浓缩无细胞DNA样品。文库的中位输入为1652个单倍体基因组(IQR 900—3013)。使用Rubicon ThruPLEX Tag-Seq试剂盒进行用于血浆无细胞DNA的全基因组文库制备。根据制造商的建议,ThruPLEX方案期间PCR扩增循环数目为7至15个循环。在扩增和样品条码化之后,使用AMPure XP珠(Beckman Coulter)以1∶1的比例纯化文库。使用Illumina/ROX lowLibrary Quantification试剂盒(Roche)确定文库浓度。使用Bioanalyser(Agilent)确定文库片段尺寸。对于IV期黑素瘤组群,一式两份进行文库制备和测序,以评估实验和计算方法的技术重现性,显示由INVAR线路产生的IMAF值之间的相关性为0.97(皮尔逊r,p值<2.2×10-16)。对于早期组群,不将输入的无细胞DNA材料分开而是在每个时间点作为单个样品制备和测序。
定制的杂交捕获组设计和血浆测序。在突变调用之后,使用Agilent SureDesign软件设计了定制的杂交捕获测序组。在此实施方式中,每个组将5至20个患者分组在一起。诱饵设计为对于黑素瘤患者具有4-5x密度和平衡增强,并且对于肺癌患者具有1x密度和平衡增强。95.5%的变体具有成功设计的诱饵;对于已失败的基因座不再尝试诱饵设计。定制组的尺寸为1.26至2.14Mb,具有120bp RNA诱饵。对于每个组,突变类别和肿瘤等位基因分数示于图31中。
使用Agilent SureSelectXT方案以单重或三重(总共为1000ng捕获输入)捕获文库,其中根据制造商的建议添加i5和i7封闭寡聚物(IDT)以与ThruPLEX文库兼容33。使用定制的Agilent SureSelectXT诱饵,具有13个捕获后扩增循环。将捕获后的文库用AMPure XP珠以1∶1.8的比例进行纯化,然后进行量化,并使用Bioanalyser(Agilent)确定文库片段尺寸。
血浆的外显子组捕获测序。对于血浆的外显子组测序,遵循Illumina TruSeq外显子组捕获方案。将使用Rubicon ThruPLEX方案(如上所述)生成的文库3重合并,其中每个文库250ng输入。将文库根据方案进行两轮杂交和捕获,根据制造商的建议添加i5和i7封闭寡聚物(IDT)以与ThruPLEX文库兼容。在靶标富集之后,将产物用8轮PCR扩增,并使用AMPureXP珠进行纯化,然后进行QC。
血浆测序数据处理。使用Cutadapt v1.9.1移除在衔接子序列的单独FASTA中指定的已知5′和3′衔接子序列。使用种子长度为19的BWA-mem v0.7.13将经修整的FASTQ文件与UCSC hg19基因组进行比对。使用CONNOR34在ThruPLEX Tag-seq文库BAM文件上进行误差抑制。对于误差率的表征,共有序列频率阈值-f设置为0.9(90%),并且最小家族规模阈值-s在2到5之间变化。对于定制捕获和外显子组测序数据,使用的最小家族规模为2。对于sWGS和血斑点分析,使用的最小家族规模为1。
为了利用跨域多个时间点的信号,在进一步的数据处理之前,可以使用`samtoolsview—ubS—|samtools sort-`将误差抑制的BAM文件组合。在早期黑素瘤组群(AVAST-M)中,在手术之后3个月和6个月两个时间点都可以获得样品,在分析之前将BAM文件合并。
血浆的低深度全基因组测序。对于WGS,对HiSeq 4000的每个泳道30个文库进行测序,实现了每个样品的中位0.6x去重覆盖。对于这些文库,由于信息性读段(IR)的数目会在背景误差变得有限之前限制灵敏度,因此对于此特定设置,我们使用了家族规模为1的误差抑制。比较了WGS与家族规模为1的定制杂交捕获测序数据之间的每三核苷酸的误差率,显示皮尔逊r为0.91。对WGS数据进行数据处理(补充方法),只是将基因座处的最小深度设置为1,并且不使用患者特异性的离群抑制(补充方法),因为考虑到0.6x的深度,具有信号的基因座与无信号的基因座仅能得到0或1的等位基因分数。
从干血斑点的无细胞DNA提取。从进行MelResist研究的患者或从卵巢癌组群收集50μl新鲜(或解冻的冷冻)全血到WhatmanTM FTATM Classic Cards(Merck)上,并使全血风干15分钟,然后进行DNA提取。对于图28c和40e上的异种移植数据,在将卵巢癌异种移植小鼠模型处死之后立即从中获得单一的50μl新鲜全血,并类似地应用WhatmanTM FTATMClassic Cards,并使全血风干。对于图42上的异种移植数据,通过尾静脉针刺从活小鼠中收集50μl新鲜全血样品。动物的其他部分,例如耳朵同样适合收集。将血斑点卡样品在室温下储存在可重新密封的塑料袋或纸板箱中。使用QIAamp DNA Investigator试剂盒(Qiagen)使用制造商建议的用于FTA和Guthrie卡(其通常用于从gDNA评估新生儿的遗传性遗传状况)的提取方案从卡提取DNA。该方案进行了以下修改。1)从血斑点上作出三个3mm的孔,并按照制造商的建议将载体RNA添加至Buffer AL。2)将血斑点DNA(我们假设其包含无细胞DNA和gDNA二者)在25μl水中洗脱,然后将其重新施加至膜并重新洗脱。
血斑点无细胞DNA的尺寸选择和文库制备。血斑点DNA洗脱液包含在大的gDNA背景中的低浓度的无细胞DNA(图40a)。由于丰富的长片段降低了任何无细胞DNA片段成功与衔接子分子连接并扩增的可能性,所以不能从这样的样品有效地进行无细胞DNA文库制备。基于我们对>1至10kb的gDNA长度的表征(图40a),以及先前工作表明体外cfDNA的长度范围为~70至300bp,峰值为~166bp35,我们选择进行尺寸选择以去除污染的gDNA片段。
在文库制备之前,使用AMPure XP珠(Beckman Coulter)对DNA洗脱液进行右侧尺寸选择,以去除长gDNA片段。为此,我们采用了已公布的方案以进行右侧尺寸选择,其通常用于下一代测序之前的DNA文库尺寸选择36。在针对无细胞DNA片段尺寸优化了珠∶样品比例之后,我们使用1∶1的珠∶样品比例来去除污染的gDNA。保留上清液作为右侧选择方案的一部分。第二尺寸选择步骤使用3∶1至7∶1的珠∶样品比例(使用7∶1的比例来获得所示的特定数据)以捕获所有剩余片段,并且将尺寸选择的DNA在20μl水中洗脱。使用真空浓缩器(SpeedVac)将血斑点洗脱液浓缩至10ul体积。该体积是使用Thruplex Tag-Seq试剂盒(Takara)进行下游文库制备的最大推荐量。接下来,进行RubiconTag-Seq文库制备(16个文库扩增循环),并对文库进行使用Bioanalyser 2100(Agilent)的QC和进行qPCR(如上所述,在QuantStudio 6(Life Technologies)上使用Illumina/ROX低文库定量试剂盒(Roche))。将文库提交用于在HiSeq4000(Illumina)上进行全基因组测序,配对末端为150bp/循环。在指示的情况下使用INVAR分析线路(补充方法)。
切除的II-III期黑素瘤组群的存活分析。分别从AVAST-M试验的随机化日期到首次复发的日期或死亡日期计算无病间隔(Disease-free interval,DFI)和总体存活9。使用Kaplan-Meier分析产生具有检出的ctDNA的患者与未检出水平的患者中的DFI与OS之间差异的存活曲线,并使用考克斯比例风险模型进行比较以获得风险比(hazard ratio)和95%CI。
成像。从IV期黑素瘤组群的每个患者获取CT成像作为护理标准的一部分,并进行回顾性检查。在所有情况下,切片厚度为5mm。由经验丰富的操作者在放射科医生的指导下,使用MATLAB(Mathworks,Natick,MA)中编写的定制软件在CT图像上逐个切片地描画出最大直径大于~5mm的所有病灶的轮廓。随后将轮廓以NifTI格式导入到LIFEx软件37中以进行处理。然后,LIFEx将肿瘤体积作为其基于纹理的处理模块的输出参数进行报告。
血浆文库制备-图40(f)的匹配血浆数据。制备收集血斑点的匹配时间点以及49名健康对照组群的血浆cfDNA文库。使用QIAsymphony(Qiagen)和QIAamp方案提取DNA,并使用管家基因RPP30(SigmaAldrich)的65bp TaqMan测定和55个扩增循环在Biomark HD(Fluidigm)上通过数字PCR对所述DNA进行量化。使用估计的RPP30DNA拷贝数/μL洗脱液,估计原始样品中的cfDNA浓度。使用多至9.9ng进行文库制备。根据制造商的说明使用ThruPLEX Tag-Seq试剂盒(Takara)并进行7个扩增循环。在条码化和样品扩增之后,文库进行磁珠清理并进行QC,如上所述。将样品提交用于在HiSeq4000上进行测序,配对末端为150bp/循环。
肿瘤文库制备-人血斑点和异种移植样品
对于人血斑点(图40(f)上的数据),可以使用时间匹配的肿瘤样品。按照Varela等31的描述提取肿瘤DNA,并使用COVARIS LE220聚焦超声仪根据制造商的说明将其修剪至~200bp的片段长度。使用ThruPLEX Plasma-Seq试剂盒(Takara)根据制造商的说明为sWGS准备50ng材料,并进行7个扩增循环。在条码化和样品扩增之后,文库进行磁珠清理并进行QC,如上所述。将样品提交用于在HiSeq4000上以150bp/循环进行测序。
对于异种移植样品(图40(e)上的数据),来自移植肿瘤的材料以及用于移植的人腹水样品可用于分析。使用Qiagen allprep试剂盒(Qiagen)提取样品,并将DNA修剪成200bp的片段,如上所述。使用Thruplex DNA-Seq试剂盒(Takara)根据制造商的说明准备50ng DNA,然后进行珠清理(1∶1比例,如上所述)。使用TapeStation(Agilent)对样品进行量化,并提交用于在HiSeq4000上以单端50bp/循环进行测序。
测序数据分析——图40(e)、40(f)、40(g)和42(c)上的数据。所有样品均在HiSeq4000上进行测序。使用种子长度为19的BWA-mem v0.7.13将FASTQ文件与UCSC hg19基因组进行比对,然后使用MarkDuplicates进行重复数据删除。对于ctDNA的sWGS检测,利用来源于49名健康个体的一组血浆cfDNA样品(SeraLabs)的一组正常值如所述28运行iChorCNA。对于异种移植测序分析,BAM文件使用Xenmapper38与小鼠和人基因组并行比对。使用Picard CollectInsertSizeMetrics39确定两个文件的片段长度。此外,在与人基因组比对的读段子集上运行iChorCNA,以确认CNA的存在。使用来自49名健康人对照组群的数据设置调用拷贝数变异的阈值。以上提供了有关iChorCNA的更多详细信息。
文库多样性估计为了估计血斑点文库中存在的总的cfDNA基因组拷贝数,我们使用CONNOR34基于内源性条码14对血斑点测序文库进行重复数据删除,最小家族规模为1至5(数据未示出)。对于每个家庭规模设置,使用Samtools mPileup计算平均去重覆盖率。每个设置的去重覆盖值被用作使用统计方法SPECIES22进行多样性估计的输入,该方法以根据通过随机样品观察到的成员的频率来估计生态种群的多样性而闻名。使用最小家庭规模为1进行数据分析。
数字PCR(dPCR)-图40(f)上的数据。如Rago等40(参见“材料和方法-人LINE量化”部分)所述,使用针对人长分散核元件的引物对来自异种移植小鼠的经尺寸选择的样品进行数字PCR。特别地,使用以下引物:正向引物FWD 5′-TCACTCAAAGCCGCTCAACTAC-3′(SEQ IDNO:1),反向引物REV 5′-TCTGCCTTCATTTCGTTATGTACC-3′(SEQ ID NO:2)。将从人细胞系中提取的DNA样品用作阳性对照,并且将(i)从未移植人肿瘤的小鼠中提取的基因组DNA样品和(ii)水用作阴性对照。所有样品一式两份运行,并且计算两次重复之间的平均值以说明潜在的实验变异性。
结果
当存在多个拷贝时,可在血浆中稳健地检测循环肿瘤DNA(ctDNA);但是,当样品具有很少的肿瘤DNA拷贝时,由于采样噪声,即使测定具有完美的分析性能,个体突变基因座的分析也可能导致假阴性(图23a)。当由于采样限制而存在很少的输入材料时,或者当存在大量血浆但是血浆中存在非常低的肿瘤负荷时,例如在患有早期癌症的患者1中或经历了治疗的所有阶段的患者1,2中,可能发生血浆中存在少量的ctDNA(图29)。测序误差可能会进一步限制检测。为了改善灵敏度,研究分析了来自多个血液管的更大量血浆3,4,和/或使用了覆盖18至507个基因(基因组2kb至2Mb)的测序组。血浆中多至32种患者特异性突变(预先通过组织分析确定)的分析实现了在患有非小细胞肺癌(NSCLC)的患者5中每25,000个拷贝1个突变体分子的水平的检出。在<50%的患有I期NSCLC的患者6,7中和仅19%的肺腺癌病例6中检测到ctDNA。在接受手术并随后复发的早期患者中,在约50%的乳腺癌或结直肠癌患者4,8中但仅在15%的黑素瘤患者9中手术后检测到ctDNA。但是,原则上可以通过提高所分析突变的数目来进一步提高灵敏度以检测更少量的ctDNA。
ctDNA的检测受到DNA的量的限制,我们将DNA的量量化为所分析的单倍体基因组(hGA)的数目。在测序数据方面,hGA相当于平均独特测序覆盖率。在例如浅层全基因组测序(sWGS)的方法中,通常对<1hGA(小于1x覆盖率)的DNA进行分析,并且尽管这通常是由纳克(ng)量的DNA产生的,但原则上其可以由微微克的DNA产生。如果DNA输入为数ng或更少,则另一些方法产生数千倍的测序深度,其可代表相同分子的重复读段。分析灵敏度的另一个决定因素是分析的肿瘤突变基因座的数目2,5-7。用于检测ctDNA的灵敏度受到‘信息性读段’(IR)的总数目的限制,我们将其定义为覆盖具有患者特异性突变的基因座的所有读段的总和。这等于突变的数目与平均独特深度(跨越突变基因座)的乘积。因此,我们在二维空间中绘制了这两个变量(图23b)。可以从二维的不同组合产生相同的IR。例如,可以从10,000hGA和10个突变的基因座(覆盖每个患者的很少肿瘤突变的组的深度测序)或在10hGA中分析的10,000个基因座(有限的输入或测序深度)获得105个IR。尽管这些突变中的一些很可能是亚克隆或过客事件(passenger event),但我们通过分析它们中的很多而假设,这可以补偿个体突变信号的损失。在ctDNA分数为10-5的样品中,基于二项式统计量,在105个IR上观察到单个突变体读段的概率为0.63,但是利用5×105个IR其提高至0.99,突出了采样分子与可获得的最大灵敏度的关系。
为了从每个患者的大量突变获得信息,我们使用定制捕获组、全外显子组测序(WES)或全基因组测序(WGS)对血浆DNA进行了测序。在分析测序数据时,ctDNA检测算法先前依赖于个体突变的鉴定3,6,10,其无法有效利用有限的信息:任何未通过突变调用阈值的信号都将被丢弃并丢失。研究强调了汇总多个基因座的信号以检测来自移植器官的DNA11或稀释的肿瘤DNA5的潜在优势。在癌症监测中,先前已经对每个患者的多个突变进行了分析3,5,6,12,13,但是分开对每个突变进行了检测。为了有效地利用来自血浆的测序信息,我们开发了变体读段整合(INtegration of VAriant Reads,INVAR)。INVAR利用来自肿瘤测序的先验信息来指导分析并汇总患者癌症中跨越102至104个突变基因座的信号(图23c)。突变列表是患者特异性的;因此,在确认未在患者的肿瘤测序数据中发现的每个突变之后,使用来自其他患者的样品计算背景信号率(图23d)。来自健康个体的另外的样品用作对照并评估特异度(图30a)。INVAR考虑了ctDNA测序的生物学和技术特征,包括三核苷酸误差率、ctDNA片段长度模式以及患者肿瘤中每个突变的等位基因分数(图30b中的流程图)。由于ctDNA是汇总检测的,而不是尝试调用每个基因座处的突变,因此INVAR还可以从具有低测序深度(<1x独特覆盖率)的数据和在输入材料有限时检测ctDNA。
为了鉴定患者特异性突变,我们对45个患有II-IV期黑素瘤的患者和19个患有I-IIIA期NSCLC的患者进行了肿瘤测序。在鉴定了肿瘤突变(方法)之后,我们生成了患者特异性突变列表(图31),其由每个患有黑素瘤的患者的中位625个突变(IQR 411-1076)和每个患有I-IIIA期NSCLC的患者的388个突变(IQR 230-600)组成。这些列表用作INVAR的输入,并应用于使用定制捕获测序组(2,301x平均原始深度)、WES(238x深度)和sWGS(0.6x深度)生成的血浆测序数据。
14.1背景噪声降低和信号整合
通过提高输入(hGA)或所分析的突变来提高信息性读段的数目解决了采样误差。为了降低在高IR下的假阳性检测的可能性,背景误差必须低于IR的倒数。作为INVAR工作流程(图24a)的一部分,我们通过以下来降低背景误差率:基于内源或外源独特分子标识符14(UMI)的读段压缩;排除未被正向和反向读段支持的信号;使用定制误差模型来评估不同突变字段的误差率;排除噪声基因座以及将与来自该样品中其他基因座的信号的分布不一致的基因座信号离群(图32至34,补充方法)。这导致了在不同的三核苷酸字段中平均降低131倍的背景误差率(图24b,图24c)。
先前的研究表明了肿瘤等位基因分数与血浆等位基因分数之间的关系13,15,以及表明了突变体与野生型无细胞DNA片段之间的尺寸差异16-18。为了有效地使用测序信息,INVAR基于ctDNA片段尺寸和每个突变基因座的肿瘤等位基因分数通过概率加权来富集ctDNA信号(图24d,图35,方法)。这对于患者特异性突变列表中的每个基因座产生了显著性水平,将其组合为汇总似然函数(aggregate likelihood function)。来自使用不匹配的突变列表的患者的血浆DNA的测序数据(图23c)用作接受者操作特性(ROC)曲线分析的阴性对照,以选择对于每个组群的ctDNA检测的可能性阈值(方法,图36)。来自健康个体的测序数据用于评估在此阈值下的假阳性检测(图30a)。通过得到该样品中患者特异性基因座中的背景扣除的、深度加权的平均等位基因分数来确定整合的突变体等位基因分数(IMAF)(补充方法)。
14.2阳性和阴性对照中的分析性能
我们通过分析来自定制捕获组的测序评价了INVAR的分析性能,所述分析在来自已经通过外显子组测序(补充方法)鉴定出5,073个突变的一个黑素瘤患者(IV期)的血浆的稀释系列中进行,所述血浆在来自两个健康对照志愿者的血浆中稀释到低至3.6×10-7的预期IMAF并且重复进行分析。在没有误差抑制的情况下,以分析特异度>0.85(方法)检测的最低稀释度具有3.6×10-5的预期ctDNA浓度。在此浓度下,在4.7×10-5的平均IMAF下检测到2/2个重复(图24e)。在误差抑制和尺寸加权之后,除一个之外的所有样品以分析特异度>0.95检出。检测到稀释至3.6×10-6(百万分之3.6,ppm)的预期IMAF的两个重复,IMAF值为4.3和5.2ppm。在稀释至预期的3.6×10-7的3个重复中,检测到两个,测量的IMAF值为3.9ppm和1.3ppm(分别为3.16×106和2.44×106个IR)。第三个样品具有低的IR(370,381)并且未观察到突变体读段,这突出表明检测低ctDNA浓度需要许多IR。相反,接近具有很少突变体读段(例如以上实例)的检测限检测的ctDNA可能由于成功偏倚而显示出人为放大的IMAF。
IMAF与预期的突变体分数之间的相关性为0.98(皮尔逊r,p<2.2×10-16,图24e)。没有来自癌症患者的加标DNA,在总共6,328,410个IR下在来自这些健康个体的DNA的11个重复中未观察到突变体读段(图24e)。在没有误差抑制和尺寸加权的情况下分析的相同测序数据中,在3个没有加标DNA的样品中观察到ctDNA的假阳性检测(图24e)。我们在计算机上对测序数据进行了下采样以仅包含患者特异性突变列表的子集,确认了更多的突变导致更大的IR和相应更高的ctDNA检出率(图24f,补充方法)。
使用不匹配的突变列表,我们使用来自患者的血浆DNA的测序数据限定了分析特异度(图23c)。这给出了98.0%的中位特异度(图36)。为了证实这一点,我们使用每个患者特异性突变列表对来自健康个体的样品进行了定制捕获测序和INVAR分析(图30a)。在对来自26个健康个体的血浆DNA的4次分析中,获得了97.05%的中位特异度值,与预期的分析特异度相匹配(图36)。
14.3INYAR应用于在癌症患者血浆中检测ctDNA
我们将INVAR应用于使用来自47个II-IV期黑素瘤患者的125个血浆样品和19个I-IIiA期NSCLC患者的19个血浆样品的定制捕获组生成的测序数据。我们分析了每个患有黑素瘤的患者的中位625个突变和每个患有I-IIIA期NSCLC的患者的388个突变,得到了每个样品多至2.9×106个IR(中位1.7×105个IR),因此与分析单独的或数个基因座的方法相比分析了多出数个数量级的无细胞DNA片段(图25a)。使用相同的输入DNA和测序数据对具有最高深度的20个突变基因座进行分析对于几乎所有样品导致少于20,000个IR,而使用生成的大突变列表对于大多数样品产生了20,000至106个IR(图25b)。
小数目的样品具有<20,000个IR,因此无法达到INVAR原则上可以产生的高灵敏度。当在未来实践中实施INVAR时,我们建议将其中无法在低IR下检测ctDNA的这样的情况定义为技术失败,并且将以较大的DNA输入/更多的测序重复,或者通过更大范围的测序(例如WGS)对来自该患者的肿瘤和正常DNA进行重新分析(图25c)。在我们的研究中,144个样品中有6个在<20,000个IR下未检出ctDNA(图25d),并且在以下所述的检测统计中显示为技术失败。如果期望更高的灵敏度,则可以选择更高的IR阈值:另外11个样品在<66,666个IR下未检出ctDNA(图25d)。在INVAR的当前实施中,阳性检测需要至少两个突变体读段(覆盖所有IR);因此,95.8%的样品具有检测到的ctDNA,或被确定为低于0.01%(在>20,000个IR中少于2个突变体读段)。88.2%具有检测到的ctDNA或被确定为低于0.003%(在>66,666个IR中少于2个突变体读段)。
相反,小数目的病例实现了>106个IR,提供了无与伦比的灵敏度以及2.9和6.5ppm的ctDNA检出水平(图25d)。如果通过来自每个患者的肿瘤和正常DNA样品的WGS而不是WES产生患者特异性突变列表,则我们预计对于这些黑素瘤或NSCLC病例中的大多数,将达到这种灵敏度水平(图25b)。
14.4ctDNA监测至百万分率和细胞基因组分数
我们检测了ctDNA并量化了其水平,如通过2.5×10-6至0.25的IMAF值指示的(图25d和25e)。这证实了5个数量级的动态范围,并且从基因组的1638个拷贝的中位输入材料(5.46ng DNA),在来自癌症患者的血浆样品中检测到数个ppm范围的痕量水平的ctDNA(图26a)。在分析的144个血浆样品中的总共17个样品中,在已知对于该患者的肿瘤突变的基因座中的<1%中检测到ctDNA的信号,表明这些样品仅包含单个肿瘤细胞基因组的一小部分(图26b)。所检测到的突变的最低分数为1/714,相当于<5飞克的肿瘤DNA。给定有限的输入,在48%的病例中,检测到的低ctDNA水平将低于完美单基因座测定的95%检测限(图26b,图37a)。
在患有转移性黑素瘤的患者中,IMAF显示出与成像的相关性为0.8(皮尔逊r,P=6.7×10-10,图37b),并且与血清乳酸脱氢酶的相关性为0.53(LDH,皮尔逊r,P=2.8×10-4,图37c)。使用INVAR分析来监测响应于治疗的ctDNA动力学(图37d)。在针对黑素瘤用靶向治疗和免疫治疗连续进行治疗的一个患者中,在2.5ppm的IMAF下检测到ctDNA,在该时间点的肿瘤体积为1.3cm3(图25e)。与其他研究6,19相比,INVAR显示出肿瘤体积与IMAF之间的更陡的梯度,这可能反映了INVAR的更低可检测IMAF(图37b)。
14.5早期NSCLC中的ctDNA检测
我们在患有新诊断出的I-IIIA期NSCLC的19个患者(分别由11、6和2个I/II/IIIA期患者组成)的治疗之前收集的血浆样品中通过INVAR测试了ctDNA检测。在两个样品中,未检出ctDNA,但由于在匹配组织的WES中鉴定了小数目的突变(每种情况下为59和93),因此对少于20,000个IR进行了分析(图25d)。不包括这两个患者(参见图25c),信息性读段的中位数目为7.2×104(IQR 3.9至10.3×104)。在17个患者中的12个中(图26a,图26c),包括1/5患有IA期疾病的患者、4/5患有IB期疾病的患者、5/5患有II期疾病的患者和2/2患有III期疾病的患者(图38a和38b)中,检测到ctDNA(其中分析特异度>0.98,图36)。IA和IB期的10个患者中有9个患有腺癌的组织学亚型,其先前难以使用其他方法检出6。在整个组群中,将ROC分析应用于由INVAR生成的似然比(补充方法),对于仅I期、I-IIIA期和仅II-IIIA期分别给出了0.73、0.82和0.93的曲线下面积(AUC)值(图26d)。排除未达到0.003%灵敏度的患者(<66,666个IR,图25d),在14个样品中的12个中,包括1/2患有IA期疾病的患者、4/5患有IB期疾病的患者、5/5患有II期疾病的患者和2/2患有III期疾病的患者中,检测到ctDNA。
14.6通过INVAR检测微小残留病
为了在残留病背景下测试INVAR,我们对来自在UK AVAST-M试验中招募的38个经切除II-III期黑素瘤的患者的样品进行了分析(图38c),所述样品在治愈目的的手术之后的多至6个月收集。我们查询了中位3.6×105个IR(IQR 0.64×105至4.03×105),并且在直至2.85ppm的最小IMAF下检测到ctDNA(其中分析特异度>0.98,图36)。五个患者具有未检出的ctDNA和<20,000个IR,并且被排除(图25d)。在33个可评价的患者中,在随后复发的患者中的50%中检测到ctDNA,并且与显著更短的无病间隔(4.5个月相对于5年随访未达到的中位数;风险比(HR)=3.69;95%CI1.44至9.46,P=0.007;图26d)和总体存活(2.6年相对于未达到中位数,图38d)相关。在使用来自161个经切除BRAF或NRAS突变黑素瘤的患者(来自同一试验)的血浆DNA的单基因座数字PCR测定进行的先前分析中,在仅15.6%的随后复发患者中检测到ctDNA9
14.7评估具有不同IR的检出率
使用来自临床样品的IMAF值,我们估算了具有有限IR数目的不同患者组群的预期检出率,并拟合线性模型(R2=0.95)来预测达到不同检出率所需的IR。在IV期黑素瘤患者中在基线时间点处,使用105个IR在100%的病例中检测到ctDNA(图26e)。在接受治疗的患有IV期黑素瘤的患者中,ctDNA水平较低,线性拟合的外推预测106至107个IR将使得能够在几乎所有样品中检测到ctDNA(图38e)。在患有早期NSCLC的患者中,我们建议,如果对每个样品的107个IR进行测序,则可能可以在几乎所有患者中检测到ctDNA。在测序成本、所需的输入DNA的量和需要靶向的突变的数目方面,每个样品达到>107个IR成为了限制。对于接受手术的II-III期黑素瘤患者,我们的数据表明,即使对107个IR进行分析,也使得在仅66.7%的将复发患者中在手术后6个月内检测到ctDNA(图26e)。
14.8从WES和WGS的ctDNA的灵敏检测
患者特异性捕获组允许以较低的测序成本对患者特异性突变列表进行深度测序,但添加了耗时的步骤。我们假设,当将INVAR应用于标准化工作流程(例如全外显子组或基因组测序)时,也可以通过汇总信息性读段来利用INVAR以实现提高的灵敏度。这可以使得肿瘤-正常材料的测序能够与血浆测序平行进行,并且所得的肿瘤-正常数据可用于对从血浆无细胞DNA生成的测序数据进行INVAR分析(图27a)。
为了测试INVAR的可适性,我们利用市售的外显子组捕获试剂盒对样品亚组中的血浆DNA(中位深度238x)进行测序,其中通过特异性捕获组检测到跨越4.5×10-5至0.16的IMAF范围的ctDNA(图39a)。取决于在肿瘤外显子组中检测到的突变数目和每种情况下的测序深度,尽管使用商业平台的适度深度的测序,我们获得了1,565至473,300个IR(图27b)。我们在21个样品中的21个中检测到IMAF为4.34×10-5的ctDNA(图27c),表明可以使用患者特异性突变列表通过INVAR以高灵敏度检测ctDNA,而无需设计定制测序组。这些IMAF值显示出与同一样品上的定制捕获数据的相关性为0.96(皮尔逊r,P=8.5×10-12,图39a)。与允许对血浆DNA进行深度测序并从相当于102至103hGA生成信息的定制捕获组(图25a)相比,从仅数十hGA通过外显子组测序产生的数据所获得的深度较低(图39b)。
我们假设可以用INVAR通过甚至更少量的输入数据对ctDNA进行检测和量化。我们对来自六个患有IV期黑素瘤的患者的亚组的纵向血浆样品的无细胞DNA的文库进行了全基因组测序,平均深度为0.6x(图27d)。我们使用了由WES从每个患者的肿瘤和正常DNA产生的患者特异性突变列表,其为这些患者中的每一个产生了>500个患者特异性突变。这产生了每个样品的226至7,696个IR(中位861,IQR 471-1,559;图27b)。我们通过INVAR分析了此数据,在一些样品中检测到低至1.1×10-3的ctDNA分数水平。在未检出ctDNA的样品中,我们基于采样的IR的数目以95%的置信度计算出该样品的最大可能ctDNA分数(图27d,方法)。
这些结果证明从具有<1hGA的非靶向测序数据中检测到了ctDNA,并且表明,利用足够大量的肿瘤特异性突变,INVAR即使在微量的DNA输入下也能够以高灵敏度用于ctDNA检测。
14.9从干血斑点的ctDNA检测
接下来我们假设,可以从提取自干血斑点(来自体积为50μL的单滴血液)的数个拷贝的基因组所产生的有限测序数据中检测到ctDNA,例如通过整合整个基因组中的突变体读段、通过进行拷贝数分析或通过将序列读段与至少两个参考基因组进行比对。实时PCR先前已用于使用母体干血斑点进行胎儿RHD基因分型和HIV检测20,21,但是先前没有描述来自血斑点的无细胞DNA的NGS。
我们试图评估可以从单个血滴或干血斑点中测序的cfDNA基因组拷贝数。根据先前的报道,晚期癌症患者的cfDNA中位浓度为约1600个可扩增拷贝/mL血液。这转化为50μL血滴/血斑点中的约80个作为cfDNA的基因组拷贝。假定DNA提取的产率为~60%至80%并且生成测序文库的效率为~15%至40%,则估计这将导致在从来自单血滴的cfDNA制备的测序文库中基因组的约7x至25x表示。因此,我们假设在去除基因组DNA之后,可以从干血斑点中获得cfDNA的低深度WGS。
由于存在低数目的无细胞DNA拷贝,并且由于由血细胞释放的长基因组DNA(gDNA)片段的量大,因此从血斑点产生无细胞DNA测序文库具有挑战性(如图40a上质量控制数据所示,通过毛细管电泳获得)。为了确定是否可以从血斑点检测到ctDNA,我们开发了工作流程以从存在的有限无细胞DNA分子产生测序文库(方法)。为了去除污染gDNA片段,我们对提取自从患有黑素瘤的患者收集的干血斑点的DNA进行了尺寸选择。接下来,我们从该尺寸选择的DNA生成测序文库(参见图28a)。该数据揭示了使用sWGS的多个拷贝数变异(图28a),与通过传统方法分离的来自同一患者的匹配血浆样品中发现的拷贝数变异一致(图40b)。
当将INVAR应用于此数据时,从6hGA的测序数据中检测到IMAF为0.039的ctDNA。我们使用统计方法SPECIES22估算测序文库中的单倍体基因组总数为10hGA(图40c,补充方法),其可以从该文库获得更大的测序深度。因此,这证明了在干血斑点中检测到了相当于癌细胞单个基因组一部分的ctDNA。
使用ichorCNA对从血斑点获得的测序数据的体细胞拷贝数变异进行分析28。生成的拷贝数图示于图40f中。观察到的变异与在来自同一患者的通过标准的基于血浆DNA的方法分离的匹配血浆样品中鉴定的那些一致(图40f)。两个样品之间SCNA的程度显著相关(皮尔逊r=0.75,p<2.2x10-16,图40g)并且与初始肿瘤活检拷贝数谱中发现的相似(图40f)。
从血斑点测序的DNA片段的尺寸分布类似于从血浆样品的无细胞DNA中所获得的尺寸分布2,16,18(图40b)。对于在患者特异性突变列表中的基因座处具有参考序列或肿瘤特异性突变的读段分开评价片段尺寸。这表明,肿瘤来源的片段较短,峰为约145至150bp,而未突变的读段具有在约166至170bp处的峰(图28b);这概括了最近通过分析来自癌症患者的血浆样品观察到的结果2,16,18
对来自卵巢癌组群中的患者的样品重复了类似的分析。根据标准方案在EDTA管中收集全血,并且取其等分试样并点在滤纸卡上(如以上在方法中所述)。如上所述对样品进行处理(提取、基于珠的尺寸选择、文库制备和sWGS)。然后使用ichorCNA对样品的体细胞拷贝数变异进行分析28。图40h中示出了具有数个疾病部位的3C(IIIc)期复发的高分级浆液性卵巢癌患者的生成的拷贝数图。ichorCNA分析产生的肿瘤分数估计值为0.156,并且倍性估计值为1.59。
除了在人中的临床效用外,对微量血液的分析还可以有助于来自其他生物体或模型(例如啮齿动物)的纵向ctDNA监测23。例如,血斑点分析可适用于活鼠患者来源的异种移植(PDX)模型中疾病负担的纵向分析。目前,在小啮齿动物中对cfDNA的分析具有挑战性,因为大多数传统ctDNA分析所需的血液量只能通过终末出血获得。
使用原位异种移植的卵巢肿瘤小鼠模型,使用干血斑点卡采样50μL全血,并制备测序文库并用sWGS进行测序(方法)。在测序读段比对之后,观察到人基因组(肿瘤来源的)和小鼠基因组(野生型)读段二者,具有突变体和野生型无细胞DNA的特征性片段化模式(图28c)。在人序列中观察到多个拷贝数变异(图40e)并且这些反映了在原始患者腹水样品和小鼠中匹配的PDX肿瘤二者中观察到的谱(图40e)。这证实了血斑点可用于在动物模型中监测疾病进展和负担。
我们使用不同癌症类型的已知突变率24估算了干血斑点(50μL体积)中ctDNA的潜在灵敏度。如果从来自每个患者的肿瘤和正常DNA的WGS产生患者特异性突变列表(而不是如本研究中使用的WES),则将为每个患者产生更大的突变列表。这将使得来自血斑点的WGS数据为每个样品产生高出1至2个数量级的IR,并且与我们观察到的检测限相比相应地降低了ctDNA检测限(图28e)。例如,在具有0.1x WGS覆盖率的黑素瘤中,预计ctDNA的检测限的中位数为0.007(四分位数间距,4.4×10-4至1.5×10-3)。利用10×WGS覆盖率,不同癌症类型的预测检测限为从具有较高突变率的一些癌症的<1ppm到具有低突变率的癌症(例如乳腺癌和前列腺癌)的约10-4
为了进一步证明血斑点可用于在动物模型中监测疾病进展和负担,对患者来源的异种移植(PDX)小鼠模型(移植了人卵巢癌细胞的小鼠)进行了监测。在小鼠中肿瘤达到一定尺寸后,用两种不同的药物对小鼠进行处理(或不处理作为对照)。在处理开始时、处理的第16天和第29天时收集血斑点,并在整个处理中测量肿瘤体积。如以上所说明的对样品进行处理(提取、基于珠的尺寸选择、文库制备和sWGS)。
在比对测序读段时,观察到人基因组(肿瘤来源的)和小鼠基因组(野生型)读段二者具有突变体和野生型无细胞DNA的特征性片段化模式(图42a,图42b)。然后使用ichorCNA对样品的体细胞拷贝数变异进行分析28。在图42c上,示出了一只小鼠在处理期间的不同时间点处和基线处的所得拷贝数图。在图42c上所示的实例中,分析得出的基线、第16天和第29天样品的估计肿瘤分数分别为0.5136、0.3518和0.6985,以及基线、第16天和第29天样品的倍性估计值分别为1.89、1.91和1.88。图42c上的数据表明,沿着相同模型的纵向研究,使用本发明的方法可以区分相似的拷贝数事件。
然后我们对肿瘤体积与样品中ctDNA含量之间的相关性进行了分析。将与人基因组特异性比对且片段长度>30bp的测序读段数与片段长度>30bp的与人或小鼠基因组特异性比对的测序读段(即包括高置信度人和小鼠读段二者)总数的比率用作ctDNA含量的估计值(本文中也称为“人比例”或“人分数”)。这与通过在3个正交维度(以mm计)上测量肿瘤并将3个值相乘而计算出的肿瘤体积(图42d、42e)进行比较,允许在肿瘤测量与血液采样之间有长达7天用于ctDNA分析。在可用样品数有限(54个样品)并且仅基于人比率<0.35的样品(排除了大概是由于技术错误而在人比率方面明显离群的2个数据点)的情况下,估计皮尔逊相关性为0.387,p值为0.0009。虽然这种相关性已经很显著,但我们预期随着样品数的增多,人比率与肿瘤体积之间的相关性会更强。如图42e上所示,在该纵向研究中,许多对象(PDX小鼠)的人比率(估计的ctDNA水平)和肿瘤体积显示出相似的谱。
然后,我们试图确认来自样品中ctDNA的信息性信号也可以使用除测序之外的方法获得。如Rago等40所述,使用针对人长分散核元件(LINE)的引物对来自异种移植小鼠的经尺寸选择的样品进行数字PCR(dPCR)。所使用的引物是人特异性的,并且设计成与广泛存在于整个基因组中的LINE杂交(即,使用这些引物获得的信号应代表人基因组内的多个基因座)。dPCR的输出是对给定样品中阳性靶标数目的估计。图40f(其中在第29天结束的曲线示出了dPCR信号-估计的阳性靶标数目分别为:对于两个第1天重复-132和135(平均133.5),对于两个第16天重复-117和132(平均124.5),以及对于两个第29天重复-290和268(平均279))上示出了在纵向研究的三个时间点处,示例性PDX小鼠模型的这些实验的结果,同时示出了小鼠中肿瘤体积的测量值(以mm3计,曲线示出了DNA来源数据的7天内的数据)。如可在图40(f)上见到的,dPCR数据和肿瘤体积数据显示相似的谱,表明来自根据本发明获得的cfDNA的信号可用于在该异种移植模型中监测肿瘤的进展。从用作阳性对照的人细胞系中提取的DNA样品显示出强信号(估计的阳性靶标数目:2307(对于两个重复)),并且两个阴性对照(水和从未移植人肿瘤的小鼠中提取的基因组DNA样品)未显示出显著信号(平均估计的阳性靶标数目:对于水和小鼠阴性对照分别为2和4),表明在来自异种移植小鼠的血液样品中观察到的信号确实是人特异性的。与Rago等40中所做的相反,尾刺样品没有收集在EDTA涂层的塑料管中并且没有立即进行离心以分离血浆。作为替代,从干全血斑点中提取DNA,并进行本发明的方法。图40f上的数据表明,使用本发明的方法可出人意料地获得代表变体cfDNA(此处为存在于小鼠宿主血液中的人ctDNA)的信息性信号。
实施例14的讨论
通过将跨越在患者肿瘤中鉴定出的多个突变的信号进行组合(图23),变体读段整合提供了用于克服采样噪声固有的局限性以在包含比一个拷贝少得多的癌症基因组的样品中检测ctDNA的方法。我们表明,通过汇总跨越102至104个突变基因座的信号,可以检测到<0.01拷贝的癌症基因组,即使这代表血浆中无细胞DNA的百万分之几,也比先前的研究低了1至2个数量级3,5。只有通过靶向大量突变以使信息性读段(IR)的数目最大化才能达到这种灵敏度水平;在实践中将输入质量提高到这种程度是不可行的(图23b)。从肿瘤测序获得的突变数目取决于癌症类型和测序的广度。在此方法的这个第一个应用中,我们使用外显子组测序来鉴定癌症突变,并且在数种情况下由于很少的信息性读段而不得不将样品排除在分析之外。通过以至少0.01%的灵敏度评价样品,我们在手术前I-II期NSCLC患者中的67%中检测到了ctDNA。如果使用更严格的IR阈值,则其提高至83%,有效地要求最小灵敏度为0.003%(30ppm)。手术之后,在患有II-III期黑素瘤随后复发的患者中的50%中于6个月内检测到ctDNA。这一发现反映了在临床环境中在手术后检测ctDNA的挑战性,在临床环境中患者可能在初始治疗之后的许多年复发。通过另外的突变使IR进一步提高并且输入材料可进一步提高ctDNA用于检测微小残留病的灵敏度(图27e)。
用于鼻咽癌的早期检测的一项最近试验利用了每个癌细胞中多个拷贝的Epstein-Barr病毒(EBV)来检测来自无症状个体的血液样品中癌症的存在26。作者估计这是可能的,因为每个癌细胞包含约500个拷贝的病毒DNA序列,这是他们的测定所靶向的,并建议~500个靶标的多路复用分析可能能够进行其他癌症的早期检测26。以其当前实施的INVAR方法需要肿瘤突变的先验知识,并且因此不能用作早期检测癌症的筛选测定;但是,其可以利用高度多路复用分析的原理来在大多数患有早期癌症的患者中检测ctDNA(图26)。INVAR利用特定序列改变之外的无细胞DNA的特征,例如每个突变的片段尺寸和肿瘤等位基因分数;将来,可以并入另外的非突变特征(例如片段末端27)以有助于癌症来源片段的更大加权。
我们表明,可以将INVAR灵活应用于使用患者特异性捕获组(图26)、商业外显子组测序组或WGS(图27)生成的NGS数据。尽管这些后面的方法产生较少的IR,但有限的测序输入允许利用WES在低于50ppm的ctDNA分数水平下和利用sWGS在~0.1%下进行检测(比基于来自WGS的拷贝数分析的先前描述的方法28,29低一个数量级以上)。基于这些发现,我们然后利用INVAR从有限的DNA输入,包括从癌症患者收集的干血斑点中检测ctDNA。我们描述了未来利用在整个基因组中产生的突变列表实施INVAR如何允许检测来自50μL干血斑点中的无细胞DNA的1至100ppm水平的ctDNA。这为将来用于基于干血斑点自采样的残留病或疾病复发的癌症监测的测试创建了可能性。
此外,我们展示了使用来自人和PDX样品二者的sWGS在血滴/血斑点中检测ctDNA的新的方法。这种方法依赖于使用尺寸选择来去除基因组DNA,组合ctDNA测量方法例如sWGS,其利用来自跨越整个基因组的信号。这样的高度多路复用方法利用来自多个基因座的信号,从而克服了可与任何单独基因座分析相关的灵敏度有限问题,因为可从单血斑点获得的cfDNA基因组拷贝数少(约5至50个拷贝)。我们对来自黑色素瘤患者的干血斑点进行了分析,并观察到从血斑点与时间匹配的血浆和肿瘤样品获得的拷贝数谱具有良好的相关性。我们看到了与从标准的基于血浆DNA方法中观察到的相似的cfDNA和ctDNA尺寸谱。也可以使用靶向测序方法。如果要靶向单核苷酸变体,则优选地应识别并查询大量患者特异性突变,以充分减轻小体积血液中来自有限的cfDNA拷贝的采样误差影响。未来,个性化测序面板对测序数据的潜在应用可促进对甚至小体积疾病的高灵敏监测。
此外,我们证明了这种方法在动物模型中的价值,允许从PDX模型的干血斑点中检测SCNA和特征性ctDNA片段化模式。在小动物模型中的ctDNA监测中,克服低循环血量是一项重大挑战。尽管啮齿动物中尾静脉血液采样已被用于从小血液样品中进行纵向癌症监测,但分析限于高拷贝数标记,例如hLINE重复序列23。在此,我们强调了下一代血斑点cfDNA测序的可能性,从而实现浅层和多至10x WGS二者。我们进一步表明,使用本发明的方法对传统上被认为质量低的小全血样品(例如,已成斑点且经干燥的样品,没有迅速进行血浆分离或任何其他去除细胞物质的步骤)的分析可以产生有用的信息。从实践的角度来看,干血斑点的应用可实现对患者和动物模型的高频ctDNA监测。采样和分析前处理可进一步简化,可能支持新的研究设计,包括更广泛的群体和更频繁地更小样品体积的收集。我们进一步表明,该方法可用于PDX模型的纵向监测,允许通过监测时间线一致检测拷贝数变异并基于读段向两个不同参考基因组(此处为小鼠和人参考基因组)的映射推导出有用的监测指标。从有限的血液体积中检测ctDNA可使新的癌症监测方法成为可能,例如在家中自行收集样品,然后运送并集中分析。
实施例14的参考文献
1.Bettegowda,C.et al.Detection of circulating tumor DNA in early-andlate-stage human malignancies.Sci.Transl.Med.6,224ra24(2014).
2.Wan,J.C.M.et al.Liquid biopsies come of age:towards implementationof circulating tumour DNA.Nat Rev Cancer 17,223-238(2017).
3.Cohen,J.D.et al.Detection and localization of surgically resectablecancers with a multi-analyte blood test.Science(80-.).(2018).
4.Tie,J.et al.Circulating tumor DNA analysis detects minimal residualdisease and predicts recurrence in patients with stage II coloncancer.Sci.Transl.Med.8,346ra92(2016).
5.Newman,A.M.et al.Integrated digital error suppression for improveddetection of circulating tumor DNA.Nat Biotechnol 34,547-55(2016).
6.Abbosh,C.et al.Phylogenetic ctDNA analysis depicts early-stage lungcancer evolution.Nature 545,446-451(2017).
7.Abbosh,C.,Birkbak,N.J.&Swanton,C.Early stage NSCLC--challenges toimplementing ctDNA-based screening and MRD detection.Nature Reviews ClinicalOncology 1-10(2018).doi:10.1038/s41571-018-0058-3
8.Garcia-Murillas,I.et al.Mutation tracking in circulating tumor DNApredicts relapse in early breast cancer.Sci.Transl.Med.7,(2015).
9.Lee,R.J.et al.Circulating tumor DNA predicts survival in patientswith resected high risk stage II/III melanoma.(2017).doi:10.1093/annonc/mdx717/4589598
10.Phallen,J.et al.Direct detection of early-stage cancers usingcirculating tumor DNA.Sci.Transl.Med.9,(2017).
11.De Vlaminck,I.et al.Circulating cell-free DNA enables noninvasivediagnosis of heart transplant rejection.Sci.Transl.Med.6,241ra77(2014).
12.Forshew,T.et al.Noninvasive Identification and Monitoring ofCancer Mutations by Targeted Deep Sequencing of Plasma DNA.Sci.Transl.Med.4,136ra68-136ra68(2012).
13.Murtaza,M.et al.Multifocal clonal evolution characterized usingcirculating tumour DNA in a case of metastatic breast cancer.Nat.Commun.6,8760(2015).
14.Kinde,I.,Wu,J.,Papadopoulos,N.,Kinzler,K.W.&Vogelstein,B.Detection and quantification of rare mutations with massively parallel sequencing.Proc.Natl.Acad.Sci.U.S.A.108,9530-5(2011).
15.Jamal-Hanjani,M.et al.Detection of ubiquitous and heterogeneousmutations in cell-free DNA from patients with early-stage non-small-cell lungcancer.Ann.Oncol.27,862-867(2016).
16.Mouliere,F.et al.High Fragmentation Characterizes Tumour-DerivedCirculating DNA.PLoS One 6,e23418(2011).
17.Underhill,H.R.et al.Fragment Length of Circulating Tumor DNA.PLoSGenet.12,426-37(2016).
18.Mouliere,F.et al.Enhanced detection of circulating tumor DNA byfragment size analysis.Sci.Transl.Med.4921,1-14(2018).
19.Newman,A.H.et al.An ultrasensitive method for quantitatingcirculating tumor DNA with broad patient coverage.Nat.Med.20,548-54(2014).
20.Xiong,Y.,Jeronis,S.,Hoffman,B.,Liebermann,D.A.&Geifman-Holtzman,O.First trimester noninvasive fetal RHD genotyping using maternal dried bloodspots.Prenat.Diagn.37,311-317(2017).
21.Luo,W.,Yang,H.,Rathbun,K.,Pau,C.P.&Ou,C.Y.Detection of humanimmunodeficiency virus type 1 DNA in dried blood spots by a duplex real-timePCR assay.J.Clin.Microbiol.43,1851-1857(2005).
22.Wang,J.-P.SPECIES:An R Package for Species RichnessEstimation.J.Stat.Softw.40,1-15(2011).
23.Rago,C.et al.Serial Assessment of Human Tumor Burdens in Mice bythe Analysis of Circulating DNA.Cancer Res.67,9364-9370(2007).
24.Lawrence,M.S.et al.Mutational heterogeneity in cancer and thesearch for new cancer-associated genes.Nature 499,214-218(2013).
25.Corrie,P.G.et al.Adjuvant bevacizumab for melanoma patients athigh risk of recurrence:survival analysis of the AVAST-M trial.Ann.Oncol.29,1843-1852(2018).
26.Chan,K.C.A.et al.Analysis of Plasma Epstein-Barr Virus DNA toScreen for Nasopharyngeal Cancer.N.Engl.J.Med.377,513-522(2017).
27.Jiang,P.et al.Preferred end coordinates and somatic variants assignatures of circulating tumor DNA associated with hepatocellular carcinoma.Proc.Natl.Acad.Sci.U.S.A.201814616(2018).doi:10.1073/pnas.1814616115
28.Adalsteinsson,V.A.et al.Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors.Nat.Commun.8,1324(2017).
29.Belic,J.et al.Rapid Identification of Plasma DNA Samples withIncreased ctDNA Levels by a Modified FAST-SeqS Approach.Clin.Chem.61,838-849(2015).
30.Corrie,P.G.et al.Adjuvant bevacizumab in patients with melanoma athigh risk of recurrence(AVAST-M):Preplanned interim results from amulticentre,open-label,randomised controlled phase3study.Lancet Oncol.15,620-630(2014).
31.Varela,I.et al.Exome sequencing identifies frequent mutation efthe SWI/SNF complex gene PBRM1 in renal carcinoma.Nature 469,539-542(2011).
32.Costello,M.et al.Discovery and characterization of artifactualmutations in deep coverage targeted capture sequencing data due to oxidativeDNA damage during sample preparation.Nucleic Acids Res.41,1-12(2013).
33.Rubicon Genomics.Targeted Capture of
Figure BDA0003128387560000841
Libraries withAgilent
Figure BDA0003128387560000842
Target Enrichment System.at<rubicongenomics.com/wp-content/uploads/2016/11/RDM-152-002-SureSelectXT.pdf>
34.University of Michigan.Connor-METHODS.2016).at<https://github.com/umich-brcf-bioinf/Connor/blob/master/doc/METHODS.rst>
35.Schwarzenbach,H.,Hoon,D.S.B.&Pantel,K.Cell-free nucleic acids asbiomarkers in cancer patients.Nat.Rev.Cancer 11,426-437(2011).
36.Beckman Coulter.SPRIselect User Guide.Beckman 1-30(2012).
37.Nioche,C.et al.A freeware for tumor heterogeneity characterizationin PET,SPECT,CT,MRI and US to accelerate advances in radiomics.J.Nucl.Med.58,1316(2017).
38.J.Wakefield,M.Xenomapper:Mapping reads in a mixed speciescontext.J.Open Source Softw.1,18(2016).
39.Picard.Picard Metrics Definitions.Available at:https://broadinstitute.github.io/picard/picard-metric-definitions.html#InsertSizeMetrics.
40.Rago et al.Serial Assessment of Human Tumor Burdens in Mice by theAnalysis of Circulating DNA.Cancer Res 2007Oct 1;67(19):9364-70.
实施例14的补充方法
INVAR线路概述
INVAR线路获取误差抑制的BAM文件、患者特异性基因座的BED文件以及指示每个突变的肿瘤等位基因分数和其所属患者的CSV文件。其针对运行Slurm的群(cluster)进行了优化。工作流程如图30中所示。简单地说,线路评估所有样品中患者特异性基因座处的野生型和突变体读段,并用以下对该数据进行注释:三核苷酸误差率、基因座误差率、突变所属患者、肿瘤等位基因分数、片段尺寸、F和R读段二者的存在,以及该基因座处的信号相对于该样品中所有其他患者特异性基因座是否离群。在数据注释之后,汇总该样品中所有患者特异性基因座上的信号以生成用于定义特异度的似然比。分开计算整合的突变体等位基因分数(IMAF)。
INVAR数据处理
基于突变的BED文件利用以下设置在患者特异性基因座处使用SAMtools mpileup1.3.1:--ffUNMAP、-q 40(映射质量)、-Q 20(碱基质量)、-X、--d10,000,然后使用BCFtools1.3.1划分多等位基因调用。接下来,使用定制Python脚本用1,000Genomes SNP数据、COSMIC数据和三核苷酸字段对所有TSV文件进行注释。然后将输出文件联接、压缩并且读入R。首先,基于来自肿瘤测序数据的先验知识,用以下对每个患者的所有基因座进行注释:患者特异性的(存在于患者的肿瘤中)或非患者特异性的(不存在于患者的肿瘤中,或个体没有癌症)。由于每个非患者特异性样品都包含来自多个患者的基因座,因此每个非患者特异性样品都可用于利用相同的测序组或方法分析的所有其他患者的对照(排除个体之间共有的基因座)。
INVAR数据过滤I
将以下过滤应用于患者特异性和非患者特异性数据二者:
1.如果MQSB<0.01(映射质量/链偏倚),则排除数据点。
2.鉴定多等位基因位点,并且如果在具有误差抑制的读段家族的数据集中观察到3个不同的替代等位基因,则将该多等位基因基因座列入黑名单。具有在数据集中观察到的2个分开的替代等位基因的基因座仅在存在次要等位基因的多于2个误差抑制的读段的情况下才被排除。
3.如果基因座显示F与R突变体读段之间的比率<0.1或>10,则根据突变体读段的链偏倚将该基因座列入黑名单。如果在至少三个单独的样品中存在突变体读段,则仅评价基因座的突变体读段链偏倚。
4.将在>10%的患者对照样品中显示突变体信号的基因座或者显示出每个基因座平均突变体等位基因分数>1%的基因座列入黑名单。被该过滤列入黑名单的基因座的比率为0.21%至3.53%(图33)。患者样品可用于表征每个基因座的噪声(在不属于它们的基因座处),因为99.8%的突变是每个患者专有的。
5.必须在该读段对的F和R读段二者中示出突变信号(图33)。这用于降低测序误差,并且引起片段的尺寸选择,并在执行PE150测序时保留<300bp的片段(只可保留F和R读段的重叠区域中的突变体信号)。产生的误差抑制类似于合并成对末端读段的工具1
INVAR数据注释
数据过滤之后,用基因座噪声过滤和三核苷酸误差率二者对数据进行注释。由于基因座噪声过滤受到该基因座处对照样品和cfDNA分子的数目的限制,因此我们还评估了三核苷酸误差率。从每个患者特异性基因座任一侧(不包括患者特异性基因座本身)的多至10bp的区域确定三核苷酸误差率,并按照三核苷酸字段合并数据。在以这种方式合并数据之后,对每种三核苷酸字段的中位3.0×108个信息性读段(或去重读段)进行分析。三核苷酸误差率计算为每种特定突变字段的错配率。如果三核苷酸字段具有零个突变体去重读段,则误差率设置为该字段中IR/去重读段的数目的倒数。
此外,使用定制Python脚本用该读段的cfDNA片段尺寸对每个数据点进行注释。然后,为了消除与该患者基因座的其余部分不一致的离群信号,我们进行了患者特异性离群抑制(图34)。现在对数据进行误差抑制(通过读段压缩和针对患者特异性测序数据的定制方法二者),并用信号富集(通过ctDNA测序的特征)所需的参数对其进行注释以用于INVAR方法。
INVAR数据过滤II-患者特异性离群抑制
患者特异性测序数据由在多个已知患者特异性基因座处的信息性读段组成,提供了比较基因座上的突变体等位基因分数作为误差抑制手段的机会。基因座上信号的分布潜在地允许鉴定与整体信号分布不一致的嘈杂基因座。在考虑所有基因座的平均信号的情况下测试每个基因座具有观察到突变体读段的概率(图34)。观察到具有比其余基因座显著更大的信号的基因座可能归因于该基因座处的噪声、污染或错误基因分型的SNP基因座。当通过INVAR靶向更大量的突变基因座时,错误基因分型SNP的可能性变得越来越大。
对于每个样品,确定通过了预INVAR数据处理过滤的基因座处的突变体等位基因分数<0.25的所有基因座上的IMAF。具有信号>0.25突变体等位基因分数的基因座不包括在计算中,因为(i)在残留病背景下,无法预期基因座具有如此高的突变体等位基因分数(除非其是错误基因分型的SNP),以及(ii)如果样品的真实IMAF>0.25,则在测试大量基因座时,它们将显示等位基因分数的分布,使得检测受到具有信号的许多低等位基因分数基因座的支持。
基于样品的ctDNA水平,计算在考虑该样品的IMAF的情况下观察到每个个体基因座的二项式概率。在该样品中排除了Bonferroni校正的P值<0.05(针对查询的基因座的数目进行校正)的基因座,从而抑制了离群。作为离群抑制的结果,背景噪声降低至33%对照样品,同时保留了患者样品中96.1%的信号(图34)。通过针对受试基因座的数目校正P值阈值,此过滤可以应用于具有每个患者的可变数目的靶向突变的数据,使得能够分析来自具有高和低突变率二者的癌症类型的患者的样品。
INVAR的统计检测方法
我们开发了统计方法来模拟多个患者特异性基因座处的突变体读段的数目,并入了可从患者特异性测序获得的现有信息,例如三核苷酸字段的背景误差、基因座处的肿瘤等位基因分数和片段长度。此方法在误差抑制之后汇总了覆盖多个患者特异性突变的信号。对于每个基因座,我们在考虑该字段的三核苷酸误差率的情况下测试了突变体读段的数目的显著性。使用三核苷酸误差率代替基因座特异性误差率,以便确定至10-7的背景误差率的更准确估计(图24c)。
认为肿瘤等位基因分数和三核苷酸误差率如下:将AFi表示为基因座i处的肿瘤突变体等位基因分数,ei表示为基因座i的情况下的背景误差,并且令p为该样品中ctDNA含量的估计值,以用于INVAR算法。如果基因座i处的随机读段来自突变体分子或错误测序的野生型DNA分子,则可以观察到所述基因座i处的随机读段是突变的。发生这种情况的概率为qi
qi=AFi·(1-ei)·p+(1-AFi)·ei·p+ei·(1-p) (1)
现在测试ctDNA的存在等同于测试统计假设Ho∶p=0。假定观察到的突变体读段的数目在基因座之间是独立的,则可以产生以下似然函数:
Figure BDA0003128387560000871
其中,Mij是基因座i的读段j中突变的指标,并且Ri是基因座i中读段的数目。上述方法允许通过肿瘤等位基因分数对信号进行加权,我们确认其影响患有早期和晚期疾病的患者样品中(图35a)和来自一个患者的加标稀释系列中(图35b)的血浆突变表达。
每个测序读段提供了片段尺寸信息(图35c),其可用于将突变体与野生型分子分开,并产生ctDNA富集(图24d)。在非侵入性产前检测背景下Fan等2建议,概率加权优先于尺寸选择以避免超低等位基因分数下的等位基因丢失。因此,读段长度信息也可以被并入到似然中。用于突变体和野生型片段的读段长度分布的估计的方法在用于INVAR的读段长度分布的估计这—部分中给出。该方法与尺寸选择相反,并且可以被认为是与以上进行的肿瘤AF加权一起的尺寸加权步骤。每个测序读段的片段尺寸可以并入INVAR方法。为此,令Lji为基因座i处读段j的长度。似然可以写成:
Figure BDA0003128387560000881
假定给定读段长度并且突变状态在给定读段来源(突变或野生型DNA)的情况下是独立的,我们可如下对似然进行分解:
Figure BDA0003128387560000882
其中zij是来自ctDNA的基因座i的读段j的指标,pk(lij)=P(lij|zij=k)并且gi=AFi·(1-ei)+(1-AFi)·ei。上述方法基于突变体和野生型读段的片段长度二者对信号进行加权,但是在INVAR的这种实施中,我们将所有野生型尺寸仓的权重设置为相等,从而忽略了来自野生型读段的尺寸信息。
最后,使用广义似然比检验(Generalized Likelihood Ratio test,GLRT)通过汇总该样品中所有患者特异性基因座的信号来为每个样品生成评分。GLRT直接将零假设下的似然与p的最大似然估计下的似然进行比较:
Figure BDA0003128387560000891
似然比的值越高,样品中ctDNA存在的证据越多。基于患者与对照样品之间的似然比的比较,对样品进行分类。
似然比阈值确定
其他患者用来在非共有基因座处彼此对照(图23c)。仅将在相同的测序组(即相同的定制测序组设计)上运行、具有相同的误差抑制设置并且靶向相同的突变列表的样品用于彼此对照。
为了准确地基于对照确定似然比(LR)的阈值,对来自每个对照样品的读段利用替换重复采样10次,并且运行GLRT脚本。为了使非患者特异性对照基因座处信号的任何患者特异性污染(通过与患者特异性位点重叠的从头突变)的风险减至最小限度,仅将患者特异性IMAF<1%的样品用作确定切割点的对照。基于患者对照和患者样品中的LR分布,使用R3中的‘OptimalCutpoints’包为每个组群确定LR截止值,并使用‘MaxSnSp'设置使灵敏度和特异度最大化。基于每个组群的LR,确定每个组群的分析特异度(图36)。
健康个体中特异度的评估
使用IV期黑素瘤和I-IIIA期NSCLC定制捕获组对26个健康个体的来自血浆的cfDNA进行分析。这些样品被视为‘患者’样品,并因此对线路中的过滤没有影响,并且也没有用于确定LR阈值。确定LR阈值(如上所述)之后,评估来自健康个体样品的LR,以用于ctDNA的假阳性检测。对于这些组群中的每一个,确定了健康个体中的临床特异度值(图36)。
估计每个样品的ctDNA含量以用于似然比确定
在本部分中,作为INVAR方法的一部分,我们推导了期望最大化(ExpectationMaximization,EM)算法来估计p。如果我们将肿瘤来源zij视为潜变量,并且假定其是已知的,则Z、M(mij是基因座i的读段j中突变的指标)、L(lij是基因座j的读段i的长度)、AF(AFi是基因座i处的肿瘤等位基因分数)、e(ei是基因座i的情况下的背景误差)的联合似然可以写成:
Figure BDA0003128387560000901
其中gi=AFi·(1-ei)+(1-AFi)·ei。对数似然在zij中是线性的,因此简单地用似然量的期望值替换具有阶段l的期望值的zij
Figure BDA0003128387560000906
其中pl是在迭代l时p的最佳估计值。因此,我们可以通过迭代地使相对于p的似然最大化以及取相对于zij的似然期望值来使用EM来找到p的最大似然估计。通过对pl取导数并将其等于零来获得pl的估计:
Figure BDA0003128387560000902
以上只是在阶段l时来自ctDNA的读段的预期比例。贝叶斯定理(Bayes’theorem)可用于计算
Figure BDA0003128387560000903
Figure BDA0003128387560000904
通过替换相应的概率,我们得到:
Figure BDA0003128387560000905
该算法通过交替p的最大化和zij的期望值来进行。
用于INVAR的读段长度分布的估计
使用INVAR进行尺寸加权首先取决于具有针对其进行加权的突变体和野生型读段的已知尺寸分布。为了以最高的准确性估计读段长度分布,我们使用来自健康样品和来自每个组群的患者的所有野生型和突变体读段,并且使用核密度估计来对各个概率进行平滑。
来自每个研究组群的尺寸分布示于图35中,并且每个尺寸范围的富集比示于图24d中。我们证明了早期组群的尺寸谱没有显著差异,而晚期黑素瘤组群具有显著更大的二核小体片段比率,尽管将数据下采样至相似的读段数目(图35d)。因此,合并来自两个早期组群的数据以生成突变体和野生型片段尺寸的先验分布,并使用0.25的缺省设置利用高斯核(Gaussian kernel)对数据进行平滑(图35e)。
考虑到野生型来源的细胞P(L=l|z=0),为了估计读段具有长度l的概率,我们使用了来自每个合并数据集的所有野生型读段。对于这两个数据集,我们利用高斯核使用R函数“密度”来对估计的概率进行平滑,并获得密度估计
Figure BDA0003128387560000912
最后,为了估计P(L=l|z=z),我们对各密度进行积分:
Figure BDA0003128387560000911
在数据稀疏的数据集中,为了避免对任何给定突变体片段分配太大的权重,对尺寸分布估计进行平滑是重要的。
信息性读段(IR)的计算
样品的信息性读段(IR)的数目是靶向突变的数目(即突变列表的长度)与通过测序分析的单倍体基因组的数目(hGA,等于读段压缩之后的去重覆盖率)的乘积。因此,可以基于1/IR计算每个样品的检测限(基于二项式概率对突变体分子的采样进行调整)。对于未检出的样品,1/IR值提供了该样品中ctDNA的上限的估计值;这允许对样品进行量化(即使不存在突变体分子),并且在图27d中被用于使用sWGS数据将置信上限限定为~10-4。另外,具有有限灵敏度的样品可以被鉴定并归类为“低灵敏度”或“不可评价”组,其中INVAR方法受IR数目的限制(图25)。在本研究中,我们旨在以比其他方法更高的灵敏度量化ctDNA,并将具有未检出ctDNA且IR<20,000的样品归为低灵敏度,并且因此不可评价。在该研究的整个组群中,有6个患者利用这些标准是不可评价的。
整合突变体等位基因分数(IMAF)的计算
为了量化多个突变基因座上的ctDNA,我们如下计算了“整合突变体等位基因分数”:
a)对于样品中的每种三核苷酸字段,计算所有患者特异性基因座上的去重深度加权的平均等位基因分数。
b)从在(a)中计算的平均等位基因分数中减去对照数据中每种三核苷酸字段的背景误差率。减去后突变体等位基因分数为负的三核苷酸字段设置为零。
c)取得整个三核苷酸字段的平均背景扣除的等位基因分数,通过每种三核苷酸字段的去重深度加权。
实验加标稀释系列
将来自具有总共5,073个患者特异性变体的一个患者的血浆DNA在来自11个健康个体(Seralab)的血浆cfDNA的合并物中逐步10倍系列稀释,得到跨越1至100,000×的稀释系列。如方法中所述用每种稀释的50ng输入进行文库制备。为了查询稀释系列中足够大数目的分子以评估灵敏度,一式三份产生最低稀释(100,000×)。包含健康对照cfDNA合并物作为对照样品以用于确定基因座误差率,以鉴定和排除潜在的SNP位点(图24e)。考虑到肿瘤等位基因分数与血浆突变表达之间的关系(图35b),INVAR的任何较小组均应基于具有最高优先级的克隆突变,并且仅在血浆测序数据足够广泛时才包括较低等位基因分数。因此,我们从每个稀释系列测序文库中利用替换对数据进行迭代采样(用50次迭代),并随后选择前N个突变(跨越1至5,000个突变)。具有最高突变体等位基因分数的基因座是BR4F V600E突变。在对基因座数目进行下采样之后,除单个BRAF V600E基因座数据之外,所有样品均重复进行离群抑制。
具有很少信息性读段的估计的检出率
基于检测的样品的IMAF,可以估算在用完全灵敏的测定获得较少IR的情况下的检出率。对于给定的IR数目(r),可以如下确定用于ctDNA的95%检测限(p):
p=1-elog(1-0.95)/r
因此,对于IR值向量中的每个条目(102、103...107),计算每个组群的癌症的检出率,并绘制在图26e中。IR值向量的最大值设置为大于该组群中每个样品的最大IR数目,并四舍五入到最接近的数量级。对于II-III期黑素瘤患者,检出定义为对于5年内复发的患者的灵敏度。使用线性回归来计算每个组群的R2值。
实施例14的补充方法的参考文献
1.Zhang,J.,Kobert,K.,Flouri,T.&Stamatakis,A.PEAR:A fast and accurateIllumina Paired-End reAd mergeR.Bioinformatics30,614-620(2014).
2.Fan,H.C.,Blumenfeld,Y.J.,Chitkara,U.,Hudgins,L.&Quake,S.R.Analysisof the size distributions of fetal and maternal cell-free DNA by paired-endsequencing.Clin.Chem.56,1279-1286(2010).
3.López-Ratón,M.,
Figure BDA0003128387560000931
M.X.,Suárez,C.C.&Sampedro,F.G.OptimalCutpoints:An R Package for Selecting Optimal Cutpoints inDiagnostic Tests.J.Stat.Softw.61,1-36(2014).
4.University of Michigan.Connor-METHODS.(2016).at<https://github.com/umich-brcf-bioinf/Connor/blob/master/doc/METHODS.rst>
5.Forshew,T.et al.Noninvasive Identification and Monitoring of CancerMutations by Targeted Deep Sequencing of Plasma DNA.Sci.Transl.Med.4,136ra68-136ra68(2012).
6.Newman,A.M.et al.An ultrasensitive method for quantitatingcirculating tumor DNA with broad patient coverage.Nat.Med.20,548-54(2014).
7.Abbosh,C.et al.Phylogenetic ctDNA analysis depicts early stage lungcancer evolution.Nature 22364,1-25(2017).
8.Wang,J.-P.SPECIES:An R Package for Species RichnessEstimation.J.Stat.Softw.40,1-15(2011).
参考文献
1.Wan JCM,Massie C,Garcia-Corbacho J,et al.Liquid biopsies come ofage:towards implementation of circulating tumour DNA.Nat Rev Cancer 2017;17:223-38.
2.Siravegna G,Marsoni S,Siena S,Bardelli A.Integrating liquidbiopsies into the management of cancer.Nat Rev clin Oncol 2017;
3.Bettegowda C,Sausen M,Leary RJ,et al.Detection of circulating tumorDNA in early-and late-stage human malignancies.Sci Transl Med 2014;6(224):224ra24.
4.Diehl F,Li M,Dressman D,et al.Detection and quantification ofmutations in the plasma of patients with colorectal tumors.Proc Natl Acad SciU S A 2005;102(45):16368-73.
5.Forshew T,Murtaza M,Parkinson C,et al.Noninvasive Identificationand Monitoring of Cancer Mutations by Targeted Deep Sequencing of PlasmaDNA.Sci Transl Med 2012;4(136):136ra68-136ra68.
6.Abbosh C,Birkbak NJ,Wilson GA,et al.Phylogenetic ctDNA analysisdepicts early stage lung cancer evolution.Nature
2017;22364:1-25.
7.Newman AM,Lovejoy AF,Klass DM,et al.Integrated digital errorsuppression for improved detection of circulating tumor DNA.Nat Biotechnol2016;34(5):547-55.
8.Newman AM,Bratman SV,To J,et al.An ultrasensitive method forquantitating circulating tumor DNA with broad patient coverage.Nat Med 2014;20(5):548-54.
9.Murtaza M,Dawson S-J,Tsui DWY,et al.Non-invasive analysis ofacquired resistance to cancer therapy by sequencing of plasma DNA.Nature2013;497(7447):108-12.
10.Hodis E,Watson IR,Kryukov G V.,et al.A Landscape of DriverMutations in Melanoma.Cell 2013;150(2):251-63.
11.Kinde I,Wu J,Papadopoulos N,Kinzler KW,Vogelstein B.Detection andquantification of rare mutations with massively parallel sequencing.Proc NatlAcad Sci 2011;108(23):9530-5.
12.Hoang ML,Kinde I,Tomasetti C,et al.Genome-wide quantification ofrare somatic mutations in normal human tissues using massively parallelsequencing.Proc Natl Acad Sci2016;113(35):9846-51.
13.Underhill HR,Kitzman JO,Hellwig S,et al.Fragment Length ofCirculating Tumor DNA.PLOS Genet 2016;12(7):426-37.
14.Mouliere F,Rosenfeld N.circulating tumor-derived DNA is shorterthan somatic DNA in plasma.Proc Natl Acad Sci 2015;112(11):201501321.
15.Thierry AR,Mouliere F,Gongora C,et al.Origin and quantification ofcirculating DNA in mice with human colorectal cancer xenografts.Nucleic AcidsRes 2010;38(18):6159-75.
16.Poole W,Gibbs DL,Shmulevich I,Bernard B,Knijnenburg TA.Combiningdependent P-values with an empirical adaptation of Brown′smethod.Bioinformatics 2016;32(17):i430-6.
17.Mouliere F,Piskorz AM,Chandrananda D,et al.Selecting Short DNAFragments In Plasma Improves Detection Of Circulating Tumour DNA.bioRxiv2017;
18.Eisenhauer EA,Therasse P,Bogaerts J,et al.New response evaluationcriteria in solid tumours:Revised RECIST guideline(version 1.1).Eur J Cancer2009;45(2):228-47.
19.Forbes SA,Beare D,Gunasekaran P,et al.COSMIC:Exploring the world′sknowledge ef somatic mutations in human cancer.Nucleic Acids Res 2015;43(D1):D805-11.
20.Jiang P,Chan CWM,Chan KCA,et al.Lengthening and shortening ofplasma DNA in hepatocellular carcinoma patients.Proc Natl Acad Sci 2015;112(11):E1317-25.
21.Jiang P,Lo YMD.The Long and Short of Circulating Cell-Free DNA andthe Ins and Outs of Molecular Diagnostics.Trends Genet2016;32(6):360-71.
22.Fan HC,Blumenfeld YJ,Chitkara U,Hudgins L,Quake SR.Analysis of thesize distributions of fetal and maternal cell-free DNA by paired-endsequencing.Clin Chem 2010;56(8):1279-86.
23.Chan KCA,Zhang J,Hui ABY,et al.Size Distributions of Maternal andFetal DNA in Maternal Plasma.Clin Chem 2004;50(1):88-92.
24.Alexandrov LB,Jones PH,Wedge DC,Sale JE,Peter J.Clock-likemutational processes in human somatic cells.Nat Publ Gr2015;47(12):1402-7.
25.Nioche C,Orlhac F,Boughdad S,et al.A freeware for tumorheterogeneity characterization in PET,SPECT,CT,MRI and US to accelerateadvances in radiomics.J Nucl Med 2017;58(supplement1):1316.
26.Varela I,Tarpey P,Raine K,et al.Exome sequencing identifiesfrequent mutation of the SWI/SNF complex gene PBRM1 in renal carcinoma.Nature2011;469(7331):539-42.
27.Manson-Bahr D,Ball R,Gundem G,et al.Mutation detection informalin-fixed prostate cancer biopsies taken at the time of diagnosis usingnext-generation DNA sequencing.J Clin Pathol2015;68(3):212-7.
28.Rubicon Genomics.
Figure BDA0003128387560000963
Tag-seq Kit Instruction Manual[Internet].2016;Available from:http://rubicongenomics.com/wp-content/uploads/2016/08/QAM-328-001-ThruPLEX-Tag-seq-Kit-Instruction-Manual.pdf
29.Rubicon Genomics.Targeted Capture of
Figure BDA0003128387560000961
Libraries withAgilent
Figure BDA0003128387560000962
Target Enrichment System[Internet].Available from:rubicongenomics.com/wp-content/uploads/2016/11/RDM-152-002-SureSelectXT.pdf
30.University of Michigan.Connor-METHODS[Internet].2016[cited 2017Mar 27];Available from:https://github.com/umich-brcf-bioinf/Connor/blob/master/doc/METHODS.rst
31.moonso.VCF Parser[Internet].2016[cited 2017 May8];Available from:https://github.com/moonso/vcf_parser Brash DE.UV SignatureMutations.Photochemistry and photobiology.2015;91(1):15-26.doi:10.1111/php.12377.
32.Hodis E,Watson IR,Kryukov GV,et al.A Landscape of Driver Mutationsin Melanoma.Cell.2012;150(2):251-263.doi:10.1016/j.cell.2012.06.024.
33.Jamal-Hanjani GA et al.Detection of ubiquitous and heterogeneousmutations in cell-free DNA from patients with early-stage non-small-cell lungcancer,Annals of Oncology,Volume 27,Issue 5,1 May 2016,Pages 862-867,https://doi.org/10.1093/annonc/mdw037
34.Shyr C,Tarailo-Graovac M,Gottlieb M,Lee JJ,van Karnebeek C,Wasserman WW.FLAGS,frequently mutated genes in public exomes.BMC MedicalGenomics.2014;7:64.doi:10.1186/s12920-014-0064-y.
***
本文中引用的所有参考文献均通过引用整体并入本文并且用于所有目的,其程度如同每个单独的出版物或专利或专利申请被具体地和单独地指示为通过引用整体并入。
本文中描述的具体实施方案仅通过示例而非通过限制来提供。本文中包含的任何小标题仅是为了方便起见,而不应被解释为以任何方式限制本公开内容。
序列表
<110> CANCER RESEARCH TECHNOLOGY LIMITED
<120> 变体检测的改进
<130> 7466899
<140> Not known
<141> 2019-11-21
<150> GB1819134.6
<151> 2018-11-23
<160> 2
<170> PatentIn version 3.5
<210> 1
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> dPCR 引物 hLINE1 FWD
<400> 1
tcactcaaag ccgctcaact ac 22
<210> 2
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> dPCR 引物 hLINE1 REV
<400> 2
tctgccttca tttcgttatg tacc 24

Claims (29)

1.用于在获得自对象的样品中检测变体无细胞DNA(cfDNA)的方法,其中对所述样品的分析包括分离出不同片段尺寸的DNA的尺寸选择步骤。
2.根据权利要求1所述的方法,其中所获得的样品是少于500μl、少于400μl、少于200μl、少于100μl、少于75μl或少于50μl的有限体积样品;和/或其中所述样品包含无细胞DNA的至多200、150、100或80个人单倍体基因组等同物;优选地其中所述样品是体液样品。
3.根据权利要求1或权利要求2所述的方法,其中在所述尺寸选择步骤之前,未对所述样品进行去除、耗尽或过滤细胞或细胞物质的处理步骤;任选地其中所述方法还包括在所述尺寸选择步骤之前的DNA提取步骤。
4.根据前述权利要求中任一项所述的方法,其中所获得的样品是选自以下的有限体积样品:
(i)少于500μl、少于400、少于200、少于100μl、少于75μl的血液、血清或血浆样品(例如,约50μl的血液或血浆样品)或者少于50μl的血液、血清或血浆样品;
(ii)细针抽吸物(FNA);
(iii)淋巴结活检物;
(iv)尿、脑脊液、痰、支气管灌洗液、宫颈涂片或细胞学样品;
(v)从自患者收集的时间起已储存超过1年、2年、3年、5年或10年的样品;以及
(vi)先前已被处理并且DNA质量指标或测序质量不合格的样品,或属于样品组的样品,所述样品组的其他样品先前已被处理并且DNA质量指标或测序质量不合格;
(vii)在对样品进行去除、耗尽、滤出或中和细胞物质的处理之前和/或进行去除、耗尽或滤出除无细胞DNA之外的DNA的任何DNA尺寸选择步骤之前已储存超过1天、超过2天、超过3天、超过5天、超过10天的所述样品;
(viii)收集之后已干透的样品,例如干血斑点或针刺血液样品;任选地其中所述样品已经在滤纸上或者在管或毛细管中干透;以及
(ix)包含基因组DNA或其他污染(非无细胞DNA)的样品,所述基因组DNA或其他污染(非无细胞DNA)的量使得所述无细胞DNA占所述样品中DNA的少于5%、少于3%、少于2%或少于1%。
5.根据前述权利要求中任一项所述的方法,其中所述尺寸选择步骤包括在分析之前,例如在DNA测序或检测来自无细胞DNA的信号的其他分子生物学技术之前,滤出、耗尽或去除>200bp、>300bp、>500bp、>700bp、>1000bp、>1200bp、>1500bp或>2000bp的基因组DNA(gDNA)片段。
6.根据前述权利要求中任一项所述的方法,其中所述方法包括对经尺寸选择的样品进行分析以检测来自无细胞DNA的信号,任选地其中检测来自无细胞DNA的信号包括获得代表变体在多个基因座处的存在/不存在、数量或相对表示的信号,优选地其中所述分析查询至少50、100、500、1000、2500或5000个基因座或者全基因组。
7.根据前述权利要求中任一项所述的方法,其中所述方法包括通过以下对所述样品进行分析以检测来自无细胞DNA的信号:
(i)对经尺寸选择的样品或从所述经尺寸选择的样品生成的文库进行DNA测序以生成多个序列读段并且对所述序列读段进行分析以检测ctDNA的存在;
(ii)对DNA修饰进行分析,所述DNA修饰例如甲基化;
(iii)使用聚合酶进行的分析,例如PCR、qPCR、数字PCR;
(iv)使用核酸试剂进行的分析,所述核酸试剂例如引物或探针或可通过杂交与所述样品中的DNA相互作用的其他序列;
(v)使用结合或亲和试剂进行的分析,所述结合或亲和试剂例如抗体。
8.根据任一项或前述权利要求所述的方法,其中获得自所述对象的所述样品是:
干血斑点样品;
针刺血液样品;
在从所述对象中收集之后已储存超过1天(例如,至少2天、至少3天、至少一周或至少一个月)、至少1年或至少10年的少于500μl的档案血液、血清或血浆样品。
9.根据前述权利要求中任一项所述的方法,其中所述对象是健康的或患有疾病(例如癌症)和/或其中所述对象是人或非人动物(例如啮齿动物)。
10.根据权利要求9的所述方法,其中所述动物模型是具有经异种植入或异种移植的人肿瘤组织的啮齿动物。
11.根据前述权利要求中任一项所述的方法,其中所述分析包括对经尺寸选择的样品或从所述经尺寸选择的样品生成的文库进行下一代测序(NGS)。
12.根据前述权利要求中任一项所述的方法,其中所述尺寸选择步骤在测序文库制备步骤之前或之后进行。
13.根据前述权利要求中任一项所述的方法,其中所述方法包括在所述尺寸选择步骤之前从所述样品中提取DNA以及将所提取的DNA溶液的总体积调整至20μl至200μl、20μl至150μl、20μl至100μl、20μl至50μl、或约25μl。
14.根据前述权利要求中任一项所述的方法,其中所述尺寸选择步骤是采用基于珠的gDNA片段捕获的右侧尺寸选择,任选地其中所使用珠溶液的量根据制造商的说明相对于含DNA样品的体积来确定。
15.根据权利要求14所述的方法,其中所述尺寸选择步骤包括两个分开的基于珠的捕获步骤,任选地其中所述两个分开的基于珠的捕获步骤以两个不同的珠与样品(v∶v)比例进行。
16.根据前述权利要求中任一项所述的方法,其中使用样品的总体积对所述样品进行尺寸选择,所述样品的总体积是通过从包含无细胞DNA的少于约200、150、100、80、50或20个人单倍体基因组等同物的样品或其一部分中提取DNA来获得的。
17.根据前述权利要求中任一项所述的方法,其中所述变体无细胞DNA是循环肿瘤DNA(ctDNA)。
18.根据权利要求17所述的方法,其中所述方法用于癌症的早期检测、癌症治疗的监测、残留病的检测,用于指导治疗决策、评估所述对象中癌症的状态或癌症进展或癌症对治疗的响应或者所述对象对进一步治疗的需求或类型。
19.根据权利要求18所述的方法,其中所述对象是患癌症的人或动物模型(例如啮齿动物)。
20.根据前述权利要求中任一项所述的方法,其中所述方法用于检测或监测宿主生物体中的异种移植细胞。
21.根据前述权利要求中任一项所述的方法,其中所述变体无细胞DNA包含:
来自已移植到患者体内的供体组织或器官的cfDNA;
来自不同细胞类型、组织或器官的cfDNA;
来自病原体例如病毒的DNA;
来自患者中妊娠中胎儿的胎儿cfDNA;或
异常甲基化的cfDNA。
22.根据前述权利要求中任一项所述的方法,其中所述方法用于提供信息以指导医学治疗、饮食变化或体育训练,用于检测可通过分析无细胞DNA检测到的疾病、病理状况或生理状态,或者用于法医分析或鉴定样品中存在生物材料的个体或鉴定样品中存在生物材料的生物体。
23.根据前述权利要求中任一项所述的方法,其中所述患者是患有或怀疑患有小儿癌症的人儿童。
24.根据前述权利要求中任一项所述的方法,其中所述分析包括对经尺寸选择的样品或从所述经尺寸选择的样品生成的文库进行分析以获得来自无细胞DNA的信号,例如通过测序生成序列读段,并且还包括通过对跨越多个基因座的所述信号进行总结或组合的方法对所述信号例如所述序列读段进行分析,任选地其中获得和/或分析至少50、100、500、1000、2500或5000个基因座或者全基因组的信号。
25.根据权利要求20所述的方法,其中对来自无细胞DNA的信号进行分析包括进行选自以下的方法:
进行拷贝数分析;
处理所述信号,例如所述序列读段,以从拷贝数中性(t-MAD)得分或ichorCNA得分中确定修整后的中位绝对偏差;
确定并比较不同变体cfDNA的量,其中不同变体源自不同的生物来源,任选地其中不同的生物来源选自不同的细胞类型或组织、不同的生理状态例如疾病/病理来源和健康来源、不同的生物体例如宿主生物体和外来或移植的生物来源;和/或
将所述序列读段与至少两个不同的参考基因组,例如人参考基因组和啮齿动物参考基因组进行比对,以及任选地导出与映射到所述参考基因组之一的读段的量或比例相关的汇总度量。
26.根据权利要求25所述的方法,其中确定并比较不同变体cfDNA的量包括测量第一变体cfDNA和第二变体cfDNA的量以及计算这些量的比率,任选地其中单独针对多个基因座中的每一个确定所述第一变体和第二变体的量,或者将所述第一变体和第二变体的量确定为代表多个基因座的组合量。
27.根据权利要求26所述的方法,其中所述变体cfDNA使用对所述变体不具有特异性的用于从无细胞DNA获得信号的方法来检测,所述方法例如全基因组测序。
28.根据权利要求25所述的方法,其中所述t-MAD得分通过对来源于健康对象的全基因组数据集中显示高拷贝数变异性的基因组区域进行修整,然后由所述基因组的非修整区域的log2R=0计算所述中位绝对偏差来确定。
29.根据前述权利要求中任一项所述的方法,其中所述分析包括对经尺寸选择的样品或从所述经尺寸选择的样品生成的文库进行测序以生成序列读段,并且还包括通过进行用于在获得自患者的含DNA样品中检测无细胞DNA(cfDNA)例如循环肿瘤DNA(ctDNA)的计算机执行方法对所述序列读段进行分析,所述方法包括:
(a)提供目的基因座,所述目的基因座包含至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个代表所述患者之肿瘤的含突变基因座(“患者特异性基因座”);
(b)提供序列数据,所述序列数据包含来自所述患者的含DNA样品的多个多核苷酸片段的序列读段,其中所述序列读段跨越步骤(a)的所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个含突变基因座;
(c)执行读段压缩以将所述序列读段分组为读段家族;
(d)根据下式通过对突变体读段和总读段进行汇总来计算覆盖所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个患者特异性基因座中的一些或全部的突变体等位基因分数:
Figure FDA0003128387550000061
(e)将所述样品根据以下进行分类:
(i)当发现所述突变体等位基因分数大于或在统计学上显著大于背景测序误差率时:分类为含有cfDNA(例如ctDNA);或
(ii)当未发现所述突变体等位基因分数大于或在统计学上显著大于背景测序误差率时:分类为不含cf DNA(例如ctDNA)或具有未知的cf DNA(例如ctDNA)状态。
CN201980085671.3A 2018-11-23 2019-11-22 变体检测的改进 Pending CN113316645A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1819134.6 2018-11-23
GBGB1819134.6A GB201819134D0 (en) 2018-11-23 2018-11-23 Improvements in variant detection
PCT/EP2019/082268 WO2020104670A1 (en) 2018-11-23 2019-11-22 Improvements in variant detection

Publications (1)

Publication Number Publication Date
CN113316645A true CN113316645A (zh) 2021-08-27

Family

ID=65024359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980085671.3A Pending CN113316645A (zh) 2018-11-23 2019-11-22 变体检测的改进

Country Status (6)

Country Link
US (1) US20220017891A1 (zh)
EP (1) EP3884068A1 (zh)
CN (1) CN113316645A (zh)
CA (1) CA3119078A1 (zh)
GB (1) GB201819134D0 (zh)
WO (1) WO2020104670A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP3957749A1 (en) 2014-04-21 2022-02-23 Natera, Inc. Detecting tumour specific mutations in biopsies with whole exome sequencing and in cell-free samples
WO2016183106A1 (en) 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
KR102530247B1 (ko) * 2020-09-01 2023-05-09 주식회사 아이엠비디엑스 cfDNA의 저빈도 변이 검출을 위해 NGS 분석에 사용되는 고유 단편의 비율을 증가시키는 방법
EP4326905A1 (en) * 2021-04-22 2024-02-28 Natera, Inc. Methods for determining velocity of tumor growth
EP4130293A1 (en) * 2021-08-04 2023-02-08 OncoDNA SA Method of mutation detection in a liquid biopsy
CN117050867A (zh) * 2023-08-20 2023-11-14 浙江深华生物科技有限公司 一种评估肿瘤dna高通量定量检测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140274740A1 (en) * 2013-03-15 2014-09-18 Verinata Health, Inc. Generating cell-free dna libraries directly from blood
CN107406885A (zh) * 2015-01-13 2017-11-28 香港中文大学 使用血浆dna的尺寸和数目畸变检测癌症
US20180208999A1 (en) * 2017-01-25 2018-07-26 The Chinese University Of Hong Kong Office of Research and Knowledge Transfer Services Diagnostic applications using nucleic acid fragments
CN108473932A (zh) * 2015-09-09 2018-08-31 集联健康有限公司 用于样品收集、稳定化和保存的系统、方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140274740A1 (en) * 2013-03-15 2014-09-18 Verinata Health, Inc. Generating cell-free dna libraries directly from blood
CN107406885A (zh) * 2015-01-13 2017-11-28 香港中文大学 使用血浆dna的尺寸和数目畸变检测癌症
CN108473932A (zh) * 2015-09-09 2018-08-31 集联健康有限公司 用于样品收集、稳定化和保存的系统、方法和装置
US20180208999A1 (en) * 2017-01-25 2018-07-26 The Chinese University Of Hong Kong Office of Research and Knowledge Transfer Services Diagnostic applications using nucleic acid fragments

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ELAINE C. MAGGI ET AL: "Development of a Method to Implement Whole-Genome Bisulfite Sequencing of cfDNA from Cancer Patients and a Mouse Tumor Mode", FRONTIERS IN GENETICS, vol. 9 *
LL YING ET AL: "Size separation of circulatory DNA in maternal plasma permits ready detection of fetal DNA polymorphisms", CLINICAL CHEMISTRY, vol. 50, no. 6, pages 1002 - 1011, XP002510472, DOI: 10.1373/CLINCHEM.2003.029835 *

Also Published As

Publication number Publication date
GB201819134D0 (en) 2019-01-09
US20220017891A1 (en) 2022-01-20
WO2020104670A1 (en) 2020-05-28
EP3884068A1 (en) 2021-09-29
CA3119078A1 (en) 2020-05-28

Similar Documents

Publication Publication Date Title
CN113316645A (zh) 变体检测的改进
CN112020563A (zh) 变体检测的改进
Esfahani et al. Inferring gene expression from cell-free DNA fragmentation profiles
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
US20220195530A1 (en) Identification and use of circulating nucleic acid tumor markers
Newman et al. Integrated digital error suppression for improved detection of circulating tumor DNA
US20210065842A1 (en) Systems and methods for determining tumor fraction
WO2018151601A1 (en) Swarm intelligence-enhanced diagnosis and therapy selection for cancer using tumor- educated platelets
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
AU2016293025A1 (en) System and methodology for the analysis of genomic data obtained from a subject
US20200372296A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
IL258999A (en) Methods for detecting copy-number variations in next-generation sequencing
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
Zhu et al. Advantages of single-stranded DNA over double-stranded DNA library preparation for capturing cell-free tumor DNA in plasma
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
JP2023536325A (ja) 試料中のがんdnaを検出するための高感度の方法
Cheng et al. Whole genome error-corrected sequencing for sensitive circulating tumor DNA cancer monitoring
JP2021536232A (ja) 試料間の汚染を検出するための方法およびシステム
WO2023091517A2 (en) Systems and methods for gene expression and tissue of origin inference from cell-free dna
WO2024038396A1 (en) Method of detecting cancer dna in a sample
WO2023220602A1 (en) Detecting degradation based on strand bias

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination