CN115428087A - 克隆水平缺乏靶变体的显著性建模 - Google Patents

克隆水平缺乏靶变体的显著性建模 Download PDF

Info

Publication number
CN115428087A
CN115428087A CN202180026694.4A CN202180026694A CN115428087A CN 115428087 A CN115428087 A CN 115428087A CN 202180026694 A CN202180026694 A CN 202180026694A CN 115428087 A CN115428087 A CN 115428087A
Authority
CN
China
Prior art keywords
determining
nucleic acid
sample
variant
target nucleic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180026694.4A
Other languages
English (en)
Inventor
亚历山大·阿特西奥门卡
亚伦·艾萨克·哈丁
史蒂芬·费尔克拉夫
马尔辛·西科拉
卡塔林·巴尔巴西奥鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Publication of CN115428087A publication Critical patent/CN115428087A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

本文提供了做出阴性预测的方法。在一些方面,提供了使用计算机至少部分地确定在从具有特定癌症类型的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的方法。这些方法中的某些包括:确定在从受试者获得的cfNA样品中未检测到第一靶核酸变体;通过计算机产生至少一个基于肿瘤分数的值;通过计算机产生至少一个互斥值;以及使用基于肿瘤分数的值和/或互斥值确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体。还提供了另外的方法和相关的系统以及计算机可读介质。

Description

克隆水平缺乏靶变体的显著性建模
交叉引用
本申请要求于2020年1月31日提交的美国临时专利申请第62/968,507号的优先权日的权益,该美国临时专利申请出于所有目的通过引用以其整体并入。
背景
在晚期结肠直肠癌(CRC)中,指南建议仅在其肿瘤为KRAS、NRAS和BRAF野生型的患者中使用抗EGFR疗法。迄今为止,无细胞循环肿瘤DNA(ctDNA)测试已经被用作用于肿瘤来源的基因组改变和微卫星不稳定性(MSI)的阳性检测的确认测试(rule-in test),与组织测序高度一致(Gupta等人,Oncologist,24:1-9(2019),Parikh等人,Nat Med.,25(9):1415-1421(2019))。然而,由于低ctDNA脱落影响检测灵敏度的可能性,排除这样的突变的能力受限。使用ctDNA或其他核酸以高置信度确定肿瘤内特定基因的野生型状态将有助于及时做出治疗决定,并且避免用于确认野生型状态的组织活检。
因此,仍然需要鉴定遗传变体或其不存在,以诊断通过遗传分析(特别是根据无细胞核酸(cfNA)样品)可检测的疾病和/或指导该疾病的治疗。
概述
本公开内容涉及基于对核酸的各种状态的确定来产生精确诊断的技术,所述核酸诸如来自测序的样品的基因组、染色体或其他遗传部分的DNA或RNA。对靶变体的检测可以有助于指导治疗计划。
当未检测到遗传变体时,确定遗传变体是否是因为以下原因而未被检测到可能同样重要:在样品中在克隆水平上实际不存在变体(真阴性结果),或者在克隆水平上实际存在遗传变体但未被检测到(假阴性结果)。本文描述了涉及阴性预测的显著性建模的改进,诸如在样品中遗传变体未被检测到还是实际上不存在。在特定实例中,显著性建模可以基于从样品产生的核酸序列读段生成并使用肿瘤变体或突变的肿瘤分数(TF)的计算估计值。
可选地或另外地,显著性建模可以确定并使用在样品中检测到或未检测到的其他变体的流行率和/或多样性。例如,显著性建模可以使用与靶变体共现的协方差变体(covariance variants)或通常不与靶变体共现的互斥变体的检测。阴性预测值(“NPV”)可以基于样品的TF估计值和/或在样品中检测到或未检测到的变体的多样性来产生。结果可以用于提供阴性诊断(例如,在感兴趣的基因座处不存在特定变体)的置信水平和/或进一步指导基于阴性诊断的治疗计划。例如,在癌症诊断的背景下,共现变体可以包括倾向于促进肿瘤形成的驱动变体,并且互斥变体可以包括倾向于抑制肿瘤形成的肿瘤抑制因子变体。
在一方面,本公开内容提供了确定在从受试者获得的核酸样品中在第一基因座处在克隆水平上不存在感兴趣的第一变体的概率的方法。该方法包括访问样品中核酸的多于一个序列读段;以及基于所述多于一个序列读段确定在样品中在第一基因座处未检测到第一变体。该方法还包括基于在克隆水平上不存在第一变体的概率产生第一似然值(likelihood value),以及基于在克隆水平上并非不存在第一变体的概率产生第二似然值;基于第一似然值和第二似然值确定定量值;将定量值与阈值进行比较;以及基于所述比较确定在第一基因座处在克隆水平上不存在感兴趣的第一变体。
在一方面,本公开内容提供了确定在人类受试者的无细胞核酸(cfNA)样品中在第一基因座处在克隆水平上不存在感兴趣的第一变体(和阴性预测)的方法。该方法包括访问cfNA样品的多于一个序列读段;以及基于所述多于一个序列读段确定在样品中在第一基因座处未检测到第一变体。该方法还包括基于在克隆水平上不存在第一变体的概率产生第一似然值,和/或基于在克隆水平上并非不存在第一变体的概率产生第二似然值;以及基于所述比较分类为在第一基因座处在克隆水平上不存在感兴趣的第一变体。
在一方面,本公开内容提供了确定在人类受试者的无细胞脱氧核糖核酸(cfDNA)样品中在第一基因座处在克隆水平上不存在感兴趣的第一变体(和阴性预测)的方法。该方法包括访问cfDNA样品的多于一个序列读段;以及基于所述多于一个序列读段确定在样品中在第一基因座处未检测到第一变体。该方法还包括基于在克隆水平上不存在第一变体的概率产生第一似然值,和/或基于在克隆水平上并非不存在第一变体的概率产生第二似然值;任选地基于第一似然值和/或第二似然值确定定量值;将定量值和/或第一似然值和/或第二似然值与阈值进行比较;以及基于所述比较确定(例如,在此背景下分类为或判定(call))在第一基因座处在克隆水平上不存在感兴趣的第一变体。
在一些实施方案中,产生第一似然值和第二似然值包括:确定样品的肿瘤分数估计值,其中第一似然值和第二似然值基于肿瘤分数估计值。在某些实施方案中,确定肿瘤分数估计值包括:确定样品中肿瘤突变的最大突变等位基因频率(MAX MAF)。在这些实施方案中的一些中,确定MAX MAF包括基于多于一个序列读段确定与肿瘤突变相关的分子计数。在某些实施方案中,产生第一似然值和第二似然值包括:确定至少第二变体的等位基因频率,其中第一似然值和第二似然值进一步基于等位基因频率和MAX MAF。在这些实施方案中的某些中,方法还包括将等位基因频率与基于MAX MAF的第二阈值进行比较,其中确定在第一基因座处在克隆水平上不存在感兴趣的第一变体进一步基于MAF与第二阈值的比较。在这些实施方案中的某些中,确定等位基因频率包括:基于多于一个序列读段确定与第一变体相关的第一分子计数。在一些实施方案中,确定定量值包括:访问指示与第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中定量值基于协变量信息。在这些实施方案中的一些中,方法还包括确定cfDNA样品中至少第二变体的流行率,其中定量值进一步基于协变量信息。
在某些实施方案中,确定定量值包括:访问指示与第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中定量值基于协变量信息。在这些实施方案中的一些中,方法还包括确定cfDNA样品中至少第二变体的流行率,其中定量值进一步基于第二变体的流行率。在某些实施方案中,定量值基于第一似然值与第二似然值的比值。在某些实施方案中,方法还包括基于定量值确定在cfDNA样品中在克隆水平上不存在第一变体的置信水平。在一些实施方案中,方法还包括确定生成治疗计划以治疗人类受试者的疾病。在这些实施方案中的一些中,疾病是癌症。在某些实施方案中,方法还包括确定cfDNA样品中至少第二变体的流行率;以及基于cfDNA样品中至少第二变体的流行率来调整定量值。
在另一方面,本公开内容提供了一种使用计算机至少部分地确定在从具有特定癌症类型的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的方法。该方法包括确定在cfNA样品中在第一遗传基因座处未检测到第一靶核酸变体;根据从cfNA样品产生的序列信息通过计算机确定第一遗传基因座的覆盖度;以及根据从cfNA样品产生的序列信息通过计算机确定肿瘤分数。该方法还包括根据覆盖度和肿瘤分数通过计算机确定在cfNA样品中在第一遗传基因座处并非不存在第一靶核酸变体的概率,以产生定量值;以及当定量值不同于阈值时,确定(例如,在此背景下分类为或判定)在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体。
在另一方面,本公开内容提供了一种使用计算机至少部分地确定在从受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的方法。该方法包括:确定在从受试者获得的cfNA样品中未检测到第一靶核酸变体,以产生第一测试结果;确定在从受试者获得的cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;以及根据第二测试结果通过计算机确定在cfNA样品中不存在第一靶核酸变体的第一概率和/或根据第二测试结果确定在cfNA样品中并非不存在第一靶核酸的第二概率。该方法还包括:使用第一概率、第二概率和/或其比值通过计算机产生定量值;以及当定量值不同于阈值时,确定(例如,在此背景下分类为或判定)在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体。
在另一方面,本公开内容提供了一种使用计算机至少部分地确定在从具有特定癌症类型的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的方法。该方法包括:确定在从受试者获得的cfNA样品中未检测到第一靶核酸变体;通过计算机产生至少一个基于肿瘤分数的值;通过计算机产生至少一个互斥值;以及使用基于肿瘤分数的值和/或互斥值确定(例如,在此背景下分类为或判定)在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体。
在一些实施方案中,定量值小于阈值,而在其他实施方案中,定量值大于阈值。在某些实施方案中,定量值包括对数似然比(LLR)阈值。通常,第一测试结果和第二测试结果取决于彼此。在某些实施方案中,本文公开的方法包括确定在一个或更多个其他遗传基因座(例如,一组选择的基因座或靶基因座)处不存在多于一个其他选择的靶核酸变体。
在某些实施方案中,方法包括确定在多于一个参考cfNA样品中在第一遗传基因座处不存在第一靶核酸变体,以产生阈值。在这些实施方案中的一些中,阈值包括克隆性阈值或亚克隆性阈值。在本文公开的方法的一些实施方案中,第一靶核酸变体包括驱动突变。在某些实施方案中,方法还包括基于在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体的确定,向受试者施用一种或更多种疗法。在一些实施方案中,方法包括使用肿瘤分数和二项式模型估计在cfNA样品中在第一遗传基因座处检测到第一靶核酸变体的概率。在这些实施方案中的某些中,二项式模型包括关于特定癌症类型和/或第二靶核酸变体的信息。也任选地使用其他模型。
在本文公开的方法的一些实施方案中,确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体指示第一遗传基因座是野生型。在某些实施方案中,特定癌症类型是结肠直肠癌,其中第一遗传基因座是KRAS、BRAF或NRAS,并且其中在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体的确定指示第一遗传基因座是野生型KRAS、BRAF或NRAS。在这些实施方案中的某些中,方法还包括向受试者施用西妥昔单抗和/或帕尼单抗(Panitumumab)。在一些实施方案中,cfNA包括cfDNA和/或cfRNA。
在某些实施方案中,本文公开的方法还包括重复方法一次或更多次,以监测在不同时间点从受试者获得的不同cfNA样品中在第一遗传基因座处是否不存在第一靶核酸变体。在某些实施方案中,方法还包括进行一种或更多种另外的测试以确认或驳斥在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体的确定。在一些实施方案中,方法包括确定cfNA样品的最大突变等位基因频率(MAX MAF)和使用MAX MAF作为肿瘤分数的估计值。在某些实施方案中,方法包括基于从cfNA样品获得的多于一个测序读段来确定在cfNA样品中在第一遗传基因座处未检测到第一靶核酸变体。在一些实施方案中,方法包括确定在cfNA样品中在克隆水平上不存在第一靶核酸变体。在某些实施方案中,方法包括基于第一概率产生第一似然值和基于第二概率产生第二似然值。在某些实施方案中,方法包括基于第一似然值和第二似然值确定定量值。
在本文公开的方法的一些实施方案中,产生第一似然值和第二似然值包括:确定cfNA样品的肿瘤分数估计值,其中第一似然值和第二似然值基于肿瘤分数估计值。在某些实施方案中,方法包括确定肿瘤分数估计值,其包括确定cfNA样品中肿瘤突变的最大突变等位基因频率(MAX MAF)。在某些实施方案中,方法包括确定MAX MAF,其包括基于多于一个序列读段确定与肿瘤突变相关的分子计数。在一些实施方案中,方法包括产生第一似然值和第二似然值,其包括确定至少第二变体的等位基因频率,其中第一似然值和第二似然值进一步基于等位基因频率和MAX MAF。在这些实施方案中的一些中,方法还包括将等位基因频率与基于MAX MAF的第二阈值进行比较,其中确定在第一遗传基因座处在克隆水平上不存在感兴趣的第一靶核酸变体进一步基于MAF与第二阈值的比较。
在一些实施方案中,确定第一等位基因频率包括基于多于一个序列读段确定与第一靶核酸变体相关的第一分子计数。在某些实施方案中,确定定量值包括访问指示与第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中定量值基于协变量信息。在一些实施方案中,方法还包括确定cfDNA样品中至少第二靶核酸变体的流行率,其中定量值进一步基于协变量信息。在某些实施方案中,方法包括确定定量值,其包括访问指示与第一靶核酸变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中定量值基于协变量信息。在一些实施方案中,方法还包括确定cfNA样品中至少第二靶核酸变体的流行率,其中定量值进一步基于第二靶核酸变体的流行率。在这些实施方案中的一些中,定量值基于第一似然值与第二似然值的比值。在这些实施方案中的某些中,方法还包括基于定量值确定在cfNA样品中在克隆水平上不存在第一靶核酸变体的置信水平。在这些实施方案中的一些中,方法还包括确定cfNA样品中至少第二靶核酸变体的流行率;以及基于cfNA样品中至少第二靶核酸变体的流行率来调整定量值。
在本文公开的方法的一些实施方案中,比值包括等于对数似然肿瘤分数值、对数似然互斥值和对数先验值之和的对数后验概率比(LPPR)。在某些实施方案中,第一遗传基因座或第二遗传基因座包括第二靶核酸变体。在某些实施方案中,定量值包括阴性预测值(NPV)评分。在一些实施方案中,特定癌症类型包括肺癌,并且第一靶核酸变体是选自由以下组成的组的基因中的突变:EGFR、BRAF(例如,V600E)、ALK(例如,融合)、ROS1(例如,融合)和MET。在一些实施方案中,特定癌症类型包括结肠直肠癌,并且第一靶核酸变体是选自由以下组成的组的基因中的突变:KRAS(例如,G12X、G13X、Q61X、K117N、A146P/146T/146V)、BRAF和NRAS。
在另一方面,本公开内容提供了一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:访问所述cfDNA样品的多于一个序列读段;基于所述多于一个序列读段确定在所述样品中在所述第一基因座处未检测到所述第一变体;基于在克隆水平上不存在所述第一变体的概率产生第一似然值,以及基于在克隆水平上并非不存在所述第一变体的概率产生第二似然值;基于所述第一似然值和所述第二似然值确定定量值;将所述定量值与阈值进行比较;以及基于所述比较确定(例如,在此背景下分类为或判定)在所述第一基因座处在克隆水平上不存在感兴趣的所述第一变体。
在另一方面,本公开内容提供了一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:访问从获自具有特定癌症类型的受试者的无细胞核酸(cfNA)样品产生的序列信息;根据所述序列信息确定在cfNA样品中在第一遗传基因座处未检测到第一靶核酸变体;根据所述序列信息确定所述第一遗传基因座的覆盖度;根据所述序列信息确定肿瘤分数;根据所述覆盖度和所述肿瘤分数确定在所述cfNA样品中在所述第一遗传基因座处并非不存在所述第一靶核酸变体的概率,以产生定量值;以及当所述定量值不同于阈值时,确定(例如,在此背景下分类为或判定)在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
在另一方面,本公开内容提供了一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体,以产生第一测试结果;根据所述序列信息确定在所述cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;根据所述第二测试结果确定在所述cfNA样品中不存在所述第一靶核酸变体的第一概率和/或根据所述第二测试结果确定在所述cfNA样品中并非不存在所述第一靶核酸的第二概率;使用所述第一概率、所述第二概率和/或其比值产生定量值;以及当所述定量值不同于阈值时,确定(例如,在此背景下分类为或判定)在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
在另一方面,本公开内容提供了一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体;产生至少一个基于肿瘤分数的值;产生至少一个互斥值;以及使用所述基于肿瘤分数的值和/或所述互斥值确定(例如,在此背景下分类为或判定)在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
在另一方面,本公开内容提供了一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:访问所述cfDNA样品的多于一个序列读段;基于所述多于一个序列读段确定在所述样品中在所述第一基因座处未检测到所述第一变体;基于在克隆水平上不存在所述第一变体的概率产生第一似然值,以及基于在克隆水平上并非不存在所述第一变体的概率产生第二似然值;基于所述第一似然值和所述第二似然值确定定量值;将所述定量值与阈值进行比较;以及基于所述比较确定(例如,在此背景下分类为或判定)在所述第一基因座处在克隆水平上不存在感兴趣的所述第一变体。
在另一方面,本公开内容提供了一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:访问从获自具有特定癌症类型的受试者的无细胞核酸(cfNA)样品产生的序列信息;根据所述序列信息确定在cfNA样品中在第一遗传基因座处未检测到第一靶核酸变体;根据所述序列信息确定所述第一遗传基因座的覆盖度;根据所述序列信息确定肿瘤分数;根据所述覆盖度和所述肿瘤分数确定在所述cfNA样品中在所述第一遗传基因座处并非不存在所述第一靶核酸变体的概率,以产生定量值;以及当所述定量值不同于阈值时,确定(例如,在此背景下分类为或判定)在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
在另一方面,本公开内容提供了一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体,以产生第一测试结果;根据所述序列信息确定在所述cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;根据所述第二测试结果确定在所述cfNA样品中不存在所述第一靶核酸变体的第一概率和/或根据所述第二测试结果确定在所述cfNA样品中并非不存在所述第一靶核酸的第二概率;使用所述第一概率、所述第二概率和/或其比值产生定量值;以及当所述定量值不同于阈值时,确定(例如,在此背景下分类为或判定)在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
在另一方面,本公开内容提供了一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体;产生至少一个基于肿瘤分数的值;产生至少一个互斥值;以及使用所述基于肿瘤分数的值和/或所述互斥值确定(例如,在此背景下分类为或判定)在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
在本文公开的系统或计算机可读介质的一些实施方案中,定量值小于阈值,而在其他示例性实施方案中,定量值大于阈值。在这些实施方案中的一些中,第一测试结果和第二测试结果取决于彼此。在这些实施方案中的某些中,非瞬时计算机可执行指令包括确定在一个或更多个其他遗传基因座处不存在多于一个其他选择的靶核酸变体。在这些实施方案中的一些中,定量值包括对数似然比(LLR)阈值。在这些实施方案中的某些中,非瞬时计算机可执行指令包括确定在多于一个参考cfNA样品中在第一遗传基因座处不存在第一靶核酸变体,以产生阈值。在这些实施方案中的一些中,阈值包括克隆性阈值或亚克隆性阈值。在这些实施方案中的一些中,第一靶核酸变体包括驱动突变。在这些实施方案中的一些中,指令还至少执行:基于在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体的确定,输出针对受试者的一个或更多个疗法建议。
在本文公开的系统或计算机可读介质的一些实施方案中,指令还至少执行:使用肿瘤分数和二项式模型估计在cfNA样品中在第一遗传基因座处检测到第一靶核酸变体的概率。在这些实施方案中的一些中,指令还至少执行:确定cfNA样品的最大突变等位基因频率(MAX MAF)和使用MAX MAF作为肿瘤分数的估计值。在这些实施方案中的一些中,其中指令还至少执行:确定在cfNA样品中在克隆水平上不存在第一靶核酸变体。在这些实施方案中的某些中,指令还至少执行:基于第一概率产生第一似然值和基于第二概率产生第二似然值。在这些实施方案中的某些中,指令还至少执行:基于第一似然值和第二似然值确定定量值。
在本文公开的系统或计算机可读介质的一些实施方案中,指令还至少执行:通过确定cfNA样品的肿瘤分数估计值来产生第一似然值和第二似然值,其中第一似然值和第二似然值基于肿瘤分数估计值。在这些实施方案中的某些中,指令还至少执行:通过确定cfNA样品中肿瘤突变的最大突变等位基因频率(MAX MAF)来确定肿瘤分数估计值。在这些实施方案中的某些中,指令还至少执行:通过基于多于一个序列读段确定与肿瘤突变相关的分子计数来确定MAX MAF。在这些实施方案中的某些中,指令还至少执行:通过确定至少第二变体的等位基因频率来产生第一似然值和第二似然值,其中第一似然值和第二似然值进一步基于等位基因频率和MAX MAF。在这些实施方案中的一些中,指令还至少执行:将等位基因频率与基于MAX MAF的第二阈值进行比较,并且进一步基于MAF与第二阈值的比较来确定在第一遗传基因座处在克隆水平上不存在感兴趣的第一靶核酸变体。在这些实施方案中的一些中,指令还至少执行:通过基于多于一个序列读段确定与第一靶核酸变体相关的第一分子计数来确定等位基因频率。
在本文公开的系统或计算机可读介质的一些实施方案中,指令还至少执行:通过访问指示与第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息来确定定量值,其中定量值基于协变量信息。在这些实施方案中的一些中,指令还至少执行:确定cfDNA样品中至少第二靶核酸变体的流行率,其中定量值进一步基于协变量信息。在这些实施方案中的一些中,指令还至少执行:通过访问指示与第一靶核酸变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息来确定定量值,其中定量值基于协变量信息。在这些实施方案中的某些中,指令还至少执行:确定cfNA样品中至少第二靶核酸变体的流行率,其中定量值进一步基于第二靶核酸变体的流行率。在这些实施方案中的某些中,指令还至少执行:基于定量值确定在cfNA样品中在克隆水平上不存在第一靶核酸变体的置信水平。在这些实施方案中的某些中,指令还至少执行:确定cfNA样品中至少第二靶核酸变体的流行率;以及基于cfNA样品中至少第二靶核酸变体的流行率来调整定量值。在这些实施方案中的某些中,比值包括等于对数似然肿瘤分数值、对数似然互斥值和对数先验值之和的对数后验概率比(LPPR)。
在一些实施方案中,本文公开的系统和方法的结果被用作输入以生成报告。报告可以是纸质或电子格式。例如,如通过本文公开的方法和系统获得的在第一基因座处在克隆水平上不存在感兴趣的第一变体的分类可以直接显示在这样的报告中。可选地或另外地,基于在第一基因座处在克隆水平上不存在感兴趣的第一变体的概率的诊断信息或治疗建议可以被包括在报告中。
在确定是基于不同于阈值的定量值的情况下,取决于阈值的性质,在该确定中使用的定量值可以小于阈值或大于阈值。因此,定量值满足阈值,或不满足阈值。
在某些方面,本公开内容提供了一种治疗受试者的疾病的方法,该方法包括:访问从受试者获得的无细胞脱氧核糖核酸(cfDNA)样品的多于一个序列读段;基于所述多于一个序列读段确定在cfDNA样品中在第一基因座处未检测到在第一基因座处的感兴趣的第一变体;基于在克隆水平上不存在第一变体的概率产生第一似然值和/或基于在克隆水平上并非不存在第一变体的概率产生第二似然值;基于第一似然值和/或第二似然值确定定量值;将定量值和/或第一似然值和/或第二似然值与阈值进行比较;基于所述比较确定在第一基因座处在克隆水平上不存在感兴趣的第一变体;以及,至少部分地基于在第一基因座处在克隆水平上不存在感兴趣的第一变体的确定,向受试者实施一种或更多种疗法,从而治疗受试者的疾病。在某些实施方案中,至少部分地基于在第一基因座处在克隆水平上不存在感兴趣的第一变体的确定,停止向受试者施用一种或更多种疗法,从而治疗受试者的疾病。在某些实施方案中,对多于一个受试者进行本文描述的方法。在某些实施方案中,至少部分地基于在第一基因座处在克隆水平上不存在感兴趣的第一变体的确定,向受试者的子集施用一种或更多种疗法,并且受试者的另一子集被停止先前向这些受试者施用的一种或更多种疗法。在某些实施方案中,至少部分地基于在第一基因座处在克隆水平上不存在感兴趣的第一变体的确定,向受试者施用与先前向该受试者施用的疗法不同的疗法。
在某些方面,本公开内容提供了一种治疗受试者的疾病的方法,该方法包括至少部分地基于在从受试者获得的无细胞脱氧核糖核酸(cfDNA)样品中在第一基因座处在克隆水平上不存在感兴趣的第一变体的确定,对受试者施用或停止施用一种或更多种疗法,其中所述确定通过以下产生:访问cfDNA样品的多于一个序列读段;基于所述多于一个序列读段确定在样品中在第一基因座处未检测到第一变体;基于在克隆水平上不存在第一变体的概率产生第一似然值和/或基于在克隆水平上并非不存在第一变体的概率产生第二似然值;基于第一似然值和/或第二似然值确定定量值;将定量值和/或第一似然值和/或第二似然值与阈值进行比较;以及基于所述比较确定在第一基因座处在克隆水平上不存在感兴趣的第一变体。
在某些方面,本公开内容提供了一种治疗受试者的癌症的方法,该方法包括:确定在从患有癌症的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处未检测到第一靶核酸变体;根据从cfNA样品产生的序列信息确定对第一遗传基因座的覆盖度;根据从cfNA样品产生的序列信息确定肿瘤分数;根据覆盖度和肿瘤分数确定在cfNA样品中在第一遗传基因座处并非不存在第一靶核酸变体的概率,以产生定量值;当定量值不同于阈值时,确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体;以及,至少部分地基于在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体的确定,对受试者施用或停止施用一种或更多种疗法,从而治疗受试者的癌症。
在某些方面,本公开内容提供了一种治疗受试者的癌症的方法,该方法包括至少部分地基于在从患有癌症的受试者获得的无细胞脱氧核糖核酸(cfDNA)样品中在第一遗传基因座处不存在第一靶核酸变体的确定,对受试者施用或停止施用一种或更多种疗法,其中所述确定通过以下产生:确定在cfNA样品中在第一遗传基因座处未检测到第一靶核酸变体;根据根据从cfNA样品产生的序列信息确定对第一遗传基因座的覆盖度;根据从cfNA样品产生的序列信息确定肿瘤分数;根据覆盖度和肿瘤分数确定在cfNA样品中在第一遗传基因座处并非不存在第一靶核酸变体的概率,以产生定量值;以及,当定量值不同于阈值时,确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体。
在某些方面,本公开内容提供了一种治疗受试者的疾病的方法,该方法包括:确定在从受试者获得的无细胞核酸(cfNA)样品中未检测到第一靶核酸变体,以产生第一测试结果;确定在从受试者获得的cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;根据第二测试结果确定在cfNA样品中不存在第一靶核酸变体的第一概率和/或根据第二测试结果确定在cfNA样品中并非不存在第一靶核酸的第二概率;使用第一概率、第二概率和/或其比值产生定量值;当定量值不同于阈值时,确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体;以及,至少部分地基于在第一遗传基因座处不存在第一靶核酸变体的确定,对受试者施用或停止施用一种或更多种疗法,从而治疗受试者的疾病。
在某些方面,本公开内容提供了一种治疗受试者的疾病的方法,该方法包括至少部分地基于在从受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的确定,对受试者施用或停止施用一种或更多种疗法,其中所述确定通过以下产生:确定在从受试者获得的cfNA样品中未检测到第一靶核酸变体,以产生第一测试结果;确定在从受试者获得的cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;根据第二测试结果确定在cfNA样品中不存在第一靶核酸变体的第一概率和/或根据第二测试结果确定在cfNA样品中并非不存在第一靶核酸的第二概率;使用第一概率、第二概率和/或其比值产生定量值;以及,当定量值不同于阈值时,确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体。
在某些方面,本公开内容提供了一种治疗受试者的癌症的方法,该方法包括:确定在从患有特定癌症类型的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体;产生至少一个基于肿瘤分数的值;产生至少一个互斥值;使用基于肿瘤分数的值和/或互斥值确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体;以及,至少部分地基于在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体的确定,对受试者施用或停止施用一种或更多种疗法,从而治疗受试者的癌症。
在某些方面,本公开内容提供了一种治疗受试者的癌症的方法,该方法包括至少部分地基于在从患有特定癌症类型的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的确定,对受试者施用或停止施用一种或更多种疗法,其中所述确定通过以下产生:确定在从受试者获得的cfNA样品中未检测到第一靶核酸变体;产生至少一个基于肿瘤分数的值;产生至少一个互斥值;以及,使用基于肿瘤分数的值和/或互斥值确定在cfNA样品中在第一遗传基因座处不存在第一靶核酸变体。
本文公开的方法的各个步骤,或通过本文公开的系统实施的步骤,可以在相同或不同的时间、在相同或不同的地理位置(例如国家)、和/或由相同或不同的人来实施。
附图简述
图1图示出了根据本公开内容的实施方案的用于产生受试者的样品中的靶变体的阴性预测的系统的实例。
图2图示出了根据实施方案的阴性预测分析器的输入和输出的示意图。
图3图示出了根据本公开内容的实施方案的用于产生受试者的样品中的靶变体的阴性预测的方法的实例。
图4A图示出了根据实施方案的测试假设的图,在该测试假设中,在样品中不存在(或以亚克隆MAF存在)靶变体(所述靶变体)。
图4B图示出了根据实施方案的无效假设(null hypothesis)的图,在该无效假设中,在样品中并非不存在靶变体。
定义
为了更容易地理解本公开内容,以下首先定义某些术语。以下术语和其他术语的另外定义可以通过本说明书进行阐述。如果下文阐述的术语的定义与通过引用并入的专利申请或颁布的专利中的定义不一致,则本申请中阐述的定义应用于理解该术语的含义。
如本说明书和所附权利要求书中使用的,单数形式“一(a)”、“一(an)”和“所述/该(the)”包括复数指代物,除非上下文另外明确指示。因此,例如,提及“一种方法”包括本文描述的和/或对于本领域普通技术人员而言在阅读本公开内容后将变得明显的一种或更多种方法,和/或类型的步骤,等等。还应理解,在本公开内容中讨论的温度、浓度、时间、碱基或碱基对的数目、覆盖度等之前存在隐含的“约”,使得微小和非实质差异性的等价物在本公开内容的范围内。在本申请中,除非另外特别说明,否则单数的使用包括复数。此外,“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“含有(contain)”、“含有(contains)”、“含有(containing)”、“包括(include)”、“包括(includes)”和“包括(including)”的使用并非意图限制。
还应理解的是,本文使用的术语仅为了描述特定实施方案的目的而非意图是限制性的。此外,除非另外定义,否则本文使用的所有技术术语和科学术语具有与本公开内容所属的领域的普通技术人员通常理解的相同含义。在描述和要求保护方法、计算机可读介质和系统方面,将根据下文阐述的定义使用以下术语及其语法变化形式。
约:如本文使用的,“约(about)”或“约(approximately)”在被应用于一个或更多个感兴趣的值或要素时,是指与所陈述的参考值或要素类似的值或要素。在某些实施方案中,术语“约(about)”或“约(approximately)”是指值或要素的范围,所述范围以任一方向(大于或小于)落入所陈述的参考值或要素的25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%或更小百分比内,除非另外说明或另外从上下文是明显的(这样的数字将超过可能的值或要素的100%时除外)。
衔接子:如本文使用的,“衔接子”是指短核酸(例如,长度小于约500个核苷酸、小于约100个核苷酸或小于约50个核苷酸),其通常至少部分为双链,并且被用于连接给定样品核酸分子的任一个末端或两个末端。衔接子可以包括核酸引物结合位点和/或测序引物结合位点,所述核酸引物结合位点允许扩增两个末端处侧翼有衔接子的核酸分子,和/或所述测序引物结合位点包括用于测序应用诸如各种下一代测序(NGS)应用的引物结合位点。衔接子还可以包括用于捕获探针诸如附接到流动池支持物的寡核苷酸等的结合位点。衔接子还可以包括如本文描述的核酸标签。核酸标签通常相对于扩增引物和测序引物的结合位点被定位,使得核酸标签被包含在给定核酸分子的扩增子和测序读段中。相同或不同序列的衔接子可以被连接到核酸分子的相应末端。在某些实施方案中,除了核酸标签的序列不同的相同序列的衔接子被连接到核酸分子的相应末端。在一些实施方案中,衔接子是Y形衔接子,其中一个末端如本文描述的是平端的或加尾的,用于连接核酸分子,所述核酸分子也是平端的或用一个或更多个互补核苷酸加尾的。在仍其他的示例性实施方案中,衔接子是钟形衔接子,其包含用于连接至待分析的核酸分子的平端或加尾末端。其他示例性衔接子包括T加尾和C加尾的衔接子。
施用:如本文使用的,向受试者“施用(administer)”或“施用(administering)”治疗剂(例如,免疫治疗剂)意指给予受试者组合物、将组合物应用于受试者或使组合物与受试者接触。施用可以通过许多途径中的任何途径来完成,包括例如局部、口服、皮下、肌内、腹膜内、静脉内、鞘内和皮内。
等位基因:如本文使用的,“等位基因(allele)”或“等位基因变体(allelicvariant)”是指在定义的基因组位置或基因座处的特定基因变体。等位基因变体通常以50%(0.5)或100%的频率出现,这取决于等位基因是杂合的还是纯合的。例如,种系变体是遗传性的并且通常具有0.5或1的频率。然而,体细胞变体是获得性变体并且通常具有<0.5的频率。遗传基因座的主要等位基因和次要等位基因是指具有其中基因座分别被参考序列的核苷酸和不同于参考序列的变体核苷酸占据的基因座的核酸。基因座处的测量可以采取等位基因分数(AF)的形式,其测量在样品中观察到等位基因的频率。
扩增:如本文使用的,在核酸的上下文中的“扩增(amplify)”或“扩增(amplification)”是指通常从少量的多核苷酸(例如,单个多核苷酸分子)开始产生多个拷贝的该多核苷酸或该多核苷酸的一部分,其中扩增产物或扩增子通常是可检测的。多核苷酸的扩增涵盖各种化学和酶促过程。
条形码:如本文使用的,在核酸的上下文中的“条形码”是指具有可以用作分子标识符的序列的核酸分子。例如,在下一代测序(NGS)文库制备期间,单独的“条形码”序列通常被添加到每个DNA片段,使得在最终数据分析之前可以鉴定和分选每个测序读段。
癌症类型:如本文使用的,“癌症”、“癌症类型”或“肿瘤类型”是指例如通过组织病理学定义的癌症的类型或亚型。癌症类型可以通过任何常规标准来定义,诸如基于在给定组织中的发生(例如,血癌、中枢神经系统(CNS)癌、脑癌、肺癌(小细胞和非小细胞)、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口癌、胃癌、乳腺癌、前列腺癌、卵巢癌、肺癌、小肠癌、软组织癌、神经内分泌癌、胃食管癌、头颈癌、妇科癌症、结肠直肠癌、尿路上皮癌、实体状态癌(solid state cancers)、异质性癌症(heterogeneous cancer)、同质性癌症(homogeneous cancer))、未知的原发性来源等,和/或具有相同细胞谱系(例如,癌、肉瘤、淋巴瘤、胆管癌、白血病、间皮瘤、黑素瘤或胶质母细胞瘤)和/或显示出癌症标志物诸如Her2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、KRAS、BRAF、NRAS、激素受体和NMP-22的癌症。癌症也可以通过分期(例如,1期、2期、3期或4期)以及是否为原发性来源或继发性来源来分类。
无细胞核酸:如本文使用的,“无细胞核酸”是指不包含在细胞内或不以其他方式与细胞结合的核酸。无细胞核酸可以包括,例如,来源于来自受试者的体液(例如,血液、血浆、血清、尿液、脑脊液(CSF)等)的所有未被包封的核酸。无细胞核酸包括DNA(cfDNA)、RNA(cfRNA),以及它们的混杂物(hybrids),包括基因组DNA、线粒体DNA、循环DNA、siRNA、miRNA、循环RNA(cRNA)、tRNA、rRNA、小核仁RNA(snoRNA)、Piwi相互作用RNA(piRNA)、长非编码RNA(长ncRNA),和/或这些中的任一种的片段。无细胞核酸可以是双链的、单链的,或它们的混杂物。无细胞核酸可以通过分泌或细胞死亡过程,例如细胞坏死、凋亡等,被释放到体液中。一些无细胞核酸从癌细胞释放到体液中,例如,循环肿瘤DNA(ctDNA)。其他的从健康细胞释放。ctDNA可以是未被包封的肿瘤来源的片段化DNA。无细胞核酸的另一个实例是在母体血流中自由循环的胎儿DNA,也称为无细胞胎儿DNA(cffDNA)。无细胞核酸可以具有一种或更多种表观遗传修饰,例如,无细胞核酸可以被乙酰化、5-甲基化、泛素化、磷酸化、sumo化(sumoylated)、核糖基化和/或瓜氨酸化(citrullinated)。
克隆:如本文使用的,在核酸的上下文中的“克隆”是指至少在特定的感兴趣的基因座(例如,靶变体)处包含彼此大体上或完全相同的核苷酸序列的核酸群体。
置信区间:如本文使用的,“置信区间”或“置信水平”意指这样定义的值的范围:特定参数的值有特定的概率处于该值的范围内。
拷贝数变体:如本文使用的,“拷贝数变体(copy number variant)”、“CNV”或“拷贝数变异(copy number variation)”是指基因组的某些部分重复并且基因组中的重复的数目在所考虑的群体中的个体之间变化的现象。
覆盖度:如本文使用的,“覆盖度(coverage)”是指代表特定碱基位置的核酸分子的数目。
脱氧核糖核酸或核糖核酸:如本文使用的,“脱氧核糖核酸”或“DNA”是指在糖部分的2'-位置处具有氢基团的天然或修饰的核苷酸。DNA通常包括包含脱氧核糖核苷的核苷酸的链,每个脱氧核糖核苷包含四种类型的核苷碱基中的一种,即,腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。如本文使用的,“核糖核酸”或“RNA”是指在糖部分的2'-位置处具有羟基基团的天然或修饰的核苷酸。RNA通常包括包含核糖核苷的核苷酸的链,每个脱氧核糖核苷包含四种类型的核苷碱基中的一种,即,A、尿嘧啶(U)、G和C。如本文使用的,术语“核苷酸”是指天然核苷酸或修饰的核苷酸。某些核苷酸对以互补方式彼此特异性结合(被称为互补碱基配对)。在DNA中,腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。在RNA中,腺嘌呤(A)与尿嘧啶(U)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一条核酸链结合由与第一条链中的那些核苷酸互补的核苷酸构成的第二条核酸链时,两条链结合形成双链。如本文使用的,“核酸测序数据”、“核酸测序信息”、“序列信息”、“核酸序列”、“核苷酸序列”、“基因组序列”、“基因序列”,或“片段序列”,或“核酸测序读段”表示指示核酸诸如DNA或RNA的分子(例如,全基因组、全转录组、外显子组、寡核苷酸、多核苷酸,或片段)中核苷酸碱基(例如,腺嘌呤、鸟嘌呤、胞嘧啶,和胸腺嘧啶或尿嘧啶)的顺序和身份的任何信息或数据。应当理解,本教导设想了使用所有可用的各种技术(technique)、平台或技术(technology),包括但不限于以下获得的序列信息:毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接的核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统以及基于电子签名的系统(electronic signature-based system)。
检测:如本文使用的,“检测(detect)”、“检测(detecting)”或“检测(detection)”是指确定样品中一种或更多种靶核酸(例如,具有靶向的突变或其他标志物的核酸)的存在(existence)或出现(presence)的行为。
驱动突变:如本文使用的,“驱动突变(driver mutation)”意指驱动癌症进展的突变。
历史流行率:如本文使用的,“历史流行率”是指从一个或更多个参考样品(例如,来自具有特定癌症类型的参考受试者)和/或从特定受试者获得的序列信息或从其导出的数据。
免疫疗法:如本文使用的,“免疫疗法”是指用一种或更多种剂进行的治疗,所述一种或更多种剂用于刺激免疫系统以杀死或至少抑制癌细胞的生长,并且优选地用于减少癌症的进一步生长、减少癌症的尺寸和/或消除癌症。一些这样的剂结合癌细胞上存在的靶;一些结合免疫细胞上存在的靶而不是癌细胞上存在的靶;一些结合癌细胞和免疫细胞两者上存在的靶。这样剂包括但不限于检查点抑制剂和/或抗体。检查点抑制剂是免疫系统途径的抑制剂,其维持自身耐受性并且调节外周组织中生理免疫应答的持续时间和幅度,以使附带组织损伤最小化(参见,例如Pardoll,Nature Reviews Cancer 12,252-264(2012))。示例性的剂包括针对以下中的任一种的抗体:PD-1、PD-2、PD-L1、PD-L2、CTLA-4、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27、CD40或CD47。其他示例性的剂包括促炎细胞因子,诸如IL-1β、IL-6和TNF-α。其他示例性的剂是针对肿瘤活化的T细胞,诸如通过表达嵌合抗原而活化的T细胞,该嵌合抗原靶向由T细胞识别的肿瘤抗原。
插入/缺失(Indel):如本文使用的,“插入/缺失”是指涉及受试者的基因组中核苷酸位置的插入或缺失的突变。
对数先验数据(LogPrior data):如本文使用的,“对数先验数据”是指样品群体中核酸变体或突变(例如,靶核酸变体或突变)相对于野生型变体的比值的对数。
最大突变等位基因频率:如本文使用的,“最大突变等位基因频率”、“最大MAF”或“MAX MAF”是指在特定样品中存在或观察到的所有体细胞变体的最大(maximum)或最大(largest)MAF。
突变等位基因频率:如本文使用的,“突变等位基因频率”或“MAF”是指突变等位基因在特定的核酸群体(诸如从受试者获得的样品)中出现的频率。MAF一般表示为分数或百分比。
突变:如本文使用的,“突变”、“变体”或“遗传畸变”是指与已知参考序列的变异,并且包括突变,诸如例如单核苷酸变体(SNV)、拷贝数变体或变异(copy number variantsor variations,CNV)/畸变、插入或缺失(indel)、截短、基因融合、颠换、易位、移码、复制、重复序列扩增和表观遗传变体。突变可以是种系突变或体细胞突变。在一些实施方案中,用于比较目的的参考序列是提供测试样品的受试者的物种的野生型基因组序列,通常是人类基因组。
下一代测序:如本文使用的,“下一代测序”或“NGS”是指与基于传统的Sanger和毛细管电泳的方法相比具有增加的通量的测序技术,例如,具有一次产生数十万个相对小的序列读段的能力的测序技术。下一代测序技术的一些实例包括但不限于合成测序、连接测序和杂交测序。
核酸标签:如本文使用的,“核酸标签”是指短核酸(例如,长度小于约500个、约100个、约50个或约10个核苷酸),用于标记核酸分子以区分来自不同样品的核酸(例如,代表样品索引),或同一样品中不同类型的或经历不同处理的不同核酸分子(例如,代表分子标签)。核酸标签可以是单链、双链或至少部分双链的。核酸标签任选地具有相同的长度或不同的长度。核酸标签还可以包括具有一个或更多个平端的双链分子,包括5'或3'单链区域(例如,突出端),和/或包括在特定分子内的其他位置处的一个或更多个其他单链区域。核酸标签可以被附接到其他核酸(例如,待扩增和/或测序的样品核酸)的一个末端或两个末端。核酸标签可以被解码以揭示诸如特定核酸的样品来源、形式或对特定核酸进行的处理的信息。核酸标签也可以用于实现汇集和/或并行处理包含带有不同核酸标签和/或样品索引的核酸的多个样品,其中核酸随后通过读取核酸标签被解卷积。核酸标签也可以被称为分子标识符或标签、样品标识符、索引标签和/或条形码。另外地或可选地,核酸标签可以用于区分同一样品中的不同分子。这包括,例如,对特定样品中的每个不同的核酸分子独特地加标签,或对这样的分子非独特地加标签。在非独特地加标签的应用的情况下,可以使用具有有限数目的不同序列的标签对每个核酸分子加标签,使得不同分子可以基于例如其映射至所选择的参考基因组的起始位置和/或终止位置与至少一个核酸标签的组合而被区分。通常,使用足够数目的不同的核酸标签,使得任何两个分子将具有相同的起始位置和/或终止位置并且还具有相同的核酸标签的概率低(例如,小于约10%、小于约5%、小于约1%,或小于约0.1%的概率)。一些核酸标签包含多于一个分子标识符以标记样品、样品内的核酸分子的形式、以及具有相同起始位置和终止位置的形式内的核酸分子。这样的核酸标签可以使用示例性形式“A1i”来引用,其中大写字母指示样品类型,阿拉伯数字指示样品内的分子的形式,并且小写罗马数字指示形式内的分子。
多核苷酸:如本文使用的,“多核苷酸”、“核酸”、“核酸分子”或“寡核苷酸”是指通过核苷间连接进行连接的核苷(包括脱氧核糖核苷、核糖核苷或它们的类似物)的线性聚合物。通常,多核苷酸包含至少三个核苷。寡核苷酸的尺寸范围通常从几个单体单元(例如3-4个)到几百个单体单元。每当多核苷酸以一串字母诸如“ATGCCTG”表示时,将理解,这些核苷酸从左到右是5’→3'的顺序,并且在DNA的情况下,“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,并且“T”表示脱氧胸苷,除非另外说明。如本领域标准的,字母A、C、G和T可以用于指碱基本身、核苷或包含这些碱基的核苷酸。
参考样品:如本文使用的,“参考样品”或“参考cfNA样品”是指已知组成和/或具有或已知具有或缺乏特定性质(例如,已知核酸变体、已知细胞来源、已知肿瘤分数、已知覆盖度和/或类似性质)的样品,其与测试样品一起分析或与测试样品相比较,以便评价分析程序的准确性。参考样品数据集通常包括从至少约25个到至少约30,000个或更多参考样品。在一些实施方案中,参考样品数据集包括约50个、75个、100个、150个、200个、300个、400个、500个、600个、700个、800个、900个、1,000个、2,500个、5,000个、7,500个、10,000个、15,000个、20,000个、25,000个、50,000个、100,000个、1,000,000个或更多参考样品。
参考序列:如本文使用的,“参考序列”是指用于与经实验确定的序列进行比较的目的的已知序列。例如,已知序列可以是整个基因组、染色体,或它们的任何区段。参考序列通常包括至少约20个、至少约50个、至少约100个、至少约200个、至少约250个、至少约300个、至少约350个、至少约400个、至少约450个、至少约500个、至少约1000个或更多个核苷酸。参考序列可以与基因组或染色体的单个连续序列对齐,或者可以包括与基因组或染色体的不同区域对齐的非连续区段。示例性参考序列包括,例如,人类基因组,诸如,hG19和hG38。
样品:如本文使用的,“样品”意指能够通过本文公开的方法和/或系统分析的任何事物。
灵敏度:如本文在特定的测定或方法的上下文中使用的“灵敏度”是指该测定或方法检测和区分靶向的分析物(例如,核酸变体)和非靶向的分析物的能力。
测序:如本文使用的,“测序”是指用于确定生物分子例如核酸诸如DNA或RNA的序列(例如,单体单元的身份和顺序)的许多技术中的任一种。示例性的测序方法包括但不限于靶向测序、单分子实时测序、外显子或外显子组测序、内含子测序、基于电子显微术的测序、组测序(panel sequencing)、晶体管介导的测序、直接测序、随机鸟枪法测序、Sanger双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行签名测序(massively parallelsignature sequencing)、乳液PCR、低变性温度共扩增PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、成对末端测序、近末端测序(near-term sequencing)、核酸外切酶测序、连接测序、短读段测序、单分子测序、合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiDTM测序、MS-PET测序,及它们的组合。在一些实施方案中,测序可以通过基因分析仪进行,诸如例如通过从Illumina,Inc.、PacificBiosciences,Inc.或Applied Biosystems/Thermo Fisher Scientific等许多其他公司的商购可得的基因分析仪进行。
序列信息:如本文在核酸聚合物的上下文中使用的“序列信息”意指该聚合物中单体单元(例如,核苷酸等)的顺序和身份。
单核苷酸变体:如本文使用的,“单核苷酸变体”或“SNV”意指在基因组中特定位置处发生的单个核苷酸的突变或变异。
体细胞突变:如本文使用的,“体细胞突变”意指在受孕之后发生的基因组突变。体细胞突变可以发生在除生殖细胞外的任何身体细胞中,并且因此不会传给子代。
特异性:如本文在诊断分析或测定的上下文中使用的“特异性”是指分析或测定检测预期的靶分析物而排除特定样品的其他组分的程度。
亚克隆:如本文在核酸的上下文中使用的“亚克隆”是指至少在特定的感兴趣的基因座处包含彼此大体相同或完全相同的核苷酸序列(例如,靶变体)的核酸子群体。
受试者:如本文使用的,“受试者”或“测试受试者”是指动物,诸如哺乳动物物种(例如,人类),或禽类(例如,鸟类)物种,或其他生物体,诸如植物。更具体地,受试者可以是脊椎动物,例如,哺乳动物,诸如小鼠、灵长类动物、猿或人类。动物包括农场动物(例如,生产用牛(production cattle)、奶牛、家禽、马、猪等)、运动动物和伴侣动物(例如,宠物或支持动物)。受试者可以是健康的个体,患有或疑似患有疾病或有患该疾病的倾向的个体,或需要治疗或疑似需要治疗的个体。术语“个体”或“患者”意在与“受试者”可互换。在一些实施方案中,受试者是患有癌症或怀疑患有癌症的人类。例如,受试者可以是已经被诊断为患有癌症、将要接受癌症治疗和/或已经接受至少一种癌症治疗的个体。受试者可以处于癌症缓解中。作为另一个实例,受试者可以是被诊断为患有自身免疫性疾病的个体。作为另一个实例,受试者可以是妊娠或计划妊娠的雌性个体,其可能已经被诊断为患有或被疑似患有疾病,例如癌症、自身免疫性疾病。
阈值:如本文使用的,“阈值(threshold)”是指用于表征或分类实验确定的值的单独确定的值。在某些实施方案中,例如,“阈值(threshold value)”是指将定量值与之比较以便确定在特定遗传基因座处不存在特定靶核酸变体的所选值。
肿瘤分数:如本文使用的,“肿瘤分数”是指对特定样品中来源于肿瘤的核酸分子的分数的估计值。例如,样品的肿瘤分数可以是从样品的最大突变等位基因频率(MAX MAF)或样品的覆盖度,或样品中cfNA片段的长度、表观遗传状态或其他性质或样品的任何其他所选特征得到的量度。术语“MAX MAF”是指特定样品中存在的所有体细胞变体的最大(maximum)或最大(largest)MAF。在一些实施方案中,样品的肿瘤分数等于样品的MAX MAF。
值:如本文使用的,“值”通常指数据集中可以是表征该值所涉及的特征的任何事物的条目。这包括但不限于数字、词语或短语、符号(例如,+或-)或程度。
详述
图1图示出了根据本公开内容的实施方案的用于产生受试者111的样品中靶变体的阴性预测的系统100的实例。系统100可以处理来自受试者111的一个或更多个样品101,以产生用于变体检测和阴性预测的序列读段。系统100可以包括实验室系统102、计算机系统110和/或其他组件。应注意,实验室系统102和计算机系统110可以彼此是远程的,并且通过计算机网络(未图示出)彼此连接。实验室系统102可以包括样品收集和制备流水线103、测序流水线105、序列读段数据仓储109和/或其他组件。测序流水线105可以包括一个或更多个测序装置107(在图1中被图示为测序装置107a...n)。
计算机系统110可以包括序列分析流水线112、处理器120、存储装置122、变体检测流水线130和/或其他组件。
序列分析流水线112可以包括可以修整(trim)或丢弃(trash)来自实验室系统102的序列读段的序列质量控制(QC)组件113,可以进行与参考基因组的初步比对的其他分析组件115,以及可以对分析组件115的输出进行质量控制的分析QC组件116。来自序列分析流水线112的输出,诸如受试者111的样品101的序列读段,可以存储在分析数据仓储117中。
一般而言,处理器120可以实施变体检测流水线130的各种组件(由其编程),诸如变体检测器132、阴性预测分析器134和/或其他组件。可选地,应注意,变体检测流水线130的这些组件中的每一个可以包括硬件模块。尽管为了方便分开地图示,但是多种组件或指令中的一个或更多个,诸如变体检测器132和阴性预测分析器134可以彼此集成。在任何情况下,变体检测流水线130可以使计算机系统110鉴定变体、变体引起的疾病(精确诊断)、阴性预测和/或治疗方案。精确诊断和治疗方案可以存储在诸如临床结果仓储160或诊断结果仓储150的储存库中。
变体检测器132可以基于对来自实验室系统102的序列读段的分析来确定未检测到靶变体。应注意,至少一个序列读段和/或至少一个被测序的分子可以支持靶变体——但这可能不足以使变体检测器132检测到靶变体。例如,在一些实施方案中,仅当支持靶变体的序列读段的数目(和/或被测序的分子的数目)大于阈值时,变体检测器132才可以检测到靶变体。另外或可选地,仅当由序列读段和/或被测序的分子支持的靶变体满足质量阈值时,变体检测器132才可以检测到靶变体。因此,在一些实施方案中,由至少一个序列读段和/或至少一个被测序的分子支持但不满足阈值的靶变体可以被忽略为假阳性,并且可能不被变体检测器132检测到。也可以使用基于对序列读段的分析来确定未检测到靶变体的其他方式,但是为了清楚起见,省略了进行该确定的进一步的细节。
阴性预测分析器134可以访问变体检测器132的输出,并且将阴性预测确认为变体检测器的附加项。可选地或另外地,阴性预测分析器134可以与变体检测器132集成。
图2图示出了根据实施方案的阴性预测分析器134的示例性输入和输出的示意图。阴性预测分析器134可以使用协变量信息202、靶位点处的覆盖度信息204、疾病类型206和/或用于显著性建模的其他输入信息。阴性预测分析器134可以产生定量值输出210(可以表示阴性预测是否正确的可能性)和阴性预测评估212(可以包括基于定量值输出210的置信水平或精确诊断)。
例如,来自实验室系统102的序列读段可以与参考基因组并且特别是与参考基因组中的多种基因座进行比对,以确定协变量信息202。协变量信息202可以包括协方差变体信息,协方差变体信息可以包括变体的历史互斥性数据和/或共现性数据。协变量变体可以指基于对来自实验室系统102和/或其他数据源的序列数据的历史观察而彼此具有阴性(互斥性)或阳性(共现性)相关性的两个或更多个变体。例如,互斥变体可以包括倾向于彼此不被一起观察到的变体。共现变体可以在观察到另一个变体时被观察到出现,诸如驱动变体突变及其共现变体。
在特定实例中,显著性建模可以基于从样品产生的核酸序列读段生成并使用靶变体的肿瘤分数(TF)的计算估计值。可选地或另外地,显著性建模可以确定并使用在样品中检测到或未检测到的其他变体的多样性。例如,显著性建模可以使用通常(基于历史协方差变体信息)与靶变体共现的协方差变体或通常(基于历史协方差变体信息)不与靶变体共现的互斥变体的检测。阴性预测值(“NPV”)可以基于样品的TF估计值和/或在样品中检测到或未检测到的变体的多样性来产生。结果可以用于提供阴性诊断的置信水平和/或进一步指导基于阴性诊断的治疗计划。例如,在癌症诊断的背景下,协方差变体可以包括倾向于促进肿瘤形成的驱动变体,并且互斥变体可以包括倾向于抑制肿瘤形成的肿瘤抑制因子变体。
阴性预测
图3图示出了根据本公开内容的实施方案的用于产生受试者的样品中的靶变体的阴性预测的方法300的实例。
本发明的方法可以用于将不存在(例如在克隆水平上不存在)感兴趣的变体确定为真阴性结果。因此,参考图3,在302,方法300可以包括访问cfDNA样品的多于一个序列读段。在304,方法300可以包括基于所述多于一个序列读段确定在样品(例如,cfNA样品)中的第一基因座处未检测到靶变体(所述靶变体)。在一些实例中,靶变体(和/或本文描述的其他变体)可以包括体细胞变体。在一些实例中,靶变体(和/或本文描述的其他变体)可以不包括种系变体。
评估阴性预测
在306,方法300可以包括基于在克隆水平上不存在靶变体的概率产生第一似然值,以及基于在克隆水平上并非不存在靶变体的概率产生第二似然值。在308,方法300可以包括基于第一似然值和第二似然值确定定量值。在310,方法300可以包括将定量值与阈值进行比较。在312,方法300可以包括基于所述比较确定在第一基因座处在克隆水平上不存在靶变体。例如,方法300可以包括确定靶变体的等位基因频率不超过阈值(诸如参考图4A和图4B描述的亚克隆阈值)。
基于肿瘤分数估计值评估阴性预测
在一些实例中,方法300和/或阴性预测分析器134(通过实施方法300)可以将在克隆水平上不存在(或在肿瘤变体的亚克隆水平上存在)靶变体的概率建模为测试或备择假设(H1)以产生第一似然值。例如,图4A图示出了根据实施方案的测试假设的图400A,在该测试假设中,在样品中不存在(或以肿瘤变体的亚克隆水平存在)靶变体(所述靶变体)。相应地,阴性预测分析器134可以将在克隆水平上并非不存在靶变体的概率建模为无效假设(H0)以产生第二似然值。例如,图4B图示出了根据实施方案的无效假设的图400B,在该无效假设中,在样品中并非不存在靶变体(并且与肿瘤变体的等位基因频率相关)。在图400A和图400B两者中,“C”反映了靶基因座处的次要等位基因。值“0.3”反映了应用于α1(基于肿瘤变体的突变等位基因频率的TF估计值)的权重,使得0.3×α1的乘积用作亚克隆阈值。受试者111的样品101中靶变体的等位基因频率(α2)高于亚克隆阈值可以指示靶变体与肿瘤变体相关。
在这些实例中,阴性预测分析器134可以通过确定样品的肿瘤分数(TF)估计值(诸如本文描述的等式中的α1)来产生第一似然值和第二似然值。TF估计值可以指示在样品中检测到的肿瘤DNA的分数。在一些实例中,TF估计值可以通过确定样品中肿瘤变体的等位基因频率(被称为MAX MAF)来确定。MAX MAF可以通过基于多于一个序列读段确定与肿瘤变体相关的分子计数来确定。基于在克隆水平上不存在靶变体的概率的第一似然值(诸如在本文描述的等式中的L1)和在克隆水平上并非不存在靶变体或在亚克隆水平上存在靶变体的第二似然值(诸如在本文描述的等式中的L0)可以基于TF估计值。
在一些实施方案中,阴性预测分析器134可以使用TF估计值来产生评估阴性预测质量的定量值(诸如通过指示阴性预测是否正确或是否错误的概率)。例如,阴性预测分析器134可以确定靶变体(所述靶变体)的第一等位基因频率。阴性预测分析器134可以通过基于多于一个序列读段确定与靶变体相关的第一分子计数来确定第一等位基因频率。阴性预测分析器134可以使用具有MAX MAF的第一等位基因频率来确定第一似然值,并且进一步基于第一等位基因频率和MAX MAF来确定第二似然值。
参考图4A,在克隆水平上不存在(或在亚克隆水平上存在)靶变体的概率可以基于亚克隆阈值(图示为0.3*α1)。亚克隆阈值可以是亚克隆权重(图示为0.3)乘以肿瘤分数估计值(图示为肿瘤变体的等位基因频率,诸如MAX MAF)。亚克隆阈值可以基于特定基因、癌症类型或其他预期值来确定。这些值可以在0.01至0.99的范围的任何处,包括但不限于0.01、0.10、0.20、0.30、0.40、0.50、0.60、0.70、0.80、0.90和0.99。下面的等式1-等式3涉及在某些实施方案中产生第一似然值和第二似然值以及所得到的定量值。
Figure BDA0003874104450000301
p(α12)=p(α1)*p(α21) (等式2)
Figure BDA0003874104450000302
(所有可能值的概率之和)
关于等式1-等式3,
L1是指其中在克隆水平上不存在变体的测试假设的似然值。使用与L1的相同的公式生成无效假设,但是α2具有不同范围的值(例如,0.3至1)。
α1是指肿瘤变体的等位基因频率,其可以用作TF估计值
α2是指靶变体(所述靶变体)的等位基因频率
Mv是指在肿瘤变体的基因座处支持肿瘤变体的分子数
Mr是指在肿瘤变体的基因座处支持参考野生型的分子数
Mv’是指在靶变体的基因座处支持靶变体的分子数
Mr’是指在靶变体的基因座处支持参考野生型的分子数
ε是指TF估计值的误差率
ε’是指靶变体的误差率
误差率通常由从健康或正常受试者获得的样品中获得的序列信息(例如,z评分等)导出。
α2=t*α1(等式4)该等式是为了简化目的(与等式1相同),但比等式1中的积分更容易计算。
∈和∈'对应肿瘤分数(maxmaf)的误差率和靶变体的误差率
Figure BDA0003874104450000311
Figure BDA0003874104450000312
Epsilon(∈)是由从健康或正常受试者获得的样品中获得的序列信息导出的z评分的计算得出的。
在下面的等式中:
T是指在克隆水平上不存在靶变体
T+是指在克隆水平上存在靶变体
Vi +是指变体(而不是靶)存在(i=1,…,n所有其他判定的变体)
Figure BDA0003874104450000313
是指似然值(基本假设i=0,测试假设i=1)
基于其他变体的流行率调整定量值
在一些实例中,阴性预测分析器134可以基于受试者111的样品101中除了靶变体之外的一个或更多个变体的存在来调整从TF估计值确定的定量值。例如,阴性预测分析器134可以确定cfDNA样品101中的至少第二变体的流行率,并且基于至少第二变体的流行率来调整定量值。
例如,流行率数据可以根据等式7和等式8确定:
Figure BDA0003874104450000314
Figure BDA0003874104450000315
测试假设正确的似然值(L1)可以基于等式9来调整,以产生经调整的似然值(L1a),并且似然比(LRa)可以根据等式10产生:
Figure BDA0003874104450000316
Figure BDA0003874104450000317
等式10是使用条件依赖性的性质的似然比。
基于LLR评估阴性预测
在一些实例中,定量值可以基于第一似然值和第二似然值之间的LLR。因此,定量值可以基于第一似然值(诸如等式14的L1)和第二似然值(诸如等式15的L0)之间的比值。在一些实例中,阴性预测分析器134可以产生基于TF的LLR(诸如等式16中示出的LLRtf)。阴性预测分析器134可以基于等式11产生定量值(诸如LLR):
LLR=LLRtf+LLRme(等式11)(肿瘤分数(LLRtf)和互斥性(LLRme)的对数似然比(LLR))。
使用基于协方差(互斥性)数据的LLR评估阴性预测
在一些实例中,定量值可以基于协方差数据的LLR。例如,阴性预测分析器134可以产生反映了协方差数据的LLRme,如等式18示出的(变体被一起观察到的次数的条件概率)。
Figure BDA0003874104450000321
Figure BDA0003874104450000322
使用LLR的组合评估阴性预测
在一些实施方案中,定量值可以被表示为基于以下的组合的对数后验概率比(LPPR):无效假设或测试假设是否正确的基于TF的对数似然值、无效假设或测试假设是否正确的基于协方差(例如,互斥性)的对数似然值、和基于先验数据的对数数据,诸如在下文的等式19和等式21中表示的。在一些实例中,定量值(诸如等式11中的LLR)可以进一步基于对数先验数据,该对数先验数据基于不一定限于受试者111的样品101的历史观察数据。这样的对数先验数据可以基于指示一个或更多个表现出共现性和/或互斥性的变体的历史流行率的协变量信息。例如,对数先验数据可以表示为:
Figure BDA0003874104450000323
对数先验数据可以用于与其他值组合地产生定量值,诸如在等式19中。
Figure BDA0003874104450000331
Figure BDA0003874104450000332
Figure BDA0003874104450000333
Figure BDA0003874104450000334
Figure BDA0003874104450000335
Figure BDA0003874104450000336
LPPR=基于TF的+基于协方差的+基于先验数据的
Figure BDA0003874104450000337
Figure BDA0003874104450000338
Figure BDA0003874104450000339
应理解,在先前的实例中,阴性预测分析器134被描述为实施方法300并且执行前述另外的操作。还应理解,前述另外的操作可以是方法300的一部分并且扩展方法300。
图中描绘的各种处理操作和/或方法可以使用本文详细描述的系统组件中的一些或全部来完成,并且在一些实施方式中,多种操作可以以不同的顺序执行,并且可以省略多种操作。另外的操作可以与描绘的流程图中示出的操作中的一些或全部一起执行。可以同时执行一个或更多个操作。因此,所示出(并且在本文更详细地描述)的操作被提供为实例,并且因此,不应被视为限制性的。
计算机实施
本发明的方法可以是计算机实施的,使得在说明书或所附权利要求书中描述的除了湿化学步骤之外的任何或所有操作可以在合适的编程计算机中进行。计算机可以是大型计算机、个人计算机、平板电脑、智能手机、云、在线数据存储、远程数据存储等。计算机可以在一个或更多个位置操作。
本发明的方法的各种操作可以利用信息和/或程序,并生成存储在计算机可读介质(例如,硬盘驱动器、辅助存储器、外部存储器、服务器;数据库、便携式存储装置(例如,CD-R、DVD、ZIP盘、闪存卡)等)上的结果。
本公开内容还包括用于分析核酸群体的制品,该制品包括包含一个或更多个程序的机器可读介质,所述程序在执行时实施本发明的方法的步骤。
本公开内容可以在硬件和/或软件中实施。例如,本公开内容的不同方面可以按客户端逻辑或服务器端逻辑实施。本公开内容或其组成部分可以体现在包含逻辑指令和/或数据的固定介质程序组件中,当这些指令和/或数据被加载到适当配置的计算装置中时使装置根据本公开内容进行。包含逻辑指令的固定介质可以在固定的介质上递送至观察者,用于物理加载到观察者的计算机中,或者包含逻辑指令的固定介质可以驻留在观察者通过通信介质访问以下载程序组件的远程服务器上。
本公开内容提供了被编程为实现本公开内容的方法的计算机控制系统。处理器120可以包括单核或多核处理器,或者用于并行处理的多于一个处理器。存储装置122可以包括随机存取存储器、只读存储器、闪存存储器、硬盘和/或其他类型的存储器。计算机系统110可以包括用于与一个或更多个其他系统通信的通信接口(例如,网络适配器)和外围设备,诸如高速缓存、其他存储器、数据存储器和/或电子显示适配器。计算机系统110的组件可以通过诸如主板的内部通信总线彼此通信。存储装置122可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统110可以借助于通信接口被可操作地耦合至计算机网络(“网络”)。网络可以是互联网、内联网和/或外联网、或与互联网通信的内联网和/或外联网。在一些情况下,网络为电信和/或数据网络。网络可以包括局域网。网络可以包括一个或更多个计算机服务器,其可以支持分布式计算,诸如云计算。在一些情况下,借助于计算机系统110,网络可以实现对等网络(peer-to-peer network),其可以使耦合至计算机系统120的设备能够作为客户端或服务器运行。
处理器120可以执行一系列可以以程序或软件体现的机器可读指令。指令可以被存储于存储器位置,诸如存储装置122中。指令可以被导向处理器120,其可以随后编程或以其他方式配置处理器120,以实现本公开内容的方法。由处理器120进行的操作的实例可以包括读取、解码、执行和写回。
处理器120可以是电路诸如集成电路的一部分。系统100的一个或更多个其他组件可以被包括在电路中。在一些情况下,电路可以包括专用集成电路(ASIC)。
存储装置122可以存储文件,诸如驱动程序、库和保存的程序。存储装置122可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统110可以包括一个或更多个另外的数据存储单元,该数据存储单元在计算机系统110的外部,诸如位于通过内联网或互联网与计算机系统110通信的远程服务器上。
计算机系统110可以与一个或更多个远程计算机系统通过网络进行通信。例如,计算机系统110可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、板式(slate)或平板PC(例如,
Figure BDA0003874104450000351
iPad、
Figure BDA0003874104450000352
Galaxy Tab)、电话、智能电话(例如,
Figure BDA0003874104450000353
iPhone、Android支持的设备、
Figure BDA0003874104450000354
)或个人数字助理。用户可以经由网络访问计算机系统110。
如本文描述的方法可以通过机器(例如,计算机处理器)可执行代码的方式实现,该机器可执行代码被存储在计算机系统110的电子存储位置,诸如,例如在存储装置122上。机器可执行代码或机器可读代码可以以软件的形式(例如,计算机可读介质)提供。在使用期间,代码可以由处理器120执行。在一些情况下,代码可以从存储装置122检索并存储在存储装置122上,以用于由处理器120即时访问。
代码可以被预编译并被配置为用于与具有适用于执行代码的处理器的机器一起使用,或可以在运行时间期间被编译。代码可以以编程语言提供,该编程语言可以被选择使得代码能够以预编译的或按编译原样(as-compiled)的方式被执行。
本文提供的系统和方法的方面,诸如计算机系统110,可以以编程来体现。技术的多个方面可以被认为是通常携带在某种类型的机器可读介质上或在某种类型的机器可读介质中体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品”。机器可执行代码可以被存储在电子存储单元诸如存储器(例如,只读存储器、随机存取存储器、闪存存储器)或硬盘上。
“存储”型介质可以包括计算机、处理器等或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等的任一种或全部有形存储器,其可以在任何时间为软件编程提供非瞬时性存储。软件的全部或一部分有时可以通过互联网或各种其他电信网络进行通信。例如,这样的通信可以实现将软件从一个计算机或处理器加载到另一个计算机或处理器中,例如,从管理服务器或主机加载到应用服务器的计算机平台中。因此,可以携带软件元件的另一类型的介质包括诸如在本地设备之间跨物理界面、通过有线和光纤陆线网络以及在各种空中链路(air-link)上使用的光波、电波和电磁波。携带这样的波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是携带软件的介质。如本文使用的,除非被限制为非瞬时性的、有形的存储介质,否则“介质”可以包括其他类型的(无形的)介质。
“存储”介质,诸如计算机或机器“可读介质”的术语是指参与将指令提供至处理器用于执行的任何有形的(诸如物理的)、非瞬时性介质。
因此,机器可读介质,诸如计算机可执行代码,可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,诸如附图中示出的在任何计算机等中的任何存储装置,诸如可以用于实现数据库等。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形的传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括例如:软盘(floppy disk)、软磁盘(flexible disk)、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输这样的载波的缆线或链路,或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以参与将一串或更多串的一个或更多个指令运送至处理器以便执行。
计算机系统110可以包括电子显示器935或与之通信,该电子显示器935包括用户界面(UI),用于提供例如报告。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开内容的方法和系统可以通过一个或更多个算法的方式来实施。算法可以通过软件的方式由处理器120执行时实施。
样品收集和分析流水线
样品101可以是从受试者分离的任何生物样品。样品可以包括身体组织,诸如已知或怀疑的实体瘤、全血、血小板、血清、血浆、粪便、红细胞、白血细胞或白细胞、内皮细胞、组织活检物、脑脊液、滑液、淋巴液、腹水、间质液或细胞外液,细胞之间的间隙中的流体(包括龈沟液)、骨髓、胸腔积液、脑脊液、唾液、粘液、痰、精液、汗液、尿液。样品优选为体液,特别是血液及其级分,以及尿液。这样的样品包括从肿瘤脱落的核酸。核酸可以包括DNA和RNA,并且可以是双链和/或单链形式。样品可以是从受试者原始分离的形式,或者可以已经经历进一步处理以去除或添加组分,诸如细胞,相对于另一种组分富集一种组分,或者将一种形式的核酸转化为另一种形式的核酸,诸如将RNA转化为DNA或将单链核酸转化为双链核酸。因此,例如,用于分析的体液是包含无细胞核酸例如无细胞DNA(cfDNA)的血浆或血清。
在某些实施方案中,多核苷酸可以在测序之前富集。富集可以针对特定的靶区域(“靶序列”)进行或非特异性地进行。在一些实施方案中,感兴趣的靶区域可以用针对一个或更多个诱饵集组(bait set panels)选择的捕获探针(“诱饵”)使用差异性平铺(differential tiling)和捕获方案来富集。差异性平铺和捕获方案使用不同相对浓度的诱饵组以在跨越与诱饵相关的基因组区域中差异性平铺(例如,以不同的“分辨率”),经受一组限制(例如,测序仪限制,诸如测序载量、每种诱饵的效用等),并以下游测序所期望的水平捕获它们。这些感兴趣的靶基因组区域可以包括受试者的基因组或转录组的区域。在一些实施方案中,具有针对一个或更多个感兴趣的区域的探针的生物素标记的珠可以用于捕获靶序列,任选地随后扩增这些区域以富集感兴趣的区域。
序列捕获通常包括使用与靶序列杂交的寡核苷酸探针。探针组策略可以包括将探针平铺在感兴趣的区域上。这样的探针可以是,例如,约60个至130个碱基长。该组可以具有约2x、3x、4x、5x、6x、8x、9x、10x、15x、30x、50x或更多的深度。序列捕获的有效性部分地取决于靶分子中与探针的序列互补(或接近互补)的序列的长度。
在一些实施方案中,本公开内容的方法包括在测序之前选择性地富集受试者的基因组或转录组中的区域。在其他实施方案中,本公开内容的方法包括在测序之前非选择性地富集受试者的基因组或转录组中的区域。
在某些实施方案中,在富集之后将样品索引序列引入多核苷酸中。样品索引序列可以通过PCR引入多核苷酸中或连接至多核苷酸,任选地作为衔接子的一部分。
血浆的体积可以取决于对测序的区域期望的读段深度。示例性体积为0.4-40ml、5-20ml、10-20ml。例如,体积可以是0.5ml、1ml、5ml、10ml、20ml、30ml或40ml。取样的血浆的体积可以是5ml至20ml。
样品可以包含各种量的包含基因组等同物的核酸。例如,约30ng DNA的样品可以包含约10,000(104)个单倍体人类基因组等同物,并且在cfDNA的情况下,可以包含约2000亿(2×1011)个个体多核苷酸分子。类似地,约100ng的DNA的样品可以包含约30,000个单倍体人类基因组等同物,并且在cfDNA的情况下,可以包含约6000亿个个体分子。
样品可以包含来自不同来源的核酸,例如来自细胞和游离细胞。样品可以包含携带突变的核酸。例如,样品可以包含携带种系突变和/或体细胞突变的DNA。样品可以包含携带癌症相关突变(例如,癌症相关体细胞突变)的DNA。
扩增前样品中无细胞核酸的示例性量的范围为约1fg至约1μg,例如,1pg至200ng、1ng至100ng、10ng至1000ng。例如,量可以是多达约600ng、多达约500ng、多达约400ng、多达约300ng、多达约200ng、多达约100ng、多达约50ng或多达约20ng的无细胞核酸分子。量可以是至少1fg、至少10fg、至少100fg、至少1pg、至少10pg、至少100pg、至少1ng、至少10ng、至少100ng、至少150ng或至少200ng的无细胞核酸分子。量可以是多达1飞克(fg)、10fg、100fg、1皮克(pg)、10pg、100pg、1ng、10ng、100ng、150ng或200ng的无细胞核酸分子。该方法可以包括获得1飞克(fg)至200ng。
无细胞核酸具有约100-500个核苷酸的示例性尺寸分布,其中110个至约230个核苷酸的分子代表分子的约90%,在人类中的众数为约168个核苷酸,且第二个小峰在240个至430个核苷酸之间的范围中。无细胞核酸可以是约160个至约180个核苷酸,或约320个至约360个核苷酸,或约430个至约480个核苷酸。
无细胞核酸可以通过分配(partition)步骤从体液分离,在该分配步骤中,如存在于溶液中的无细胞核酸与体液中的完整细胞和其他不可溶组分分离。分配可以包括诸如离心或过滤的技术。可选地,体液中的细胞可以被裂解,并且无细胞核酸和细胞核酸被一起处理。通常,在添加缓冲液和洗涤步骤之后,无细胞核酸可以用醇沉淀。可以使用进一步的清洁步骤诸如基于二氧化硅的柱以去除污染物或盐。例如,可以在整个反应中添加非特异性批量(bulk)载体核酸以优化程序的某些方面,诸如收率。
在这样的处理后,样品可以包括各种形式的核酸,包括双链DNA、单链DNA和单链RNA。任选地,单链DNA和RNA可以被转化成双链形式,因此它们被包括在随后的处理和分析步骤中。
扩增
侧翼为衔接子的样品核酸可以通过通常从结合至待扩增的DNA分子侧翼的衔接子中的引物结合位点的引物引发的PCR和其他扩增方法扩增。扩增方法可以包括由热循环产生的延伸、变性和退火的循环,或者可以是如在转录介导的扩增中的等温循环。其他扩增方法包括连接酶链式反应、链置换扩增、基于核酸序列的扩增和基于自我维持序列的复制。
可以应用一种或更多种扩增以使用常规的核酸扩增方法将条形码引入到核酸分子。扩增可以在一种或更多种反应混合物中进行。可以同时或以任何顺序引入分子标签和样品索引/标签。可以在序列捕获之前和/或之后引入分子标签和样品索引/标签。在一些情况下,在探针捕获之前仅引入分子标签,而在序列捕获之后引入样品索引/标签。在一些情况下,在探针捕获之前引入分子标签和样品索引/标签两者。在一些情况下,在序列捕获之后引入样品索引/标签。通常,序列捕获包括引入与靶序列(例如,基因组区域的编码序列,并且这样的区域的突变与癌症类型相关)互补的单链核酸分子。典型地,扩增产生多于一个非独特地或独特地加标签的核酸扩增子,其中分子标签和样品索引/标签的尺寸范围为200nt至700nt、250nt至350nt或320nt至550nt。在一些实施方案中,扩增子具有约300nt的尺寸。在一些实施方案中,扩增子具有约500nt的尺寸。
条形码
条形码可以通过化学合成、连接、重叠延伸PCR等方法掺入到衔接子中或以其他方式连接至衔接子。通常,反应中独特或非独特条形码的分配遵循由美国专利申请20010053519、20110160078和美国专利第6,582,908号和美国专利第7,537,898号和US 9,598,731描述的方法和系统。
标签可以随机或非随机地连接至样品核酸。在一些情况下,它们以预期的标识符(即,条形码的组合)与微孔的比引入。条形码的集合可以是独特的,例如,所有条形码具有不同的核苷酸序列。条形码的集合可以是非独特的,即,一些条形码具有相同的核苷酸序列,并且一些条形码具有不同的核苷酸序列。例如,可以加载标识符使得每基因组样品加载多于1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、50种、100种、500种、1000种、5000种、10000种、50,000种、100,000种、500,000种、1,000,000种、10,000,000种、50,000,000种或1,000,000,000种标识符。在一些情况下,可以加载标识符使得每基因组样品加载少于2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、50种、100种、500种、1000种、5000种、10000种、50,000种、100,000种、500,000种、1,000,000种、10,000,000种、50,000,000种或1,000,000,000种标识符。在一些情况下,每样品基因组加载的标识符的平均数目少于或大于每基因组样品约1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、50种、100种、500种、1000种、5000种、10000种、50,000种、100,000种、500,000种、1,000,000种、10,000,000种、50,000,000种或1,000,000,000种标识符。
优选的形式使用连接至靶分子的两端的20-50种不同的标签,产生20-50×20-50种标签,即400-2500种标签组合。这样的标签数目足以使具有相同起始点和终止点的不同分子具有接收标签的不同组合的高概率(例如,至少94%、99.5%、99.99%、99.999%)。
在一些情况下,标识符可以是预定序列寡核苷酸、或随机序列寡核苷酸或半随机序列寡核苷酸。在其他情况下,可以使用多于一个条形码使得所述多于一个条形码中的条形码对于彼此不一定是独特的。在该实例中,条形码可以附接(例如,通过连接或PCR扩增)至个体分子,使得条形码和可以与其附接的序列的组合产生可以被单独地追溯的独特序列。如本文描述的,与特定测序样品分子的开始(起始)和/或结束(终止)基因组坐标(即,不包括从条形码、衔接子等获得的序列信息)组合的非独特地加标签的条形码的检测可以允许为特定分子分配独特的身份。个体测序样品分子的长度或碱基对的数目(即,不包括对应于条形码、衔接子等的序列信息)也可以用于为这样的分子分配独特的身份。如本文描述的,来自已经被分配了独特身份的核酸的单链的片段可以从而允许对来自亲本链和/或互补链的片段的随后鉴定。
测序流水线
可以对预先扩增或未预先扩增的侧翼为衔接子的样品核酸进行测序,诸如通过一个或更多个测序装置107。测序方法包括,例如,Sanger测序、高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Ion Torrent、Oxford纳米孔、Roche Genia、Maxim-Gilbert测序、引物步移(primer walking)、使用PacBio、SOLiD、Ion Torrent或纳米孔平台的测序。测序反应可以在各种各样的样品处理单元中进行,所述样品处理单元可以是大体上同时处理多于一个样品组的多泳道、多通道、多孔或其他装置。样品处理单元还可以包括多于一个样品室以能够同时处理多于一个运行。
可以对已知包含癌症或其他疾病的标志物的一种或更多种片段类型进行测序反应。也可以对样品中存在的任何核酸片段进行测序反应。测序反应可以提供对特定基因组的至少5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%的测序。在其他情况下,测序反应可以提供对特定基因组的少于5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%或100%的测序。
可以使用多重测序进行同时的测序反应。在一些情况下,可以用至少1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个、100,000个测序反应对无细胞多核苷酸测序。在其他情况下,可以用少于1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个、100,000个测序反应对无细胞多核苷酸测序。测序反应可以依次或同时进行。可以对所有或部分测序反应进行随后的数据分析。在一些情况下,可以对至少1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个、100,000个测序反应进行数据分析。在其他情况下,可以对少于1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个、100,000个测序反应进行数据分析。示例性读段深度是1000-50000个读段/基因座(碱基)。
序列分析流水线
本发明的方法可以用于诊断受试者中状况特别是癌症的存在或不存在,以表征状况(例如,对癌症进行分期或确定癌症的异质性),监测对状况的治疗的响应,实现对发展状况或状况后续进程的风险的预后。
使用本发明的方法可以检测多种癌症。癌细胞,如大多数细胞一样,可以通过更新率(rate of turnover)表征,其中旧细胞死亡并被较新的细胞替换。通常,特定受试者体内与血管系统接触的死亡细胞可以将DNA或DNA的片段释放到血流中。在疾病的各分期期间,癌细胞也是如此。癌细胞还可以根据疾病的分期通过各种遗传畸变诸如拷贝数变异以及罕见突变来表征。这种现象可以用于使用本文描述的方法和系统在个体中检测癌症的存在或不存在。
可以检测到的癌症的类型和数目可以包括血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、固态肿瘤(solid state tumor)、异质性肿瘤、同质性肿瘤等。
癌症可以根据包括以下的遗传变异进行检测:突变、罕见突变、插入/缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变。
遗传数据也可以用于表征特定形式的癌症。癌症在组成和分期两方面通常是异质性的。遗传谱数据可以允许表征癌症的特定亚型,该表征在该特定亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于特定类型癌症的预后的线索,并且允许受试者或从业者根据疾病的进展调整治疗选择。一些癌症进展,变得更具侵袭性和遗传不稳定。其他癌症可以保持良性的、非活动的或休眠的。本公开内容的系统和方法可以用于确定疾病进展。
本发明的分析也可用于确定特定治疗选择的效力。如果治疗是成功的,则成功的治疗选择可以随着更多的癌症可能死亡并使DNA脱落而增加受试者的血液中检测到的拷贝数变异或罕见突变的量。在其他实例中,这可能不会发生。在另一实例中,也许某些治疗选择可能与癌症随时间推移的遗传谱相关。这种相关性可以用于选择疗法。另外,如果观察到癌症在治疗之后处于缓解中,则本发明的方法可以用于监测残留疾病或疾病的复发。
本发明的方法还可以用于检测除癌症之外的状况中的遗传变异。在出现某些疾病后,免疫细胞,诸如B细胞,可以经历快速克隆扩增。可以使用拷贝数变异检测来监测克隆扩增,并且可以监测某些免疫状态。在该实例中,可以随时间推移进行拷贝数变异分析,以产生特定疾病可能如何进展的谱。拷贝数变异或甚至罕见突变检测可以用于确定病原体群体在感染的进程期间如何改变。这在慢性感染(诸如HIV/AID或肝炎感染)期间可能特别重要,其中病毒可以在感染的进程期间改变生命周期状态和/或突变为毒力更强的形式。当免疫细胞试图破坏移植组织时,本发明的方法可以用于确定或剖析宿主身体的排斥活性,以监测移植组织的状态以及改变排斥治疗或预防的过程。
此外,本公开内容的方法可以用于表征受试者的异常状况的异质性,该方法包括产生受试者的胞外多核苷酸的遗传谱,其中该遗传谱包括从拷贝数变异和罕见突变分析得到的多于一个数据。在一些情况下,包括但不限于癌症,疾病可以是异质的。病变细胞可以不相同。在癌症的实例中,一些肿瘤已知包含不同类型的肿瘤细胞,一些细胞处于癌症的不同分期。在其他实例中,异质性可以包括疾病的多于一个病灶。再次,在癌症的实例中,可以存在多于一个肿瘤病灶,或许其中一个或更多个病灶是已从原发部位扩散的转移的结果。
本发明的方法可以用于产生或剖析为来源于异质性疾病中不同细胞的遗传信息总和的指纹图谱或数据集。该数据集可以包括单独或组合的拷贝数变异和罕见突变分析。
本发明的方法可以用于诊断、预后、监测或观察胎儿来源的癌症或其他疾病。即,这些方法可以用于妊娠受试者,以诊断、预后、监测或观察未出生受试者的癌症或其他疾病,所述未出生受试者的DNA和其他多核苷酸可以与母体分子共循环。
示例性精确治疗
由改进的计算机系统110提供的精确诊断可以产生由计算机系统110鉴定(和/或由卫生专业人员选择)的精确的治疗计划。例如,在肺癌和其他疾病方面,目标可以是根据特定变体的存在来确保不存在更优的治疗选择。例如,EGFR(L858R,外显子19缺失)、BRAFV600E、ALK和ROS1融合可以用可能比铂疗法和化学疗法更合适的靶向疗法来治疗。虽然这些是主要驱动因子(primary driver)的实例,但也存在其他可靶向的驱动因子,诸如MET外显子14跳读。在另一实例中,对于结肠癌,目标可以是避免无效的治疗。如果KRAS或NRAS为野生型,则使用FOLFIRI的化学疗法或使用伊立替康方案的化学疗法可以用西妥昔单抗或帕尼单抗来补充。因此,KRAS和NRAS是否为野生型的置信度将增加添加西妥昔单抗或帕尼单抗是正确治疗选择的置信度,并且可能不需要进一步的测试。对此的生物学解释是西妥昔单抗或帕尼单抗靶向EGFR并且抑制其活性。RAS(K/NRAS)位于EGFR下游,因此如果RAS被激活,则抑制EGFR将具有极小的影响或没有影响,因此西妥昔单抗或帕尼单抗治疗将被不适当地施用。
随着针对各种疾病的另外的疗法的开发,对阴性预测的解释将变得越来越复杂,且在设计精确疗法方面变得越来越重要。
另一目标可以是指导是否进行下游诊断程序。例如,通过确定不存在变体,可能的是避免(或建议避免)昂贵的或侵入性的诊断测试,例如成像程序、扫描(诸如CT、MRI或PET扫描)、内窥镜程序和/或实体组织活检(诸如针刺活检)。还可能的是避免(或建议避免)另一种液体活检测试(例如,血液、血浆、尿液、脑脊液)或粪便测试。因此,基于血液测定的结果可以用于指导反馈组织测试(reflex tissue testing),并且避免对确认任何潜在的感兴趣的变体的野生型状态的实体组织活检的需求。如上文描述的阴性预测可以用于评估液体活检中不存在临床显著突变的概率,这可以提供液体活检足以检测感兴趣的变体的潜在存在,并且不需要下游诊断程序的置信度。这也可以有助于及时的治疗决策。
通过将经测序的核酸与参考序列进行比较,可以确定经测序的核酸中的核苷酸变异。参考序列通常是已知序列,例如,已知的来自对象的全基因组序列或部分基因组序列、人类对象的全基因组序列。参考序列可以是hG19。如上文描述的,经测序的核酸可以代表直接确定的样品中的核酸的序列或这样的核酸的扩增产物的共有序列。可以在参考序列上的一个或更多个指定位置处进行比较。当相应的序列被最大程度地对齐时,可以鉴定经测序的核酸的子集,该子集包括与参考序列的指定位置对应的位置。在这样的子集中,可以确定哪些(如果有的话)经测序的核酸在指定位置处包括核苷酸变异,以及任选地哪些(如果有的话)包括参考核苷酸(即,与参考序列中的相同)。如果子集中包括核苷酸变体的经测序的核酸的数目超过阈值,则变体核苷酸可以在指定位置处被判定。阈值可以是简单的数字,诸如子集内包括核苷酸变体的至少1个、2个、3个、4个、5个、6个、7个、9个或10个经测序的核酸,或者阈值可以是子集内包括核苷酸变体的经测序的核酸的比值,诸如至少0.5、1、2、3、4、5、10、15或20,以及其他可能性。可以对参考序列中任何指定的感兴趣位置进行重复比较。有时可以对占据参考序列上至少20个、100个、200个或300个连续位置(例如,20-500个或50-300个连续位置)的指定位置进行比较。
实施例
实施例1:晚期结肠直肠癌(CRC)中抗EGFR疗法的阴性预测因子的液体活检野生型 预测
方法
Figure BDA0003874104450000461
ctDNA测试(Guardant Health,Redwood City,CA)开发了一种分析方法,该方法联合分析估计的肿瘤分数和互斥突变的存在,以便为克隆激活性RAS/RAF突变提供是/否/无法评价的野生型状态。
结果
为了验证该方法和模型在克隆野生型确定中的置信度,使用了来自患有CRC以及通过对经历临床Guardant360测试的患者(n=98)进行组织测序而已知的阳性RAS/RAF突变状态的患者的样品的子集。通过Guardant360,79个一致检测到RAS/RAF,而19个未检测到RAS/RAF突变,这可以用于证实模型的预测。该模型正确地将所有19个样品鉴定为无法评价野生型状态,并且在存在已知RAS/RAF突变的情况下没有提供高置信度野生型判定。为了评估总体性能,将该方法应用至来自超过8,500名患有CRC的患者的样品队列,并且能够对RAS/RAF突变(40.7%)或克隆野生型状态(21.3%)中任何一项做出高置信度确定,显著扩大了通过ctDNA测试可以可靠地获得RAS/RAF状态的最终确定的患者队列。
结论
Guardant360 ctDNA测试可以可靠地确定大多数晚期CRC患者的RAS/RAF基因的野生型状态,并且可靠地指导抗EGFR疗法决策。
实施例2:在晚期癌症液体活检中观察到的互斥性和突变共现性
引言
具有未经治疗的实体瘤(treatment-naive solid tumor)的患者的体细胞突变倾向于是克隆性的,并且经常显示突变发生的组织学特异的定型模式。例如,在具有未经治疗的非小细胞肺癌(NSCLC)的患者中,未观察到EGFR外显子19缺失与其他驱动突变(诸如MET外显子14跳读缺失或EML4-ALK融合)共现(TCGA,2017)。相比之下,来自具有先前治疗过的疾病的患者的肿瘤经历了不同的影响其肿瘤生物学和突变模式的生物学和药物环境。使用Guardant360无细胞循环肿瘤DNA(ctDNA)血浆测试,我们在非常大的晚期NSCLC和结肠直肠癌(CRC)队列中表征了突变模式。
方法
经历临床Guardant360测试(Guardant Health,Redwood City,CA)的患有晚期NSCLC(n=59,589)和CRC(n=13,116)的患者的去识别化结果被用于分析变体的互斥性和共现性。患者为未经治疗的和先前治疗过的。包括在分析中的变体需要至少200个观察,每个观察具有大于0.01变体等位基因分数。符合标准的变体使用Fisher精确检验并用Bonferroni方法对多重检验进行校正来评估。
结果
在来自患有晚期NSCLC的患者的超过59,000个ctDNA结果中,先前报导的已知的NSCLC驱动因子诸如EGFR外显子19缺失与MET外显子14跳读改变的互斥性的组织分析发现被证实。发现了另外的70对互斥突变,包括新的对,其中STK11、TERT和BRAF(第3类)的突变被观察到与已知的NSCLC驱动突变互斥。还观察到EGFR抗性突变T790M和C797S与EGFR驱动因子的专有共现性(exclusive co-occurrence),重演了在TCGA中观察到的共现。在CRC(一种不是通常已知的互斥驱动突变的癌症类型)中,对超过13,000例病例的分析鉴定出先前未描述过的在变体BRAF V600E和APC R876*之间的互斥性,p<0.005。在KRAS、BRAF、APC和TP53中发现了另外的特异性互斥突变的对。
结论
利用以基于血浆ctDNA的全面基因组谱分析测试的非常大的晚期NSCLC和CRC队列,证实了先前报导的互斥驱动突变模式,并且发现了新的共现和排他性模式。这些结果突出了ctDNA用于鉴定临床相关突变和新的生物突变模式的效用。
上文或下文引用的所有专利申请、网站、其他出版物、登录号等,出于所有目的通过引用以其整体并入,其程度如同每个单独的项目被具体和单独地指明如此通过引用并入。如果序列的不同版本在不同时间与一个登录号关联,则意指在本申请的有效申请日时与该登录号关联的版本。有效申请日意指引用该登录号的实际申请日或优先权申请(如果适用)的申请日中较早的一个。同样,如果出版物、网站等的不同版本在不同时间公布,则意指在申请的有效申请日时的最近公布的版本,除非另有指示。本公开内容的任何特征、步骤、要素、实施方案或方面可以与任何其他特征、步骤、要素、实施方案或方面组合使用,除非另有具体指示。尽管出于清楚和理解的目的已经通过说明和实例的方式相当详细地描述了本公开内容,但将明显的是,在所附权利要求书的范围内可以实施某些改变和修改。

Claims (97)

1.一种确定在人类受试者的无细胞脱氧核糖核酸(cfDNA)样品中在第一基因座处在克隆水平上不存在感兴趣的第一变体的方法,所述方法包括:
访问所述cfDNA样品的多于一个序列读段;
基于所述多于一个序列读段确定在所述样品中在所述第一基因座处未检测到所述第一变体;
基于在克隆水平上不存在所述第一变体的概率产生第一似然值,和/或基于在克隆水平上并非不存在所述第一变体的概率产生第二似然值;
任选地,基于所述第一似然值和/或所述第二似然值确定定量值;
将所述定量值和/或所述第一似然值和/或所述第二似然值与阈值进行比较;以及
基于所述比较确定在所述第一基因座处在克隆水平上不存在感兴趣的所述第一变体。
2.根据权利要求1所述的方法,其中产生所述第一似然值和所述第二似然值包括:
确定所述样品的肿瘤分数估计值,其中所述第一似然值和所述第二似然值基于所述肿瘤分数估计值。
3.根据权利要求2所述的方法,其中确定所述肿瘤分数估计值包括:
确定所述样品中肿瘤突变的最大突变等位基因频率(MAX MAF)。
4.根据权利要求3所述的方法,其中确定所述MAX MAF包括基于所述多于一个序列读段确定与所述肿瘤突变相关的分子计数。
5.根据权利要求3所述的方法,其中产生所述第一似然值和所述第二似然值包括:
确定至少第二变体的等位基因频率,其中所述第一似然值和所述第二似然值进一步基于所述等位基因频率和所述MAX MAF。
6.根据权利要求5所述的方法,所述方法还包括:
将所述等位基因频率与基于所述MAX MAF的第二阈值进行比较,其中确定在所述第一基因座处在克隆水平上不存在感兴趣的所述第一变体进一步基于所述MAF与所述第二阈值的比较。
7.根据权利要求5所述的方法,其中确定所述等位基因频率包括:
基于所述多于一个序列读段确定与所述第一变体相关的第一分子计数。
8.根据权利要求5所述的方法,其中确定所述定量值包括:
访问指示与所述第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中所述定量值基于所述协变量信息。
9.根据权利要求8所述的方法,还包括:
确定所述cfDNA样品中至少第二变体的流行率,其中所述定量值进一步基于所述协变量信息。
10.根据权利要求1所述的方法,其中确定所述定量值包括:
访问指示与所述第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中所述定量值基于所述协变量信息。
11.根据权利要求10所述的方法,还包括:
确定所述cfDNA样品中至少第二变体的流行率,其中所述定量值进一步基于所述第二变体的流行率。
12.根据权利要求1所述的方法,其中所述定量值基于所述第一似然值与所述第二似然值的比值。
13.根据权利要求1所述的方法,还包括基于所述定量值确定在所述cfDNA样品中在克隆水平上不存在所述第一变体的置信水平。
14.根据权利要求1所述的方法,还包括确定治疗所述人类受试者的疾病的治疗计划。
15.根据权利要求14所述的方法,其中所述疾病是癌症。
16.根据权利要求1所述的方法,还包括:
确定所述cfDNA样品中至少第二变体的流行率;以及
基于所述cfDNA样品中至少第二变体的流行率来调整所述定量值。
17.一种使用计算机至少部分地确定在从具有特定癌症类型的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的方法,所述方法包括:
确定在所述cfNA样品中在所述第一遗传基因座处未检测到所述第一靶核酸变体;
根据从所述cfNA样品产生的序列信息通过计算机确定对所述第一遗传基因座的覆盖度;
根据从所述cfNA样品产生的序列信息通过计算机确定肿瘤分数;
根据所述覆盖度和所述肿瘤分数通过计算机确定在所述cfNA样品中在所述第一遗传基因座处并非不存在所述第一靶核酸变体的概率,以产生定量值;以及
当所述定量值不同于阈值时,确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
18.一种使用计算机至少部分地确定在从受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的方法,所述方法包括:
确定在从所述受试者获得的所述cfNA样品中未检测到所述第一靶核酸变体,以产生第一测试结果;
确定在从所述受试者获得的所述cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;
根据所述第二测试结果通过计算机确定在所述cfNA样品中不存在所述第一靶核酸变体的第一概率和/或根据所述第二测试结果通过计算机确定在所述cfNA样品中并非不存在所述第一靶核酸的第二概率;
使用所述第一概率、所述第二概率和/或其比值通过计算机产生定量值;以及
当所述定量值不同于阈值时,确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
19.一种使用计算机至少部分地确定在从具有特定癌症类型的受试者获得的无细胞核酸(cfNA)样品中在第一遗传基因座处不存在第一靶核酸变体的方法,所述方法包括:
确定在从所述受试者获得的所述cfNA样品中未检测到所述第一靶核酸变体;
通过计算机产生至少一个基于肿瘤分数的值;
通过计算机产生至少一个互斥值;以及
使用所述基于肿瘤分数的值和/或所述互斥值确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
20.根据前述权利要求中任一项所述的方法,其中所述定量值小于所述阈值。
21.根据前述权利要求中任一项所述的方法,其中所述定量值大于所述阈值。
22.根据前述权利要求中任一项所述的方法,其中所述第一测试结果和所述第二测试结果取决于彼此。
23.根据前述权利要求中任一项所述的方法,包括确定在一个或更多个其他遗传基因座处不存在多于一个其他选择的靶核酸变体。
24.根据前述权利要求中任一项所述的方法,其中所述定量值包括对数似然比(LLR)阈值。
25.根据前述权利要求中任一项所述的方法,包括确定在多于一个参考cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体,以产生阈值。
26.根据权利要求25所述的方法,其中所述阈值包括克隆性阈值或亚克隆性阈值。
27.根据前述权利要求中任一项所述的方法,其中所述第一靶核酸变体包括驱动突变。
28.根据前述权利要求中任一项所述的方法,还包括基于在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体的确定,向所述受试者施用一种或更多种疗法。
29.根据前述权利要求中任一项所述的方法,包括使用所述肿瘤分数和二项式模型估计在所述cfNA样品中在所述第一遗传基因座处检测到所述第一靶核酸变体的概率。
30.根据权利要求29所述的方法,其中所述二项式模型包括关于所述特定癌症类型和/或所述第二靶核酸变体的信息。
31.根据前述权利要求中任一项所述的方法,其中在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体的确定指示所述第一遗传基因座是野生型。
32.根据前述权利要求中任一项所述的方法,其中特定癌症类型是结肠直肠癌,其中所述第一遗传基因座是KRAS、BRAF或NRAS,并且其中在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体的确定指示所述第一遗传基因座是野生型KRAS、BRAF或NRAS。
33.根据权利要求32所述的方法,还包括向所述受试者施用西妥昔单抗和/或帕尼单抗。
34.根据前述权利要求中任一项所述的方法,其中所述cfNA包括cfDNA。
35.根据前述权利要求中任一项所述的方法,其中所述cfNA包括cfRNA。
36.根据前述权利要求中任一项所述的方法,还包括重复所述方法一次或更多次,以监测在不同时间点从所述受试者获得的不同cfNA样品中在所述第一遗传基因座处是否不存在所述第一靶核酸变体。
37.根据前述权利要求中任一项所述的方法,还包括进行一种或更多种另外的测试以确认或驳斥在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体的确定。
38.根据前述权利要求中任一项所述的方法,包括确定所述cfNA样品的最大突变等位基因频率(MAX MAF)和使用所述MAX MAF作为肿瘤分数的估计值。
39.根据前述权利要求中任一项所述的方法,包括基于从所述cfNA样品获得的多于一个测序读段来确定在所述cfNA样品中在所述第一遗传基因座处未检测到所述第一靶核酸变体。
40.根据前述权利要求中任一项所述的方法,包括确定在所述cfNA样品中在克隆水平上不存在所述第一靶核酸变体。
41.根据前述权利要求中任一项所述的方法,包括基于所述第一概率产生第一似然值和基于所述第二概率产生第二似然值。
42.根据前述权利要求中任一项所述的方法,包括基于所述第一似然值和所述第二似然值确定所述定量值。
43.根据前述权利要求中任一项所述的方法,其中产生所述第一似然值和所述第二似然值包括:确定所述cfNA样品的肿瘤分数估计值,其中所述第一似然值和所述第二似然值基于所述肿瘤分数估计值。
44.根据权利要求43所述的方法,其中确定所述肿瘤分数估计值包括确定所述cfNA样品中肿瘤突变的最大突变等位基因频率(MAX MAF)。
45.根据权利要求44所述的方法,其中确定所述MAX MAF包括基于所述多于一个序列读段确定与所述肿瘤突变相关的分子计数。
46.根据权利要求45所述的方法,其中产生所述第一似然值和所述第二似然值包括确定至少第二变体的等位基因频率,其中所述第一似然值和所述第二似然值进一步基于所述等位基因频率和所述MAX MAF。
47.根据权利要求46所述的方法,还包括将所述等位基因频率与基于所述MAX MAF的第二阈值进行比较,其中确定在所述第一遗传基因座处在克隆水平上不存在感兴趣的所述第一靶核酸变体进一步基于所述MAF与所述第二阈值的比较。
48.根据权利要求46所述的方法,其中确定所述等位基因频率包括基于所述多于一个序列读段确定与所述第一靶核酸变体相关的第一分子计数。
49.根据权利要求46所述的方法,其中确定所述定量值包括访问指示与所述第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中所述定量值基于所述协变量信息。
50.根据权利要求49所述的方法,还包括确定所述cfDNA样品中至少第二靶核酸变体的流行率,其中所述定量值进一步基于所述协变量信息。
51.根据权利要求42所述的方法,其中确定所述定量值包括访问指示与所述第一靶核酸变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息,其中所述定量值基于所述协变量信息。
52.根据权利要求51所述的方法,还包括确定所述cfNA样品中至少第二靶核酸变体的流行率,其中所述定量值进一步基于所述第二靶核酸变体的流行率。
53.根据权利要求42所述的方法,其中所述定量值基于所述第一似然值与所述第二似然值的比值。
54.根据权利要求42所述的方法,还包括基于所述定量值确定在所述cfNA样品中在克隆水平上不存在所述第一靶核酸变体的置信水平。
55.根据权利要求42所述的方法,还包括确定所述cfNA样品中至少第二靶核酸变体的流行率;以及基于所述cfNA样品中至少第二靶核酸变体的流行率来调整所述定量值。
56.根据前述权利要求中任一项所述的方法,其中所述比值包括等于对数似然肿瘤分数值、对数似然互斥值和对数先验值之和的对数后验概率比(LPPR)。
57.根据前述权利要求中任一项所述的方法,其中所述第一遗传基因座或第二遗传基因座包括第二靶核酸变体。
58.根据前述权利要求中任一项所述的方法,其中所述定量值包括阴性预测值(NPV)评分。
59.根据前述权利要求中任一项所述的方法,其中所述特定癌症类型包括肺癌,并且所述第一靶核酸变体是选自由以下组成的组的基因中的突变:EGFR、BRAF、ALK、ROS1和MET。
60.根据前述权利要求中任一项所述的方法,其中所述特定癌症类型包括结肠直肠癌,并且所述第一靶核酸变体是选自由以下组成的组的基因中的突变:KRAS、BRAF和NRAS。
61.一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:
访问所述cfDNA样品的多于一个序列读段;
基于所述多于一个序列读段确定在所述样品中在所述第一基因座处未检测到所述第一变体;
基于在克隆水平上不存在所述第一变体的概率产生第一似然值,以及基于在克隆水平上并非不存在所述第一变体的概率产生第二似然值;
基于所述第一似然值和所述第二似然值确定定量值;
将所述定量值与阈值进行比较;以及
基于所述比较确定在所述第一基因座处在克隆水平上不存在感兴趣的所述第一变体。
62.一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:
访问从获自具有特定癌症类型的受试者的无细胞核酸(cfNA)样品产生的序列信息;
根据所述序列信息确定在cfNA样品中在第一遗传基因座处未检测到第一靶核酸变体;
根据所述序列信息确定所述第一遗传基因座的覆盖度;
根据所述序列信息确定肿瘤分数;
根据所述覆盖度和所述肿瘤分数确定在所述cfNA样品中在所述第一遗传基因座处并非不存在所述第一靶核酸变体的概率,以产生定量值;以及
当所述定量值不同于阈值时,确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
63.一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:
访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;
根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体,以产生第一测试结果;
根据所述序列信息确定在所述cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;
根据所述第二测试结果确定在所述cfNA样品中不存在所述第一靶核酸变体的第一概率和/或根据所述第二测试结果确定在所述cfNA样品中并非不存在所述第一靶核酸的第二概率;
使用所述第一概率、所述第二概率和/或其比值产生定量值;以及
当所述定量值不同于阈值时,确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
64.一种系统,所述系统包括控制器,所述控制器包括计算机可读介质或能够访问计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少一个电子处理器执行时,进行至少以下:
访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;
根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体;
产生至少一个基于肿瘤分数的值;
产生至少一个互斥值;以及
使用所述基于肿瘤分数的值和/或所述互斥值确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
65.一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:
访问所述cfDNA样品的多于一个序列读段;
基于所述多于一个序列读段确定在所述样品中在所述第一基因座处未检测到所述第一变体;
基于在克隆水平上不存在所述第一变体的概率产生第一似然值,以及基于在克隆水平上并非不存在所述第一变体的概率产生第二似然值;
基于所述第一似然值和所述第二似然值确定定量值;
将所述定量值与阈值进行比较;以及
基于所述比较确定在所述第一基因座处在克隆水平上不存在感兴趣的所述第一变体。
66.一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:
访问从获自具有特定癌症类型的受试者的无细胞核酸(cfNA)样品产生的序列信息;
根据所述序列信息确定在cfNA样品中在第一遗传基因座处未检测到第一靶核酸变体;
根据所述序列信息确定所述第一遗传基因座的覆盖度;
根据所述序列信息确定肿瘤分数;
根据所述覆盖度和所述肿瘤分数确定在所述cfNA样品中在所述第一遗传基因座处并非不存在所述第一靶核酸变体的概率,以产生定量值;以及
当所述定量值不同于阈值时,确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
67.一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:
访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;
根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体,以产生第一测试结果;
根据所述序列信息确定在所述cfNA样品中检测到至少第二靶核酸变体,以产生第二测试结果;
根据所述第二测试结果确定在所述cfNA样品中不存在所述第一靶核酸变体的第一概率和/或根据所述第二测试结果确定在所述cfNA样品中并非不存在所述第一靶核酸的第二概率;
使用所述第一概率、所述第二概率和/或其比值产生定量值;以及
当所述定量值不同于阈值时,确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
68.一种计算机可读介质,所述计算机可读介质包括非瞬时性计算机可执行指令,当所述非瞬时性计算机可执行指令由至少电子处理器执行时,进行至少以下:
访问从获自受试者的无细胞核酸(cfNA)样品产生的序列信息;
根据所述序列信息确定在所述cfNA样品中未检测到所述第一靶核酸变体;
产生至少一个基于肿瘤分数的值;
产生至少一个互斥值;以及
使用所述基于肿瘤分数的值和/或所述互斥值确定在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体。
69.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述定量值小于所述阈值。
70.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述定量值大于所述阈值。
71.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述第一测试结果和所述第二测试结果取决于彼此。
72.根据前述权利要求中任一项所述的系统或计算机可读介质,包括确定在一个或更多个其他遗传基因座处不存在多于一个其他选择的靶核酸变体。
73.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述定量值包括对数似然比(LLR)阈值。
74.根据前述权利要求中任一项所述的系统或计算机可读介质,包括确定在多于一个参考cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体,以产生阈值。
75.根据权利要求74所述的系统或计算机可读介质,其中所述阈值包括克隆性阈值或亚克隆性阈值。
76.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述第一靶核酸变体包括驱动突变。
77.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述指令还至少执行:基于在所述cfNA样品中在所述第一遗传基因座处不存在所述第一靶核酸变体的确定,输出针对所述受试者的一个或更多个疗法建议。
78.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述指令还至少执行:使用所述肿瘤分数和二项式模型估计在所述cfNA样品中在所述第一遗传基因座处检测到所述第一靶核酸变体的概率。
79.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述指令还至少执行:确定所述cfNA样品的最大突变等位基因频率(MAX MAF)和使用所述MAX MAF作为肿瘤分数的估计值。
80.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述指令还至少执行:确定在所述cfNA样品中在克隆水平上不存在所述第一靶核酸变体。
81.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述指令还至少执行:基于所述第一概率产生第一似然值和基于所述第二概率产生第二似然值。
82.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述指令还至少执行:基于所述第一似然值和所述第二似然值确定所述定量值。
83.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述指令还至少执行:通过确定所述cfNA样品的肿瘤分数估计值来产生所述第一似然值和所述第二似然值,其中所述第一似然值和所述第二似然值基于所述肿瘤分数估计值。
84.根据权利要求83所述的系统或计算机可读介质,其中指令还至少执行:通过确定所述cfNA样品中肿瘤突变的最大突变等位基因频率(MAX MAF)来确定所述肿瘤分数估计值。
85.根据权利要求84所述的系统或计算机可读介质,其中指令还至少执行:通过基于所述多于一个序列读段确定与所述肿瘤突变相关的分子计数来确定所述MAX MAF。
86.根据权利要求84所述的系统或计算机可读介质,其中指令还至少执行:通过确定至少第二变体的等位基因频率来产生所述第一似然值和所述第二似然值,其中所述第一似然值和所述第二似然值进一步基于所述等位基因频率和所述MAX MAF。
87.根据权利要求86所述的系统或计算机可读介质,其中指令还至少执行:将所述等位基因频率与基于所述MAX MAF的第二阈值进行比较,并且进一步基于所述MAF与所述第二阈值的比较来确定在所述第一遗传基因座处在克隆水平上不存在感兴趣的所述第一靶核酸变体。
88.根据权利要求86所述的系统或计算机可读介质,其中指令还至少执行:通过基于所述多于一个序列读段确定与所述第一靶核酸变体相关的第一分子计数来确定所述等位基因频率。
89.根据权利要求86所述的系统或计算机可读介质,其中指令还至少执行:通过访问指示与所述第一变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息来确定所述定量值,其中所述定量值基于所述协变量信息。
90.根据权利要求89所述的系统或计算机可读介质,其中指令还至少执行:确定所述cfDNA样品中至少第二靶核酸变体的流行率,其中所述定量值进一步基于所述协变量信息。
91.根据权利要求83所述的系统或计算机可读介质,其中指令还至少执行:通过访问指示与所述第一靶核酸变体表现出共现性和/或互斥性的一个或更多个变体的历史流行率的协变量信息来确定所述定量值,其中所述定量值基于所述协变量信息。
92.根据权利要求91所述的系统或计算机可读介质,其中指令还至少执行:确定所述cfNA样品中至少第二靶核酸变体的流行率,其中所述定量值进一步基于所述第二靶核酸变体的流行率。
93.根据权利要求83所述的系统或计算机可读介质,其中指令还至少执行:基于所述定量值确定在所述cfNA样品中在克隆水平上不存在所述第一靶核酸变体的置信水平。
94.根据权利要求83所述的系统或计算机可读介质,其中指令还至少执行:确定所述cfNA样品中至少第二靶核酸变体的流行率;以及基于所述cfNA样品中至少第二靶核酸变体的流行率来调整所述定量值。
95.根据前述权利要求中任一项所述的系统或计算机可读介质,其中所述比值包括等于对数似然肿瘤分数值、对数似然互斥值和对数先验值之和的对数后验概率比(LPPR)。
96.根据前述权利要求中任一项所述的方法或系统,还包括生成报告,所述报告任选地包括关于在所述样品中在所述第一遗传基因座处不存在所述第一靶核酸变体的信息和/或根据在所述样品中在所述第一遗传基因座处不存在所述第一靶核酸变体得出的信息。
97.根据权利要求96所述的方法或系统,所述方法或系统还包括将所述报告传送给第三方,诸如从其获得所述样品的受试者或健康护理从业者。
CN202180026694.4A 2020-01-31 2021-01-29 克隆水平缺乏靶变体的显著性建模 Pending CN115428087A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062968507P 2020-01-31 2020-01-31
US62/968,507 2020-01-31
PCT/US2021/015837 WO2021155241A1 (en) 2020-01-31 2021-01-29 Significance modeling of clonal-level absence of target variants

Publications (1)

Publication Number Publication Date
CN115428087A true CN115428087A (zh) 2022-12-02

Family

ID=74759476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180026694.4A Pending CN115428087A (zh) 2020-01-31 2021-01-29 克隆水平缺乏靶变体的显著性建模

Country Status (5)

Country Link
US (1) US20210398610A1 (zh)
EP (1) EP4097724A1 (zh)
JP (1) JP2023512239A (zh)
CN (1) CN115428087A (zh)
WO (1) WO2021155241A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117219162B (zh) * 2023-09-12 2024-07-02 四川大学 针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
DE60234464D1 (de) 2001-11-28 2009-12-31 Applied Biosystems Llc Zusammensetzungen und Verfahren zur selektiven Nukleinsäureisolierung
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
EP2893040B1 (en) 2012-09-04 2019-01-02 Guardant Health, Inc. Methods to detect rare mutations and copy number variation
GB201412834D0 (en) * 2014-07-18 2014-09-03 Cancer Rec Tech Ltd A method for detecting a genetic variant
EP4343788A3 (en) * 2015-05-01 2024-09-11 Guardant Health, Inc. Diagnostic methods
CA3090426A1 (en) * 2018-04-14 2019-10-17 Natera, Inc. Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna
JP2021526825A (ja) * 2018-06-11 2021-10-11 ファウンデーション・メディシン・インコーポレイテッド ゲノム変化を評価するための組成物および方法

Also Published As

Publication number Publication date
EP4097724A1 (en) 2022-12-07
WO2021155241A1 (en) 2021-08-05
JP2023512239A (ja) 2023-03-24
US20210398610A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
US11193175B2 (en) Normalizing tumor mutation burden
CN111357054B (zh) 用于区分体细胞变异和种系变异的方法和系统
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
JP2023526252A (ja) 相同組換え修復欠損の検出
JP2023517029A (ja) 無細胞核酸において検出された遺伝的突然変異を、腫瘍起源または非腫瘍起源として分類するための方法
US20210358569A1 (en) Methods and systems for assessing microsatellite instability
US20240141425A1 (en) Correcting for deamination-induced sequence errors
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
US20220344004A1 (en) Detecting the presence of a tumor based on off-target polynucleotide sequencing data
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination