CN111742059A - 用于靶向测序的模型 - Google Patents

用于靶向测序的模型 Download PDF

Info

Publication number
CN111742059A
CN111742059A CN201880076840.2A CN201880076840A CN111742059A CN 111742059 A CN111742059 A CN 111742059A CN 201880076840 A CN201880076840 A CN 201880076840A CN 111742059 A CN111742059 A CN 111742059A
Authority
CN
China
Prior art keywords
nucleic acid
variant
variants
determining
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880076840.2A
Other languages
English (en)
Inventor
A·W·布洛克尔
E·哈贝尔
O·C·维恩
刘勤文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Greer Co ltd
Original Assignee
Grail LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail LLC filed Critical Grail LLC
Publication of CN111742059A publication Critical patent/CN111742059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)

Abstract

处理系统使用基于贝叶斯推理的模型进行靶向测序或变体调用。在一个实施例中,处理系统生成无细胞核酸样本的候选变体。处理系统确定无细胞核酸样本和对应的基因组核酸样本中的候选变体中的每一个的真实替代频率的似然。处理系统通过至少使用真实的替代频率的似然的由模型对候选变体进行过滤或得分。处理系统输出所过滤的候选变体,其可用于生成预测性癌症或疾病模型的特征。

Description

用于靶向测序的模型
技术领域
本公开总体上涉及用于靶向测序(targeted sequencing)的模型、在变体调用和质量控制中利用模型、以及对测试样本进行的物理测定(assays)的结果的统计分析。
背景技术
可以在DNA测序数据上使用计算技术来标识DNA中可能对应于各种类型的癌症或其他疾病的突变(mutations)或变体(variants)。因此,可以通过分析诸如组织活检(tissue biopsy)或从受试者(subject)抽取的血液的生物学样本来进行癌症诊断或预测。从血液样本中检测源自肿瘤(tumor)细胞的DNA十分困难,因为相对于从血液中提取的无细胞DNA(cfDNA)中的其他分子,循环肿瘤DNA(ctDNA)通常以较低级别存在。现有方法没有从信号噪声中标识出真阳性结果(例如指示受试者中的癌症)的能力,从而削弱了已知系统和未来系统将真阳性与由噪声源引起的假阳性区分开的能力,这可能导致变体调用或其他类型的分析的不可靠结果。与传统的肿瘤活检方法相比,分析cfDNA可能更有利;但是,在得自肿瘤的cfDNA中标识癌症指示信号面临着独特的挑战,特别为了诸如尚未表明癌症指示信号的癌症的早期检测目的。作为一个示例,可能难以实现得自肿瘤的片段的必要的测序深度。另一个示例是,在样本制备和测序过程期间引入的误差会使得难以进行稀有变体的准确标识。这些各种挑战的组合代表通过从受试者获得的cfDNA的使用,以足够的灵敏度和特异性准确预测受试者的癌症特征。
已经开发出许多不同的方法来检测测序数据中的变体,例如单核苷酸变体(SNV)。已经开发出大多数常规方法来从组织样本获得的DNA测序数据中调用变体。这些方法可能不适合根据从无细胞核酸样本获得的深度测序数据调用变体。
对于癌症的非侵入性诊断和监测,无细胞核苷酸的靶向测序数据可作为重要的生物资源。然而,在深度测序数据集合中检测变体会带来不同的挑战:测序区段的数量往往要大几个数量级(例如测序深度可以是2,000x或更大),这会在计算时间和存储器使用上使大多数现有的变体调用器变弱。
准确检测变体的主要挑战是在处理期间发生的对测序片段的损坏的可能性。对测序片段的损坏的一个示例可以是天然发生的或由于测定处理步骤而发生的核苷酸取代(nucleotide substitution)。例如由于核苷酸碱基(nucleotide bases)的自发脱氨基(spontaneous deamination)或由于末端修复误差而可能发生损坏。由于损坏是在处理期间发生,因此现有的变体调用器可以将这些核苷酸碱基的改变标识为基因组中的变体。换句话说,这种损坏可能导致系统误差,并可能导致突变被错误地标识,例如假阳性。
发明内容
处理系统将模型用于各种应用,包括靶向测序、变体调用、质量控制和物理测定的统计分析。处理系统使用从样本获得的序列读取生成候选变体,该样本可以包括血液、肿瘤活检或其他体液或物质。候选变体可以包括单核苷酸变体、碱基对的插入或缺失。处理系统可以确定无细胞核酸样本或基因组核酸样本中的候选变体的真实替代频率的概率。在某些使用情况下,基因组核酸样本来自白细胞。
处理系统可以使用真实替代频率的似然对候选变体进行得分或过滤。处理系统输出经得分或过滤的候选变体,其可例如通过基于估计的噪声级别滤除潜在的假阳性而用于变体调用或质量控制。另外,处理系统可以从序列读取生成特征,其中将特征输入到预测癌症或疾病模型。
处理系统可以训练并应用特定于现场的噪声模型,在本文中也称为“贝叶斯分层模型”、“噪声模型”或“模型”,用于确定靶向测序中真阳性的似然。该模型可以使用贝叶斯推断来确定噪声的比率或级别,例如指示核酸序列的每个位置的某些突变的预期似然。此外,该模型可以是考虑协变量(例如三核苷酸上下文、可映射性或区段重复)和各种类型的参数(例如混合物成分或序列读取深度)的分层模型。可以通过马尔科夫链蒙特卡洛采样法从健康受试者的序列读取中训练模型。因此,包含该模型的整个流水线可以在较高的灵敏度下标识真阳性,并过滤掉假阳性。除了噪声模型之外,处理系统还可以基于从个体获得的测试样本为个体训练和应用用于癌症或其他类型疾病分类或预测的模型。
处理系统可以使用过滤过程来鉴定和去除在样本处理期间出现的调用变体。伪影可能来自cfDNA处理过程中发生的各种来源,诸如自发的胞嘧啶脱氨和末端修复错误。这些伪影可以用各种术语来指代,包括边缘变体和伪影变体。由于这些伪影过程而被检测到的调用变体不能反映受试者基因组中存在的实际突变。在各种实施例中,本文公开的过滤过程结合了至少两个分析。一种分析发生在样本级别,并且分析了跨样本观察到的调用变体的分布。另一种分析发生在变体级别,并考虑每个调用变体,以确定该调用变体是否可能是伪影过程的结果。组合这些分析允许个体调用变体的样本特定过滤。作为示例场景,可以将样本中标识的调用变体分类为边缘变体(例如由伪影过程导致),而可以将不同样本中标识的相同的调用变体分类为非边缘变体(例如并非由伪影过程导致)。
在各种实施例中,一种方法包括生成无细胞核酸样本的多个候选变体。该方法进一步包括确定无细胞核酸样本和对应基因组核酸样本中每个候选变体的真实替代频率的似然。该方法进一步包括至少通过使用真实的替代频率的似然的模型来过滤候选变体。在一些使用情况下,该方法可以包括除过滤之外或替代过滤来对候选变体进行得分。该方法进一步包括输出所过滤的候选变体。
在一个或多个实施例中,该方法还包括通过去除与同义突变相关联的至少一个候选变体来过滤候选变体。
在一个或多个实施例中,确定真实替代频率的似然还包括,对于候选变体中的至少一个,确定来自受试者的无细胞核酸样本的第一序列读取的第一深度和第一替代深度。该方法进一步包括确定来自受试者的基因组核酸样本的第二序列读取的第二深度和第二替代深度。该方法进一步包括通过使用由第一深度和无细胞核酸样本的真实替代频率参数化的第一函数对第一替代深度进行建模,来确定无细胞核酸样本的真实替代频率的第一似然。该方法还包括通过使用由第二深度和基因组核酸样本的真实替代频率参数化的第二函数对第二替代深度进行建模,来确定基因组核酸样本的真实替代频率的第二似然。该模型至少通过使用第一似然、第二似然和一个或多个参数确定无细胞核酸样本的真实替代频率大于基因组核酸样本的真实替代频率的函数的概率来过滤候选变体。
在一个或多个实施例中,第一函数是泊松分布函数,其通过第一深度之一与无细胞核酸样本的真实替代频率的乘积来参数化。第二函数是由第二深度之一和基因组核酸样本的真实替代频率的另一乘积参数化的另一泊松分布函数。
在一个或多个实施例中,该概率表示在从受试者的基因组核酸样本的第二序列读取中未发现来自无细胞核酸样本的第一序列读取的(例如核苷酸)突变的置信级别。
在一个或多个实施例中,所述方法进一步包括,响应于确定所述概率大于所述一个或多个参数之一,确定在来自受试者的基因组核酸样本的第二序列读取中未发现来自无细胞核酸样本的第一序列读取的至少一些(例如核苷酸)突变。
在一个或多个实施例中,确定概率包括确定无细胞核酸样本的真实替代频率大于基因组核酸样本的真实替代频率乘以一个或多个参数之一的概率。
在一个或多个实施例中,确定概率包括确定第一概率和第二概率的联合似然,其中在给定第一序列读取和第二序列读取的情况下,第一似然和第二似然是条件独立的。
在一个或多个实施例中,确定概率包括通过确定第一和第二似然中的一个的累积和,以及确定第一和第二似然中的另一个的积分,在数值上近似第一似然和第二似然的联合似然。
在一个或多个实施例中,一个或多个参数包括使用第三函数确定的第一参数,该第三函数将健康基因组核酸样本的替代频率作为输入。
在一个或多个实施例中,第三函数由标准定义,以防止序列读取中杂合性事件的损失。
在一个或多个实施例中,第三函数是非线性函数。
在一个或多个实施例中,该标准指示健康基因组核酸样本的替代频率的第一参数的值3和下限阈值1/3。
在一个或多个实施例中,一个或多个参数包括第二参数。通过与多个个体的无细胞核酸样本和基因组核酸样本的集合的交叉验证,依据经验确定第一和第二参数。
在一个或多个实施例中,第一参数具有在1到5之间的值,包括1和5,并且第二参数具有在0.5到1之间的值。
在一个或多个实施例中,交叉验证包括应用使用与多种类型的疾病相关联的样本得到的候选参数值,以测试与不同类型的疾病相关联的另一样本。
在一个或多个实施例中,该方法进一步包括使用由第一参数参数化的第三函数来确定相对于健康的无细胞核酸样本的(例如核苷酸)突变的第一噪声级别,其中使用第一噪声级别进一步确定受试者的无细胞核酸的真实替代频率的第一似然。该方法进一步包括使用由第二参数参数化的第四函数来确定相对于健康基因组核酸样本的(例如核苷酸)突变的第二噪声级别,其中使用第二噪声级别进一步确定受试者的基因组核酸的真实替代频率的第二似然。
在一个或多个实施例中,对第一替代深度进行建模包括将第一噪声级别添加到第一函数的输出,并且对第二替代深度进行建模包括将第二噪声级别添加到第二函数的另一输出。
在一个或多个实施例中,第一参数和第二参数表示分布的参数,该分布的参数相对于序列读取的给定位置对(例如核苷酸)突变的噪声级别进行编码。
在一个或多个实施例中,第三函数和第四函数均是由平均比率和分散参数参数化的负二项式函数。
在一个或多个实施例中,第三函数和第四函数是相同类型的函数并且由相同类型的参数来参数化。
在一个或多个实施例中,第一参数使用第一模型得到,第一模型推导是使用无细胞核酸样本集合训练的,并且第二参数使用第二模型得到,第二模型是使用基因组核酸样本训练的。
在一个或多个实施例中,该基因组核酸样本集合来自白细胞。
在一个或多个实施例中,第一和第二模型是贝叶斯分层模型。
在一个或多个实施例中,第一模型和第二模型是相同类型的模型。
在一个或多个实施例中,该方法进一步包括从受试者的血液样本中收集或已经收集了无细胞核酸样本。该方法进一步包括对无细胞核酸样本执行富集以生成第一序列读取。
在一个或多个实施例中,第一序列读取从血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、眼泪、组织活检、胸膜液、心包液或受试者的腹膜液样本中获得。
在一个或多个实施例中,第一序列读取是从血液的细胞分离物中获得的,所述细胞至少包括受试者的CD4+细胞。
在一个或多个实施例中,第二序列读取获自肿瘤细胞,肿瘤细胞获自受试者的肿瘤活检。
在一个或多个实施例中,第二序列读取获自受试者的白细胞。
在一个或多个实施例中,该方法进一步包括响应于以下各项来确定从无细胞核酸样本中的第一序列读取的候选变异与基因组核酸样本的核苷酸突变相关联:确定所述概率小于阈值概率,并且确定来自基因组核酸样本的所述第二序列读取的第二替代深度之一大于零。
在一个或多个实施例中,阈值概率等于0.8。
在一个或多个实施例中,该方法进一步包括,针对来自无细胞核酸样本中的第一序列读取的候选变体,响应于(i)确定该概率小于阈值概率和(ii)确定来自与候选变体相关的基因组核酸样本中的第二序列读取的第二替代深度之一等于零:使用第一深度、第一替代深度、第二深度和第二替代深度确定比率,以及至少响应于确定该比率小于阈值比率,确定候选变体可能与基因组核酸样本的(例如核苷酸)突变相关联。
在一个或多个实施例中,基于候选变体可能与基因组核酸样本的(例如核苷酸)突变相关的确定,为候选变体确定一个或多个参数中的至少一个。
在一个或多个实施例中,该方法还包括确定与候选变体相对应的一个或多个参数的第一集合。该方法还包括使用一个或多个参数的第一集合将第一过滤器应用于候选变体。该方法进一步包括,响应于确定另一候选变体不太可能与基因组核酸样本的另一(例如核苷酸)突变相关联,确定对应于另一候选变体的一个或多个参数的第二集合。该方法还包括使用一个或多个参数的第二集合将第二过滤器应用于另一个候选变体,第二过滤器具有比第一过滤器的过滤标准更严格的过滤标准。
在一个或多个实施例中,该方法进一步包括使用第二序列读取的第二替代深度确定gDNA深度质量得分。在确定候选变体可能与(例如核苷酸)突变相关联的情况下,进一步响应于确定gDNA深度质量得分大于或等于阈值得分。
在一个或多个实施例中,阈值得分是1。
在一个或多个实施例中,该方法进一步包括通过确定第一序列读取满足多个标准中的至少一个,来确定过滤来自无细胞核酸样本的第一序列读取的候选变体。
在一个或多个实施例中,确定第一序列读取是否满足多个标准中的至少一个包括确定候选变体是边缘变体伪影。
在一个或多个实施例中,确定第一序列读取是否满足多个标准中的至少一个包括确定第一序列读取的第一深度中的一个小于阈值深度。
在一个或多个实施例中,确定第一序列读取是否满足多个标准中的至少一个包括确定类似于一个或多个种系突变的第一序列中的(例如,核苷酸)突变的频率大于阈值频率,并且确定(例如,核苷酸)突变位于与种系突变相关联的位置。
在一个或多个实施例中,该方法还包括使用所过滤的序列读取一成一个或多个特征的值。该方法还包括将一个或多个特征的值输入到预测癌症模型中以生成针对受试者的癌症预测,该预测性癌症模型通过包括学习的权重的函数将一个或多个特征的值转换为受试者的癌症预测。该方法进一步包括为受试者提供癌症预测。
在一个或多个实施例中,一个或多个特征包括以下一项或多项:体细胞变体的总数、非同义变体的总数、同义变体的总数、基因板中每个基因的体细胞变体的存在或不存在、已知与癌症相关联的特定基因的体细胞变体的存在与不存在、基因板中每个基因的体细胞变体的等位基因频率、根据体细胞变体的AF的排名顺序、以及每个类别的体细胞变体的等位基因频率。
在一个或多个实施例中,通过模型过滤候选变体包括,针对多个候选变体中的候选变体,确定无细胞核酸样本中候选变体的真实替代频率大于对应的基因组核酸样本中候选变体的真实替代频率的函数的概率。该过滤还包括确定该概率小于阈值概率。过滤还包括确定基因组核酸样本中候选变体的替代深度大于阈值深度。过滤还包括使用无细胞核酸样本的深度和替代深度以及基因组核酸样本的另一个深度和替代深度来确定比率。过滤还包括使用基因组核酸样本的替代深度来确定gDNA深度质量得分。过滤还包括响应于以下各项来确定候选变体可能与基因组核酸样本的(例如核苷酸)突变相关联:确定该比率小于阈值比率,并确定gDNA深度质量得分大于或等于阈值得分。
在各种实施例中,方法包括确定来自受试者的无细胞核酸样本的第一序列读取的第一深度和第一替代深度。该方法进一步包括确定来自受试者的基因组核酸样本中的第二序列读取的第二深度和第二替代深度。该方法进一步包括通过使用由第一深度和无细胞核酸样本的真实替代频率参数化的第一函数对第一替代深度进行建模,来确定无细胞核酸样本的真实替代频率的第一似然。该方法进一步包括通过使用由第二深度和基因组核酸样本的真实替代频率参数化的第二函数来对第二替代深度建模,来确定基因组核酸样本的真实替代频率的第二似然。该方法进一步包括至少通过使用第一似然,第二似然和一个或多个参数来确定无细胞核酸样本的真实替代频率大于基因组核酸样本的真实替代频率的函数的概率,来过滤受试者的候选变体。该方法进一步包括输出所过滤的候选变体。
结合使用从先前样本(例如训练样本)获得的先前分类的边缘变体和先前分类的非边缘变体生成的分布,处理系统可以进行样本特定分析或变体特定分析。例如第一分布描述了先前分类的边缘变体的特征的分布,而第二分布描述了先前分类的非边缘变体的特征的分布。特征可以与边缘变体或非边缘变体的序列读取中的突变核苷酸碱基的位置有关。例如一个特定特征可以是距跨序列读取检测到突变的核苷酸碱基的序列读取边缘的中值距离。
在各个实施例中,样本特定分析采用样本特定比率预测模型,该模型确定样本中伪影的预测比率。例如样本特异性分析可以包括执行似然估计以确定样本中边缘变体的预测比率。在此,结合第一分布和第二分布,预测比率可以最好地解释跨样本中观察到的调用变体体的分布。较高的预测率表明,跨样本中观察到的调用变体体的分布与描述已知边缘变体体特征的第一分布更相似。换句话说,跨样本中观察到的大部分调用变体可能是由于伪影过程。这样的示例结果表明,应使用更具攻击性的过滤过程来标识和消除样本中的边缘变体。另一方面,较低的预测率表明跨样本观察到的调用变体体的分布与描述已知非边缘变体体特征的第二分布更相似。换句话说,跨样本中观察到的一小部分调用变体可能是由于伪影过程。这样的示例结果表明,应使用较不积极的过滤过程来标识和消除样本中的边缘变体。
在各种实施例中,变体特定分析采用边缘变体预测模型,该模型结合第一和第二分布来分析特定调用变体的特征。边缘变体预测模型输出代表调用变体是处理伪影的结果的似然的伪影得分以及表示调用变体是非边缘变体的似然的非伪影得分。对于每个调用变体,样本特定的预测比率与调用变体的伪影得分和非伪影得分相组合。因此,通过考虑样本特定分析和变体特定分析两者,可以将调用变体标识为边缘变体或非边缘变体。可以过滤掉边缘变体,而保留非边缘变体。
在各种实施例中,一种方法包括生成无细胞核酸样本的多个候选变体。该方法进一步包括确定无细胞核酸样本和对应基因组核酸样本中每个候选变体的真实替代频率的概率。该方法进一步包括至少通过使用真实的替代频率的似然的模型来过滤候选变体。该方法还包括通过为每个候选变体确定指示候选变体是边缘变体的概率的边缘变体概率,来过滤候选变体。该方法进一步包括输出所过滤的候选变体。
在各种实施例中,过滤候选变体包括接收位于序列读取上的替代等位基因,所述序列读取是从基因组中的多个位置获得的。该方法进一步包括基于所接收的替代等位基因来确定无细胞核酸样本的边缘变体的预测比率。该方法还包括,针对多个位置的子集中的每一个:从该位置获得的序列读取中提取特征;将提取的特征作为输入应用于训练后的模型,以获得该位置的伪影得分和该位置的非伪影得分,该伪影得分反映了位于从该位置获得的序列读取上的替代等位基因是处理伪影的结果的似然,非伪影得分反映了位于从该位置获得的序列读取上的替代等位基因不是处理伪影的结果的拟然;通过组合该位置的伪影得分、该位置的非伪影得分以及该无细胞核酸样本的伪影的预测比率,来生成该位置的边缘变体概率;并基于所述边缘变体概率将所述位置处的候选变体之一报告为边缘变体。
在一个或多个实施例中,无细胞核酸样本的边缘变是由于一个或多个序列读取的部分的自发脱氨基。
在一个或多个实施例中,确定无细胞核酸样本的边缘变体的预测比率包括结合所接收的替代等位基因执行基于似然性的估计以生成估计器,并基于最大似然估计来选择边缘变体的预测比率。
在一个或多个实施例中,结合从分类为伪影类别的序列读取生成的第一分布,进一步执行基于似然的估计。
在一个或多个实施例中,结合来自分类为非伪影类别的序列读取产生的第二分布,进一步执行基于似然的估计。
在一个或多个实施例中,从该位置的序列读取提取的特征之一是序列读取的子集上的替代等位基因的位置与序列读取的子集的边缘之间的中值距离。
在一个或多个实施例中,从该位置的序列读取中提取的特征之一是代表以下之间差异的显著性得分:1)测序读取的第一子集上的替代等位基因的位置与在第一子集中测序读取边缘之间的第一中值距离和2)测序读取的第二子集中的参考等位基因的位置与第二子集中的测序读取的边缘之间的第二中值距离。
在一个或多个实施例中,从该位置的序列读取中提取的特征之一是等位基因分段,其表示包含跨位置的替代等位基因的序列读取的分段。
在一个或多个实施例中,基于边缘变体概率将调用变体报告为边缘变体包括:将边缘变体概率与阈值进行比较;以及基于比较,将调用变体报告为边缘变体。
在一个或多个实施例中,通过以下各项来确定多个位置的子集中所包括的基因组中的位置:针对多个中的每个位置,标识与该位置相对应的调用变体的突变类型,并确定调用变体的突变类型是胞嘧啶至胸腺嘧啶或鸟嘌呤至腺嘌呤碱基取代中的一种。
在一个或多个实施例中,通过以下各项来训练训练的模型:接收包括位于训练序列读取上的备选等位基因的训练数据,所述训练序列读取是从基因组中的多个位置获得的;基于位于所读取的训练测序上的备选等位基因的特性,将每个训练序列读取分类为两个或更多个类别;对于训练变体的两个或更多个类别中的每个类别,从分类在该类别中的训练序列读取中提取特征,并基于提取的特征生成分布。
在一个或多个实施例中,训练序列读取的特性包括替代读取的一种类型的核苷酸碱基突变,并且其中将训练序列读取中的每一个分类为两个或更多个类别包括:基于训练序列读取上替代等位基因的核苷酸碱基突变类型,将每个训练序列读取分类为伪影类别或非伪影类别之一。
在一个或多个实施例中,分类为伪影类别的训练序列读取各自包括替代读取,其为胞嘧啶至胸腺嘧啶突变或鸟嘌呤至腺嘌呤突变。
在一个或多个实施例中,分类为伪影类别的训练序列读取各自包括位于距训练序列读取的边缘的阈值距离内的替代等位基因。
在一个或多个实施例中,分类为非伪影类别的训练序列读取各包括替代等位基因,其位于距训练序列读取的边缘的阈值距离之外,或者是除胞嘧啶至胸腺嘧啶突变或鸟嘌呤向腺嘌呤突变以外的碱基取代。
本文公开的实施例描述了一种用于检测受试者中癌症的存在的方法,该方法包括:从受试者的测试样本中获得从多种无细胞核酸生成的测序数据,其中测序数据包括从多个无细胞核酸确定的多个序列读取;使用合适的程序计算机分析多个序列读取以标识一个或多个基于测序的特征;基于对一个或多个特征的分析来检测癌症的存在,其中以至少约95%的特异性和至少约30%的灵敏度的灵敏度来检测癌症的存在。
在一些实施例中,以至少约95%的特异性和至少约50%的灵敏度的灵敏度检测到癌症的存在。在一些实施例中,以至少约95%的特异性和至少约60%的灵敏度来检测癌症的存在。在一些实施例中,以至少约95%的特异性和至少约70%的灵敏度来检测癌症的存在。在一些实施例中,以至少约95%的特异性和至少约80%的灵敏度的灵敏度检测到癌症的存在。在一些实施例中,以至少约95%的特异性和至少约90%的灵敏度的灵敏度来检测癌症的存在。在一些实施例中,以至少约95%的特异性和至少约95%的灵敏度的灵敏度来检测癌症的存在。在一些实施例中,以至少约99%的特异性和至少约35%的灵敏度的灵敏度检测到癌症的存在。在一些实施例中,以至少约95%的特异性和至少约40%的灵敏度的灵敏度检测到癌症的存在。在一些实施例中,以至少约95%的特异性和至少约45%的灵敏度的灵敏度检测到癌症的存在。在一些实施例中,以至少约96%、97%、98%、99%、99.5%、99.8%或99.9%的特异性检测到癌症的存在。在一些实施例中,以至少约55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%或95%的特异性检测到癌症的存在。
本文公开的实施例进一步描述了一种用于检测无症状受试者中癌症的存在的方法,该方法包括:获得从来自无症状受试者的测试样本中的多个无细胞核酸生成的测序数据;使用合适的程序计算机分析测序数据,以标识一个或多个基于测序的特征;基于对一个或多个特征的分析来检测癌症的存在,其中针对癌症存在的接收器操作特性(ROC)的曲线下面积(AUC)大于0.60。在一些实施例中,AUC大于0.65、0.70、0.75、0.80、0.85、0.90、0.95、0.97、0.98或0.99。
本文公开的实施例进一步描述了一种用于检测无症状受试者中癌症的存在的方法,该方法包括:获得从来自无症状受试者的测试样本中的多个无细胞核酸产生的测序数据;使用合适的程序计算机分析测序数据,以标识一个或多个基于测序的特征;基于对一个或多个特征的分析来检测癌症的存在,其中以至少约30%的估计阳性预测值检测到癌症的存在。
在一些实施例中,以至少35%、40%、45%、50%、55%、60%、65%、70%或75%的估计阳性预测值检测到癌症的存在。在一些实施例中,该方法检测两种或更多种不同类型的癌症。在一些实施例中,该方法检测三种或更多种不同类型的癌症。在一些实施例中,该方法检测五种或更多种不同类型的癌症。在一些实施例中,该方法检测十种或更多种不同类型的癌症。在一些实施例中,该方法检测二十种或更多种不同类型的癌症。在一些实施例中,两种或更多种不同类型的癌症选自乳腺癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆道癌、黑素瘤、子宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌、肛门直肠癌及其任意组合。
在一些实施例中,该受试者是无症状的。在一些实施例中,无细胞核酸包含无细胞DNA(cfDNA)。在一些实施例中,序列读取是从下一代测序(NGS)过程产生的。在一些实施例中,使用合成测序从大规模平行测序程序生成序列读取。
在一些实施例中,一个或多个特征得自对测试样本中的多种无细胞核酸的至少一种小变体测序测定。
在一些实施例中,小变体测序测定是靶向测序测定,并且其中测序数据得自基因的靶向板。在一些实施例中,靶向的基因板包括2至10,000个基因。在一些实施例中,基于对由小变体体测序测定确定的一种或多种特征的分析来检测癌症的存在。在一些实施例中,小变体测序测定特征包括以下一项或多项:体细胞变体的总数,非同义变体的总数,同义变体的总数,每个基因体细胞变体的存在/不存在,已知与癌症相关的特定基因的体细胞变体的存在/不存在,每个基因的体细胞变体的等位基因频率,根据体细胞变体体的AF进行的顺序统计、以及基于其等位基因频率的已知与癌症相关的体细胞变体的分类。在一些实施例中,该方法进一步包括从受试者的一个或多个白细胞之一获得基因组DNA的测序数据,其中该测序数据包括从该基因组DNA确定的多个序列读取,并且其中该分析包括:将来自受试者的无细胞核酸的序列数据与来自受试者的一个或多个白细胞的DNA的序列数据进行比较,以标识一种或多种得自肿瘤的小变体测序测定特征。
在一些实施例中,检测到的癌症是I期癌症。在一些实施例中,检测到的癌症是II期癌症。在一些实施例中,检测到的癌症是III期癌症。在一些实施例中,检测到的癌症是IV期癌症。在一些实施例中,检测到的癌症是乳腺癌、肺癌、结肠直肠癌、卵巢癌、子宫癌、黑素瘤、肾癌、胰腺癌、甲状腺癌、胃癌、肝胆癌、食道癌、前列腺癌、淋巴瘤、多发性骨髓瘤、头颈癌、膀胱癌、子宫颈癌或其任意组合。在一些实施例中,该方法进一步包括基于对来自测试样本的序列读取的分析,将乳腺癌分类为HR阳性、HER2过表达、HER2扩增或三阴性。
在一些实施例中,分析还包括检测测试样本中一个或多个得自病毒的核酸的存在,并且其中癌症的检测部分基于对一种或多种病毒核酸的检测。例如在一个实施例中,一个或多个特征可包括得自病毒的核酸的存在/不存在或从得自病毒的核酸确定的病毒载量。在一些实施例中,一个或多个得自病毒的核酸选自人乳头瘤病毒、爱泼斯坦-巴尔病毒、乙型肝炎、丙型肝炎及其任意组合。
在一些实施例中,测试样本是血液、血浆、血清、尿液、脑脊液、粪便、唾液、胸膜液、心包液、宫颈拭子、唾液或腹膜液样本。
附图说明
图1A是根据一个实施例的用于制备用于测序的核酸样本的方法的流程图。
图1B是根据一个实施例的用于获得序列读取的过程的图形表示。
图2是根据一个实施例的用于处理序列读取的处理系统的框图。
图3是根据一个实施例的一种用于确定序列读取的变体的方法的流程图。
图4是根据一个实施例的贝叶斯分层模型的应用的图。
图5A示出了根据一个实施例的用于确定真正的单核苷酸变体的贝叶斯分层模型的参数和子模型之间的依赖。
图5B示出了根据一个实施例的用于确定真实插入或缺失的贝叶斯分层模型的参数与子模型之间的依赖。
图6A-B示出了根据一个实施例的与贝叶斯分层模型相关联的图。
图7A是根据一个实施例的通过拟合贝叶斯分层模型来确定参数的图。
图7B是根据一个实施例的使用来自贝叶斯分层模型的参数来确定假阳性的似然的图。
图8是根据一个实施例的用于训练贝叶斯分层模型的方法的流程图。
图9是根据一个实施例的用于对给定核苷酸突变的候选变体进行得分的方法的流程图。
图10是根据一个实施例的使用联合模型来处理无细胞核酸样本和基因组核酸样本的方法的流程图。
图11是根据一个实施例的联合模型的应用图。
图12是根据一个实施例的在来自健康个体的样本中观察到的变体计数的图。
图13是根据一个实施例的用于联合模型的示例参数的图。
图14A-B是根据一个实施例的由联合模型确定的变体调用的图。
图15是根据一个实施例的由联合模型确定的概率密度的图。
图16是根据一个实施例的联合模型的灵敏度和特异性的图。
图17是根据一个实施例从使用联合模型的靶向测序测定检测到的基因集合的图。
图18是根据一个实施例的使用联合模型从靶向测序测定检测到的图17所示的一组基因的长度分布的图。
图19是根据一个实施例使用联合模型从靶向测序测定检测到的另一基因集合的图。
图20是根据一个实施例的用于调节联合模型以处理无细胞核酸样本和基因组核酸样本的方法的流程图。
图21A是根据一个实施例的cfDNA样本的候选变体的示例计数的表。
图21B是根据一个实施例的来自健康个体的cfDNA样本的候选变体的示例计数的表。
图22是根据一个实施例的基于cfDNA和gDNA的比率绘制的候选变体的图。
图23A描绘了根据一个实施例的使用训练变体生成伪影分布和非伪影分布的过程。
图23B描绘了根据一个实施例的被分类在伪影训练数据类别中的序列读取。
图23C示出了根据一个实施例的分类在非伪影训练数据类别中的序列读取。
图23D描绘了根据一种实施例的分类在参考等位基因(allele)训练数据类别中的序列读取。
图23E是根据一个实施例的用于从边缘特征提取统计距离的过程的示例描绘。
图23F是根据一个实施例的用于提取显著性得分特征的过程的示例描绘。
图23G是根据一个实施例的用于提取等位基因分段特征的过程的示例描绘。
图23H和23I描绘了根据各种实施例的用于标识边缘变体的示例分布。
图24A描绘了根据一个实施例的用于确定样本特定的预测比率的框图流程图。
图24B描绘了根据一个实施例的用于标识边缘变体的边缘变体预测模型的应用。
图25描绘了根据一个实施例的标识和报告从样本中检测到的边缘变体的流程。
图26A、26B和26C各自描绘了根据各种实施例的分类在伪影或非伪影类别之一中的示例训练变体的特征。
图27A、27B和27C各自描绘了根据各种实施例的在从受试者获得的示例癌症样本中边缘和非边缘变体的检测。
图28A、28B和28C各自描绘了根据各种实施例的从受试者获得的另一示例癌症样本中边缘和非边缘变体的检测。
图29示出了根据一个实施例的跨各种受试者样本的边缘变体的标识。
图30描绘了根据一个实施例的在使用不同的边缘过滤器移除边缘变体之后在实体瘤和cfDNA中被称为在cfDNA中调用的变体的分段的一致的变体。
图31描绘了根据一个实施例在使用不同的边缘过滤器移除边缘变体之后在实体瘤和cfDNA中被称为在实体瘤中调用变体的分段的一致的变体。
图32是根据一个实施例的用于使用不同类型的过滤器和模型来处理候选变体的方法的流程图。
图33A是描述根据一个实施例用于无细胞基因组研究的样本集合的个体的表。
图33B是表示根据一个实施例与图33A的无细胞基因组研究的样本集合相关联的癌症类型的图表。
图33C是描述根据一个实施例的用于图33A的无细胞基因组研究的样本集合的另一表。
图34A示出了根据一个实施例的使用一种或多种类型的过滤器和模型确定的调用变体的示例计数的图。
图34B是根据一个实施例的已知患有乳腺癌的样本的示例质量得分的图。
图34C是根据一个实施例的已知患有乳腺癌的样本的示例质量得分的另一图。
图34D是根据一个实施例的已知患有肺癌的样本的示例质量得分的图。
图34E是根据一个实施例的已知具有各种类型的癌症并且处于不同癌症阶段的样本的调用变体的示例计数的表格。
图34F是根据一个实施例的已知具有各种类型的癌症并且处于不同癌症阶段的样本的调用变体的示例计数的图。
图34G是根据一个实施例的已知患有早期阶段或晚期阶段癌症的样本的调用变体的示例计数的图。
图34H是根据一个实施例的已知患有早期阶段或晚期阶段癌症的样本的调用变体的示例计数的另一图。
图35A是根据一个实施例的用于基于从个体获得的cfDNA样本得到的特征来生成癌症预测的方法的流程图。
图35B描绘了根据一个实施例的使用第一小变体特征集合来预测癌症的存在的预测癌症模型的特异性和灵敏度的受试者工作特征(ROC)曲线。
图35C描绘了根据一个实施例的使用第二小变体特征集合预测癌症存在的预测癌症模型的特异性和灵敏度的ROC曲线。
图35D描绘了根据一个实施例的使用第三小变体特征集合预测癌症存在的预测癌症模型的特异性和灵敏度的ROC曲线。
这些附图仅出于说明的目的描绘了本发明的实施例。本领域的技术人员将从以下讨论中容易地认识到,在不脱离本文描述的本发明原理的情况下,可以采用本文所示的结构和方法的替代实施例。
具体实施方式
现在将详细参考几个实施例,其示例在附图中示出。要注意的是,在可行的地方,相似或类似的附图标记可以在附图中使用,并且可以指示相似或类似的函数。例如在附图标记之后的字母,诸如“序列读取180A”,指示该文本专门指代具有该特定附图标记的元素。文本中没有以下字母的附图标记,例如“序列读取180”,是指图中带有该附图标记的任意或所有元素(例如文本中的“序列读取180”是指附图中的附图标记“序列读取180A”和/或“序列读取180B”。
I、定义
术语“个体”是指个人。术语“健康个体”是指假定没有癌症或疾病的个体。术语“受试者”是指已知患有或潜在患有癌症或疾病的个体。
术语“序列读取”是指从个体获得的样本中读取的核苷酸序列。序列读取可通过本领域已知的各种方法获得。
术语“读取区段”或“读取”是指任意核苷酸序列,包括从个体获得的序列读取和/或从个体获得的样本的起始序列读取得到的核苷酸序列。例如读取区段可以指对齐的序列读取、折叠的序列读取或缝合的读取。此外,读取区段可以指个体核苷酸碱基,诸如单核苷酸变体。
术语“单核苷酸变体”或“SNV”是指在核苷酸序列(例如从个体序列读取)的位置(例如位点)上,一个核苷酸被不同的核苷酸取代。从第一核碱基X到第二核碱基Y的取代可以表示为“X>Y”。例如胞嘧啶对胸腺嘧啶SNV可以表示为“C>T”。
术语“插入缺失(indel)”是指在序列读取中具有长度和位置(也可以称为锚定位置)的一个或多个碱基的任意插入或缺失。插入对应于正长度,而缺失对应于负长度。
术语“突变”是指一个或多个SNV或插入缺失。
术语“候选变体”、“调用变体”或“推定变体”是指核苷酸序列的一种或多种检测到的核苷酸变体,例如在基因组中被确定为突变(即候选SNV)的位置或一个或多个碱基的插入或缺失(即候选插入缺失)。通常,基于序列读取或折叠读取中替代等位基因的存在,将核苷酸碱基视为调用变体,其中一个或多个位置处的核苷酸碱基与参考基因组中的核苷酸碱基不同。另外,候选变体可以被称为真阳性或假阳性。
术语“真阳性”是指指示真实生物学的突变,例如个体中潜在的癌症、疾病或种系突变的存在。真阳性不是由健康个体中自然发生的突变(例如反复突变)或其他伪影来源引起的,诸如在核酸样本的测定制备过程中的过程误差。
术语“假阳性”是指被错误地确定为真阳性的突变。通常,当处理与更大的平均噪声比率或噪声比率中更大的不确定性相关联的序列读取时,更可能出现假阳性。
术语“cfNA”的“无细胞核酸”是指可以在细胞外部,诸如血液、汗液、尿液或唾液的体液中,发现的核酸分子。无细胞核酸可互换用作循环核酸。
术语“无细胞核酸”、“无细胞DNA”或“cfDNA”是指脱氧核糖核酸片段,其在体液中循环,诸如血液、汗液、尿液或唾液,并且来源于一个或多个健康细胞和/或来源于一个或多个癌细胞。
术语“循环肿瘤DNA”或“ctDNA”是指源自肿瘤细胞或其他类型癌细胞的脱氧核糖核酸片段,其可能由于生物过程(如垂死细胞的凋亡或坏死)或活的肿瘤细胞主动释放而释放到个体的体液中,例如血液、汗液、尿液或唾液。
术语“循环肿瘤RNA”或“ctRNA”是指源自肿瘤细胞或其他类型癌细胞的核糖核酸片段,其可能是由于生物过程(如垂死细胞的凋亡或坏死)或活的肿瘤细胞主动释放而释放到人体的体液中,例如血液、汗液、尿液或唾液。
术语“基因组核酸”、“基因组DNA”或“gDNA”是指包括源自一个或多个健康细胞的染色体DNA的核酸。
术语“备选等位基因”或“ALT”是指相对于参考等位基因,例如对应于已知基因,具有一个或多个突变的等位基因。
术语“测序深度”或“深度”是指在给定位置、区域或基因座处从个体获得的样本中读取区段的总数。在一些实施例中,深度是指跨基因组或跨靶向测序板(panel)的平均测序深度。
术语“替代深度”或“AD”是指样本中支持ALT的读取区段的数量,例如包括ALT的突变。
术语“参考深度”是指样本中的读取区段的数量,其在候选变体位置处包括参考等位基因。
术语“替代频率”或“AF”是指给定ALT的频率。可以通过将样本的对应AD除以给定ALT的样本深度来确定AF。
术语“变体”或“真实变体”是指基因组中某个位置的突变核苷酸碱基。这样的变体可以导致个体中癌症的发展和/或进展。
术语“边缘变体”是指位于序列读取的边缘附近的突变,例如在距序列读取的边缘的核苷酸碱基的阈值距离内。
术语“非边缘变体”是指例如使用本文所述的边缘变体过滤方法而未被确定为由伪影过程导致的候选变体。在一些情况下,非边缘变体可能不是真正的变体(例如基因组中的突变),因为与一种或多种伪影过程相反,由于不同的原因,非边缘变体可能会出现。
II.示例测定协议
图1A是根据一个实施例的用于制备用于测序的核酸样本的方法100的流程图。方法100包括但不限于以下步骤。例如方法100的任意步骤可以包括用于质量控制或本领域技术人员已知的其他实验室测定程序的定量子步骤。
在步骤110中,从受试者获得包含多个核酸分子(DNA或RNA)的测试样本,并且从测试样本中提取和/或纯化核酸。在本公开中,除非另有说明,否则DNA和RNA可以互换使用。即,在变体调用和质量控制中使用误差源信息的以下实施例可以适用于DNA和RNA类型的核酸序列。然而,为了清楚和解释的目的,本文所述的示例可集中于DNA。提取的样本中的核酸可以包含整个人类基因组,或人类基因组的任意子集,包括整个外显子组。替代地,样本可以是人类转录组的任意子集,包括整个转录组。测试样本可以从患有或怀疑患有癌症的受试者获得。在一些实施例中,测试样本可以包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任意组合。替代地,测试样本可以包括选自全血、血液分段、组织活检、胸膜液、心包液、脑脊髓液和腹膜液的组的样本。在一些实施例中,用于抽取血液样本的方法(例如注射器或手指刺)可能比可能需要手术的用于获得组织活检的程序的侵入性小。提取的样本可以包含cfDNA和/或ctDNA。对于健康的个体,人体可以自然清除cfDNA和其他细胞碎片。通常,可以使用本领域中任意已知的方法从测试样本中提取和纯化无细胞核酸。例如可以使用一种或多种已知的市售协议或试剂盒,例如QIAamp循环核酸试剂盒
Figure GDA0002646198800000231
提取和纯化无细胞核酸。如果受试者患有癌症或疾病,则提取样本中的ctDNA可能以可检测的水平存在以进行诊断。
在步骤120中,制备测序库。在库制备过程中,例如通过衔接子连接(使用T4或T7DNA连接酶)或本领域其他已知方式,将包括专用分子标识符(UMI)的测序衔接子(adapter)添加至核酸分子(例如DNA分子)。UMI是短核酸序列(例如4-10个碱基对),其被添加到DNA片段的末端并用作专用的标签,其可用于标识源自特定DNA片段的核酸(或序列读取)。加入衔接子后,例如使用聚合酶链反应(PCR)扩增衔接子-核酸构建体。在PCR扩增过程中,UMI与附接的DNA片段一起被复制,这提供了一种可在下游分析中标识来自相同原始片段的序列读取的方法。任选地,如本领域中众所周知的,测序衔接子可进一步包括通用引物(primer)、样本特异性条形码(用于多重化(multiplexing))和/或一种或多种测序寡核苷酸(oligonucleotides),以用于随后的集群产生和/或测序(例如用于合成测序(SBS)(加利福尼亚圣地亚哥的
Figure GDA0002646198800000232
)的已知P5和P7序列)。
在步骤130中,从库中富集靶向的DNA测序。根据一个实施例,在靶向富集期间,杂交探针(在本文中也称为“探针”)用于靶向并拉低已知或可能有助于癌症(或疾病)存在或不存在、癌症状态或癌症分类(例如,癌症类型或起源组织)的核酸片段。对于给定的工作流程,可以将探针设计为与DNA或RNA的靶向(互补)链退火(或杂交)。靶向链可以是“阳性”链(例如转录成mRNA,然后转换成蛋白质的链)或互补的“阴性”链。探针的长度范围可以是碱基对的10s、100s或1000s。在一个实施例中,基于基因板设计探针以分析怀疑对应于某些癌症或其他类型疾病的基因组(例如人或另一生物的)的特定突变或靶向区域。而且,探针可以覆盖靶向区域的重叠部分。如本领域技术人员将容易理解的,本领域中任意已知的手段均可用于靶向富集。例如在一个实施例中,探针可以是生物素化的和链霉亲和素包被的磁珠(biotinylated and streptavidin coated magnetic beads),用于富集探针捕获的靶向核酸。参见例如Duncavage等,J Mol Diagn.13(3):325-333(2011);和Newman等人,NatMed.20(5):548-554(2014)。通过使用靶向基因板而不是对整个基因组进行测序(“全基因组测序”),基因组的所有表达基因(“全外显子组测序”或“全转录组测序”),方法100可用于增加靶区域的测序深度,其中深度是指样本中给定靶序列被测序的次数。增加测序深度允许用于样本中稀有序列变体的检测和/或增加测序过程的通量。在杂交步骤后,杂交的核酸片段被捕获,并也可以使用PCR进行扩增。
图1B是根据一个实施例的用于获得序列读取的过程的图形表示。图1B描绘了来自样本的核酸区段160的一个示例。在此,核酸区段160可以是单链核酸区段,诸如单链DNA或单链RNA区段。在一些实施例中,核酸区段160是双链cfDNA区段。所示的示例描绘了核酸区段160的三个区域165A、165B和165C,其可以被不同的探针靶向。具体地,三个区域165A、165B和165C中的每一个包括在核酸区段160上的重叠位置。在图1B中将示例重叠位置描绘为胞嘧啶(“C”)核苷酸碱基162。胞嘧啶核苷酸碱基162位于区域165A的第一边缘附近、区域165B的中心以及区域165C的第二边缘附近。
在一些实施例中,基于基因板设计一种或多种(或全部)探针,以分析怀疑与某些癌症或其他类型的疾病相对应的基因组(例如人或另一生物的)的特定突变或靶向区域。通过使用靶向基因板而不是测序基因组中所有表达的基因,也称为“全外显子组(wholeexome)测序”,方法100可用于增加靶向区域的测序深度,其中深度是指样本中给定靶向序列被测序的数目的计数。增加测序深度会减少所需的核酸样本输入量。
使用一种或多种探针的核酸样本160的杂交导致对靶向序列170的理解。如图1B所示,靶向序列170是杂交探针靶向的区域165的核苷酸碱基序列。靶向序列170也可以称为杂交的核酸片段。例如靶向序列170A对应于第一杂交探针靶向的区域165A,靶向序列170B对应于第二杂交探针靶向的区域165B,并且靶向序列170C对应于第三杂交探针靶向的区域165C。假定胞嘧啶核苷酸碱基162位于杂交探针靶向的每个区域165A-C内的不同位置,则每个靶向序列170在靶向序列170上的特定位置处包括与胞嘧啶核苷酸碱基162相对应的核苷酸碱基。
在图1B的示例中,靶向序列170A和靶向序列170C各自具有位于靶向序列170A和170C的边缘附近的核苷酸碱基(显示为胸腺嘧啶“T”)。在此,胸腺嘧啶核苷酸碱基(例如与胞嘧啶碱基相反)可以是随机胞嘧啶脱氨过程的结果,其导致胞嘧啶碱基随后在测序过程中被标识为胸腺嘧啶核苷酸碱基。因此,因为突变位于靶向序列170A和170C的边缘,所以靶序列170A和170C的C>T SNV可以被认为是边缘变体。胞嘧啶脱氨过程可导致下游测序伪影,其阻止了核酸区段160中实际核苷酸碱基对的准确捕获。另外,靶向序列170B具有位于靶向序列170B中心的胞嘧啶碱基。在此,位于中心的胞嘧啶碱基对胞嘧啶脱氨的灵敏度较小。
杂交步骤后,捕获了杂交的核酸片段,也可以使用PCR进行扩增。例如可以富集靶向序列170以获得可以随后测序的富集序列180。在一些实施例中,从靶序列170复制每个富集序列180。分别从靶向序列170A和170C扩增的富集序列180A和180C还包括位于每个序列读取180A或180C的边缘附近的胸腺嘧啶核苷酸碱基。如下文所用,相对于参考等位基因(例如胞嘧啶核苷酸碱基162)发生突变的富集序列180中的突变核苷酸碱基(例如胸腺嘧啶核苷酸碱基)被认为是替代等位基因。另外,从靶向序列170B扩增的每个富集序列180B包括位于每个富集序列180B附近或中心的胞嘧啶核苷酸碱基。
在步骤140中,从富集的核酸分子(例如DNA分子)生成序列读取。可以通过本领域已知的手段从富集的核酸分子获得测序数据或序列读取。例如方法100可以包括下一代测序(NGS)技术,包括合成技术
Figure GDA0002646198800000261
焦磷酸测序(454LIFE SCIENCES)、离子半导体技术(Ion Torrent测序)、单分子实时测序
Figure GDA0002646198800000262
连接测序(SOLiD测序)、纳米孔测序(OXFORD NANOPORE TECHNOLOGIES)或配对末端测序。在一些实施例中,使用具有可逆染料终止子(reversible dye terminators)的合成测序进行大规模平行测序。
在各种实施例中,将富集的核酸样本115提供给测序器145以进行测序。如图1A所示,测序器145可以包括图形用户界面150,其使用户能够与特定任务进行交互(例如启动测序或终止测序),以及用于提供富集的区段样本的一个更多的装载托盘155和/或进行测序测定所需的缓冲器。因此,一旦用户已经向测序器145的装载托盘155提供了必要的试剂和富集的片段样本,则用户可以通过与测序器145的图形用户界面150进行交互来启动测序。在步骤140中,测序器145执行测序并输出来自核酸样本115的富集片段的序列读取。
在一些实施例中,测序器145与一个或多个计算设备160通信耦合。每个计算设备160可以处理诸如变体调用或质量控制的各种应用的序列读取。测序器145可以将BAM文件格式的序列读取提供给计算设备160。每个计算设备160可以是个人计算机(PC)、台式计算机、膝上型计算机、笔记本、平板PC或移动设备之一。计算设备160可以通过无线、有线或无线和有线通信技术的组合通信地耦合到测序器145。通常,计算设备160被配置有处理器和存储计算机指令的存储器,该计算机指令在由处理器执行时使处理器处理序列读取或执行本文公开的任何方法或过程中的一个或多个步骤。
在一些实施例中,可以使用本领域已知的方法将序列读取与参考基因组对齐,以确定对齐位置信息。例如在一个实施例中,序列读取与人参考基因组hg19对齐。人参考基因组的序列hgl9可从具有参考号为GRCh37/hgl9的Genome Reference Consortium获得,也可从Santa Cruz Genomics Institute提供的Genome Browser中获得。对齐位置信息可以指示参考基因组中与给定序列读取的起始核苷酸碱基和终止核苷酸碱基相对应的区域的起始位置和终止位置。对齐位置信息还可包括序列读取长度,其可从起始位置和终止位置确定。参考基因组中的区域可以与基因或基因的区段相关。
在各种实施例中,例如当使用配对末端测序过程时,序列读取包括表示为R1和R2的读取对。例如第一读取R1可以从双链DNA(dsDNA)分子的第一末端测序,而第二读取R2可以从双链DNA(dsDNA)的第二末端测序。因此,第一读取R1和第二读取R2的核苷酸碱基对可以与参考基因组的核苷酸碱基一致地对齐(例如以相反的方向)。从读取对R1和R2得到的对齐位置信息可以包括参考基因组中对应于第一读取(例如R1)的末端的起始位置和参考基因组中对应于第二读取(例如R2)的末端的终止位置。换句话说,参考基因组中的起始位置和终止位置代表核酸片段所对应的参考基因组内的可能位置。具有SAM(序列对齐图)格式或BAM(二进制)格式的输出文件可以被生成,并被输出以进行进一步的分析,诸如变体调用,如下面关于图2所述。
III、示例处理系统
图2是根据一个实施例的用于处理序列读取的处理系统200的框图。处理系统200包括序列处理器205、序列数据库210、模型数据库215、机器学习引擎220、模型225(例如包括“贝叶斯层次模型”或“预测癌症模型”)、参数数据库230、得分引擎235、变体调用器240、边缘过滤器250和非同义过滤器260。图3是根据一个实施例的用于确定序列读取的变体的方法300的流程图。在一些实施例中,处理系统200执行方法300以基于输入的测序数据来执行变体调用(例如针对SNV和/或插入缺失)。此外,处理系统200可以从与使用上述方法100制备的核酸样本相关联的输出文件中获得输入测序数据。方法300包括但不限于以下关于处理系统200的组件描述的步骤。在其他实施例中,方法300的一个或多个步骤可以由不同过程的步骤代替,用于生成变体调用,例如使用变体调用格式(VCF),诸如HaplotypeCaller、VarScan、Strelka或SomaticSniper。
在步骤300,可选地,序列处理器205折叠输入测序数据的对齐序列读取。在一个实施例中,折叠序列读取包括使用UMI,以及任选地来自输出文件的测序数据的对齐位置信息(例如来自图1A所示的方法100)以将多个序列读取(即,从相同原始核酸分子得到)标识和折叠为共有序列。根据该步骤,共有序列从得自表示原始分子的最可能核酸序列或其一部分的相同原始核酸分子的多个序列读取确定。由于UMI序列是通过测序库的PCR扩增来复制的,因此序列处理器205可以确定某些序列读取源自核酸样本中的相同分子。在一些实施例中,具有相同或相似对齐位置信息(例如阈值偏移内的开始和结束位置)并且包括共同的UMI的序列读取被折叠,并且序列处理器205生成折叠读取(在本文中也称为“共有读取”),以代表核酸片段。在一些实施例中,如果对应的一对序列读取(即,R1和R2)或折叠的序列读取具有共同的UMI,则序列处理器205将共有读取指定为“双链体”,这表明起始核酸分子的正和负链均已被捕获;否则,折叠读取被指定为“非双链体”。在一些实施例中,作为折叠序列读取的替代或补充,序列处理器205可以对序列读取执行其他类型的纠错。
在步骤305,可选地,序列处理器205可以基于将两个序列读取合并为单个读取区段的对应的对齐位置信息,缝合序列读取或折叠序列读取。在一些实施例中,序列处理器205比较第一序列读取和第二序列读取(或折叠序列读取)之间的对齐位置信息,以确定第一和第二读取的核苷酸碱基对在参考基因组中是否部分重叠。在一个用例中,响应于确定第一读取和第二读取之间的重叠(例如给定数量的核苷酸碱基)大于阈值长度(例如核苷酸碱基的阈值数量),序列处理器205指定第一和第二读为“缝合”;否则,折叠读取称为“未缝合”。在一些实施例中,如果重叠大于阈值长度并且如果该重叠不是滑动重叠,则缝合第一和第二读取。例如滑动重叠可包括均聚物运行(例如单个重复核苷酸碱基)、二核苷酸运行(例如两个核苷酸重复碱基序列)或三核苷酸运行(例如三个核苷酸重复碱基序列),其中均聚物运行、二核苷酸运行或三核苷酸运行具有至少阈值长度的碱基对。
在步骤310,序列处理器205可以可选地将两个或更多个读取或读取区段组装成合并的序列读取(或覆盖靶向区域的路径)。在一些实施例中,序列处理器205组装读取以生成针对靶向区域(例如基因)的有向图,例如de Bruijn图。有向图的单向边缘表示靶向区域中的k个核苷酸碱基的序列(在本文中也称为“k聚体”),并且边缘通过顶点(或节点)连接。序列处理器205将折叠的读取对齐有向图,使得任意折叠的读取可以由边缘和对应的顶点的子集依次表示。
在一些实施例中,序列处理器205确定描述有向图的参数集合并处理有向图。另外,该参数集合可以包括从折叠的读取到由有向图中的节点或边缘表示的k聚体的成功对齐的k聚体的计数。序列处理器205例如在序列数据库210中存储有向图和对应的参数集合,可以检索有向图和对应的参数集合以更新图或生成新图。例如序列处理器205可以基于该参数集合来生成有向图的压缩版本(例如或修改现有图)。在一种使用情况下,为了滤除具有较低重要性级别的有向图的数据,序列处理器205去除(例如“裁剪”或“修剪”)具有小于阈值的计数的节点或边,并且保持计数大于或等于阈值的节点或边。
在步骤315,变体调用器240从由序列处理器205组装的序列读取、折叠序列读取或合并序列读取中生成候选变体。在一个实施例中,变体调用器240通过将序列读取、折叠序列读取或合并序列读取(可能已经在步骤310中被修剪边或节点压缩了)与参考基因组(人类参考基因组hgl9)的靶向区域的参考序列进行比较来生成候选变体。变体调用器240可将序列读取、折叠的序列读取或合并的序列读取的边与参考序列进行对齐,并将不匹配的边和与边相邻的不匹配的核苷酸碱基的基因组位置记录为候选变体的位置。在一些实施例中,将错配的核苷酸碱基到左边和右边的基因组位置记录为调用变体的位置。另外,变体调用器240可以基于靶向区域的测序深度来生成候选变体。特别地,例如因为更多数目的序列读取有助于解决(例如使用冗余)序列之间的错配或其他碱基对变体,变体调用器240可以更自信地标识具有更大测序深度的靶向区域中的变体。
在一个实施例中,变体体调用器240使用模型225来生成候选变体,以确定从受试者(例如从健康受试者)序列读取的预期噪声比率。模型225可以是贝叶斯分层模型,尽管在一些实施例中,处理系统200使用一种或多种不同类型的模型。此外,贝叶斯分层模型可以是可用于生成候选变体并且彼此相关的许多可能的模型架构之一,因为它们都对位置特定的噪声信息进行建模以改进变体调用的灵敏度或特异性。更具体地,机器学习引擎220使用来自健康个体的样本来训练模型225,以对序列读取的每个位置的预期噪声比率进行建模。
此外,可以将多个不同的模型存储在模型数据库215中,或者可以将其取回以进行应用后训练。例如训练第一模型以对SNV噪声比率进行建模,并且训练第二模型以对插入缺失率进行建模。此外,得分引擎235可以使用模型225的参数来确定序列读取中一个或多个真阳性的似然。得分引擎235可以基于似然来确定质量得分(例如以对数尺度)。例如质量得分是Phred质量得分Q=-10·log10P,其中P是不正确的候选变体调用(例如假阳性)的似然。
在步骤320,得分引擎235基于模型225或真阳性或质量得分的对应似然对候选变体得分。下面更详细地描述模型225的训练和应用。在一些实施例中,处理系统200可以使用一个或多个标准来过滤候选变体。例如处理系统200过滤具有至少(或小于)阈值得分的候选变体。
在步骤325,处理系统200输出候选变体。在一些实施例中,处理系统200输出一些或所有确定的候选变体以及对应的得分。下游系统,例如在处理系统200或处理系统200的其他组件外部,可以将候选变体和得分用于各种应用,包括但不限于预测癌症、疾病或种系(germline)突变的存在。
图1-3示例了用于生成测序读取数据并标识候选变体或罕见突变调用的可能实施例。然而,如本领域技术人员将容易理解的,在本发明的实施例的实践中可以使用本领域中用于获得测序数据的其他已知方法,诸如序列读取或共有序列读取,并从中鉴定候选变体或罕见突变调用(例如参见美国专利公开No.2012/0065081,美国专利公开No.2014/0227705,美国专利公开No.2015/0044687和美国专利公开No.2017/0058332)。
IV.示例噪声模型
图4是根据一个实施例的贝叶斯分层模型225的应用的图。为了说明的目的,示出突变A和突变B作为示例。在图4的实施例中,突变A和B表示为SNV,尽管在其他实施例中,以下描述也适用于插入缺失或其他类型的突变。突变A是在来自第一样本的第一参考等位基因的位置4的C>T突变。第一样本的第一AD为10,第一总深度为1000。突变B是在来自第二样本的第二参考等位基因的位置3处的T>G突变。第二样本的第二个AD值为1,第二总深度为1200。仅基于AD(或AF),突变A可能看起来是真阳性,而突变B可能看起来是假阳性,因为前者的AD(或AF)大于后者的AD(或AF)。但是,每个等位基因和/或等位基因的每个位置,突变A和B可能具有不同的相对噪声比率级别。实际上,一旦考虑了这些不同位置的相对噪声级别,变体A可能是假阳性,变体B可能是真阳性。本文所述的模型225对该噪声进行建模,以用于对应的真阳性的正确标识。
图4所示的概率质量函数(PMF)表示来自在某个位置具有给定AD计数的受试者样本的概率(或似然)。使用来自健康个体的样本的测序数据(例如存储在序列数据库210中),处理系统200训练模型225,从中可以得到健康样本的PMF。尤其是,PMF基于mp和rp,其中mp对正常组织(例如健康个体)中每个等位基因每个位置的预期平均AD计数进行建模,rp对此AD计数中的预期变化(例如分散度)进行建模。换句话说,mp和/或rp代表正常组织测序数据中每个位置等位基因的基线噪声级别。
使用图4的示例进一步说明,来自健康个体的样本代表由y建模的人群的子集,其中i是训练集合中健康个体的指数。出于示例的原因,假设已经训练了模型225,由模型225产生的PMF在视觉上示出了针对每个突变测量的AD的似然,并且因此提供了关于哪些是真阳性以及哪些是假阳性的指示。与突变A相关的图4左侧的示例PMF表示,第一个样本针对在位置4的突变具有AD计数为10的概率约为20%。另外,与突变B相关联的右侧示例PMF表示,第二个样本针对在位置3的突变具有AD计数为1的概率约为1%(注意:图4的PMF并非完全按比例绘制)。因此,尽管突变B具有较低的AD和AF,但与PMF的这些概率相对应的噪声比率表明,突变A比突变B更有可能发生。因此,在该示例中,突变B可以是真阳性,而突变A可以是假阳性。因此,处理系统200可以通过使用模型225以更准确的比率区分真阳性和假阳性来执行改进的变体调用,并且进一步提供关于这些似然的数值置信度。
图5A示出了根据一个实施例的用于确定真正的单核苷酸变体的贝叶斯层次模型225的参数和子模型之间的依赖性。模型的参数可以存储在参数数据库230中。在图5A所示的示例中,
Figure GDA0002646198800000321
表示分配给每个混合成分的权重向量。向量
Figure GDA0002646198800000322
在K维的单形内取值,并且可以在训练过程中经由后采样来学习或更新。可以在所述单纯形上给予统一的先验用于这种训练,。位置p所属的混合分量可以使用一个或多个不同的多项式分布通过潜在变体zp建模:
Figure GDA0002646198800000323
潜在变体zp,混合分量
Figure GDA0002646198800000331
α和β的向量共同允许μ的模型(即贝叶斯层次模型225的子模型)具有“合并”关于噪声的知识的参数,也就是说,它们代表了跨多个位置的噪声特性上的相似性。因此,序列读取的位置可以由模型合并或分组为潜在类别。同样有利的是,这些“合并”位置中任意一个的样本都可以帮助训练这些共享参数。这样做的好处是,即使以前很少或没有在给定位置已经观察到替代等位基因的直接证据(例如在用于训练该模型的健康组织样本中),处理系统200仍可以确定健康样本中的噪声模型。
协变量xp(例如预测器)编码有关位置p的已知上下文信息,该信息可能包括但不限于诸如以下信息的信息:三核苷酸上下文、可映射性、区段重复、最接近重复的距离、唯一性、k-mer唯一性、对于序列的不良表现区域的警告、或与序列读取相关的其他信息。三核苷酸上下文可以基于参考等位基因,并且可以被分配数字(例如整数)表示。例如将“AAA”分配给1,将“ACA”分配给2,将“AGA”分配给3,依此类推。可映射性表示读取与基因组特定靶向区域对齐的唯一性水平。例如可映射性被计算为序列读取将被唯一映射的(一个或多个)位置的数目的倒数。区段重复对应于长核酸序列(例如具有大于约1000个碱基对的长度),其几乎完全相同(例如大于90%匹配),并且由于自然复制事件(例如与癌症或疾病无关)出现在基因组的多个位置。
SNV在位置p的预期平均AD计数由参数μp建模。为了在该描述中清楚起见,术语μp和yp指贝叶斯层次模型225的位置特定的子模型。在一个实施例中,μp被建模为具有形状参数
Figure GDA0002646198800000332
且平均参数
Figure GDA0002646198800000333
的Gamma分布随机变量:
Figure GDA0002646198800000334
在其他实施例中,可以使用其他函数来表示μp,其示例包括但不限于:具有log-mean
Figure GDA0002646198800000335
和log-standard-deviation
Figure GDA0002646198800000336
的对数正态分布、Weibull分布、幂定律、指数调制幂定律、或前述各项的混合。
在图5A所示的示例中,形状和平均参数各自取决于协变量xp和潜变量zp,尽管在其他实施例中,依赖可以基于训练期间信息汇集的不同程度而不同。例如可以替代构造模型,以便
Figure GDA0002646198800000341
取决于潜在变量,而不取决于协变量。通过随机变量
Figure GDA0002646198800000342
建模(健康个体的)人群样本i中在位置p处SNV的SNV的AD计数分布。在一个实施例中,给定样本在位置处的深度dip,该分布是泊松分布:
Figure GDA0002646198800000343
在其他实施例中,其他函数可以用来表示
Figure GDA0002646198800000344
其示例包括但不限于:负二项式、康韦-麦克斯韦-泊松分布、ζ分布和零膨胀泊松。
图5B示出了根据一个实施例的用于确定真实插入或缺失的贝叶斯层次模型的参数与子模型之间的依赖。与图5A中所示的SNV模型相反,图5B中所示的插入缺失的模型包括不同等级的层次。协变量xp编码位置p处的已知特征,并且可以包括例如到均聚物的距离、到RepeatMasker重复的距离或与先前观察到的序列读取相关联的其他信息。潜在变量
Figure GDA0002646198800000345
可以基于向量
Figure GDA0002646198800000346
的参数由Dirichlet分布建模,向量的参数
Figure GDA0002646198800000347
表示某个位置的插入缺失长度分布,并且可以基于协变量。在一些实施例中,
Figure GDA0002646198800000348
还在共享相同的(一个或多个)协变量值的位置
Figure GDA0002646198800000349
之间共享。因此,例如潜在变量可以表示这样的信息,诸如均聚物插入缺失出现在来自锚点位置的1、2、3等碱基对处,而三核苷酸插入缺失出现在来自锚点位置的位置3、6、9等处。
位置p的预期平均总插入缺失计数由分布μp建模。在一些实施例中,该分布是基于协变量的,并且具有具有形状参数
Figure GDA00026461988000003410
和平均参数
Figure GDA00026461988000003411
的Gamma分布:
Figure GDA00026461988000003412
在其他实施例中,可以使用其他函数来表示μp,其示例包括但不限于:负二项式、康韦-麦克斯韦-泊松分布、ζ分布和零膨胀泊松。
通过分布
Figure GDA00026461988000003413
对(健康个体的)人群样本i中在位置p处观察到的插入缺失进行建模。类似于图5A中的示例,在某些实施例中,假定样本在位置处的深度为
Figure GDA0002646198800000351
插入缺失强度的分布是泊松分布:
Figure GDA0002646198800000352
在其他实施例中,其他函数可以用来表示
Figure GDA0002646198800000353
其示例包括但不限于:负二项式、康韦-麦克斯韦-泊松分布、ζ分布和零膨胀泊松。
由于插入缺失可能具有不同的长度的事实,因此在插入缺失模型中存在附加的长度参数,而在SNV模型中则不存在插入缺失模型。结果,图5B中所示的示例模型具有附加的层次级别(例如另一子模型),该附加的层次级别再次在上述SNV模型中不存在。通过随机变量
Figure GDA0002646198800000354
对样本i中位置p处长度l(例如多达100个或更多个碱基对的插入或缺失)的插入缺失的观察数进行建模,其代表以参数为条件的噪声下的插入缺失分布。给定样本的插入缺失强度
Figure GDA0002646198800000355
并且在位置处插入缺失长度
Figure GDA0002646198800000356
的分布,分布可以是多项式:
Figure GDA0002646198800000357
在其他实施例中,Dirichlet多项式函数或其他类型的模型可以用于表示
Figure GDA0002646198800000358
通过以这种方式构建模型,机器学习引擎220可以将对插入缺失强度(即噪声比率)的学习与对插入缺失长度分布的学习去耦合。独立地确定对在健康样本中是否会发生插入缺失的预期的推论以及对在某位置插入缺失的长度的期望可以改进模型的灵敏度。例如相对于基因组中多个位置或区域的插入缺失强度,长度分布可能更稳定,反之亦然。
图6A-B示出了根据一个实施例的与贝叶斯分层模型225相关联的图。图6A中所示的图描绘了由模型表征的给定位置的噪声比率的分布μp,即SNV或插入缺失的似然度(或强度)。基于从健康个体观察到的健康样本的训练数据(例如从序列数据库210中取回的),连续分布表示非癌症或非疾病突变(例如在健康组织中自然发生的突变)的预期AFμp。尽管未在图6A中示出,但是在一些实施例中,μp的形状和平均参数可以基于其他变量,诸如协变量xp或潜在变量zp。图6B中所示的图描绘了受试者的样本在给定位置的AD分布,样本的给定参数诸如给定位置的测序深度dp。μp的绘图的分散概率是根据基于预期平均分布μp的人口的预测真实平均AD计数确定的。
图7A是根据一个实施例的用于通过拟合贝叶斯分层模型225来确定参数的示例过程的图。为了训练模型,机器学习引擎220从针对位置集合的每个位置的预期噪声比率的后验分布(例如图6B中所示的图)迭代地采样。机器学习引擎220可以使用马尔可夫链蒙特卡罗(MCMC)方法进行采样,例如Metropolis-Hastings(MH)算法、自定义MH算法、Gibbs采样算法、基于汉密尔顿力学的采样、随机采样以及其他采样算法。在贝叶斯推理训练期间,从联合后验分布中提取参数,以迭代地更新模型的所有(或某些)参数和潜在变量(例如
Figure GDA0002646198800000361
等)。
在一个实施例中,机器学习引擎220通过将μp的绘制,每个位置和每个样本的AF的期望平均计数存储在参数数据库230中来执行模型拟合。如前所述,通过后验样本来训练或拟合模型。在一个实施例中,μp的绘图被存储在矩阵数据结构中,该矩阵数据结构具有所采样的位置的集合中的每个位置的行和来自联合后验的每个图的列(例如以观察到的数据为条件的所有参数)。R的行数可能大于600万,并且N次采样迭代的列数可能为数千。在其他实施例中,行和列的指定与图7A所示的实施例不同,例如每行表示来自后验样本的绘图,并且每列表示采样位置(例如图7A所示的矩阵示例的转置)。
图7B是根据一个实施例的使用来自贝叶斯分层模型225的参数来确定假阳性的似然的图。机器学习引擎220可以将图7A中所示的R行N列矩阵减小为图7B中所示的R行2列矩阵。在一个实施例中,机器学习引擎220确定后验样本μp上每个位置的分散参数rp(例如形状参数)和平均参数mp(也可以称为平均比率参数mp)。分散参数rp可确定为
Figure GDA0002646198800000362
其中mp和vp分别是该位置处的μp采样值的平均值和方差。本领域技术人员将理解,还可使用用于确定rp的其他函数,例如最大似然估计。
给定平均参数,机器学习引擎220还可以对减小后的矩阵中的分散参数执行分散重新估计。在一个实施例中,在贝叶斯训练和后验逼近之后,机器学习引擎220通过基于每个位置的负二项式最大似然估计器对分散参数
Figure GDA0002646198800000371
进行再训练,来执行分散重新估计。在重新训练期间,平均参数可以保持固定。在一个实施例中,机器学习引擎220针对训练数据的原始AD计数(例如基于健康样本的
Figure GDA0002646198800000372
Figure GDA0002646198800000373
)确定每个位置处的分散参数r′p。机器学习引擎220确定
Figure GDA0002646198800000374
并将
Figure GDA0002646198800000375
存储在减小的矩阵中。本领域技术人员将理解,也可以使用用于确定
Figure GDA0002646198800000376
的其他函数,诸如矩估计器、后验均值或后验模式的方法。
在训练模型的应用期间,处理系统200可以访问分散(例如形状)参数
Figure GDA0002646198800000377
和平均参数mp,以确定由
Figure GDA0002646198800000378
和mp参数化的函数。该函数可以用于确定受试者的新样本的后验预测概率质量函数(或概率密度函数)。基于在给定位置上某个AD计数的预测概率,当从样本中检测到真阳性时,处理系统200可以考虑序列读取的每个位置的位点特异性噪声比率。再次参考关于图4描述的示例用例,可以使用来自图7B的减小矩阵的参数来确定针对突变A和B示出的PMF。后验预测概率质量函数可以用于确定在特定位置具有AD计数的突变A或B的样本的概率。
V.噪声模型的示例过程流程
图8是根据一个实施例的用于训练贝叶斯分层模型225的方法800的流程图。在步骤810中,机器学习引擎220从序列读取的数据库(例如序列数据库210)收集样本,例如训练数据。在步骤820中,机器学习引擎220使用马尔可夫链蒙特卡洛方法使用样本来训练贝叶斯层次模型225。在训练期间,模型225可以保持或拒绝以训练数据为条件的序列读取。机器学习引擎220可以排除具有小于阈值深度值或具有大于阈值频率的AF的健康个体的序列读取,以便在序列读取中去除不指示靶向噪声的可疑种系突变。在其他实施例中,机器学习引擎220可以确定哪些位置可能包含种系变体,并使用如上的阈值选择性地排除这些位置。在一个实施例中,机器学习引擎220可以将这样的位置标识为具有与种系频率(例如0、1/2和1)相比AF小的平均绝对偏差。
贝叶斯分层模型225可以同时为模型中包括的多个(或所有)位置更新参数。另外,可以训练模型225以对每个ALT建模期望的噪声。例如SNV的模型可以执行四次或更多次训练过程,以将A、T、C和G碱基各自的突变参数(例如一对一替代)更新到其他三个碱基中的每一个。在步骤830中,机器学习引擎220存储贝叶斯分层模型225的参数(例如通过马尔可夫链蒙特卡洛方法输出的整体参数)。在步骤840中,机器学习引擎220基于这些参数来近似每个位置的噪声分布(例如由分散参数和平均参数表示)。在步骤850中,机器学习引擎220使用来自用于训练贝叶斯分层模型225的样本(例如训练数据)的原始AD计数来执行分散重新估计(例如最大似然估计)。
图9是根据一个实施例的用于确定假阳性的似然的方法900的流程图。在步骤910,处理系统200从序列读取集合中标识候选变体,例如在序列读取的位置p,其可以从获自个体的cfDNA样本获得。在步骤920,处理系统200访问特定于候选变量的参数,例如分别为分散和平均比率参数
Figure GDA0002646198800000381
和mp,其可以基于候选变量的位置p。可以使用模型来得到参数,例如代表后验预测分布的贝叶斯分层模型225,其中以给定序列读取的观察深度和在位置p处的平均参数μp作为输入。在一个实施例中,平均参数μp是伽马分布,其编码相对于训练样本的位置p的核苷酸突变的噪声级别。
在步骤930,处理系统200将序列读取的集合的读取信息(例如AD或AF)输入到通过参数(例如
Figure GDA0002646198800000382
和mp)参数化的函数(例如基于负二项式)中。在步骤940,处理系统200(例如得分引擎235)基于输入的读取信息使用函数的输出来确定候选变体的得分(例如在位置p)。得分可以指示看到给定样本(例如来自受试者)的等位基因计数大于或等于候选变体的确定等位基因计数(例如由模型和函数输出确定)的似然。处理系统200可以将似然转换为Phred尺度得分。在一些实施例中,处理系统200响应于确定似然小于阈值而使用似然来确定假阳性突变。在一些实施例中,处理系统200使用该函数来确定序列读取的样本至少包括对应于从个体的肿瘤活检的序列读取中发现的基因的等位基因的阈值计数。响应于该确定,处理系统200可以基于变体调用来预测个体中癌细胞的存在。在一些实施例中,处理系统200可以基于质量得分执行加权、将候选变体和质量得分用于错误发现方法、用质量得分注释假定的调用、或者提供给后续系统。
处理系统200可以使用编码相对于给定训练样本的核苷酸突变的噪声级别的函数进行下游分析。在一些实施例中,处理系统200使用由分散和平均比率参数
Figure GDA0002646198800000391
和mp参数化的前述负二项式函数来确定样本中特定核酸位置的预期噪声,例如cfDNA或gDNA。此外,处理系统200可以通过使用与特定核酸样本相关联的训练数据来训练贝叶斯层次模型225来得到参数。下面的实施例描述了在本文中称为联合模型225的另一种模型,其可以使用贝叶斯分层模型225的输出。
VI.示例联合模型
图10是根据一个实施例的用于使用联合模型225来处理无细胞核酸(例如cfDNA)样本和基因组核酸(例如gDNA)样本的方法1000的流程图。联合模型225可以独立于cfDNA和gDNA的核酸的位置。可以结合图8-9中所示的方法800和/或900来执行方法1000。例如执行方法800和900以确定关于来自健康样本的训练数据的cfDNA和gDNA样本的核苷酸突变的噪声。图11是根据一个实施例的联合模型的应用图。下面参考图11描述方法1000的步骤。
在步骤1010中,序列处理器205根据从受试者的cfDNA样本获得的序列读取来确定核酸各个位置的深度和AD。cfDNA样本可以从受试者的血浆样本中收集。步骤1010可以包括图1A所示的方法100的先前描述的步骤。
在步骤1020中,序列处理器205根据从同一受试者的gDNA获得的序列读取,确定核酸各个位置的深度和AD。可以从受试者的白细胞或肿瘤活检中收集gDNA。步骤1020可以包括图1A所示的方法100的先前描述的步骤。
VI.A.联合模型的示例信号
在步骤1030中,联合模型225通过对针对cfDNA的观察到的AD进行建模来确定受试者的cfDNA样本的“真”AF的似然。在一个实施例中,联合模型225使用泊松分布函数来对在受试者的cfDNA中观察给定AD的概率进行建模(也如图11所示),该泊松分布函数由从cfDNA的序列读取观察到的深度和cfDNA样本的真实AF参数化。深度与真实AF的乘积可以是泊松分布函数的比率参数,它代表cfDNA的平均预期AF。
P(ADcfDNA|depthcfDNA,AFcfDNA)~Poisson(depthcfDNA·AFcfDNA)+noisecfDNA
噪声分量noisecfDNA在下面的VI B.联合模型的示例噪声部分中进一步描述。在其他实施例中,可以使用其他函数来表示ADcfDNA,其示例包括但不限于:负二项式、康韦-麦克斯韦-泊松分布、ζ分布和零膨胀泊松。
在步骤1040中,联合模型225通过对针对gDNA的观察到的AD进行建模来确定受试者的gDNA样本的“真”AF的似然。在一个实施例中,联合模型225使用泊松分布函数来对在受试者的gDNA中观察到给定AD的概率(也显示在图11)进行建模,该泊松分布函数由从gDNA的序列读取观察到的深度和gDNA样本的真实AF参数化。联合模型225可以使用相同的函数来对gDNA和cfDNA的真实AF的似然进行建模,尽管参数值基于从受试者的对应样本观察到的值而不同。
AP(ADgNDA|depthgDNA,AFgDNA)~Poisson(depthgDNA·AFgDNA)+noisegDNA噪声分量noisegDNA在下面的VI.B.联合模型的示例噪声部分中进一步描述。在其他实施例中,可以使用其他函数来表示ADgDNA,其示例包括但不限于:负二项式、康韦-麦克斯韦-泊松分布、ζ分布和零膨胀泊松。
由于cfDNA的真实AF和gDNA的真实AF是特定受试者生物学的内在特性,因此从任意一个来源确定真实AF的确切值可能不一定可行。此外,各种噪声源也将不确定性引入了真实AF的估计值。对应地,联合模型225使用数值逼近来确定在来自受试者的观测数据(例如深度和AD)以及对应的噪声参数条件下的真实AF的后验分布:
Figure GDA0002646198800000411
Figure GDA0002646198800000412
联合模型225使用具有例如均匀分布的先验的贝叶斯定理来确定后验分布。用于cfDNA和gDNA的先验可以相同(例如从0到1的均匀分布)并且彼此独立。
在一个实施例中,联合模型225使用似然函数通过给定来自cfDNA样本的固定观测数据集合,通过改变参数cfDNA的真实AF来确定cfDNA的真实AF的后验分布。另外,联合模型225通过给定来自gDNA样本的固定观测数据集合,通过改变参数gDNA的真实AF,使用另一个似然函数来确定gDNA的真实AF的后验分布。对于cfDNA和gDNA,联合模型225通过拟合负二项式(NB)在数值上近似输出后验分布:
Figure GDA0002646198800000413
在一个实施例中,联合模型225使用以下用于负二项式的参数进行数值逼近,这可以提供改进的计算速度:
P(AF|depth,AD)∝NB(AD,size=r,μ=m·depth)
其中:
m=AF+m
r=r·m 2/m2
由于cfDNA和gDNA之间观察到的数据不同,因此为cfDNA负二项式确定的参数将与为gDNA负二项式确定的参数有所不同。
在步骤1050中,变体调用器240使用似然确定cfDNA样本的真实AF大于gDNA样本的真实AF的函数的概率。该函数可以包括一个或多个参数,例如根据经验确定的k和p值,该k和p值存储在参数数据库230中并且参考图12-13更详细地描述。该概率表示在参考组织的序列读取中未发现来自cfDNA序列读取的至少一些核苷酸突变的置信水平。变体调用器240可以将该信息提供给其他过程以进行下游分析。例如高概率表明受试者的cfDNA序列读取中的核苷酸突变和gDNA序列读取中未发现的核苷酸突变可能源自受试者体内的肿瘤或其他癌症来源。相反,低概率表明在cfDNA中观察到的核苷酸突变可能并非源自受试者的潜在癌细胞或其他患病细胞。相反,由于种系突变、克隆血细胞生成(形成血细胞DNA亚群的专用突变)、镶嵌、化学疗法或诱变治疗、技术伪影等因素,核苷酸突变可能归因于健康个体中自然发生的突变。
在一个实施例中,变异调用器240基于一个或多个参数(例如下面描述的k和p)确定后验概率满足选择的标准。给定cfDNA和gDNA的序列,变体的分布在条件上是独立的。即,变体调用器240假定存在于cfDNA或gDNA样本之一中的ALT和噪声不受其他样本的ALT和噪声的影响,反之亦然。因此,给定从两个来源观察到的数据和噪声参数,变异调用器240在确定观察cfDNA的某些真实AF和gDNA的某些真实AF的概率时,将AD预期分布的概率视为独立事件。
Figure GDA0002646198800000421
Figure GDA0002646198800000422
Figure GDA0002646198800000423
在图11的示例3D图中,概率P(AFcfDNA,AFgDNA)被绘制为针对AFcfDNA和AFgDNA值对的3D等高线。沿着AFcfDNA和AFgDNA轴的3D等高线图的示例2D切片显示,等高线图的体积相对于的值向更大的倾斜。在其他实施例中,等高线图可以与图11所示的示例不同地倾斜或具有不同的形式。为了在数值上近似联合似然度,序列处理器205可以计算由P(AFcfDNA,AFgDNA)的3D等高线以及图11中的图中所示的虚线所示的边界线所限定的体积。序列处理器205根据k参数值确定边界线的斜率,并且该边界线与原点相交。k参数值可以考虑确定的真实AF中的误差的边界。特别地,该误差边界可以覆盖健康个体中的自然发生的突变,诸如如上所述的种系突变、克隆性造血作用、杂合性的损失(下文参照图13进一步描述)和其他来源。由于3D等高线被边界线分割,因此从cfDNA样本中检测到的变体的至少一部分可能潜在地归因于从gDNA样本中检测到的变体,而变体的另一部分则可能归因于肿瘤或其他癌症来源。
在一个实施例中,序列处理器205通过确定满足给定标准的联合似然的部分来确定后验概率满足给定标准。给定的标准可以基于k和p参数,其中p表示比较的阈值概率。例如序列处理器205确定cfDNA的真实AF大于或等于gDNA的真实AF乘以k的后验概率,以及后验概率是否大于p:
P(SFcfDNA≥k·AFgDNA)>p,其中
Figure GDA0002646198800000441
如以上等式所示,序列处理器205确定cfDNA的真实AF的似然的累积总和FcfDNA。此外,序列处理器205对gDNA的真实AF的似然函数进行积分。在另一个实施例中,序列处理器205可以确定gDNA的真实AF的似然的累积和,并且对cfDNA的真实AF的似然函数进行积分。通过计算两种似然之一的累积和(例如建立累积分布函数),而不是针对cfDNA和gDNA计算两种似然的双积分,序列处理器205减少了确定联合似然是否满足标准所需的计算资源(以计算时间或其他类似指标表示),并且还可以提高后验概率的计算精度。
VI.B.联合模型噪声示例
为了考虑由cfDNA和gDNA样本中的噪声引入的真实AF的估计值中的噪声,联合模型225可以使用先前相对于图4-9描述的处理系统200的其他模型。在一个实施例中,使用贝叶斯分层模型225来确定在以上等式中针对P(ADcfDNA|depthcfDNA,AFcfDNA)和P(ADgDNA|depthgDNA,AFgDNA)所示的噪声分量,该模型可以特定于候选变体(例如SNV或插入缺失)。此外,贝叶斯分层模型225可以覆盖核苷酸突变或插入缺失长度的特定位置范围内的候选变体。
在一个示例中,联合模型225使用由cfDNA特定参数参数化的函数来确定针对cfDNA的真实AF的噪声级别。cfDNA特定参数可以使用贝叶斯分层模型225来得到,该贝叶斯分层模型225是用例如来自健康个体的cfDNA样本集合训练的。另外,联合模型225使用由gDNA特定参数来参数化的另一函数来确定gDNA的真实AF的噪声级别。可以使用另一贝叶斯分层模型225来得到gDNA特定参数,该贝叶斯分层模型225是用例如来自相同健康个体的gDNA样本集合训练的。在一个实施例中,函数是具有平均参数m和分散参数
Figure GDA0002646198800000451
的负二项式函数,并且还可以取决于从训练样本中观察到的序列读取深度:
Figure GDA0002646198800000452
Figure GDA0002646198800000453
在其他实施例中,序列处理器225可以针对cfDNA和/或gDNA使用不同类型的函数和参数类型。由于使用不同的训练数据集合得到cfDNA特定参数和gDNA特定参数,因此这些参数可能彼此不同,并且对于核酸样本的对应类型而言可能是特定的。例如cfDNA样本可能在AF中具有比gDNA样本更大的变化,并且因此
Figure GDA0002646198800000454
可能大于
Figure GDA0002646198800000455
在各种实施例中,以上关于图8、9和10描述的方法在诸如图1A中所示的计算设备160的计算机上执行。
VII.联合模型示例
下图所示的示例结果是由处理系统100使用一个或多个训练的联合模型225确定的。在各种实施例中,使用靶向测序测定利用GRAIL(GRAIL,Inc,Menlo Park,CA)专有的508癌症基因板来生成结果,以用于评估和调用来自从研究“A”和“B”的两项研究之一的受试者获得的循环无细胞DNA(cfDNA)样本的靶向测序数据中的变体,如附图中所指示。研究A包括从50位健康受试者(未诊断出癌症)获得的血浆样本中测序数据,以及从转移前乳腺癌和转移前非小细胞肺癌受试者中分别获得50份样本的测序数据。研究B包括来自从124位癌症患者(39位受试者转移性乳腺癌(MBC)、41位受试者非小细胞肺癌(NSCLC)和44位受试者去势抵抗性前列腺癌(CRCP))获得的血浆样本中可评估的测序数据。
将全血从健康个体和癌症患者中抽入STRECK血液收集管
Figure GDA0002646198800000456
分成血浆和血沉棕黄层,并在-80℃下保存。使用改良的QIAmp循环核酸试剂盒(
Figure GDA0002646198800000461
Germantown,MD)从血浆中提取无细胞DNA(cfDNA),并使用区段分析仪高灵敏度NGS试剂盒(ADVANCED
Figure GDA0002646198800000462
Akneny IA)进行定量。使用改良的Illumina TruSeq DNA Nano协议(
Figure GDA0002646198800000463
San Diego,CA)从提取的cfDNA制备测序库。库制备方案包括测序衔接子的衔接子连接,所述衔接子包括用于如上所述的纠错的唯一分子标识符(UMI)。使用区段分析仪标准灵敏度NGS试剂盒对测序库进行PCR扩增和定量。
定量的DNA库与靶向508与癌症相关的基因的GRAIL的专有研究板(GRAIL,Inc.,门洛帕克,加利福尼亚州)进行了基于杂交的捕获。靶向DNA分子首先使用生物素化的单链DNA杂交探针被捕获,然后使用磁性链霉亲和素磁珠被富集。使用随后的洗涤步骤除去非靶分子。使用HiSeq X试剂盒v2.5(
Figure GDA0002646198800000464
San Diego,CA)在HiSex X上以60,000X的标称原始靶向覆盖对富集的库进行测序。每个流通池合并四个库,并包括双重索引引物混合物,以能够实现双重样本索引读取。对于读取1、读取2、索引读取1和索引读取2,读取长度分别设置为150、150、8和8。读取1和读取2中的前6个碱基读取是EIMI序列。
VII.A.联合模型的示例参数
图12是根据一个实施例的在健康个体的样本中观察到的变体计数的图。每个数据点对应于给定个体之一的位置(跨核酸位置的范围)。可以通过与来自健康个体的cfDNA和gDNA样本集合和/或已知患有癌症的样本集合进行交叉验证,经验地(例如调整灵敏度阈值)选择由联合模型225用于联合似然计算的参数k和p。图12所示的示例结果是通过研究B和使用cfDNA的血浆样本以及gDNA的白细胞样本获得的。对于k(如图12所示的“k0”)和p的给定参数值,该图绘制了变量的平均数目,该变量表示对应样本的假阳性的计算出的上置信界(UCB)。该图表明,随着p值的增加,假阳性的数量减少。另外,对于较低的k值,例如接近1.0,绘制的曲线具有更多的假阳性。虚线表示一个变体的靶向,尽管经验结果表明,对于介于1.0和5.0之间的k值,和介于0.5和1.0之间的p值,假阳性的平均数大部分落在1-5个变体的范围内。
参数的选择可能涉及靶向灵敏度(例如使用k和p进行调整)和靶向误差(例如置信度上限)之间的权衡。对于给定的k和p值对,对应的假阳性的平均数在值上可能相似,尽管灵敏度值可能会出现较大的差异。在某些实施例中,与cfDNA的PPA不同,使用肿瘤的阳性一致性百分比(PPA)值来测量灵敏度,而cfDNA的PPA可以用于特异性的测量:
Figure GDA0002646198800000471
Figure GDA0002646198800000472
在以上等式中,“tumor”表示来自使用参数集合的ctDNA样本的平均变体调用的数量,“cfDNA”表示来自使用相同参数集合的对应cfDNA样本的平均变体调用的数量。
在一个实施例中,执行交叉验证以估计联合模型225对与用于训练联合模型225的序列读取不同的序列读取(对于给定类型的组织)的期望拟合。例如可以从患有肺癌、前列腺癌和乳腺癌等的组织中获得序列读取。为了避免或减少针对任意给定类型的癌症组织的联合模型225过度拟合的程度,使用癌症组织类型集合的样本得到的参数值用于评估已知具有不同类型癌症组织的其他样本的统计结果。例如将肺癌和前列腺癌组织的参数值应用于具有乳腺癌组织的样本。在一些实施例中,选择来自肺和前列腺癌组织数据的使灵敏度最大化的一个或多个最低k值,以应用于乳腺癌样本。还可以使用其他约束条件来选择参数值,诸如与假阳性靶向平均数的阈值偏差或每个样本最多3个的95%UCB。处理系统200可以循环通过多种类型的组织以交叉验证特定于癌症的参数集合。
图13是根据一个实施例的用于联合模型225的示例参数的图。k的参数值可以被确定为在gDNA样本中观察到的AF的函数,并且可以基于例如所示的乳房、肺或前列腺的特定类型的癌组织而变化。曲线1310代表乳腺癌和前列腺癌组织的参数值,曲线1320代表肺癌组织的参数值。尽管到目前为止的示例一般都参考固定这些参数的实现对k和p进行了描述,但实际上k和p可能会随gDNA样本中观察到的AF的任意函数而变化。在图13所示的示例中,该函数是具有例如为三分之一的铰链值(或更低阈值)的铰链损失函数。具体地,该函数针对大于或等于铰链值的AFgDNA值指定k等于预定的上限阈值,例如3。对于小于铰链值的AFgDNA值,对应的k值用AFgDNA进行调节。图13的示例具体示出了AFgDNA值的小于三分之一的k值可以根据系数(例如在线性关系的情况下为斜率)与AFgDNA成比例,该系数在癌症组织的类型之间可以变化。在其他实施例中,联合模型225可以使用另一种损失函数,诸如平方损失、逻辑损失、交叉熵损失等。
联合模型225可以根据铰链损失函数或另一种函数来改变k,以防止与非肿瘤或疾病相关的影响,其中k的固定值将不能准确地捕获和分类那些事件。铰链损失函数示例特别针对处理杂合性(LOH)事件的损失。LOH事件是当个体的父母之一中的基因的拷贝丢失时发生的种系突变。LOH事件可能会导致gDNA样本中观察到的AF的重要部分。通过将k值限制为铰链损失函数的预定上限阈值,联合模型225可以实现更大的灵敏度,以在大多数序列读取中检测真阳性,同时还控制假阳性的数量,否则假阳性将由于H的存在而被标记为真阳性。在其他实施例中,可以基于特定于给定感兴趣的应用的训练数据来选择k和p,例如具有靶向群体或测序测定。
在一些实施例中,联合模型225同时考虑gDNA样本的AF和gDNA样本的质量得分两者,以防止重量不足的低AF候选变体。如先前参考图3、4和9所描述的,由得分引擎235为噪声模型生成的质量得分可以用于估计Phred尺度的误差概率。另外,联合模型225可以对铰链函数使用修改的区段函数。例如片状(piecewise)函数包括两个或更多个附加分量。一个分量是基于gDNA样本的AF的线性函数,而另一个分量是基于gDNA样本的质量得分的指数函数。给定质量得分阈值和最大AF缩放因子kmax,联合模型225使用片状函数的指数分量确定:
Figure GDA0002646198800000491
在以上计算中,P(not error)是gDNA样本的等位基因不是误差的概率,P(error)是gDNA样本的等位基因是误差的概率,P(error)min是最小的错误概率。可以根据经验将误差率的最小阈值确定为gDNA样本的等位基因的可能体细胞和可能种系候选变体之间质量得分密度的交叉点。
VII.B.联合模型的示例变异调用
图14A-B是根据一个实施例的由联合模型确定的变体调用的图。使用研究A和已知受早期癌症影响的样本获得图14A所示的示例结果。使用研究B和已知受晚期癌症影响的样本获得图14B所示的示例结果。图14A-B中的图共享共同的x轴,代表针对gDNA的观察到的AF。此外,该图表明,晚期癌症的cfDNA和gDNA样本的观察到的AF比率的变化大于早期癌症。变量调用器240确定成对的AFcfDNA和AFgDNA数据点的后验概率P(AFcfDNA≥k·AFgDNA),其中图的梯度表示概率的范围。每个数据点代表个体中的候选cfDNA变体(例如针对给定的核酸位置),并且这些图包括数据集合中多个个体的数据点。在示出的实施例中,对于大于8.00的比率和小于0.00391的AFgDNA值,后验概率接近1.0,而对于接近0.25的比率,后验概率接近0.0。
图15是根据一个实施例的由联合模型225确定的概率密度的图。图15中所示的示例结果是使用来自具有gDNA的观察到的AF等于0的乳房、肺和前列腺组织样本的序列读取确定的。图15示出了关于联合模型225的一些一般要点,无论具体实现如何。在没有观察到ALT的情况下(AFgDNA=0),或者在gDNA中观察到低数量的ALT的情况下,处理系统200对于在对应cfDNA样本中观察到的ALT的来源可能具有低置信水平。这些情况可能是由于背景噪声或gDNA样本的低深度引起的。由于序列处理器205不一定检测gDNA样本的所有ALT,因此即使在观察到的AFgDNA=0的情况下,cfDNA的序列读取仍可能包含假阳性。此外,联合模型225将AFgDNA建模为带有噪声的分布,因此可以将真实的AFgDNA建模为似然的非零值上的分布。结果,在这些情况下,由于ALT来源的置信度低,变体调用者240可以滤除在cfDNA样本中观察到的ALT,例如在不确定观察到的ALT是源自gDNA还是源自癌症或患病细胞的情况下。在一个实施例中,如图15中的虚线所示,变异调用器240滤除概率小于阈值概率的数据点。
VII.C.联合模型的示例百分比积极协议
图16是根据一个实施例的联合模型225的灵敏度和特异性的图。变体调用器240确定研究A和B中以及健康样本以及已知患有乳腺癌、肺癌和前列腺癌的样本中的灵敏度(例如PPAtumor)和特异性(例如PPAcfDNA)测量。与使用经验阈值获得的示例结果相比,使用联合模型225获得的示例结果显示灵敏度略有降低,例如使用肺组织样本的研究A的PPAtumor灵敏度从0.14降低至0.12。但是,联合模型225的结果显示特异性更大的增加,例如使用肺组织样本的研究A的PPAcfDNA的特异性从0.12提高到0.22。
VII.D.使用联合模型的示例检测基因
图17是根据一个实施例的使用联合模型225的从靶向测序测定检测到的基因集合的图。该集合包括在克隆性造血过程中通常突变的基因。序列处理器205确定研究A和B以及已知患有乳腺癌、肺癌和前列腺癌的样本的结果。测试“阈值X”和“联合模型X”不包括非同义突变,而测试“阈值Y”和“联合模型Y”却包括非同义突变。使用联合模型225获得的示例结果与使用经验阈值检测到的计数相比,减少了从各种类型的组织的样本中检测到的种系突变的计数(如图17-19所示,在x轴上表示为“n”)。例如如针对患有肺癌的研究B的图所示,“阈值X”和“阈值Y”分别导致5个和6个检测到的TET2基因的计数。“联合模型X”和“联合模型Y”分别导致2个和3个检测到的TET2基因的计数,这表明联合模型225提供了改进的灵敏度。
图18是根据一个实施例的使用联合模型225从靶向测序测定检测到的图17中所示的基因集合的长度分布的图。通常,源自肿瘤或患病细胞的核酸片段的长度(例如核苷酸的长度)比源自参考等位基因的核酸区段的长度短。如研究B与乳腺癌样本的方框图结果所示,对于“阈值X”和“阈值Y”两者,针对TET2基因的检测到的ALT和参考等位基因之间的长度中值差异约为零。相反,对于“联合模型X”和“联合模型Y”,针对TET2基因的检测到的ALT与参考等位基因之间的长度中值差异约为-5。因此,变体调用器240可以更有把握地确定检测到的ALT可能源自肿瘤或患病细胞,而不是参考等位基因。此外,示例结果指示联合模型225可以在具有变化的噪声级别的样本中执行序列读取的短片段的变体调用。
图19是根据一个实施例使用联合模型225从靶向测序测定检测到的另一基因集合的图。示例结果表明,用于检测联合模型225的驱动程序基因的灵敏度与不使用模型的过滤器的灵敏度相当。也就是说,相对于使用经验阈值获得的结果,联合模型225不会显著过度过滤检测到的驱动基因。
VIII.联合模型的示例调整
图20是根据一个实施例的用于调整联合模型225以处理无细胞核酸(例如cfDNA)样本和基因组核酸(例如gDNA)样本的方法2000的流程图。可以结合图8-10中所示的方法800、900和/或1000或另一种类似的方法来执行方法2000。例如使用联合模型255执行方法1000以确定方法2000的步骤2010的概率。关于图20-22描述的示例参考受试者的血液(例如白细胞)为gDNA样本的来源,尽管应当注意,在其他实施例中,gDNA可以来自不同类型的生物样本。处理系统200可以将方法2000的至少一部分实现为决策树,以过滤或处理cfDNA样本中的候选变体。例如处理系统200确定候选变体是否可能与gDNA样本相关联或不相关联。关联可能表明该变体可以由gDNA样本中的突变引起(例如由于诸如种系突变、克隆性造血、伪影、边缘变体、人类白细胞抗原(例如HLA-A等)等因素)和因此很可能不是得自肿瘤的,也不能指示癌症或疾病。在一些实施例中,方法2000可以包括与结合图20描述的步骤不同的步骤或附加步骤,或者以与结合图20描述的顺序不同的顺序执行步骤。VIII.A.联合模型的示例质量得分和比率
在步骤2010中,序列处理器205确定cfDNA样本的真实替代频率大于gDNA样本的真实替代频率的函数的概率。步骤2010可以对应于图10中所示的方法1000的先前描述的步骤1050。
在步骤2020中,序列处理器205确定该概率是否小于阈值概率。作为示例,阈值概率可以是0.8,但是在实践中,阈值概率可以是0.5和0.999之间的任意值(例如基于期望的过滤严格性确定),静态的或动态的,随基因而变化和/或根据位置来设定或其他宏因素等。响应于确定概率大于或等于阈值概率,序列处理器205确定候选变体可能与gDNA样本(诸如包括受试者的白细胞的抽血)不相关,即不是得自血液的。例如候选变体通常不存在于针对健康个体的gDNA样本的序列读取中。因此,变体体调用器240可以将候选变体体称为可能与癌症或疾病相关联的真阳性,例如潜在地得自肿瘤。
在步骤2030中,序列处理器205确定gDNA样本的替代深度是否显著等于或不同于零。例如序列处理器205使用候选变体的质量得分来执行评估,候选变体的质量得分由得分引擎235使用噪声模型225确定,如先前参考图3、4和9所述。噪声处理器225也可以比较替代深度与阈值深度,例如确定替代深度是否小于或等于阈值深度。作为示例,阈值深度可以是0或1个读取。响应于确定gDNA样本的替代深度显著地不同于零,序列处理器205确定存在正当证据表明候选变体与不是由癌症或疾病引起的核苷酸突变相关联。例如基于健康白细胞的序列读取中通常可能发生的突变,候选变体是得自血液的。
响应于确定gDNA样本的可替代深度不是显著的非零,序列处理器205确定候选变体可能与gDNA样本相关联,但是在没有进一步由得分引擎235检查的情况下不确定候选变体的来源,如下所述。换句话说,序列处理器205可能不确定候选变体是得自血液还是得自肿瘤。在一些实施例中,序列处理器205可以选择多个阈值深度之一以便与替代深度进行比较。该选择可以基于处理的样本的类型、噪声级别、置信水平或其他因素。
在步骤2040中,得分引擎235确定gDNA样本的序列读取的gDNA深度质量得分。在一个实施例中,得分引擎235使用gDNA样本的替代深度来计算gDNA深度质量得分,其中C是预定的常数(例如2)以使用弱先验来平滑gDNA深度质量得分,这避免了除以零的计算:
Figure GDA0002646198800000531
在步骤2050中,得分引擎235确定gDNA样本的序列读取的比率。该比率可以代表在处理的样本中观察到的cfDNA频率和观察到的gDNA频率。在一个实施例中,得分引擎235使用cfDNA样本和gDNA样本的深度和替代深度来计算比率:
Figure GDA0002646198800000532
得分引擎235可以使用预定常数C1,C2,C3和C4来通过弱先验使比率平滑。作为示例,常数可以是:C1=2,C2=4,C3=2,并且C4=4。因此,如果比率分母中的深度或替代深度之一等于零,则得分引擎235可以避免除零计算。因此,得分引擎235可以使用预定常数来将比率转向至某个值,例如1或0.5。
在步骤2060中,序列处理器205确定gDNA深度质量得分是否大于或等于阈值得分(例如1)以及该比率是否小于阈值比率(例如6)。响应于确定gDNA深度质量得分小于阈值得分或该比率大于或等于阈值比率,序列处理器205确定存在关于候选变体与gDNA样本的关联的不确定证据。换句话说,由于候选变体看起来是“带血的”,但是没有在健康血细胞中发现了对应的突变的确定的证据,所以序列处理器205可能不确定候选变体是得自血液的还是得自肿瘤的。
在步骤2070中,响应于确定gDNA深度质量得分大于或等于阈值得分并且该比率小于阈值比率,序列处理器205确定候选变体可能与gDNA样本的核苷酸突变相关联。换句话说,序列处理器205确定尽管没有在健康血细胞中发现了对应的突变的确定的证据,但候选变体显得比正常的更“带血”。
因此,序列处理器205可以使用比率和gDNA深度质量得分来调整联合模型225,以提供更大的粒度来确定是否应将某些候选变体滤除为假阳性(例如最初预测为得自肿瘤,但实际上得自血液),真阳性或不确定性,因为证据或置信度不足而无法分类。例如基于方法2000的结果,序列处理器205可以修改联合模型225的铰链损失函数的一个或多个参数(例如k参数)。在一些实施例中,序列处理器205使用方法2000的一个或多个步骤,以将候选变体分配给不同类别,例如与gDNA的“确定地”、“可能”或“不确定”的关联(例如如图21A-B所示)。
VIII.B.示例决策树
在各种实施例中,除了参考图20中所示的方法2000的流程图描述的步骤之外,处理系统200还使用一个或多个过滤器来处理候选变体。序列处理器205可以在序列中将过滤器实现为决策树的一部分,其中序列处理器205继续检查过滤器的标准,直到给定的候选变体“退出”决策树为止,例如因为给定的候选变体在满足至少一个标准时就被过滤了。过滤的候选变体可以指示候选变体可以由健康个体中自然发生的突变的来源或原因(例如与白细胞gDNA相关)或由于过程误差引起。
在一些实施例中,响应于确定不存在序列读取的质量得分,序列处理器205过滤cfDNA样本的序列读取的候选变体。得分引擎235可以使用噪声模型225来确定候选变体的质量得分,如先前参考图3、图4和图9所描述的。得分引擎235可以在没有基本对齐的情况下确定质量得分。在一些实施例中,由于缺乏针对联合模型225的训练数据或不良的训练数据而未能针对给定的候选变体产生有用的参数,对于某些样本或候选变体,质量得分可能会丢失。例如序列读取中的高噪声级别可能会导致无法获得有用的训练数据。得分引擎235可以基于是否处理单个变体或者序列处理器205是否正在控制靶向板来调整联合模型225的特异性和选择性。作为其他示例,序列处理器205响应于确定候选变体是边缘变体伪影,具有小于阈值cfDNA深度(例如200个序列读取),具有小于阈值cfDNA质量得分(例如60),或对应于人白细胞抗原(HLA),例如HLA-A,来过滤候选变体。由于与HLA-A相关联的序列可能难以对齐,因此序列处理器205可以对这些区域中的序列执行自定义过滤或变体调用过程。
在一些实施例中,序列处理器205过滤被确定与种系突变相关联的候选变体。序列处理器205通过确定候选变体以对应于给定种系突变事件的适当频率发生并且存在于已知与种系事件相关的特定的一个或多个位置(例如,在核苷酸序列中),可以确定候选变体是种系。另外,序列处理器205可以确定gDNA频率的点估计,其中C是常数(例如0.5):
Figure GDA0002646198800000551
序列处理器205可以响应于确定pointafDNA大于阈值点估计阈值(例如0.3)来确定候选变体是种系。在一些实施例中,序列处理器205响应于确定与局部序列重复相关联的变体的数量大于阈值而过滤候选变体。例如“AAAAAA”或“ATATATAT”局部序列重复可以是引起局部错误率增加的聚合酶滑动的结果。
VIII.C.调整联合模型的示例
图21A是根据一个实施例的cfDNA样本的候选变体的示例计数的表。图21A-B和图22中的示例数据是使用从下文参考图33A-C描述的无细胞基因组研究的个体样本集合中获得的序列读取生成的。cfDNA样本包括来自已知患有癌症或另一类型疾病的个体的样本。在图21A所示的示例中,处理系统200使用图20的方法2000来确定候选变体23805“确定地”与gDNA相关联(例如由血液中的种系突变或克隆性血细胞生成引起)和1360个候选变体与gDNA“可能”相关联(例如“血液的”或大于阈值置信度)。因此,处理系统200可以从联合模型225或另一管线中滤出这些候选变体,例如使得这些候选变体被分类为得自血液。处理系统200可以确定既不将计数2607“不确定的”(例如“血液的”)候选变体分类为得自肿瘤的也不分类为得自血液的。因此,通过例如使用来自方法2000的gDNA比率和gDNA深度质量得分来调整联合模型225,处理系统200在对候选变体的来源进行分类中提高了粒度(例如不同的置信级别)。图21B是根据一个实施例的来自健康个体的cfDNA样本的候选变体的示例计数的表格。由处理系统200使用以下各项来确定图21A-B所示的示例计数:为200次的读取的阈值深度、为60的阈值质量得分(例如在Phred尺度上)、在对应位置处具有来自为0.005的种系突变频率阈值的均方差的质量得分、为0.3的gDNA频率的阈值点估计、为0.05的阈值伪影的复发率、为7的阈值局部序列重复计数、为0.8的阈值概率(例如cfDNA样本的真实替代频率大于gDNA样本的真实替代频率的函数)、为0的阈值gDNA深度、为1的阈值gDNA深度质量得分、以及为6的阈值gDNA样本比率。此外,处理系统200过滤掉没有质量得分、体细胞变体和HLA-A区域的候选变体。
图22是根据一个实施例的基于cfDNA和gDNA的比率绘制的候选变体的图。对于受试者的多个绘制的候选变体中的每一个,x轴值代表在gDNA样本中观察到的AF,y轴代表在受试者的对应cfDNA样本中观察到的AF。图22所示的示例包括由联合模型225使用诸如图13中所示的曲线1310或曲线1320的铰链函数传递的候选变体。对于该示例数据和以上引用的参数,处理系统200确定被描绘为朝向图的左侧的交叉标记的候选变体集群,其具有相对较高的AFcfDNA与AFgDNA比率,可能与天然存在于白细胞中的核苷酸突变不相关联,因此被预测为得自肿瘤。虚线2220是代表1:1AFcfDNA与AFgDNA的比率的参考线。铰链函数由虚线图形2210表示,其不一定是一条线(例如可以包括在一个或多个铰链处连接的多个区段)。描绘为圆圈的候选变体集群具有相对较低的AFcfDNA与AFgDNA比率,但是当使用2210表示的铰链函数时,仍由联合模型225通过(例如因为一些候选变体绘制在2210上方)。然而,这些候选变体中的一些可能实际上与gDNA相关联,例如得自血液,应该滤除而不是称为得自肿瘤。虚线2200是在以交叉标记描绘的数据点集群上使用稳健拟合回归确定的回归线。通过使用回归线2200调整铰链函数,联合模型225可以过滤出实际上可能是得自血液的更多候选变体。在一些实施例中,2200、2210和2220各自相交于远点(0,0)。处理系统200确定存在关于描绘为三角形的候选变体的集群(通常位于交叉标记和圆形型候选变体的集群之间)是得自血液还是得自肿瘤的不确定证据。
为了改进捕获这些候选变体的准确性,处理系统200可以使用上面参考图20所述的过滤器。此外,处理系统200可以通过在某些情况下对铰链函数使用更具攻击性的参数来调整联合模型225。例如响应于确定gDNA样本的AD大于阈值深度(例如0),处理系统200使用更大的概率阈值(例如针对图20所示的方法2000的步骤2020),其是健康样本血液中核苷酸突变的支持证据。在一些实施例中,处理系统200使用较大的概率阈值来确定修改的铰链函数(或用于对真阳性和假阳性进行分类的另一种类型的函数)。例如修改后的函数可以具有更锐利的截止(例如相对于图13的曲线1310和1320),该截止将沿着图22中的虚线对角线滤除群集的至少一些候选变体。处理系统200还可使用分别在方法2000的步骤2040和2050中确定的gDNA样本质量得分或比率来调整修改的函数。
IX.示例边缘过滤
IX.A.来自伪影和非边缘变体特征的示例训练分布
图23A描绘了根据一个实施例的使用训练变体生成伪影分布和非伪影分布的过程。边缘过滤器250使用来自先前样本(例如训练样本)的训练数据2305在训练过程2300期间生成伪影分布2340和非伪影分布2345。一旦生成,就可以将伪影分布2340和非伪影分布2345分别存储(例如被存储在模型数据库215中),以便在需要的时间进行后续取回。
训练数据2305包括各种序列读取,诸如从富集序列180获得的序列读取(见图1B)。训练数据2305中的序列读取可以对应于基因组上的各个位置。在各种实施例中,从一个以上训练样本中获得训练数据2305中的序列读取。
边缘过滤器250将训练数据2305中的序列读取分类为伪影训练数据2310A类别、参考等位基因训练数据2330类别或非伪影训练数据2310B类别之一。在各种实施例中,响应于确定序列读取不满足将标准放置在以下任意一项中,训练数据2305中的序列读取也可以被分类为“无结果”或“无分类”类别:伪影训练数据2310A类别、参考等位基因训练数据2330类别或非伪影训练数据2310B类别。
如图23A所示,可以存在多组伪影训练数据2310A、多组参考等位基因训练数据2330和多组非伪影训练数据2310B。通常,成组的序列读取跨越(重叠)基因组中的共同位置。在各种实施例中,一组中的序列读取得自单个训练样本(例如从单个个体获得的训练样本),并穿越基因组中的共同位置。例如给定来自从M个不同的个体获得的M个不同的训练样本的序列读取,可以有M个不同的组,每个组都包括M个不同的训练样本之一的序列读取。尽管随后的描述涉及跨越基因组上共同位置的序列读取组,但是该描述可以进一步扩展到跨越基因组上其他位置的其他序列读取组。
对应于基因组上共同位置的序列读取包括:1)在与参考等位基因(例如ALT)不同的位置包括核苷酸碱基的测序读取,以及2)在与参考等位基因匹配的位置括含核苷酸碱基的测序读取。再次参考图1B,序列读取可以从包括ALT(例如富集序列180A或180C中的胸腺嘧啶)的富集序列180获得,或者可以包括参考等位基因(例如富集序列180B中的胞嘧啶)。
边缘过滤器250将包括ALT的序列读取分类为伪影训练数据2310A或非伪影训练数据2310B之一。具体地,满足一个或多个标准的序列读取被分类为伪影训练数据2310A。所述标准可以是ALT突变的类型和ALT在序列读取上的位置的组合。参考突变类型的示例,分类为伪影训练数据的序列读取包括替代的等位基因,其是胞嘧啶对胸腺嘧啶(C>T)核苷酸碱基的取代或鸟嘌呤对腺嘌呤(G>A)核苷酸碱基的取代。参考替代等位基因的位置的实例,替代等位基因小于来自序列读取的边缘的碱基对的阈值数目。在一种实现中,碱基对的阈值数目是25个核苷酸碱基对,但是,阈值数目可以随实现而变化。
图23B描绘了根据一个实施例的被分类在伪影训练数据2310A类别中的序列读取。另外,每个序列读取均满足一个或多个标准。例如每个序列读取包括一个替代等位基因2375A,其为C>T核苷酸碱基取代。另外,每个序列读取上的替代等位基因2375A位于小于阈值边缘距离2360的边缘距离2350A。
被分类为非伪影训练数据2310B类别的具有替代等位基因的序列读取是不满足被分类为伪影训练数据2310A的标准的具有替代等位基因的所有其他序列读取。例如,包括不是C>T或G>A核苷酸碱基取代之一的替代等位基因的任何序列读取被分类为非边缘训练变异。作为另一示例,不管核苷酸突变的类型如何,将包括位于距离序列读取的边缘大于碱基对的阈值数目的替代等位基因的任意序列读取分类为非伪影训练数据2310B。在一种实施例中,碱基对的阈值数目是25个核苷酸碱基对,但是,阈值数目可以随实现而变化。
图23C描绘了根据一个实施例的分类在非伪影训练数据2310B类别中的序列读取。在此,每个序列读取包括不满足两个标准的替代等位基因2375B。例如每个替代等位基因2375B可以是非C>T或非G>A核苷酸碱基取代,而与替代等位基因2375B的位置无关。作为另一个示例,每个替代等位基因2375B是C>T或G>A核苷酸碱基取代,但是以大于阈值边缘距离2360的边缘距离2350B定位。
现在参考参考等位基因训练数据2330类别,包括参考等位基因的序列读取被分类在参考等位基因训练数据2330类别中。图23D描绘了根据一个实施例的被分类在参考等位基因训练数据2330类别中的与基因组中相同位置相对应的序列读取。例如图23D中所示的序列读取每个都包括参考等位基因2380(其与图1B中所示的胞嘧啶核苷酸碱基162匹配)。另外,与参考等位基因和序列读取的边缘之间的边缘距离2350C无关,包括参考等位基因2380的这些序列读取被分类在参考等位基因训练数据2330中。
返回图23A,边缘过滤器250从分类在伪影训练数据2310A、非伪影训练数据2310B和参考等位基因训练数据2330中的每一个中的测序读取中提取特征。每组测序读取对应于基因组中的相同位置。具体而言,从伪影训练数据2310A、非伪影训练数据2310B和参考等位基因训练数据2330中的一个、两个或全部三个中的序列读取中提取伪影特征2320和非伪影特征2325。伪影特征2320和非伪影特征2325的示例包括距边缘特征的统计距离、显著性得分特征和等位基因分段特征。这些特征中的每一个将在下面关于图23E-23G进一步详细描述。
图23E是根据一个实施例的用于从边缘特征提取统计距离的过程的示例描绘。这里,边缘过滤器250分别从伪影训练数据2310A中的一组序列读取和非伪影训练数据2310B中的一组序列读取中提取距边缘2322A和2322B特征的伪影和非伪影统计距离。距边缘2322A和2322B特征的每个统计距离可以代表序列读取上的替代等位基因2375与序列读取的对应边缘之间的距离(例如核苷酸碱基对的数量)的平均值、中值或众数中的一种。更具体地,距边缘2322A的伪影统计距离代表跨一组伪影训练数据2310A中的序列读取的边缘距离2350A(见图23B)的组合。类似地,距边缘2322B的非伪影统计距离代表跨一组伪影训练数据2310B中的序列读取的边缘距离2350B(参见图23C)的组合。
图23F是根据一个实施例的用于提取显著性得分特征的过程的示例描绘。边缘过滤器250从伪影训练数据2310A中的一组序列读取与参考等位基因训练数据2330中的一组序列读取的组合中提取伪影显著性得分2323A特征。类似地,边缘过滤器250从非伪影训练数据2310B中的一组序列读取和参考等位基因训练数据2330中的一组序列读取的组合提取非伪影显著性得分2323B特征。通常,来自伪影训练数据2310A、非伪影训练数据2310B和参考等位基因训练数据2330的一组序列读取对应于基因组上的共同位置。因此,对于每个位置,对于该位置可以有伪影显著性得分2323A和非伪影显著性得分2323B。尽管随后的描述涉及提取伪影显著性得分2323A的过程,但是相同的描述适用于提取非伪影显著性得分2323B的过程。
伪影显著性得分2323A特征表示在伪影训练数据2310A中的一组序列读取上的替代等位基因2375A的位置(例如依据序列读取边缘或另一个量度的距离)是否与参考等位基因训练数据2330中的一组测序读取上的参考等位基因2380的位置足够不同以达到统计学上的重要程度。具体而言,伪影显著性得分2323A是伪影训练数据2310A中替代等位基因2375A(参见图23B)的边缘距离2350A与参考等位基因训练数据2330中参考等位基因2380(参见图23D)的边缘距离2350C之间的比较。
在各种实施例中,边缘过滤器250执行统计显著性测试以用于边缘距离之间的比较。作为一个示例,统计显著性测试是Wilcoxon秩和测试。在此,边缘过滤器250分别根据每个边缘距离2350A和2350C的大小,将在伪影训练数据2310A中的每个序列读取和在参考等位基因训练数据2330中的每个序列读取分配等级。例如可以将具有最大边缘距离2350A或2350C的序列读取分配给最高等级(例如等级=1),可以将具有第二最大边缘距离2350A或2350C的序列读取分配给第二最高等级(例如等级=2),依此类推。边缘过滤器250将伪影训练数据2310A中的序列读取的中值等级与参考等位基因训练数据2330中的序列读取的中值等级进行比较,以确定伪影训练数据2310A中的替代等位基因2375的位置是否与参考等位基因训练数据2330A中的参考等位基因2380的位置显著不同。作为示例,中间等级之间的比较可以产生p值,其代表关于中间等级是否显著不同的统计显著性得分。在各种实施例中,伪影显著性得分2223A由Phred得分表示,其可以表示为:
Phred Score=-10log10P
其中P是p值得分。总的来说,低的伪影显著性得分2323A表示中位数等级中的差异在统计上不显著,而高的伪影显著性得分2323A表示中位数等级的差异在统计上显著。
图23G是根据一个实施例的用于提取等位基因分段特征的过程的示例描绘。等位基因分段特征是指替代等位基因2375A或2375B的等位基因分段。具体地,伪影等位基因分段2324A是指替代等位基因2375A的等位基因分段(见图23B),而非伪影等位基因分段2324B是指替代等位基因2375B的等位基因分段(见图23C)。等位基因分段代表与包括替代等位基因的基因组中的位置相对应的序列读取的分段。例如在包括替代等位基因2375A的伪影训练数据2310A中可能存在X个总序列读取。在包括替代等位基因2375B的非伪影训练数据2310B中也可能存在Y个总序列读取。附加地,在参考等位基因训练数据2330中可能存在具有参考等位基因的Z个总序列读取,因此,替代等位基因2375A的伪影等位基因分段2324A可以表示为
Figure GDA0002646198800000621
另外,替代等位基因2375B的非伪影等位基因分段2324B可以表示为
Figure GDA0002646198800000622
返回图23A,边缘过滤器250编译从基因组的各个位置上的序列读取组提取的伪影特征2320,以生成伪影分布2340。另外,边缘过滤器250编译从基因组各个位置上的序列读取组中提取的非伪影特征2325,以生成非伪影分布2345。图23A描绘了一个特定的实施例,其中三个不同特征2320A被用于产生伪影分布2340并且三个不同特征2320B被用于产生非伪影分布2345。在其他实施例中,每种类型的特征2320A或2320B的更少或更多用于生成伪影分布2340或非伪影分布2345。
图23H和231描绘了根据各种实施例的用于标识边缘变体的示例分布。具体地,图23H描绘了从一种类型的伪影特征2320或非伪影特征2325生成的分布2340或2345。尽管图23G出于图示的目的描绘了正态分布,但实际上,分布2340和2345将根据特征2320或2325的值而变化。
在另一个实施例中,边缘过滤器250可以使用多个伪影特征2320或非伪影特征2325来生成单个分布2340或2345。例如图231描绘了从两种类型的伪影特征2320或两种类型的非伪影特征2325所生成的分布2340或2345。这里,分布2340或2345描述了第一特征和第二特征之间的关系。在另一实施例中,分布2340或2345可以表示三种或更多种类型的伪影特征2320或非伪影特征2325之间的关系。
IX.B.标识边沿变体的样本特定比率的示例确定
图24A描绘了根据一个实施例的用于确定样本特定的预测比率的框图流程2400。通常,边缘过滤器250对样本2405中的调用变体进行样本范围的分析,以确定特定于样本2405的预测比率2420。换句话说,图24A中所示的过程2400可以针对每个样本2405进行一次。
从样本2405获得调用变体2410的序列读取。如以上关于图1A和3所述,从样本2405中标识调用变体的步骤可以包括方法100或300的一个或多个步骤。通常,调用变体2410的序列读取是指跨越基因组中与该变体相对应的位置的一组序列读取。
对于每个调用变体,边缘过滤器250从调用变体2410的序列读取中提取特征2412。从调用变体2410的序列读取中提取的每个特征2412可以是距序列读取中替代等位基因的边缘的统计距离、替代等位基因的等位基因分段、显著性得分、另一类特征或其某种组合。边缘过滤器250将跨样本2405的调用变体提取的特征2412作为输入应用到样本特定比率预测模型2415(例如图2所示的模型225之一),该模型确定样本2405的预测比率2420。样本2405的预测比率2420是指作为边缘变体的调用变体的估计比例。在各种实施例中,预测比率2420是介于0和1之间的值,例如包括0和1。
如图24A所示,样本特定比率预测模型2415使用先前生成的伪影分布2340和非伪影分布2345两者。样本特定比率预测模型2415通过结合伪影分布2340和非伪影分布2345分析从样本2405中的调用变体的序列读取中提取的特征2412来确定预测比率2420。作为示例,给定伪影分布2340和非伪影分布2345,样本特定比率预测模型2415执行拟合优度以确定解释观察到的特征2412的预测比率2420。在一种实现中,特定于样本比率预测模型2415结合伪影分布2340和非伪影分布2345执行最大似然估计以估计预测比率2420,该预测比率2420使观察特征2412的似然最大化。但是,其他实现可以使用其他过程。
在一实施例中,用于估计的似然方程可表示为:
L(w|x)=w*(L(x)|d1)+(1-w)*((L(x)|d2)
(1)
其中w是预测比率2420,x表示特征2412,d1表示伪影分布2340,d2表示非伪影分布2345。换句话说,等式1是结合伪影分布2340的观察特征2412的似然和结合非伪影分布2345的观察特征2412的似然的加权总和。因此,最大似然估计确定给定的特定条件集合下使该总体似然最大的预测比率2420(例如比率w)。
如图24A所示,边缘过滤器250可以从调用变体310的序列读取中提取多个特征2412,并将特征2412提供给比率预测模型2415。例如,可能存在三种类型的特征(例如,距序列读取中的代等位基因边缘的统计距离、替代等位基因的等位基因分段或显著性得分)。进一步概括,假设向比率预测模型2415提供了n种不同类型的特征2412(例如x1,x2,...xn),则等式1可以表示为:
Figure GDA0002646198800000651
总而言之,响应于确定从样本2405中从调用变体的序列读取中提取的特征2412的分布与非伪影分布2345相比更类似于伪影分布2340,比率预测模型2415确定高预测比率2420,这表明高估计比例的调用变体很可能是边缘变体。可替代地,响应于从样本2405中的变体的序列读取提取的特征2412的分布与伪影分布2340相比更类似于非伪影分布2345,比率预测模型2415确定低预测比率2420,其指示低估计比例的调用变体可能是边缘变体。如下所述,预测比率2420可用于控制在样本中标识出边缘变体的“攻击性”水平。因此,被分配了高预测比率2420的样本可以被积极地过滤(例如使用更宽泛的标准来滤除更多数量的可能的边缘变体),而被分配给低预测比率2420的样本可以被较少地过滤。
IX.C.标识边缘变体的示例变体特定分析
图24B描绘了根据一个实施例的用于标识边缘变体的边缘变体预测模型2435的应用。在变体特定分析2450中,边缘过滤器250分析调用变体2410的序列读取,以确定调用变体是否是边缘变体。可以针对为单个样本2405检测到的每个调用变体或调用变体的子集进行图24B所示的过程。
在一个实施例中,边缘过滤器250基于调用变体的突变类型来过滤调用变体。在此,不是C>T或G>A突变类型的调用变体可以自动地被表征为非边缘变体。备选地,在下文所述的后续步骤中,将进一步分析具有C>T或G>A的任意调用变体。
如图24B所示,边缘过滤器250从调用变体2410的序列读取中提取特征2412。调用变体2410的序列读取的所提取特征2412可以是从调用变体2410的序列读取中提取的相同特征2412,如图24A所示。即,特征2412可以是以下一种或多种:距序列读取中的替代等位基因的边缘的统计距离、替代等位基因的等位基因分段、或显著性得分以及其他类型的特征。
边缘过滤器250将提取的特征2412提供为边缘变异预测模型2435(例如图2所示的模型225之一)的输入。如图24B中所示,边缘变体预测模型2435使用先前生成的伪影分布2340和非伪影分布2345两者。边缘变体预测模型2435生成多个得分,诸如表示调用变异是边缘变异的似然的伪影得分2455以及表示调用变异是非边缘变异的似然的非伪影得分2460。
具体地,边缘变体预测模型2435结合伪影分布2340和非伪影分布2345,确定观察调用变体2410的序列读取的特征2412的概率。在一个实施例中,边缘变体预测模型2435通过结合伪影分布2340分析特征2412来确定伪影得分2455,并且通过结合非伪影分布2345分析特征2412来确定非伪影得分2460。
作为一个视觉示例,再次参考图23H中所示的示例分布,边缘变异预测模型2435基于特征2412沿x轴落入的位置来标识概率。在该示例中,所标识的概率可以是由边缘变体预测模型2435输出的得分,诸如伪影得分2455或非伪影得分2460。
如图24B所示,边缘过滤器250将伪影得分2455和非伪影得分2460与样本特定的预测比率2420相组合(如图24A中所述)。组合产生边缘变体概率2470,其表示调用变体是处理伪影的结果的似然。
在一个实施例中,结合从调用变体2410的序列读取中提取的特征2412,边缘变体概率2470可以被表示为调用变体为边缘变体的后验概率。伪影得分2455、非伪影得分2460和样本特定预测比率2420的组合可以表示为:
Figure GDA0002646198800000661
边缘过滤器250可以将边缘变化概率2470与阈值进行比较。响应于确定边缘变体概率2470大于阈值,边缘过滤器250确定调用变体是边缘变体。响应于确定边缘变体概率2470小于阈值,边缘过滤器250确定调用变体是非边缘变体。
IX.D.标识边缘变体的示例变体特定分析
图25描绘了根据一个实施例的标识和报告从样本中检测到的边缘变体的流程2500。过程2500的一个或多个步骤可以由处理系统200的组件执行,例如边缘过滤器250或模型225之一。从样本接收2505来自各种测序读取的调用变体。基于来自样本的调用变体的测序读取,确定样本的样本特定预测比率2510。作为一个示例,通过执行最大似然估计来确定预测比率。在此,预测比率是参数值,该参数值结合先前生成的分布而最大化(例如在给定特定条件下)观察调用变体的序列读取的特征2412的概率。
对于每个调用变体,从变体的序列读取中提取2515一个或多个特征2412。所提取的特征2412被应用2520作为对训练模型225的输入以获得伪影得分2455。伪影得分2455表示调用变体是边缘变体的似然(例如处理伪影的结果)。训练模型225还输出非伪影得分2460,其表示调用变体是非边缘变体的似然(例如不是处理伪影的结果)。
对于每个调用变体,通过组合调用变体的伪影得分2455、调用变体的非伪影得分2460以及样本特定预测比率2420,来生成2525边缘变体概率2470。基于边缘变体概率2470,调用变体可以被报告2530为边缘变体(例如作为处理伪影的结果而被调用的变体)。
IX.E.边缘过滤的示例
提出以下示例以向本领域普通技术人员提供关于如何制造和使用所公开的实施例的完整公开和描述,并且不旨在限制被认为是本发明的范围。已经尽力确保所用数字(例如数量、温度、浓度等)的准确性,但应允许一些实验误差和偏差。本领域技术人员将认识到,根据本公开,在不脱离本发明的预期范围的情况下,可以在示例性的特定实施例中进行多种修改和改变。
IX.E.I.分类伪影和干净的训练样本
图26A、26B和26C各自描绘了根据各种实施例的分类在伪影或非伪影类别之一中的示例训练变体的特征。图26A、26B和26C所示的示例包括使用图23A所示的过程2300确定的伪影分布和非伪影分布。通过抽血,无细胞DNA样本获自患有乳腺癌、肺癌或前列腺癌之一的受试者。样本集合包括针对每种类型的癌症(乳腺癌、肺癌和前列腺癌)的至少50名受试者。对于所有参与的受试者,在活检(之前或之后)的六周内同时抽血。
根据图1A和/或图3所示过程流程的一个或多个步骤针对变体分析cfDNA样本,以在步骤130之后获得所过滤的调用变体。对于每个调用变体,分析导致调用变体的标识的序列读取。例如如下所述,边缘过滤器250将包括针对基因组上特定位点的替代等位基因的序列读取分类为伪影组和非伪影组。另外,包括针对基因组上特定位点的参考等位基因的序列读取被包括为随后将用于确定序列读取的特征的参考等位基因数据。
边缘过滤器250基于两个标准将包括替代等位基因的序列读取分类为伪影或非伪影类别。第一标准包括25个核苷酸碱基对的阈值距离。因此,分类在伪影类别中的序列读取包括替代等位基因,该等位基因位于距序列读取的边缘的25个核苷酸碱基对之内。第二个标准是核苷酸碱基突变的类型。具体而言,分类为伪影类别的序列读取包括替代等位基因,它是C>T或G>A突变之一。边缘过滤器250将包括不满足这两个标准的替代等位基因的序列读取分类为非伪影类别。
边缘过滤器250从调用变体的序列读取中提取特征,包括包括替代等位基因的序列读取以及包括参考等位基因的序列读取。在此,提取的三种类型的特征包括:1)替代等位基因距序列读取边缘的中值距离,2)替代等位基因的等位基因分段,以及3)显著性得分。提取的特征的三种类型被编译,并用于生成图26A-C中所示的伪影分布和非伪影分布。
图26A-C各自示出了伪影分布(左)和非伪影分布(右)。每个分布都描述了从测序读取中提取的两个特征之间的关系,这些测序读取被分类为伪影训练数据或非伪影训练数据。具体地,图26A描绘了显著性得分与距边缘的中值距离之间的关系。图26B描绘了等位基因分段的分布与距边缘的中值距离之间的关系。图26C描绘了等位基因分段的分段与显著性得分之间的关系。
在图26A-C所示的伪影分布和非伪影分布中观察到几种趋势。值得注意的是,伪影类别中的边缘变体倾向于具有较高的显著性得分(例如如图26A和图26C所示,显著性得分为100的边缘变体的高浓度),而非伪影类别中的非边缘变体则倾向于具有较低的显著性得分。另外,距边缘的较低的中值距离与边缘变体的高浓度相关。例如图26A和图26B都描绘了较高浓度的边缘变体,其中替代等位基因在距边缘的零核苷酸碱基的中值距离处或附近,而不是距边缘的25个核苷酸碱基的中值距离。值得注意的是,大量非边缘变体还包括替代等位基因,该等位基因位于测序读取边缘的25个核苷酸碱基以内(请参见图26A和图26B)。这表明存在被标识为调用变体的非C>T和非G>A核苷酸碱基取代的群体。
IX.E.II检测人类MSK-VP-0058中的边缘变体
图27A、27B和27C各自描绘了根据各种实施例的在从受试者获得的示例癌症样本中的边缘和非边缘变体的检测。如以上关于图26A-C所示的示例所描述的,处理了样本(MSK-VP-0058)。简要地,根据图1A和/或图3所示的过程工作流程的一个或多个步骤,针对变体分析来自受试者的cfDNA样本。序列读取从cfDNA样本获得,并由边缘过滤器250分类成组,使得组中的序列读取各自通过基因组共同的位置。边缘过滤器250从序列读取的组中提取特征。
使用从样本的序列读取中提取的观察特征进行样本特定分析,以确定样本的预测比率。具体地,结合图26A-C所示的伪影分布和非伪影分布,分析了从跨所有调用变体(例如在样本中检测到的所有117个调用变体)的序列读取组中提取的特征。使用等式(1)执行最大似然估计,该等式标识了w=0.94的预测比率。在此,由于预测比率的值较高(例如从0到1的尺度上接近1),因此,边缘过滤器250积极过滤该样本,以去除边缘变体。
为了标识边缘变体,每个调用变体都要单独分析。边缘过滤器250自动将非C>T和非G>A核苷酸碱基突变的调用变体分类为非边缘变体。如图27A-C所示,这些是标记为“假”的非边缘变体(例如用“X”描述的调用变体)。进一步分析了C>T或G>A核苷酸碱基突变的调用变体。对于每个调用变体,边缘过滤器250从调用变体的序列读取中提取特征。边缘过滤器250将所提取的特征作为输入应用于边缘变体预测模型,该模型结合伪影分布和非伪影分布来分析特征。该模型输出伪影得分和非伪影得分,分别代表调用变体是边缘变体和非边缘变体的似然。边缘过滤器250根据等式(3)计算调用变体的边缘变体概率,该等式使用伪影得分、非伪影得分和样本特定预测比率w=0.94。边缘过滤器250将每个调用变体的边缘变体概率与1%的阈值概率进行比较。
边缘过滤器250将具有大于1%的边缘变体概率的调用变体分类为边缘变体(例如图27A-C所示的左板)。边缘过滤器250将具有小于1%的边缘变体概率的调用变体分类为非边缘变体(例如图27A-C中所示的右板)。通常,被分类为边缘变体的调用变体表现出高的显著性得分(见图27A和图27C)、距边缘的低中值距离(见图27A和图27B)以及低等位基因频率(见图27B和27C)。
IX.E.III检测人的MSK-VB-0023中的边缘变体
图28A、28B和28C各自描绘了根据各种实施例的从受试者获得的另一示例癌症样本中边缘和非边缘变体的检测。如以上关于图26A-C和图27A-C所示的示例所描述的,处理了样本(MSK-VB-0023)。
在该示例中,进行了样本特定分析以确定样本的预测比率。具体地,结合图26A-26C中所示的伪影分布和非伪影分布,分析了由边缘过滤器250从样本调用的调用变体的序列读取中提取的特征(例如在样本中检测到的所有1611个调用变体)。边缘过滤器250使用等式(1)执行最大似然估计,这导致预测比率w=0.012。此处,较低的预测比率值表示样本中检测到的大量调用变体与先前观察到的边缘变体不同的似然。因此,边缘过滤器250使用低的预测比率来执行边缘变体的不太积极的过滤。
分析每个调用变体以确定调用变体是边缘变体还是非边缘变体。边缘过滤器250自动将非C>T和非G>A核苷酸碱基突变的调用变体分类为非边缘变体。这些非边缘变体在图28A-C中被示出并且标记为“假”(例如用“X”描绘的调用变体)。进一步分析了C>T或G>A核苷酸碱基突变的调用变体。对于每个调用变体,边缘过滤器250从调用变体的序列读取中提取特征。边缘过滤器250将所提取的特征作为输入应用于边缘变体预测模型,该模型结合伪影分布和非伪影分布来分析特征。该模型输出伪影得分和非伪影得分,其分别代表调用变体是边缘变体和非边缘变体的似然。边缘过滤器250计算根据等式(3)计算的调用变体的边缘变体概率,其使用伪影得分、非伪影得分和样本特定预测比率w=0.012。边缘过滤器250将每个调用变体的边缘变体概率与1%的阈值概率进行比较。
边缘过滤器250将具有大于1%的边缘变体概率的调用变体分类为边缘变体(例如图28A-C中所示的左板)。边缘过滤器250将具有小于1%的边缘变体概率的调用变体分类为非边缘变体(例如图28A-C所示的右板)。
在该示例中,边缘过滤器250将大量的调用变体确定为非边缘变体。进一步的研究表明,该受试者表现出超突变体特征。具体而言,受试者表现出载脂蛋白B mRNA编辑酶催化多肽家族(APOBEC)突变特征,其表现为大量的C>T突变。因此,给定这些调用变体不是边缘变体,则边缘过滤器250将这些调用变体分类为非边缘变体。
该示例证明了边缘过滤器250基于在特定样本中观察到的变体的分布来适应过滤过程的能力。由于受试者可能包括超变子这一事实而可能出现大量的这些变体,因此由边缘过滤器250执行的过滤过程在标识和去除边缘变体方面可能较不积极。
IX.E.IV.用于检测边缘变体的样本特定自适应
图29描绘了根据一个实施例的跨各种受试者样本的边缘变体的标识。图29包括来自以上参考图26A-C和图27A-C描述的受试者样本MSK-VP-0058和MSK-VB-0023以及许多其他受试者样本的数据。可以使用图1A或图3所示的工作流过程的一个或多个步骤来确定图29中所示的示例结果。例如,在过程300的步骤320确定的每个样本的边缘变体和非边缘变体被用来生成图29中所示的结果。
具体地,图29描绘了被标识的受试者样本的边缘变体和非边缘变体(y轴)的分布,其作为距测序读取的边缘的中值距离(x轴)的函数。
图29表明对于每个受试者样本,边缘过滤器250的过滤方法可以不同地标识边缘变体和非边缘变体。例如MSK-VP-0082(例如从顶部起的第五个样本)包括大量边缘变体,其表现出距边缘的中位距离为10至25个核苷酸碱基对。另外,MSK-VP-VL-0081(例如从顶部起的第六个样本)包括大量非边缘变体,其表现出距边缘的中位距离在10至25个核苷酸碱基对之间。与对所有样本采用相同过滤方法的过滤器相比,这种样本特定过滤使得更准确地标识和去除边缘变体。非样本特定过滤器的示例可以基于诸如等位基因频率的特征采用固定的截止值,使得如果替代等位基因的等位基因频率大于固定阈值量,则将与替代等位基因相对应的调用变体分类为边缘变体。
IX.E.V.边缘变体过滤方法的灵敏度和特异性
图30描绘了根据一个实施例在使用不同的边缘滤器去除边缘变体之后,在实体肿瘤和cfDNA中被调用的一致变体,作为在cfDNA中调用变体的分段。图31描绘了根据一个实施例在使用不同的边缘滤器去除边缘变体之后,在实体肿瘤和cfDNA中被调用为一致变体,作为在实体瘤中调用的变体的分段。特别地,图30和图31均描绘了根据所应用的边缘变体过滤器(例如没有边缘变体过滤器、简单的边缘变体过滤器、或样本特定的边缘变体过滤器)而变化的一致性编号。
对于图30和图31所示的数据集合,样本从受试者被获得,并使用上述参考图26A-C的示例所述的测定过程被处理,以在图3中的步骤320之后获得初始的调用变体集合。初始集合中包括的这些调用变体尚未经过进一步过滤以去除边缘变体。
在两个单独的场景中,初始集合中的这些调用变体被边缘过滤器250进一步过滤以标识和去除边缘变体。第一种场景包括第一过滤器的应用,此后称为简单边缘变化过滤器。简单的边缘变体过滤器会去除调用变体,这些变体显示出距序列读取边缘的中值距离小于阈值距离。在此,阈值距离是基于边缘变体在训练序列读取中的位置确定的,这些序列读取在伪影训练数据类别中进行了分类。具体地,阈值距离表示为边缘变体距序列读取的边缘的中值距离与边缘变体距序列读取的边缘的中值距离的中值绝对差之和。简单边缘变体过滤器是一个简单的不区分的过滤器,它去除了满足此阈值距离标准的所有变体。第二过滤器指的是参考图26A-C、27A-C、28A-C和29的示例描述的边缘过滤过程,并且下面参考图32进一步描述。这里,样本特定边缘变体过滤器标识边缘变体,同时考虑样本中观察到的调用变体的分布。
与传统方法相比,重新训练在使用简单边缘变体过滤器或样本特定边缘变体过滤器去除边缘变体后保留的非边缘变体,以进行分析。如下文所提到的,常规方法是指使用常规方法从实体肿瘤样本中标识基因组变体,特别是the Memorial Sloan KetteringIntegrated Mutation Profiling of Actionable Cancer Targets(MSK-IMPACT)Pipeline(Cheng D.等人,Memorial Sloan Kettering-Integrated Mutation Profilingof Actionable Cancer Targets(MSK-IMPACT),A Hybridization Capture-Based Next-Generation Sequencing Clinical Assay for Solid Tumor Molecular Oncology,Journal of Molecular Diagnostics,17(3),第251-264页)。
在此,是非边缘变体又通过常规方法检测到的调用变体称为一致变体。
图30描绘了在应用边缘滤器(或不应用边缘滤器)之后在cfDNA样本中检测到的一致变体,以及在实体肿瘤组织中检测到的调用变体,作为在cfDNA中检测到的非边缘变体的分段。这个比例可以表示为:
Figure GDA0002646198800000741
图31描绘了在应用边缘过滤器(或不应用边缘过滤器)之后在cfDNA样本中检测到的一致变体,以及在实体肿瘤组织中检测到的调用变体,作为在实体肿瘤组织中检测到的调用变体的分段。这个比例可以表示为:
Figure GDA0002646198800000742
Figure GDA0002646198800000743
图30和图31中所示的一致变体的百分比描述了几种感兴趣的趋势。与图30中所示的一致变体的百分比相比,图31中显示了更大的一致变体百分比。作为一个示例,在乳腺癌中检测到的一致变体为仅在cfDNA中检测到的调用变体的分段的百分比为9.8%,其显著低于在乳腺癌中检测到的一致变体体为在实体肿瘤组织中检测到的调用变体体的分段的73%。这表明与在实体瘤组织中调用变体的常规方法相比,标识cfDNA样本中的非边缘变体(与癌症类型无关)实现更高的灵敏度。
参考图30中的简单边缘变体过滤器,简单边缘变体过滤器的应用增加了调用变体的特异性。例如与无边缘变体过滤器相比,简单边缘变体过滤器的应用提高了在乳腺癌(例如9.5%至11%)、肺癌(例如45%至49%)和前列腺癌(例如22%至27%)中检测到的调用变体的特异性。但是,这种特异性的提高是以灵敏度为代价的,如图31所示。与无边缘变体过滤器相比,简单边缘变体过滤器的应用降低了在乳腺癌(例如73%至69%)、肺癌(例如73%至70%)和前列腺癌(例如76%至71%)中检测到的调用变体的灵敏度。
相比之下,样本特定边缘变体过滤器的应用提高特异性,而不会牺牲灵敏度。如图30所示,与无边缘变体过滤器相比,样本特定边缘变体过滤器的应用增加了在乳腺癌(例如9.5%至9.8%)、肺癌(例如45%至47%)和前列腺癌(例如22%至27%)中检测到的调用变体的灵敏度。此外,如图31所示,与无边缘变体过滤器相比,样本特定边缘变体过滤器的应用可保持在乳腺癌(例如维持在73%)、肺癌(例如维持在73%)和前列腺癌(例如维持在76%)中检测到的调用变体的灵敏度。
X.示例变体调用器
X.A.不同过滤器和得分的示例组合
图32是根据一个实施例的用于使用不同类型的过滤器和模型225来处理候选变体的方法3200的流程图。方法3200的一个或多个步骤可以结合本文描述的其他方法或另一种方法来执行。例如方法3200可以作为图3所示的方法300的一部分来执行,以例如在调用变体之前标识并去除任意假阳性。在一些实施例中,方法3200可以包括与结合图32描述的步骤不同的、附加的或更少的步骤,或者以与结合图32描述的顺序不同的顺序执行步骤。例如方法3200可以使用联合模型进行过滤,但不使用边缘过滤。作为不同的示例,方法3200可以在使用联合模型进行过滤之前执行边缘过滤。在一些实施例中,可以组合一个或多个步骤,例如方法3200包括在同一步骤中使用联合模型进行过滤和边缘过滤。
在步骤3210,处理系统200使用至少一个模型225来对核酸样本例如cfDNA样本的序列读取的噪声进行建模。模型225可以是如先前参考图4-9所描述的贝叶斯分层模型,其对序列读取的每个位置的预期噪声分布进行近似。在步骤3220,处理系统200使用联合模型225从序列读取中过滤候选变体,例如如先前参考图10-19所述。在一些实施例中,处理系统200使用联合模型225来确定在cfDNA样本中观察到的给定候选变体是否可能与对应的gDNA样本的核苷酸突变相关联(例如来自白细胞)。
在一些实施例中,在步骤3230处,处理系统200使用边缘过滤来过滤候选变体。特别地,边缘过滤器250可以使用样本特定比率预测模型2415(参见图24A)和边缘变体预测模型2435(参见图24B)来确定如何积极地过滤样本以去除边缘变体,例如如先前参考图23A-31所描述的那样。在一些实施例中,得分引擎235使用用于边缘过滤的模型来分析支持得分并将其分配给每个候选变体(或调用变体),其中该支持得分代表候选变体是非边缘变体的置信水平。边缘过滤器250保持与大于阈值得分的支持得分相关联的候选变体,而边缘过滤器250滤出与小于(或等于)阈值得分的支持得分相关联的候选变体。在一些实施例中,得分引擎235基于关于在健康样本集合中针对该染色体/位置观察到的候选变体和/或系统误差的先验知识,生成候选变体的支持得分。在一些场景中,支持得分可以基于包括候选变体的靶向区域的测序深度来确定,并且阈值得分可以基于先前测序的样本(例如参考数据)集合中靶向区域的平均测序深度来确定。
如以上关于边缘过滤器250所述,从样本获得的序列读取可以包括包含替代等位基因的序列读取以及包括参考等位基因的序列读取。具体地,给定样本的候选变体的集合,边缘过滤器250可执行似然估计以确定样本中的边缘变体的预测比率。给定样本的某些条件,结合两种分布,预测比率可能最好地解释了观察到的候选样本变体的集合。一个分布描述了已知边缘变体的特征,而另一种训练分布描述了已知非边缘变体的特征。预测比率是样本特定参数,其控制如何积极地对样本进行分析以从样本标识和过滤边缘。过滤并去除样本的边缘变体,留下非边缘变体用于后续考虑(例如用于确定癌症的存在或不存在或癌症或其他疾病的似然)。
在一些实施例中,在步骤3240,非同义过滤器260可以基于非同义突变可选地过滤候选变体。与同义突变相反,核酸序列的非同义突变导致与该核酸序列相关联的蛋白质的氨基酸序列的变化。例如非同义突变可改变个体的一种或多种表型或导致(或使个体更易患)个体发展癌症、癌细胞或其他类型的疾病。在一些实施例中,非同义过滤器260通过基于修改的三核苷酸确定对三核苷酸的一个或多个核苷酸碱基的修改将导致产生不同的氨基酸,来确定候选变体应导致非同义突变。在一些实施例中,非同义过滤器260保持与非同义突变相关联的候选变体并滤除与同义突变相关联的其他候选变体,因为前一组候选变体更可能对个体产生功能影响。
X.B.合并过滤和得分的示例
以下图34A-H中的示例数据是使用从无细胞基因组研究的个体样本集合中获得的序列读取生成的,并使用本文所述的一种或多种方法(例如噪声建模、联合建模、边缘过滤、非同义过滤等)进行处理。此外,样本集合包括从中获得血液样本(例如cfDNA)的健康个体。另外,样本集合包括已知患有至少一种癌症的个体,从中获得血液样本和组织样本(例如肿瘤或gDNA)。数据是从美利坚合众国和加拿大的大约140个中心的个体收集的。图33A-C示出了关于样本集合的更多细节。
图33A是描述根据一个实施例用于无细胞基因组研究的样本集合的个体的表。样本集合包括已知患有至少乳腺癌、肺癌、前列腺癌、结肠直肠癌和其他类型癌症的样本。个体的人口统计数据(例如年龄、性别和种族)也在图33A中示出。图33B是根据一个实施例指示与图33A的无细胞基因组研究的样本集合相关联的癌症类型的图表。图33C是描述根据一个实施例的用于图33A的无细胞基因组研究的样本集合的另一表。具体地,该表显示了基于癌症的临床阶段组织的、已知患有癌症的样本的计数。
图34A示出了根据一个实施例的使用一种或多种类型的过滤器和模型确定的调用变体的示例计数的图。每个图包括在由处理系统200处理后的在代表对应个体年龄的x轴和代表调用变体的数量的y轴上绘制的样本集合的数据点。图3410包括来自使用噪声建模来处理样本集合的序列读取的结果。除了噪声建模之外,图3420还包括使用联合建模和边缘过滤对样本集合的序列读取进行处理的结果。除了联合建模、边缘过滤和噪声建模之外,图3430还包括使用非同义过滤对样本集合的序列读取进行处理的结果。此外,除了联合建模、边缘过滤和噪声建模之外,还使用非同义过滤来生成图34B-H所示的示例结果。
如由图的进展所示,随着过滤程度的增加,调用变体的数量通常会减少。因此,这些示例表明由处理系统200进行的非同义过滤、联合建模、边缘过滤和噪声建模可以成功地标识并去除大量的假阳性。因此,处理系统200提供减轻来自各种噪声或伪影源的影响的更准确的变体调用器。使用所公开的方法分析来自血液样本的cfDNA的靶向测定可能能够捕获肿瘤相关生物学。在图中,可以在调用变体的数量与个体年龄之间观察到轻微的比例相关性(例如在图3410中更明显)。此外,如预期的,与非癌症样本相比,存在针对癌症样本的调用变体的更大计数。
图34B是根据一个实施例的已知患有乳腺癌的样本的示例质量得分的图。图34C是根据一个实施例的已知患有乳腺癌的样本的示例质量得分的另一图。图34D是根据一个实施例的已知患有肺癌的样本的示例质量得分的图。可以由得分引擎235使用噪声模型225来确定质量得分,如先前参考图3、4和9所描述的。具体地,图34B、34C和34D示出了分别来自规范的PIK3CA、TP53功能丧失(LoF)和规范的表皮生长因子受体(EGFR)基因的序列读取的候选变体的质量得分。X轴代表给定组(例如癌症阶段)中具有一定规范突变的个体的比例。图34B-D表示趋势,其中随着从I组到IV组癌症阶段的增加,质量得分趋于增加。
图34E是根据一个实施例的已知具有各种类型的癌症并且处于不同癌症阶段的样本的调用变体的示例计数的表。类似于图34B-D,图34E还示出了趋势,其中随着癌症的阶段从I组增加到IV组,调用变体的数量趋于增加。
图34F是根据一个实施例的已知具有各种类型的癌症并且处于不同癌症阶段的样本的调用变体的示例计数的图。如针对已知患有乳腺癌、结肠直肠癌、肺癌或前列腺癌的样本的方框图所示,随着癌症阶段从I到IV的增加,调用变体体的中位数趋于增加,并且与癌症样本的数目相比,非癌症样本的数目则为相对较低。
图34G是根据一个实施例的已知患有早期或晚期癌症的样本的调用变体的示例计数的图。图34H是根据一个实施例的已知患有早期或晚期癌症的样本的调用变体的示例计数的另一图。特别地,图34G和图34H分别示出了与乳腺癌(例如HER2+,HR+IHER2-,TNBC)和肺癌(例如腺癌,小细胞肺癌和鳞状细胞癌)相关联的cdstgllh分组的基因的序列读取的调用变体。图34G-H显示了一种趋势,其中随着癌症从早期发展到晚期,调用变体的数量趋于增加。示例数据指示处理系统200可以检测基因中序列的不同亚型或变体。此外,与癌症样本的数目相比,非癌症样本的数目相对较少。
XI.癌症模型的示例函数
XI.A.示例小变体特征
如下文所用,小变体测序测定是指通常通过可用于确定小变体的靶向基因测序板生成序列读取的物理测定,其示例包括单核苷酸变体(SNV)和插入或缺失。替代地,如本领域技术人员将理解的,也可以使用全基因组测序方法或全外显子组测序方法来进行小变体的评估。先前参考图1A描述了示例性小变体测序测定。
在一些实施例中,使用计算分析处理从小变体测序测定的应用所生成的序列读取,其输出一个或多个小变体特征。计算分析(也称为小变体计算分析)可以包括来自本文所述的任意方法的步骤,例如如图1A、3、8-10、20、25或32所示。例如,使用图3的方法300的步骤324中输出的候选变体来生成小变体特征。此外,计算分析可以涉及任意数量的训练模型(“贝叶斯层次模型”、“联合模型”等)或本文描述的实施例的过滤器。示例性小变体特征包括:体细胞变体的总数、非同义变体的总数、同义变体的总数、每个基因的体细胞变体的存在与不存在、特定基因已知与至少一种癌症相关联的体细胞变体存在或不存在、每个基因的体细胞变体的等位基因频率、根据体细胞变体的AF的顺序统计、基于它们的等位基因频率的已知与至少一种癌症相关的体细胞变体的分类、基因板中每个基因的体细胞变体的等位基因频率(AF)、由诸如OncoKB的公开可用数据库指定的每个类别的体细胞变体的AF、以及根据体细胞变体的AF的体细胞变体的排序顺序。
代表每个基因的体细胞变体的AF的特征(例如在靶向基因板中)是指与特定基因相关的序列读取中体细胞变体的频率的测量。通常,该特征由一个基因板的每个基因或整个基因组中的每个基因的一个特征值表示。该特征的值可以是该基因的体细胞变体的AF的统计值。用于给特征指定值的精确测量可以根据实施例而变化。在一个实施例中,将该特征的值确定为基因中每个位置(例如基因组中)中所有体细胞变体的最大AF。在另一个实施例中,将该特征的值被确定为该基因每个位置的所有体细胞变体的平均AF。因此,对于一个示例性的500个基因的靶向基因板,有500个特征值代表每个基因的体细胞变体的AF。也可以使用最大AF或平均AF以外的措施。
可以通过访问诸如OncoKB、Chakravarty等人、JCO PO2017的公共可用数据库来确定代表每个类别的体细胞变体的AF的(一个或多个)特征。例如OncoKB将基因的临床信息分类为四个不同类别之一,诸如FDA批准、标准护理、新兴临床证据和生物学证据。每个这样的类别可以是其自己的特征,其具有自己的对应值。可以访问以确定特征的其他公共可用数据库包括:由美国国家癌症研究所的基因组数据共享中心(GDC)支持的癌症体细胞突变目录(COSMIC)和癌症基因组图谱(TCGA),Forbes等,COSMIC:高分辨率的体细胞癌遗传学,核酸研究,第45卷,第D1期,2017年1月4日,第D777-D783页。在一个实施例中,将每个类别特征的体细胞变体的AF值确定为跨该类别中的基因的体细胞变体的最大AF。在另一个实施例中,每个类别特征的体细胞变体的AF的值被确定为跨该类别中的基因的体细胞变体的平均AF。除每个类别的最大AF和每个类别的平均AF以外,还可以使用其他措施。
通常,小变体特征的特征值是基于对体细胞变体的准确标识而被预测的,该体细胞变体可以指示个体中的癌症。小变体计算分析标识候选变体体,并从候选变体体中在个体基因组中可能存在的体细胞变体和不太可能预测个体癌症的假阳性变体之间进行区分。更具体而言,小变体计算分析标识cfDNA中存在的候选变体,这些候选变体体可能是从结合诸如噪声的干扰信号的体细胞源得到和/或可归因于基因组来源的变体体(例如来自gDNA或WBC DNA)。另外,可以过滤候选变体以去除可能由于伪影而出现的假阳性变体,因此不能指示个体中的癌症。例如假阳性变体可以是在序列读取的边缘处或附近检测到的变体,其由于自发的胞嘧啶脱氨和末端修复错误而产生。因此,在滤除假阳性变体之后仍保留的体细胞变体及其特征可用于确定小变体特征。
对于体细胞变体总数的特征,小变体计算分析将基因组或基因板中标识出的体细胞变体总计。因此,对于从个体获得的cfDNA样本,体细胞变体总数的特征表示为样本的cfDNA中标识的体细胞变体总数的单个数值。
对于非同义变体的总数的特征,小变体计算分析可以进一步过滤所标识的体变体以标识为非同义变体的体变体。如本领域众所周知的,核酸序列的非同义变体导致与该核酸序列相关联的蛋白质的氨基酸序列的改变。例如非同义变体可以改变个体的一种或多种表型或导致(或使个体更易患)个体发展癌症、癌细胞或其他类型的疾病。因此,小变体计算分析通过确定对三核苷酸的一个或多个核碱基的修改将导致基于修改的三核苷酸产生不同的氨基酸,来确定候选变体体将导致非同义的变体体。通过将整个基因组中已标识的非同义变体相加来确定非同义变体总数的特征值。因此,对于从个体获得的cfDNA样本,非同义变体总数的特征表示为单个数值。
对于同义变体总数的特征,同义变体表示未分类为非同义变体的其他体细胞变体。换句话说,小变体计算分析可以执行所标识的体细胞变体的过滤,如关于非同义变体所描述的,并在整个基因组或基因板中标识同义变体。因此,对于从个体获得的cfDNA样本,同义变体总数的特征被表示为单个数值。
每个基因体的细胞变体的存在/不存在的特征可能涉及cfDNA样本的多个特征值。例如靶向基因板可以在板中包括500个基因,因此,小变体体计算分析可以生成500个特征值,每个特征值代表板中基因的体细胞变体的存在与不存在。例如如果基因中存在体细胞变体,则特征的值为1。相反,如果基因中不存在体细胞变体,则特征的值为0。通常,可以使用任意大小的基因板。例如基因板可以包含跨基因组的100、200、500、1000、2000、10,000或更多个基因靶。在其他实施例中,基因组可包含从约50至约10,000个基因靶、从约100至约2,000个基因靶、或从约200至约1,000个基因靶。
对于已知/与癌症相关的特定基因的体细胞变体的存在/不存在的特征,可以从诸如OncoKB的公共数据库访问已知与癌症相关的特定基因。已知与癌症相关联的基因的示例包括p53、LRP1B和KRAS。已知与癌症相关的每个基因都可以与一个特征值相关联,诸如1(指示该基因中存在体细胞变体体)或0(指示该基因中不存在体细胞变体体)。
每个基因(例如在基因组中)的体细胞变体的AF是指序列读取中一个或多个体细胞变体的频率。通常,该特征由一个基因板的每个基因或跨基因组中的每个基因的一个特征值表示。该特征的值可以是该基因的体细胞变体的AF的统计值。在各种实施例中,该特征是指基因中具有最大AF的一个体细胞变体。在一些实施例中,该特征是指基因的体细胞变体的平均AF。因此,对于具有500个基因的靶向基因板,存在代表(例如在基因板中)每个基因的体细胞变体的AF的500个特征值。
由诸如OncoKB的公开可用数据库指定的每个类别的体细胞变体的AF。例如OncoKB将基因分为四个不同类别之一。在一个实施例中,每个类别的体细胞变体体的AF是该类别中的跨基因的体细胞变体体的最大AF。在一个实施例中,每个类别的体细胞变体的AF是跨该类别中的基因的体细胞变体的平均AF。
根据体细胞变体的AF的体细胞变体的排序次序是指体细胞变体的前N个等位基因频率。通常,变体等位基因频率的值可以在0到1之间,其中变体等位基因频率0指示没有在该位置拥有替代等位基因的测序读取,而变体等位基因频率1指示在该位置所有测序读取拥有替代等位基因。在其他实施例中,可以使用变体等位基因频率的其他范围和/或值。在各种实施例中,排序次序特征独立于体细胞变体本身,而是仅由前N个变体等位基因频率的值表示。前五个等位基因频率的排序次序特征的示例可以表示为[0.1,0.08,0.05,0.03,0.02],其指示与体细胞变体无关的五个最高等位基因频率范围为0.02到0.1。
XI.B.示例预测癌症模型
小变体特征可以用作诸如预测性癌症模型的一种或多种类型的模型的输入。预测癌症模型可以生成与癌症相关的预测,例如预测给定个体患有或可能发展出至少一种特定类型的癌症或疾病的似然。预测癌症模型可以用于预测I期、II期、III期和IV期癌症中的一种或多种的检测。癌症的示例类型包括乳腺癌、肺癌、结肠直肠癌、卵巢癌、子宫癌、黑素瘤、肾癌、胰腺癌、甲状腺癌、胃癌、肝胆癌、食道癌、前列腺癌、淋巴瘤、多发性骨髓瘤、头和宫颈癌、膀胱癌、子宫颈癌或其任意组合。在一些实施例中,基于对从测试样本序列读取的分析,预测癌症模型用于将乳腺癌分类为HR阳性、HER2过表达、HER2扩增或三阴性。
在一些实施例中,使用预测性癌症模型的分析包括检测测试样本中一种或多种得自病毒的核酸的存在。癌症的检测可以部分地基于一种或多种病毒核酸的检测。在一些实施例中,一种或多种得自病毒的核酸选自人乳头瘤病毒、爱泼斯坦-巴尔病毒、乙型肝炎、丙型肝炎及其任意组合组成的组。
图35A是根据一个实施例的用于基于从个体获得的cfDNA样本得到的特征来生成癌症预测的方法3500的流程图。在其他实施例中,方法3500可用于生成一种或多种类型的疾病(例如遗传性疾病或心血管疾病)、其他与健康相关的状况(例如不确定性的克隆性造血(ChIP))、其他分类、或其他指标的预测。在步骤3502,从个体获得测试样本。通常,样本可以来自健康受试者、已知患有或怀疑患有癌症的受试者、或之前没有已知信息的受试者(例如无症状受试者)。测试样本可以是选自包括血液、血浆、血清、尿液、粪便和唾液样本的组的样本。替代地,测试样本可以包括选自包括全血、血液分段、组织活检、胸膜液、心包液、脑脊髓液和腹膜液的组的样本。测试样本可以包括cfDNA。在各种实施例中,测试样本可以包括例如来自白细胞(WBC)DNA的基因组DNA(gDNA)。
在步骤3504,执行一个或多个物理过程分析,至少一个物理过程分析包括对cfDNA的基于测序的测定以生成序列读取。在步骤3506,处理由于执行基于测序的测定而产生的序列读取,以确定特征值。特征通常是可从物理测定和/或计算分析中获得的信息类型,这些信息可用于预测个体的癌症。通常,用于标识个体癌症的任意给定的预测模型都包括一个或多个特征作为模型的组成部分。对于任意给定的患者或样本,特征将具有从物理和/或计算分析确定的值。这些值输入到预测模型中以生成模型的输出。
序列读取通过应用计算分析进行处理。通常,每个计算分析表示可由计算机的处理器执行的算法,此后称为处理系统。因此,每个计算分析都会分析序列读取并基于序列读取输出值特征。每种计算分析对于给定的基于测序的测定都是特定的,因此,每种计算分析都会输出一种特定类型的特征,该特征对于基于测序的测定是特定的。使用计算分析处理从应用小变体测序测定生成的序列读取,否则称为小变体计算分析。计算分析输出(一个或多个)小变体特征。
在步骤3508,将预测癌症模型应用于特征以生成针对个体的癌症预测。癌症预测的示例包括癌症的存在与不存在、癌症的起源组织、严重性、阶段、癌症的等级、癌症亚型、治疗决定、以及对治疗的响应的似然。在各个实施例中,预测癌症模型输出的癌症预测是得分,诸如指示以下一项或多项的似然或概率:癌症的存在或不存在、癌症的起源组织、严重性、阶段、癌症等级、癌症亚型、治疗决策以及对治疗反应的概率。
通常,任意这样的得分可以是单数的,诸如通常癌症的存在/不存在,特定类型癌症的存在/不存在。可替代地,这样的得分可以是复数,使得预测癌症模型的输出可以例如是:代表多种类型的癌症中每种癌症存在/不存在的得分、代表多种类型的癌症中每种癌症的严重程度/等级的得分、代表特定cfDNA起源于多种类型的组织中的每一种的似然的得分、等等。为了描述清楚,取决于预测性癌症模型被配置为确定什么,通常将预测性癌症模型的输出称为得分集合,该集合包括一个或多个得分。
在各种实施例中,预测癌症模型可以是决策树、整体(例如装袋、增强、随机森林)、梯度增强机、线性回归、朴素贝叶斯、神经网络或逻辑回归之一。每个预测性癌症模型都包括在训练过程中调整的特征的学习权重。术语权重在此通常用于表示与模型的任意给定特征相关的学习量,而不管使用哪种特定的机器学习技术。
在训练期间,处理训练数据以生成用于训练预测癌症模型权重的特征值。作为示例,训练数据可以包括从训练样本获得的cfDNA和/或WBC DNA,以及输出标签。例如输出标签可以是关于该个体是已知是癌性的还是已知没有癌症的(例如健康的)指示、起源的癌组织的指示、或癌症的严重性的指示。取决于特定实施例,预测癌症模型接收从与要训练的模型有关的一种或多种物理测定和计算分析获得的一种或多种特征的值。取决于由训练中模型输出的得分与训练数据的输出标签之间的差异,优化预测癌症模型的权重,使预测癌症模型能够做出更准确的预测。在各种实施例中,预测癌症模型可以是非参数模型(例如k个最近相邻),因此,可以训练预测癌症模型以更准确地进行预测而不必优化参数。经训练的预测癌症模型可以被存储,并且随后在需要时例如在图35A的步骤3508中的部署期间随后被取回。
XI.C.示例函数调整
在各种实施例中,在从小变体测序测定制备序列读取期间,或在计算分析期间,可以执行一个或多个步骤以改进、调节或优化输出特征。例如作为调整特征的结果,预测癌症模型可以以更高的灵敏度(例如真阳性检测率)或特异性(例如假阳性检测率)生成预测。
处理系统200可以确定小变体潜在于属于一个或多个特定的生物类别。生物类别指示例如基因、基因的内含子或外显子、基因的特定区域,例如五个主要非转换区(5'UTR),三个主要非转换区(3'UTR)或增强子区,或蛋白编码区,以及其他合适的类别。响应于该确定,处理系统200可以用对应的生物类别的注释来标记小变体。在一些实施例中,处理系统200确定该小变体属于类别的似然,并且响应于确定该概率大于阈值来注释该小变体。
处理系统200可以将使用集合变体效果预测器(VEP)工具提取的信息用于注释。基于小变体的输入位置(例如在基因组中)和对应类型的突变(例如SNV或插入缺失),VEP可以确定该变体对一个或多个基因的影响(例如基因的规范表示或结构)或由此产生的任意下游产物,诸如转录本、蛋白质测序和调控区。通过评估这些效果,处理系统200可以确定是否将特定的生物类别分配给小变体。除了确定使用哪个生物学类别(例如剪接位点、UTR、同义或非同义位点)之外,处理系统200还可确定用于确定特征的基因表示(例如规范转录本或其他同工型)。在一个实施例中,处理系统200包括在基因名称的字符串表示中具有破折号(-)的基因,作为注释的潜在生物学类别。例如处理系统200处理NKX2-1和NKX3-1基因中的小变体。NKX2-1可用作肺或甲状腺肿瘤的生物标记,而NKX3-1是前列腺肿瘤抑制基因。
注释旨在标记影响靶向基因测序板涵盖的编码基因集合的小变体。除了标记不同义的小变体(例如影响基因的对应氨基酸)之外,处理系统200还可以标记可能以其他方式影响基因转录或表达的小变体。例如TERT(端粒酶逆转录酶)启动子可以影响端粒的长度或转录机制。由于TERT启动子突变可以是肿瘤发生的生物标记,因此处理系统200可以被配置为系统地注释这些区域中的小变体。作为另一个示例,剪接位点突变也可能影响转录或蛋白质转换,即使剪接位点突变可能不一定位于编码区。由于剪接位点位于外显子或内含子的边界附近,因此剪接位点突变可能会导致一个或多个外显子在转录过程中掉落或添加。因此,剪接位点突变可以影响所得的蛋白质结构,而无需在中间步骤中修改氨基酸。
在一个实施例中,处理系统200使用注释信息来帮助确定输入到用于癌症预测的预测癌症模型的小变体特征。在相同或不同的实施例中,注释本身可以是特征,其中特征的值是每个位置(例如在基因组中)分配给每个基因的特定注释。例如基于注释,预测癌症模型可以确定特定TERT启动子或剪接位点区域中突变的存在或不存在。
处理系统200还可以使用注释在跨大量生物类别的计算分析期间生成附加特征。作为示例,处理系统200确定指示特定TERT启动子或剪接位点区域中的最大AF的特征。另一附加特征可以是一个或多个TERT启动子或剪接位点区域集合中的小变体总数。该概念可扩展到具有相同或不同度量(例如最大AF或平均AF)的其他特征,着重于与其他基因组有关的变体的存在或不存在。
XI.D.使用小变体特征的示例预测
图35B描绘了根据一个实施例的使用第一小变体特征集合来预测癌症的存在的预测癌症模型的特异性和灵敏度的接受者工作特征(ROC)曲线。具体地,预测癌症模型输出得分,此后称为“A得分”,其指示癌症的存在或不存在。ROC曲线的曲线下总面积(AUC)为0.697。假定目标是在给定的特异性(例如95%或99%特异性)下实现灵敏度,图35B描绘了在85%-100%特异性范围内的预测性癌症模型的性能。在此示例中,提供给预测癌症模型的第一小变体特征集合包括:体细胞变体总数和非同义变体总数。ROC曲线表明在95%特异性下灵敏度为35%,在99%特异性下灵敏度为-19%。从99%的特异性提高到95%的特异性,ROC曲线呈非线性增加,从而表明在这种灵敏度/特异性折衷中可能检测到真阳性。
在一个实施例中,具有95%特异性的小变体预测癌症模型使用非同义变体的总数作为特征并输出“A得分”。预测性癌症模型在检测具有5年死亡率高于25%的I/II/III期癌症时,具有的平均灵敏度为47%,其中。预测性癌症模型在检测具有5年死亡率高于25%的IV期癌症时,具有平均灵敏度为80%。预测性癌症模型在检测具有5年死亡率低于25%的I/II/III期癌症时,具有平均灵敏度为8%。预测性癌症模型在检测具有5年死亡率低于25%的IV期癌症时,具有平均灵敏度为50%。
图35C描绘了根据一个实施例的使用第二小变体特征集合来预测癌症存在的预测癌症模型的特异性和灵敏度的ROC曲线。具体地,预测癌症模型输出得分,此后调用变体基因得分,其指示癌症的存在或不存在。ROC曲线的总AUC为0.664。图35C描绘了在85%-100%特异性范围内的预测癌症模型的性能。在该示例中,提供给预测癌症模型的第二小变体特征集合包括每个基因的体细胞变体的AF。在此,每个基因的体细胞变体的AF代表每个基因中体细胞变体的最大AF。因此,将每个基因(对应于500个基因)的体细胞变体的最大AF的总共500个值作为特征值提供给预测癌症模型。ROC曲线表示在95%特异性下为-38%灵敏度,在99%特异性下为-31%灵敏度。与图35B所示的预测癌症模型的结果相比,这代表了一种改进。
图35D描绘了根据一个实施例的使用第三小变体特征集合预测癌症存在的预测癌症模型的特异性和灵敏度的ROC曲线。具体地,预测癌症模型输出得分,此后称为指示癌症存在或不存在的次序得分。ROC曲线的总AUC为0.672。图35D描绘了在85%-100%特异性范围内的预测癌症模型的性能。在该示例中,预测性癌症模型的小变体特征包括根据体细胞变体的AF排在前6位的有序次序。ROC曲线表示在95%特异性下为-37%灵敏度,在99%特异性下为-30%灵敏度。再次,与图35B所示的预测癌症模型的结果相比,这代表了一种改进。
XII.其他注意事项
为了说明的目的已经给出了本发明的实施例的前述描述,它并不旨在穷举或将本发明限制为所公开的精确形式。相关领域的技术人员可以理解,根据以上公开,许多修改和变化是可能的。
该描述的某些部分根据算法和信息操作的符号表示来描述本发明的实施例。这些算法的描述和表示通常由数据处理领域的技术人员用来将其工作的实质有效地传达给本领域的其他技术人员。这些操作尽管在功能上、在计算上或在逻辑上进行了描述,但应理解为通过计算机程序或等效电路、微代码等来实现。此外,在不失一般性的情况下,有时将这些操作安排称为模块有时也很方便。所描述的操作及其相关的模块可以用软件、固件、硬件或其任意组合来体现。
可以单独地或与其他设备组合地利用一个或多个硬件或软件模块来执行或实现本文描述的任意步骤、操作或过程。在一个实施例中,用计算机程序产品来实现软件模块,该计算机程序产品包括包含计算机程序代码的计算机可读非暂态介质,该计算机程序代码可以由计算机处理器执行以执行所描述的任意或所有步骤、操作或过程。
本发明的实施例还可涉及通过本文描述的计算过程生产的产品。这样的产品可以包括由计算过程产生的信息,其中该信息被存储在非暂态有形计算机可读存储介质上,并且可以包括计算机程序产品的任意实施例或本文所述的其他数据组合。
最后,主要是出于可读性和指导性目的选择了本说明书中使用的语言,并且可能没有选择该语言来描述或限制本发明的主题。因此,意图是本发明的范围不受该详细描述的限制,而是由基于其的申请所发布的任意权利要求所限制。因此,本发明的实施例的公开旨在是示意性的,而不是限制本发明的范围,本发明的范围在所附权利要求中阐述。

Claims (64)

1.一种方法,包括:
生成无细胞核酸样本的多个候选变体;
确定所述无细胞核酸样本和对应基因组核酸样本中所述候选变体中的每个候选变体的真实替代频率的似然;
至少通过使用真实替代频率的所述似然的模型来过滤所述候选变体;以及
输出所过滤的所述候选变体。
2.根据权利要求1所述的方法,还包括:
通过为所述候选变体中的每个候选变体确定边缘变体概率来过滤所述候选变体,所述边缘变体概率指示所述候选变体是边缘变体的概率。
3.根据权利要求2所述的方法,其中过滤所述候选变体包括:
接收位于序列读取上的替代等位基因,所述序列读取从基因组中的多个位置获得;
基于所接收的所述替代等位基因来确定所述无细胞核酸样本的边缘变体的预测比率;
针对所述多个位置的子集中的每个位置:
从序列读取中提取特征,所述序列读取是从所述位置获得的;
将所提取的所述特征作为输入应用于训练模型,以获得针对所述位置的伪影得分和针对所述位置的非伪影得分,所述伪影得分反映了位于从所述位置获得的序列读取上的替代等位基因是处理伪影的结果的似然,所述非伪影得分反映了位于从所述位置获得的序列读取上的替代等位基因不是处理伪影的结果的似然;
通过组合针对所述位置的所述伪影得分、针对所述位置的所述非伪影得分以及针对所述无细胞核酸样本的伪影的所述预测比率,来生成针对所述位置的所述边缘变体概率;以及
基于所述边缘变体概率将在所述位置处的所述候选变体中的一个候选变体报告为边缘变体。
4.权利要求3的方法,其中所述无细胞核酸样本的所述边缘变体是由于所述序列读取中的一个或多个序列读取的部分的自发脱氨基作用。
5.根据权利要求3所述的方法,其中确定所述无细胞核酸样本的边缘变体的所述预测比率包括:
结合所接收的所述替代等位基因执行基于似然的估计,以生成估计器;以及
基于所述最大似然估计器来选择边缘变体的所述预测比率。
6.根据权利要求5所述的方法,其中所述基于似然的估计还结合从被分类为伪影类别的序列读取所生成的第一分布而被执行。
7.根据权利要求5或6所述的方法,其中所述基于似然的估计还结合从被分类为非伪影类别的序列读取所生成的第二分布而被执行。
8.根据权利要求3至7中任一项所述的方法,其中从所述位置的所述序列读取提取的所述特征中的一个特征是测序读取的子集上的替代等位基因的位置与所述测序读取的所述子集的边缘之间的中值距离。
9.根据权利要求3至8中任一项所述的方法,其中从所述位置的所述序列读取中提取的所述特征中的一个特征是表示以下各项之间的差异的显著性得分:
1)在所述测序读取的第一子集上的替代等位基因的位置与所述第一子集中的所述测序读取的边缘之间的第一中值距离,以及
2)在所述测序读取的第二子集上的参考等位基因的位置与所述第二子集中的所述测序读取的边缘之间的第二中值距离。
10.根据权利要求3至9中任一项所述的方法,其中从所述位置的所述序列读取中提取的所述特征中的一个特征是等位基因分段,所述等位基因分段表示包含跨位置的所述替代等位基因的序列读取的分段。
11.根据权利要求3至10中任一项所述的方法,其中基于所述边缘变体概率将调用的所述变体报告为所述边缘变体包括:
将所述边缘变体概率与阈值进行比较;以及
基于所述比较将调用的所述变体报告为所述边缘变体。
12.根据权利要求3-11中任一项所述的方法,其中所述基因组中被包括在所述多个位置的所述子集中的位置通过以下各项被确定:
针对所述多个中的每个位置:
标识与所述位置相对应的调用变体的突变类型;以及
确定所述调用变体的所述突变类型是否为胞嘧啶至胸腺嘧啶或鸟嘌呤至腺嘌呤碱基之一。
13.根据权利要求3至12中任一项所述的方法,其中所述训练模型通过以下各项而被训练:
接收包括位于训练序列读取上的替代等位基因的训练数据,所述训练序列读取是从基因组中的多个位置获得的;以及
基于位于所述训练序列读取上的所述替代等位基因的特性,将所述训练序列读取中的每个训练序列读取分类为两个或更多个类别;
针对训练变体的所述两个或更多个类别中的每个类别:
从被分类在所述类别中的训练序列读取中提取特征;以及
基于所提取的所述特征来生成分布。
14.根据权利要求13所述的方法,
其中所述训练序列读取的所述特性包括所述替代读取的一种类型的碱基突变,
其中将所述训练序列读取中的每个训练序列读取分类为两个或更多个类别包括:基于所述训练序列读取上的所述替代等位基因的碱基突变的所述类型,将每个训练序列读取分类为伪影类别或非伪影类别之一。
15.根据权利要求13或14所述的方法,其中被分类为所述伪影类别的训练序列读取各自包括替代读取,所述替代读取是胞嘧啶至胸腺嘧啶突变或鸟嘌呤至腺嘌呤突变。
16.根据权利要求13至15中任一项所述的方法,其中被分类为所述伪影类别的训练序列读取各自包括位于距所述训练测序读取的边缘的阈值距离内的替代等位基因。
17.根据权利要求13至16中任一项所述的方法,其中被分类为所述非伪影类别的训练序列读取各自包括替代等位基因,所述替代等位基因位于距所述训练测序读取的边缘的阈值距离之外或者是除了胞嘧啶至胸腺嘧啶突变或鸟嘌呤至腺嘌呤突变之外的碱基取代。
18.根据权利要求1或2所述的方法,还包括:
通过去除与同义突变相关联的至少一个候选变体来过滤所述候选变体。
19.根据权利要求1-3中的任一项所述的方法,其中确定真实替代频率的所述似然还包括针对所述候选变体中的至少一个候选变体:
确定来自受试者的所述无细胞核酸样本中的第一序列读取的第一深度和第一替代深度;
确定来自所述受试者的基因组核酸样本中的第二序列读取的第二深度和第二替代深度;
通过使用由所述第一深度和所述无细胞核酸样本的所述真实替代频率参数化的第一函数对所述第一替代深度进行建模,来确定所述无细胞核酸样本的真实替代频率的第一似然;
通过使用由所述第二深度和所述基因组核酸样本的所述真实替代频率参数化的第二函数对所述第二替代深度进行建模,来确定所述基因组核酸样本的真实替代频率的第二似然;以及
其中所述模型至少通过使用所述第一似然、所述第二似然以及一个或多个参数来确定所述无细胞核酸样本的所述真实替代频率大于所述基因组核酸样本的所述真实替代频率的函数的概率来过滤所述候选变体。
20.根据权利要求19所述的方法,其中所述第一函数是由所述第一深度中的一个第一深度与所述无细胞核酸样本的所述真实替代频率的乘积参数化的泊松分布函数,并且其中所述第二函数是通过所述第二深度中的一个第二深度与所述基因组核酸样本的所述真实替代频率的另一乘积参数化的另一泊松分布函数。
21.根据权利要求19或权利要求20所述的方法,其中所述概率表示来自所述无细胞核酸样本的所述第一序列读取的突变在来自所述受试者的所述基因组核酸样本的所述第二序列读取中未被发现的置信度级别。
22.根据权利要求19至21中任一项所述的方法,还包括:
响应于确定所述概率大于所述一个或多个参数中的一个参数,确定来自所述无细胞核酸样本的所述第一序列读取的至少一些突变在来自所述受试者的所述基因组核酸样本的所述第二序列读取中未被发现。
23.根据权利要求19-22中任一项所述的方法,其中确定所述概率还包括:
确定所述无细胞核酸样本的所述真实替代频率大于所述基因组核酸样本的所述真实替代频率乘以所述一个或多个参数中的一个参数的概率。
24.根据权利要求19-23中任一项所述的方法,其中确定所述概率包括:
确定所述第一似然和所述第二似然的联合似然,给定所述第一序列读取和所述第二序列读取,所述第一似然和所述第二似然有条件地独立。
25.根据权利要求19至24中任一项所述的方法,其中确定所述概率包括通过以下各项在数值上近似所述第一似然和所述第二似然的联合似然:
确定所述第一似然和所述第二似然中的一个似然的累积和;以及
确定所述第一似然和所述第二似然中的另一似然的积分。
26.根据权利要求19-25中任一项所述的方法,其中所述一个或多个参数包括使用采用健康基因组核酸样本的替代频率作为输入的第三函数而被确定的第一参数。
27.根据权利要求26所述的方法,其中所述第三函数由防止序列读取中的杂合性事件损失的标准来定义。
28.根据权利要求27所述的方法,其中所述第三函数是非线性函数。
29.根据权利要求27所述的方法,其中所述标准指示所述第一参数的值为3,并且所述健康基因组核酸样本的所述替代频率的下限阈值为1/3。
30.根据权利要求19-25中任一项所述的方法,其中所述一个或多个参数包括使用第三函数而被确定的第一参数,所述第三函数采用以下各项作为输入:(i)来自所述基因组核酸样本的所述第二序列读取的所述第二替代深度中的一个第二替代深度,(ii)所述基因组核酸样本的参考深度,和(iii)关于健康基因组核酸样本的突变噪声级别的模型。
31.根据权利要求19至30中任一项所述的方法,其中所述一个或多个参数包括第二参数,所述第一参数和所述第二参数是通过与多个个体的无细胞核酸样本和基因组核酸样本的集合进行交叉验证而被经验性确定的。
32.根据权利要求31所述的方法,其中所述第一参数具有在1到5之间的值,包括1和5,并且其中所述第二参数具有的在0.5到1之间的另一值。
33.根据权利要求31所述的方法,其中所述交叉验证包括:应用使用与多种类型的疾病相关联的样本得到的候选参数值,以测试与不同类型的疾病相关联的另一样本。
34.根据权利要求19-33中的任一项所述的方法,还包括:
使用由第一参数参数化的第三函数,确定相对于健康无细胞核酸样本的突变的第一噪声级别,其中所述无细胞核酸样本的真实替代频率的所述第一似然还使用所述第一噪声级别而被确定;以及
使用由第二参数参数化的第四函数,确定相对于健康基因组核酸样本的突变的第二噪声级别,其中所述基因组核酸样本的真实替代频率的所述第二似然还使用所述第二噪声级别而被确定。
35.根据权利要求34所述的方法,其中对所述第一替代深度进行建模包括:将所述第一噪声级别添加至所述第一函数的输出,并且其中对所述第二替代深度进行建模包括将所述第二噪声级别添加至所述第二函数的另一输出。
36.根据权利要求34所述的方法,其中所述第一参数和所述第二参数表示相对于序列读取的给定位置来编码核酸突变的噪声级别的分布的参数。
37.根据权利要求34所述的方法,其中所述第三函数和所述第四函数各自是通过平均比率和分散参数来参数化的负二项式函数。
38.根据权利要求34所述的方法,其中所述第三函数和所述第四函数是相同类型的函数,并且由相同类型的参数来参数化。
39.根据权利要求34所述的方法,其中所述第一参数是使用第一模型得到的,所述第一模型是使用无细胞核酸样本集合训练的,并且所述第二参数是使用第二模型得到的,所述第二模型是使用基因组核酸样本集合训练的。
40.根据权利要求39所述的方法,其中所述基因组核酸样本集合来自白细胞。
41.根据权利要求39所述的方法,其中所述第一模型和所述第二模型是贝叶斯层次模型。
42.根据权利要求39所述的方法,其中所述第一模型和所述第二模型是相同类型的模型。
43.根据权利要求19-42中任一项所述的方法,还包括:
从所述受试者的血液样本中收集或已经收集了所述无细胞核酸样本;以及
对所述无细胞核酸样本执行富集以生成所述第一序列读取。
44.根据权利要求19-42中任一项所述的方法,其中所述第一序列读取是从所述受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、眼泪、组织活检、胸膜液、心包液或腹膜液的样本中获得的。
45.根据权利要求19-43中任一项所述的方法,其中所述第一序列读取是从来自血液的细胞的分离物中获得的,所述细胞至少包括所述受试者的CD4+细胞。
46.根据权利要求19-45中任一项所述的方法,其中所述第二序列读取是从所述受试者的肿瘤活检的肿瘤细胞获得的。
47.根据权利要求19-45中任一项所述的方法,其中所述第二序列读取是从所述受试者的白细胞获得的。
48.根据权利要求19-47中任一项所述的方法,还包括:
响应于以下各项来确定来自所述无细胞核酸样本的所述第一序列读取的候选变体与所述基因组核酸样本的核苷酸突变相关联:
确定所述概率小于阈值概率;以及
确定来自所述基因组核酸样本的所述第二序列读取的所述第二替代深度中的一个第二替代深度大于零。
49.根据权利要求48所述的方法,其中所述阈值概率等于0.8。
50.根据权利要求19-47中任一项所述的方法,还包括:
针对来自所述无细胞核酸样本中的所述第一序列读取的候选变体,响应于(i)确定所述概率小于阈值概率以及(ii)确定来自与所述候选变体相关联的所述基因组核酸样本的所述第二序列读取的所述第二替代深度中的一个第二替代深度等于零:
使用所述第一深度、所述第一替代深度、所述第二深度和所述第二替代深度确定比率;以及
至少响应于确定所述比率小于阈值比率,确定所述候选变体可能与所述基因组核酸样本的突变相关联。
51.根据权利要求50所述的方法,其中针对所述候选变体,所述一个或多个参数中的至少一个参数是基于所述候选变体可能与所述基因组核酸样本的所述突变相关联的所述确定而被确定的。
52.根据权利要求50所述的方法,还包括:
确定与所述候选变体相对应的一个或多个参数的第一集合;
使用所述一个或多个参数的第一集合将第一过滤器应用于所述候选变体;
响应于确定另一候选变体不太可能与所述基因组核酸样本的另一突变相关联,确定与所述另一候选变体相对应的一个或多个参数的第二集合;以及
使用所述一个或多个参数的第二集合将第二过滤器应用于另一个候选变体,所述第二过滤器具有比所述第一过滤器的过滤标准更严格的过滤标准。
53.根据权利要求50所述的方法,还包括:
使用所述第二序列读取的所述第二替代深度来确定gDNA深度质量得分;
其中确定所述候选变体可能与所述突变相关联还响应于确定所述gDNA深度质量得分大于或等于阈值得分。
54.根据权利要求53所述的方法,其中所述阈值得分是一。
55.根据权利要求19-54中任一项所述的方法,还包括:
通过确定所述第一序列读取满足多个标准中的至少一个标准,来确定过滤来自所述无细胞核酸样本的所述第一序列读取的候选变体。
56.根据权利要求55所述的方法,其中确定所述第一序列读取是否满足所述多个标准中的至少一个标准包括:
确定所述候选变体是边缘变体伪影。
57.根据权利要求55-56中任一项所述的方法,其中确定所述第一序列读取是否满足所述多个标准中的至少一个标准包括:
确定所述第一序列读取的所述第一深度中的一个第一深度小于阈值深度。
58.根据权利要求55-57中任一项所述的方法,其中确定所述第一序列读取是否满足所述多个标准中的至少一个标准包括:
确定所述第一序列中与一个或多个种系突变相似的突变的频率大于阈值频率;以及
确定所述突变位于与种系突变相关联的位置。
59.根据权利要求1-58中任一项所述的方法,其中通过所述模型过滤所述候选变体包括:针对所述多个候选变体中的一个候选变体:
确定所述无细胞核酸样本中的所述候选变体的真实替代频率大于所述对应基因组核酸样本中的所述候选变体的真实替代频率的函数的概率;
确定所述概率小于阈值概率;
确定所述基因组核酸样本中的所述候选变体的替代深度大于阈值深度;
使用所述无细胞核酸样本的深度和替代深度以及所述基因组核酸样本的另一深度和替代深度来确定比率;
使用所述基因组核酸样本的所述替代深度来确定gDNA深度质量得分;
响应于以下各项来确定所述候选变体可能与所述基因组核酸样本的突变相关联:
确定所述比率小于阈值比率;以及
确定所述gDNA深度质量得分大于或等于阈值得分。
60.根据权利要求1-59中任一项所述的方法,还包括:
使用所过滤的所述候选变体来生成一个或多个特征的值;
将所述一个或多个特征的所述值输入到预测性癌症模型中以生成针对所述受试者的癌症预测,所述预测性癌症模型通过包括学习权重的函数来将所述一个或多个特征的所述值转换为针对所述受试者的所述癌症预测;以及
提供针对所述受试者的所述癌症预测。
61.一种用于确定针对受试者的癌症预测的方法,所述方法包括:
获得与从所述受试者获得的测试样本中的无细胞核酸相关联的数据集合,所述数据集合包括从所述无细胞核酸上的测序测定生成的序列读取;
对所述序列读取执行或已经执行了计算分析以生成一个或多个特征的值,所述一个或多个特征从对所述测试样本中的所述无细胞核酸的小变体测序测定得到;
将所述一个或多个特征的所述值输入到预测癌症模型中以生成针对所述受试者的癌症预测,所述预测癌症模型通过包括学习权重的函数将所述一个或多个特征的所述值转换为针对所述受试者的所述癌症预测;以及
提供针对所述受试者的所述癌症预测。
62.根据权利要求61所述的方法,其中所述一个或多个特征包括以下各项中的一项或多项:体细胞变体总数、非同义变体总数、同义变体总数、基因板中的每个基因的体细胞变体的存在或不存在、已知与癌症相关联的特定基因的体细胞变体的存在或不存在、基因板中的每个基因的体细胞变体的等位基因频率、根据体细胞变体的AF的排名顺序、以及每个类别的体细胞变体的等位基因频率。
63.一种系统,包括计算机处理器和存储器,所述存储器存储计算机程序指令,所述计算机程序指令当由所述计算机处理器执行时,使所述处理器执行包括根据权利要求1-62中任一项所述的方法的步骤的步骤。
64.一种计算机产品,包括存储多个指令的计算机可读介质,所述多个指令用于控制计算机系统执行根据权利要求1-62中任一项所述的方法中的操作。
CN201880076840.2A 2017-11-28 2018-11-27 用于靶向测序的模型 Pending CN111742059A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201762591637P 2017-11-28 2017-11-28
US62/591,637 2017-11-28
US201762610917P 2017-12-27 2017-12-27
US62/610,917 2017-12-27
US201862642301P 2018-03-13 2018-03-13
US62/642,301 2018-03-13
US201862679347P 2018-06-01 2018-06-01
US62/679,347 2018-06-01
PCT/US2018/062666 WO2019108555A1 (en) 2017-11-28 2018-11-27 Models for targeted sequencing

Publications (1)

Publication Number Publication Date
CN111742059A true CN111742059A (zh) 2020-10-02

Family

ID=64734136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880076840.2A Pending CN111742059A (zh) 2017-11-28 2018-11-27 用于靶向测序的模型

Country Status (8)

Country Link
US (1) US11961589B2 (zh)
EP (1) EP3717662A1 (zh)
JP (2) JP2021503922A (zh)
CN (1) CN111742059A (zh)
AU (1) AU2018375302A1 (zh)
CA (1) CA3080170A1 (zh)
TW (1) TWI814753B (zh)
WO (1) WO2019108555A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927755A (zh) * 2021-02-09 2021-06-08 北京博奥医学检验所有限公司 一种鉴定cfDNA变异来源的方法和系统
CN114220480A (zh) * 2022-02-17 2022-03-22 武汉宏韧生物医药股份有限公司 一种药物成分分析方法及系统
CN116246705A (zh) * 2023-05-10 2023-06-09 国家食品安全风险评估中心 全基因组测序数据的分析方法和装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
US11482303B2 (en) 2018-06-01 2022-10-25 Grail, Llc Convolutional neural network systems and methods for data classification
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
CN113196404A (zh) 2018-12-19 2021-07-30 格瑞尔公司 利用无细胞dna样本中的小变异的多层分析的癌症组织来源预测
EP4004238A1 (en) 2019-07-23 2022-06-01 Grail, LLC Systems and methods for determining tumor fraction
US20220301654A1 (en) * 2019-08-28 2022-09-22 Grail, Llc Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
GB201914064D0 (en) * 2019-09-30 2019-11-13 Longas Tech Pty Ltd Method for determining a measure correlated to the probability that two mutated sequence reads derive from the same sequence comprising mutations
CN112133277B (zh) * 2020-11-20 2021-02-26 北京猿力未来科技有限公司 样本生成方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011161186A1 (en) * 2010-06-23 2011-12-29 Biocrates Life Sciences Ag Method for in vitro diagnosing sepsis utilizing biomarker composed of more than two different types of endogenous biomolecules
US20150178445A1 (en) * 2012-08-28 2015-06-25 The Broad Institute, Inc. Detecting variants in sequencing data and benchmarking
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
US20150324519A1 (en) * 2014-05-12 2015-11-12 Roche Molecular System, Inc. Rare variant calls in ultra-deep sequencing
CN105408496A (zh) * 2013-03-15 2016-03-16 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
CN106062214A (zh) * 2013-12-28 2016-10-26 夸登特健康公司 用于检测遗传变异的方法和系统
WO2017127741A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Methods and systems for high fidelity sequencing
WO2017181146A1 (en) * 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
WO2012142213A2 (en) 2011-04-15 2012-10-18 The Johns Hopkins University Safe sequencing system
EP4234713A3 (en) 2012-03-20 2024-02-14 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
US20140066317A1 (en) * 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CN113930507A (zh) * 2014-12-31 2022-01-14 夸登特健康公司 疾病的检测和治疗以及用于传送测试结果的系统和方法
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
US20170058332A1 (en) 2015-09-02 2017-03-02 Guardant Health, Inc. Identification of somatic mutations versus germline variants for cell-free dna variant calling applications
US10982286B2 (en) 2016-01-22 2021-04-20 Mayo Foundation For Medical Education And Research Algorithmic approach for determining the plasma genome abnormality PGA and the urine genome abnormality UGA scores based on cell free cfDNA copy number variations in plasma and urine
BR112019018272A2 (pt) 2017-03-02 2020-07-28 Youhealth Oncotech, Limited marcadores metilação para diagnosticar hepatocelular carcinoma e câncer
CN111278993A (zh) * 2017-09-15 2020-06-12 加利福尼亚大学董事会 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测
KR20200057024A (ko) * 2017-09-20 2020-05-25 가던트 헬쓰, 인크. 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템
US20200105375A1 (en) * 2018-09-28 2020-04-02 Grail, Inc. Models for targeted sequencing of rna

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011161186A1 (en) * 2010-06-23 2011-12-29 Biocrates Life Sciences Ag Method for in vitro diagnosing sepsis utilizing biomarker composed of more than two different types of endogenous biomolecules
US20150178445A1 (en) * 2012-08-28 2015-06-25 The Broad Institute, Inc. Detecting variants in sequencing data and benchmarking
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
CN105408496A (zh) * 2013-03-15 2016-03-16 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
CN106062214A (zh) * 2013-12-28 2016-10-26 夸登特健康公司 用于检测遗传变异的方法和系统
US20150324519A1 (en) * 2014-05-12 2015-11-12 Roche Molecular System, Inc. Rare variant calls in ultra-deep sequencing
WO2017127741A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Methods and systems for high fidelity sequencing
WO2017181146A1 (en) * 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALIC等: "Objective review of de novo stand-alone error correction methods for NGS data", 《WILEY INTERDISCIPLINARY REVIEWS COMPUTATIONAL MOLECULAR SCIENCE》 *
ALIC等: "Objective review of de novo stand-alone error correction methods for NGS data", 《WILEY INTERDISCIPLINARY REVIEWS COMPUTATIONAL MOLECULAR SCIENCE》, vol. 6, no. 2, 30 April 2016 (2016-04-30), pages 111 - 146, XP055449573, DOI: 10.1002/wcms.1239 *
何伟明 等: "基于重测序数据的群体SNP位点检测及基因型判断", 《中国优秀硕士学位论文全文数据库 基础科学辑》, vol. 2014, no. 1, 15 January 2014 (2014-01-15), pages 006 - 83 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927755A (zh) * 2021-02-09 2021-06-08 北京博奥医学检验所有限公司 一种鉴定cfDNA变异来源的方法和系统
CN112927755B (zh) * 2021-02-09 2022-03-25 北京博奥医学检验所有限公司 一种鉴定cfDNA变异来源的方法和系统
CN114220480A (zh) * 2022-02-17 2022-03-22 武汉宏韧生物医药股份有限公司 一种药物成分分析方法及系统
CN114220480B (zh) * 2022-02-17 2022-05-10 武汉宏韧生物医药股份有限公司 一种药物成分分析方法及系统
CN116246705A (zh) * 2023-05-10 2023-06-09 国家食品安全风险评估中心 全基因组测序数据的分析方法和装置
CN116246705B (zh) * 2023-05-10 2023-07-14 国家食品安全风险评估中心 全基因组测序数据的分析方法和装置

Also Published As

Publication number Publication date
TWI814753B (zh) 2023-09-11
CA3080170A1 (en) 2019-06-06
WO2019108555A8 (en) 2019-08-08
JP2023156402A (ja) 2023-10-24
US20190164627A1 (en) 2019-05-30
WO2019108555A1 (en) 2019-06-06
US11961589B2 (en) 2024-04-16
AU2018375302A1 (en) 2020-06-11
EP3717662A1 (en) 2020-10-07
TW201926095A (zh) 2019-07-01
JP2021503922A (ja) 2021-02-15

Similar Documents

Publication Publication Date Title
TWI814753B (zh) 用於標靶定序之模型
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
AU2019401636A1 (en) Systems and methods for estimating cell source fractions using methylation information
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
CN113196404A (zh) 利用无细胞dna样本中的小变异的多层分析的癌症组织来源预测
US20220090211A1 (en) Sample Validation for Cancer Classification
JP2023530463A (ja) ヒトパピローマウイルス関連癌の検出および分類
TWI781230B (zh) 使用針對標靶定序的定點雜訊模型之方法、系統及電腦產品
US20230090925A1 (en) Methylation fragment probabilistic noise model with noisy region filtration
CN110168099B (zh) 用于疾病和病症分析的无细胞dna甲基化模式
KR20240073026A (ko) 노이즈 영역 필터링을 사용한 메틸화 단편 확률론적 노이즈 모델

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220921

Address after: California, USA

Applicant after: Greer Co.,Ltd.

Address before: California, USA

Applicant before: Grail, Inc.