CN115244622A - 使用甲基化测序数据调用变体的系统和方法 - Google Patents

使用甲基化测序数据调用变体的系统和方法 Download PDF

Info

Publication number
CN115244622A
CN115244622A CN202180017401.6A CN202180017401A CN115244622A CN 115244622 A CN115244622 A CN 115244622A CN 202180017401 A CN202180017401 A CN 202180017401A CN 115244622 A CN115244622 A CN 115244622A
Authority
CN
China
Prior art keywords
genotype
nucleic acid
variant
acgt
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180017401.6A
Other languages
English (en)
Inventor
P·P·辛格
C·常
C·梅尔顿
O·C·维恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Greer Co ltd
Original Assignee
Greer Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Greer Co ltd filed Critical Greer Co ltd
Publication of CN115244622A publication Critical patent/CN115244622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了一种使用等位基因位置处的先验基因型概率的调用等位基因位置变体方法。使用链取向和映射至等位基因位置的每个相应核酸片段序列中等位基因位置处的相应碱基的同一性,获得等位基因位置的正向和反向上的链特异性碱基计数集合,其中等位基因位置处的碱基对链特异性碱基计数集合没有贡献,所述碱基的同一性能够受胞嘧啶向尿嘧啶的转化的影响。使用链特异性碱基计数集合和测序误差估计值为等位基因位置的每个候选基因型计算相应正向和反向链条件概率。使用这些条件概率和先前基因型概率的组合来计算似然性。由此,确定似然性是否支持等位基因位置处的变体调用。

Description

使用甲基化测序数据调用变体的系统和方法
相关专利申请的交叉引用
本申请要求于2020年2月28日提交的题为“使用甲基化测序数据调用变体的系统和方法”的美国临时专利申请第62/983,404号的优先权,该申请通过引用并入本文。
技术领域
本说明书描述了使用甲基化测序,特别是来自从受试者获得的生物样品的核酸样品的测序,以确定受试者的基因组变体。
背景技术
对癌症的分子基础的不断增加的了解以及下一代测序技术的快速发展,正在推进对体液中癌症发展所涉及的早期分子改变的研究。大规模测序技术,诸如下一代测序(NGS),已经提供了以每百万个碱基少于一美元的成本实现测序的机会,并且实际上已经实现了每百万个碱基少于十美分的成本。在血浆、血清和尿液无细胞DNA(cfDNA)中发现了与这类癌症发展相关联的特定性遗传和表观遗传改变。这类改变可潜在地用作几类癌症的诊断生物标志物。
无细胞DNA(cfDNA)可发现于代表“液体活检”的血清、血浆、尿液和其他体液中,其为特异性疾病的循环图。这代表了多种癌症的潜在非侵入性方法。
cfDNA来源于坏死或凋亡细胞,并且其一般由所有类型的细胞释放。特定的癌症改变可发现于患者的cfDNA中。cfDNA含有特异性肿瘤相关改变,诸如突变、甲基化和拷贝数变异(CNV)。
血浆或血清中cfDNA的存在得到充分表征。然而,ucfDNA也可为生物标志物的有前景的来源。
在血液中,细胞凋亡是决定cfDNA量的常见事件。然而,在癌症患者中,cfDNA的量也可受到坏死的影响。由于细胞凋亡似乎是主要的释放机制,因此循环cfDNA的大小分布显示在约167bp的短片段中的富集,对应于由细胞凋亡细胞生成的核小体。
肿瘤患者中血清和血浆中循环cfDNA的量似乎明显高于健康对照组,特别是在晚期肿瘤患者中循环cfDNA的量高于早期肿瘤患者。癌症患者的循环cfDNA的量的可变性高于健康个体,并且循环cfDNA的量受若干种生理和病理状况的影响,包括促炎性疾病。
甲基化状态和其他表观遗传修饰可与一些疾病状况诸如癌症的存在相关。并且已经确定甲基化特定模式与特定癌症病症相关联。甲基化模式甚至可在无细胞DNA中观察到。
鉴于循环cfDNA以及其他形式的基因型数据作为诊断指标的前景,本领域需要评估这类数据的基因组变体信息的方法。
发明内容
本公开通过提供使用核酸数据从获自受试者的生物样品确定基因组变体的稳健技术解决了背景中鉴定的缺点。甲基化数据与全基因组或靶向基因组测序数据的组合提供了超过先前筛查方法的附加诊断能力。
在本公开中提供了用于通过分析数据集来解决上述问题的技术方案(例如,计算系统、方法和非暂态计算机可读存储介质)。
为了提供对本发明的一些方面的基本理解,下面呈现本发明的概述。该概述不是本发明的广泛综述。它不旨在标识本发明的关键/重要元素或描绘本发明的范围。其唯一目的是以简化的形式呈现本发明的一些概念,作为稍后呈现的更详细描述的序言。
本公开的一个方面提供了调用测试受试者的等位基因位置处变体的方法。该方法包括,在具有一个或多个处理器和存储由一个或多个处理器执行的一个或多个程序的存储器的计算机系统处,使用从参考群体获取的核酸数据,获得候选基因型的集合中每个相应候选基因型在等位基因位置处的基因型的先验概率。该方法还包括获得针对等位基因位置的链特异性碱基计数集合。链特异性碱基计数集合包括等位基因位置处的碱基的集合中每个碱基在正向和反向上的链特异性计数。每个链特异性碱基计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的等位基因位置处的相应碱基的同一性来获取,所述第一多个核酸片段序列映射至等位基因位置,通过甲基化测序从测试受试者的第一生物样品中的第一多个核酸片段中获取。第一多个核酸片段序列中的等位基因位置处的碱基对链特异性碱基计数集合没有贡献,所述碱基的同一性可受甲基化或未甲基化胞嘧啶的转化影响。
该方法还包括使用链特异性碱基计数集合和测序误差估计值计算等位基因位置的候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而计算多个正向链条件概率和多个反向链条件概率。该方法继续计算多个似然性,多个似然性中的每个相应似然性用于候选基因型的集合中的相应候选基因型,其通过使用(i)多个反向链条件概率中的相应候选基因型的相应正向链条件概率,(ii)多个反向链条件概率中的相应候选基因型的相应反向链条件概率,和(iii)相应候选基因型的基因型的先验概率。该方法还包括确定多个似然性是否支持等位基因位置处的变体调用。
在一些实施方案中,第一生物样品是液体生物样品,并且第一多个核酸片段序列中的每个相应核酸片段序列代表液体生物样品中的无细胞核酸分子群体中的相应无细胞核酸分子的全部或一部分。
在一些实施方案中,第一生物样品是组织样品,并且第一多个核酸片段序列中的每个相应核酸片段序列代表组织样品中的核酸分子群体中的相应核酸分子的全部或一部分。在一些实施方案中,组织样品是来自测试受试者的肿瘤样品。
在一些实施方案中,参考群体包括至少一百名参考受试者。
在一些实施方案中,第一生物样品包括或由测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。在一些实施方案中,测试受试者为人类。
在一些实施方案中,正向是F1R2读段取向,反向是F2R1读段取向。
在一些实施方案中,基因型的集合中的每个相应候选基因型具有X/Y形式。在一些实施方案中,X(例如,代表母系等位基因遗传)是参考基因组中等位基因位置处的碱基的集合{A,C,T,G}中的碱基的同一性,并且Y(例如,代表父系等位基因遗传)是测试受试者中等位基因位置处的碱基的集合{A,C,T,G}中的碱基的同一性。
在一些实施方案中,候选基因型的集合包括集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的两种至十种基因型。在一些实施方案中,候选基因型的集合包括集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的至少两种基因型。在一些实施方案中,候选基因型的集合由集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}组成。
在一些实施方案中,候选基因型的集合中的相应候选基因型的相应似然性具有以下形式:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G)。
在一些这类实施方案中,Pr(FA,FG,FCT|FACGT,基因型,∈)是相应候选基因型的相应正向链条件概率。
Pr(Rc,RT,RAG|RACGT,基因型,∈)是相应候选基因型的相应反向链条件概率,Pr(G)是通过权利要求1的获得步骤(A)获取的相应候选基因型在等位基因位置处的基因型的先验概率,∈是测序误差估计值,基因型是相应候选基因型,FA是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基A的正向碱基计数,所述第一核酸片段序列映射至来自第一生物样品的等位基因位置,FG是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基G的正向碱基计数,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,FCT是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的(i)碱基C的正向碱基计数和(ii)碱基T的正向碱基计数的总和,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,RC是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基C的反向碱基计数,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,RT是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基T的反向碱基计数,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,并且RAG是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的(i)碱基A的反向碱基计数和(ii)碱基G的反向碱基计数的总和,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置。
在一些实施方案中,甲基化测序是全基因组甲基化测序。在一些实施方案中,甲基化测序是使用多个核酸探针的靶向DNA甲基化测序。在一些实施方案中,多个核酸探针包括一百个或更多个探针。在一些实施方案中,甲基化测序检测第一多个核酸片段中的相应核酸片段中的一个或多个5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5hmC)。在一些实施方案中,甲基化测序是亚硫酸氢盐测序,其中核酸样品用亚硫酸氢盐处理以将未甲基化胞嘧啶转化为尿嘧啶,尿嘧啶随后在测序分析期间作为胸腺嘧啶被检测。在一些实施方案中,甲基化胞嘧啶经过酶处理以转化为尿嘧啶(或其衍生物,诸如二氢尿嘧啶),其随后在测序分析期间作为胸腺嘧啶被检测。未修饰的胞嘧啶占人类基因组中总胞嘧啶的约95%。甲基化胞嘧啶而不是未甲基化胞嘧啶的转化可导致更少的基因组改变并为附加的分析诸如变体分析提供更多的信息。
在一些实施方案中,甲基化测序包括将第一多个核酸片段中的核酸片段中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。在一些实施方案中,一个或多个尿嘧啶在甲基化测序期间作为一个或多个对应的胸腺嘧啶被检测。在一些实施方案中,一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化包括化学转化、酶转化或其组合。在一些实施方案中,等位基因位置是单碱基位置,并且变体是单核苷酸多态性。在一些实施方案中,等位基因位置是单碱基位置,并且变体是单核苷酸变体。
在一些实施方案中,测序误差估计值在0.01和0.0001之间。在一些实施方案中,确定多个似然性是否支持等位基因位置处的变体调用包括:确定多个似然性中对应于等位基因位置的参考基因型的似然性是否满足变体阈值,其中当等位基因位置满足变体阈值时,等位基因位置处的变体被调用。在一些实施方案中,等位基因位置的参考基因型是A/A、G/G、C/C或T/T。
在一些实施方案中,似然性被表示为对数似然性,并且当等位基因位置的参考基因型的对数似然性小于-10时,满足变体阈值。在一些实施方案中,似然性被表示为对数似然性,并且变体阈值在-25和-5之间。
在一些实施方案中,该方法还包括,当调用等位基因位置处的变体时,通过在等位基因位置的候选基因型的集合中选择具有多个似然性中的最佳似然性的候选基因型作为变体来确定变体的同一性。
在一些实施方案中,该方法还包括执行以下步骤:获得基因型的相应先验概率、获得相应链特异性碱基计数集合、计算相应正向链条件概率和相应反向链条件概率、计算相应多个似然性,以及确定相应多个似然性是否支持多个等位基因位置中的每个等位基因位置的相应变体调用,从而获得对测试受试者的多个变体调用,其中多个变体调用中的每个变体调用位于参考基因组中的不同基因组位置。
在一些实施方案中,该方法还包括执行以下步骤:获得基因型的相应先验概率、获得相应链特异性碱基计数集合、计算相应正向链条件概率和相应反向链条件概率、计算相应多个似然性,以及确定相应多个似然性是否支持多个等位基因位置中的每个等位基因位置的相应变体调用,从而获得测试受试者的多个变体调用,其中多个变体调用中的每个变体调用位于参考基因组中的不同基因组位置处,并且其中第一生物样品是组织样品,并且甲基化测序是全基因组亚硫酸氢盐测序。在一些实施方案中,多个变体调用包括200个变体调用。
在一些实施方案中,该方法还包括使用通过全基因组测序从测试受试者的第二生物样品中的第二多个核酸片段获取的电子形式的第二多个核酸片段序列获得第二多个变体调用,其中第二多个核酸片段是无细胞核酸片段,并且其中第二生物样品是液体生物样品,并且从多个变体调用中去除也在第二多个变体调用中的相应变体调用。
在一些实施方案中,该方法还包括从多个变体调用中去除已知种系变体列表中的相应变体调用。在一些实施方案中,该方法还包括当在除测试受试者以外的受试者的组织样品中发现相应变体调用时,从多个变体调用中去除相应变体调用。在一些实施方案中,该方法还包括当相应变体调用未能满足质量度量时,从多个变体调用中去除相应变体调用。
在一些实施方案中,质量度量是电子形式的第一多个核酸片段序列中映射至相应变体调用的等位基因位置的最小变体等位基因分数。在一些实施方案中,最小变体等位基因分数为百分之十。在一些实施方案中,质量度量是电子形式的第一多个核酸片段序列中映射至相应变体调用的等位基因位置的最大变体等位基因分数。在一些实施方案中,最大变体等位基因分数是百分之九十。在一些实施方案中,质量度量是电子形式的第一多个核酸片段序列中映射至相应变体调用的等位基因位置的最小深度。在一些实施方案中,最小深度为十。
在一些实施方案中,该方法还包括在该去除之后使用该多个变体调用来执行肿瘤分数估计。在一些实施方案中,该方法还包括在去除之后使用多个变体调用来定量(例如,确定或估计)白细胞克隆扩增。在一些实施方案中,所述方法还包括使用多个变体调用通过使用多个变体调用的种系分析来评估受试者的遗传风险。
本公开的另一方面提供了一种计算系统,包括一个或多个处理器,以及存储要由一个或多个处理器执行的一个或多个程序的存储器。一个或多个程序包括用于通过一种方法调用测试受试者的等位基因位置处的变体的指令。该方法包括使用从参考群体获取的核酸数据,获得候选基因型的集合中每个候选基因型在等位基因位置处的基因型的先验概率。该方法还包括获得针对等位基因位置的链特异性碱基计数集合,其中链特异性碱基计数集合包括等位基因位置处的碱基的集合{A,C,T,G}中每个碱基在正向和反向上的链特异性计数,该链特异性计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的等位基因位置处的相应碱基的同一性来获取,所述第一多个核酸片段序列映射至等位基因位置,通过甲基化测序从测试受试者的第一生物样品中的第一多个核酸片段中获取,并且其中第一多个核酸片段序列中的等位基因位置处的碱基对链特异性碱基计数集合没有贡献,所述碱基的同一性可受未甲基化胞嘧啶向尿嘧啶的转化的影响。该方法还包括使用链特异性碱基计数集合和测序误差估计值计算等位基因位置的候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而计算多个正向链条件概率和多个反向链条件概率。该方法还包括计算多个似然性,多个似然性中的每个相应似然性用于候选基因型的集合中的相应候选基因型,其使用:(i)多个正向链条件概率中的相应候选基因型的相应正向链条件概率,(ii)多个反向链条件概率中的相应候选基因型的相应反向链条件概率,和(iii)相应候选基因型的基因型的先验概率。该方法还包括确定多个似然性是否支持等位基因位置处的变体调用。本公开的另一方面提供了一种包括以上公开的一个或多个程序的计算系统,所述程序还包括用于单独或组合地执行以上公开的方法中的任一种的指令。
本公开的另一方面提供了一种非暂态计算机可读存储介质,其存储用于调用测试受试者中的等位基因位置处的变体的一个或多个程序。一个或多个程序被配置为由计算机执行。此外,一个或多个程序包括使用从参考群体获取的核酸数据获得候选基因型的集合中每个相应候选基因型在等位基因位置处的基因型的先验概率的指令。一个或多个程序还包括用于获得针对等位基因位置的链特异性碱基计数集合的指令,其中链特异性碱基计数集合包括等位基因位置处的碱基的集合{A,C,T,G}中每个碱基在正向和反向上的链特异性计数,该链特异性计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的等位基因位置处的相应碱基的同一性来获取,所述第一多个核酸片段序列映射至等位基因位置,通过甲基化测序从测试受试者的第一生物样品中的第一多个核酸片段中获取,并且其中第一多个核酸片段序列中的等位基因位置处的碱基对链特异性碱基计数集合没有贡献,所述碱基的同一性可受未甲基化胞嘧啶向尿嘧啶的转化的影响。一个或多个程序还包括使用链特异性碱基计数集合和测序误差估计值计算等位基因位置的候选基因型的集合中每个候选基因型的相应正向链条件概率和相应反向链条件概率的指令,从而计算多个正向链条件概率和多个反向链条件概率。一个或多个程序还包括用于计算多个似然性的指令,多个似然性中的每个相应似然性用于候选基因型的集合中的相应候选基因型,其使用(i)多个正向链条件概率中的相应候选基因型的相应正向链条件概率,(ii)多个反向链条件概率中的相应候选基因型的相应反向链条件概率,和(iii)相应候选基因型的基因型的先验概率的组合。一个或多个程序还包括用于确定多个似然性是否支持等位基因位置处的变体调用的指令。
本公开的另一方面提供了包括上述公开的一个或多个程序的非暂态计算机可读存储介质,其中一个或多个程序还包括用于单独或组合地执行上述公开的方法中的任一种的指令。一个或多个程序被配置为由计算机执行。
本公开的又一方面提供了一种计算系统,该计算系统包括一个或多个处理器和存储待由该一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括执行上述公开的方法中的任一种的指令。
在所附权利要求书的范围内的系统、方法和设备的各种实施方案各自具有若干个方面,其中没有单个方面单独负责本文所描述的所需属性。在不限制所附权利要求的范围的情况下,本文描述了一些突出特征。在考虑本论述之后,特别是在阅读标题为“具体实施方式”的部分之后,人们将理解如何使用各种实施方案的特征。
通过引用并入本文
在本说明书中提及的所有出版物、专利和专利申请均以引用的方式全文并入本文,其程度如同每个单独的出版物、专利或专利申请被具体且单独地指明以引用的方式并入本文。
附图说明
在附图中以示例而非限制的方式说明了本文所公开的实施方式。在附图的若干个视图中,相同的附图标记是指对应的部分。
图1示出了根据现有技术的染色体1中的受试者变体的示例文氏图,其中通过全基因组亚硫酸氢盐测序鉴定了变体的集合20,并且使用freebayes参考文献鉴定了附加的变体的集合10(Zook等人2014年,“整合人序列数据集提供了基准SNP和indel基因型调用的资源”《自然·生物技术(Nat.Biotech.)》32,246-251)。在本示例中的体细胞变体组中,四分之三没有被当前的方法包括或鉴定。
图2示出了示出根据本公开的一些实施方案的计算设备的示例框图。
图3A、图3B、图3C和图3D共同示出了根据本公开的一些实施方案的调用变体等位基因的方法的示例流程图,其中虚线框代表任选步骤。
图4示出了根据本公开的一些实施方案从来自受试者的亚硫酸氢盐处理的生物样品中鉴定的种系变体的示例。
图5示出了根据本公开的一些实施方案从来自受试者的亚硫酸氢根处理的生物样品中鉴定的体细胞变体的示例,其中每个变体具有单链支持物。
图6示出了根据本公开的一些实施方案从成对的全基因组亚硫酸氢盐测序(WGBS)和全基因组测序(WGS)无细胞核酸片段中鉴定的体细胞变体的示例。
图7示出了根据本公开的一些实施方案的用于制备用于测序的核酸样品的方法的流程图。
图8是根据本公开的一些实施方案的用于获得序列读段的过程的图形代表。
图9示出了根据本公开的一些实施方案的用于获得甲基化信息用于筛查测试受试者中的癌症状况的方法的示例流程图。
图10示出了根据本公开的一些实施方案的候选基因型对数似然性的示例计算。
图11示出了根据本公开的一些实施方案的将基因组的一部分列入黑名单以用于组织分数分析的示例。
图12示出了根据本公开的一些实施方案的基于似然性阈值过滤变体的示例。
图13A和图13B示出了可根据本公开的一些实施方案执行的肿瘤分数估计的两个示例(例如,1300和1302)。
图14示出了根据图13B的方法处理用于肿瘤分数估计的样品的示例。
图15示出了根据本公开的实施方案在一系列过滤步骤中的每一阶段处图13B的方法的性能,如图14中进一步示出的。
图16显示了根据本公开的实施方案用于使用0、-10、-20、-30、-40、-50、-60、-70、-80和-90的阈值以及成对的全基因组亚硫酸氢盐测序(WGBS)/全基因组测序(WGS)测序数据来调用等位基因的灵敏性、特异性、真阳性率和假阳性率。
图17A和图17B示出了根据本公开的实施方案的用于计算肿瘤分数的两个不同的python脚本。
具体实施方式
现在将详细参考实施方案,其示例在附图中示出。在以下详细描述中,阐述了许多具体细节,以便提供对本公开的透彻理解。然而,对于本领域普通技术人员显而易见的是,可在没有这些具体细节的情况下实践本公开。在其他情况下,没有详细描述公知的方法、过程、组件、电路和网络,以免不必要地模糊实施方案的各方面。
本文所描述的实施方式提供了用于确定受试者的等位基因位置处的变体调用的各种技术方案。获得等位基因位置的候选基因型的集合中每个候选基因型的先验基因型概率。对于受试者,在等位基因位置的正向和反向上获得链特异性碱基计数集合。正向和反向链特异性碱基计数使用链取向信息和在映射至等位基因位置的每个相应核酸片段序列中的等位基因位置处的相应碱基的同一性来确定。等位基因位置处的碱基对链特异性碱基计数集合没有贡献,所述碱基的同一性可受甲基化或未甲基化胞嘧啶向尿嘧啶的转化的影响。基于受试者的链特异性碱基计数集合和误差估计,为候选基因型的集合中的每个候选基因型计算相应的正向和反向链条件概率。计算多个候选基因型似然性,多个似然性中的每个相应似然性用于候选基因型集合中的相应候选基因型。每个似然性使用(i)多个正向链条件概率中的相应候选基因型的相应正向链条件概率,(ii)多个反向链条件概率中的相应候选基因型的相应反向链条件概率,和(iii)相应候选基因型的基因型的先验概率的组合来计算。确定多个似然性是否支持受试者的等位基因位置处的变体调用。
定义
如本文所用,术语“约”或“大约”意指在本领域普通技术人员确定的特定值的可接受误差范围内,这部分取决于如何测量或确定该值,例如测量系统的限制。例如,根据本领域的实践,在一些实施方案中,“约”意指在1个或多于1个标准偏差内。在一些实施方案中,“约”意指给定值的±20%、±10%、±5%或±1%的范围。在一些实施方案中,术语“约”或“大约”意指在一个数值的数量级内、5倍内或2倍内。在本申请和权利要求书中描述特定值的情况下,除非另有说明,否则可假定术语“约”意指在特定值的可接受误差范围内。术语“约”可具有本领域普通技术人员通常理解的含义。在一些实施方案中,术语“约”是指±10%。在一些实施方案中,术语“约”是指±5%。
如本文所用,术语“测定”是指用于确定物质(例如核酸、蛋白质、细胞、组织或器官)的性质的技术。测定(例如,第一测定或第二测定)可包括用于确定样品中核酸的拷贝数变异、样品中核酸的甲基化状态、样品中核酸的片段大小分布、样品中核酸的突变状态或样品中核酸的片段化模式的技术。任何测定均可用于检测本文提及的核酸的任何性质。核酸的性质可包括序列、基因组同一性、拷贝数、一个或多个核苷酸位置处的甲基化状态、核酸的大小、核酸中一个或多个核苷酸位置处突变的存在与否,以及核酸的片段化模式(例如,核酸片段所在的核苷酸位置(一个或多个))。测定或方法可具有特定的灵敏性和/或特异性,并且它们作为诊断工具的相对有用性可使用ROC-AUC统计来测量。
如本文所公开的,术语“生物样品”是指取自受试者的任何样品,其可反映与受试者相关联的生物状态,并且其包括无细胞DNA。生物样品的示例包括但不限于受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。生物样品可包括来源于活的或死的受试者的任何组织或材料。生物样品可为无细胞样品。生物样品可包括核酸(例如DNA或RNA)或其片段。术语“核酸”可指脱氧核糖核酸(DNA)、核糖核酸(RNA)或其任何杂交体或片段。样品中的核酸可为无细胞核酸。样品可为液体样品或固体样品(例如,细胞或组织样品)。生物样品可为体液,诸如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸的鞘膜积液)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰、支气管肺泡灌洗液、来自乳头的排出液、来自身体不同部位(例如甲状腺、乳房)的抽吸液等。生物样品可为粪便样品。在各种实施方案中,已经富集无细胞DNA的生物样品(例如,经由离心方案获得的血浆样品)中的大部分DNA可为无细胞的(例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可为无细胞的)。可处理生物样品以物理破坏组织或细胞结构(例如离心和/或细胞裂解),从而将细胞内组分释放到溶液中,所述溶液可进一步含有可用于制备用于分析的样品的酶、缓冲液、盐、去污剂等。
如本文所公开的,术语“核酸”和“核酸分子”可互换使用。该术语是指任何组成形式的核酸,诸如脱氧核糖核酸(DNA,例如互补DNA(cDNA)、基因组DNA(gDNA)等)、核糖核酸(RNA,例如信使RNA(mRNA)、短抑制性RNA(siRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA、由胎儿或胎盘高度表达的RNA等),和/或DNA或RNA类似物(例如含有碱基类似物、糖类似物和/或非天然主链等)、RNA/DNA杂合体和聚酰胺核酸(PNA),所有这些均可为单链或双链形式。除非另有限制,核酸可包括天然核苷酸的已知类似物,其中一些可按与天然存在的核苷酸类似的方式起作用。核酸可为可用于实行本文方法的任何形式(例如,线性、环状、超螺旋、单链、双链等)。在一些实施方案中,核酸可来自单个染色体或其片段(例如,核酸样品可来自从二倍体生物体获得的样品的一个染色体)。在某些实施方案中,核酸包括核小体、核小体的片段或部分或核小体样结构。核酸有时包括蛋白质(例如组蛋白、DNA结合蛋白等)。通过本文所描述的方法分析的核酸有时基本上是分离的,并且基本上不与蛋白质或其他分子结合。核酸还包括从单链(“有义”或“反义”、“正”链或“负”链、“正向”阅读链或“反向”阅读链)和双链多核苷酸合成、复制或扩增的RNA或DNA的衍生物、变体和类似物。脱氧核糖核苷酸包括脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。对于RNA,碱基胞嘧啶被尿嘧啶取代,并且糖2'位置包括羟基部分。可使用从受试者获得的核酸作为模板来制备核酸。
如本文所公开的,术语“无细胞核酸”、“无细胞DNA”和“cfDNA”可互换地指在受试者体内(例如,在诸如血流的体液中)循环并源自一个或多个健康细胞和/或源自一个或多个癌细胞的核酸片段。无细胞DNA可从受试者的体液诸如血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、汗液、泪液、胸膜液、心包液或腹膜液中回收。无细胞核酸可与循环核酸互换使用。无细胞核酸的示例包括但不限于RNA、线粒体DNA或基因组DNA。
如本文所公开的,术语“循环肿瘤DNA”或“ctDNA”是指源自异常组织(诸如肿瘤或其他类型癌症的细胞)的核酸片段,其可由于生物过程(诸如死亡细胞的凋亡或坏死)的原因释放到受试者的血流中,或由存活的肿瘤细胞主动释放。
如本文所公开的,术语“参考基因组”是指可用于参考来自受试者的已鉴定序列的任何生物体或病毒的任何特定的已知的、测序的或表征的基因组,无论是部分或完整的。在由国家生物技术信息中心(“NCBI”)或加州大学圣克鲁兹分校(UCSC)主持的在线基因组浏览器中提供了用于人类受试者以及许多其他生物体的示例性参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。如本文所用,参考序列或参考基因组常常是来自一个个体或多个个体的组装或部分组装的基因组序列。在一些实施方案中,参考基因组是来自一个或多个人类个体的组装或部分组装的基因组序列。参考基因组可被视为一个物种的基因集合的代表性示例。在一些实施方案中,参考基因组包括分配给染色体的序列。示例性人类参考基因组包括但不限于NCBI build 34(UCSC等同物:hg16)、NCBI build35(UCSC等同物:hg17)、NCBI build 36.1(UCSC等同物:hg18)、GRCh37(UCSC等同物:hg19)和GRCh38(UCSC等同物:hg38)。
如本文所公开的,术语“参考基因组的区域”、“基因组区域”或“染色体区域”是指参考基因组的任何部分,连续的或非连续的。它也可被称为例如仓、分区、基因组部分、参考基因组的一部分、染色体的一部分等。在一些实施方案中,基因组区段基于基因组序列的特定长度。在一些实施方案中,一种方法可包括对多个基因组区域的多个映射的序列读段的分析。基因组区域可为大约相同的长度或基因组区段可为不同的长度。在一些实施方案中,基因组区域具有约相等的长度。在一些实施方案中,不同长度的基因组区域被调整或加权。在一些实施方案中,基因组区域为约10千碱基(kb)至约500kb、约20kb至约400kb、约30kb至约300kb、约40kb至约200kb,并且有时约50kb至约100kb。在一些实施方案中,基因组区域为约100kb至约200kb。基因组区域不限于连续序列。因此,基因组区域可由连续和/或非连续序列组成。基因组区域不限于单个染色体。在一些实施方案中,基因组区域包括一条染色体的全部或一部分,或者两条或更多条染色体的全部或一部分。在一些实施方案中,基因组区域可跨越一条、两条或更多条完整染色体。另外,基因组区域可跨越多个染色体的连接或分离部分。
如本文所用,术语“核酸片段序列”是指具有至少三个连续核苷酸的多核苷酸序列的全部或一部分。在对发现于生物样品中的核酸片段进行测序的上下文中,术语“核酸片段序列”是指生物样品中发现的核酸分子(例如DNA片段)的序列或其表示(例如序列的电子表示)。来自独特核酸片段(例如,无细胞核酸)的测序数据(例如,来自全基因组测序、靶向测序等的原始或校正的序列读段)用于确定核酸片段序列。这类序列读段实际上可从原始核酸片段的PCR副本的测序中获得,因此“代表”或“支持”核酸片段序列。可存在多个序列读段,每个序列读段代表或支持生物样品中的特定核酸片段(例如,PCR副本),然而,对于特定核酸片段,可存在一个核酸片段序列。在一些实施方案中,组合或去除为原始核酸片段生成的重复序列读段(例如,折叠成单一序列,例如核酸片段序列)。因此,当确定与样品中的核酸片段群体相关的度量时,每个核酸片段包括特定基因座的(例如,基因座的丰度值或基于片段长度分布特征的度量),核酸片段群体的核酸片段序列,而不是支持序列读段(例如,其可由群体中核酸片段的PCR副本生成)可用于确定度量。这是因为,在这类实施方案中,序列的一个拷贝用于代表原始(例如,独特的)核酸片段(例如,独特的核酸分子)。应注意,核酸片段群体的核酸片段序列可包括若干个相同的序列,每个序列代表不同的原始核酸片段,而不是相同原始核酸片段的副本。在一些实施方案中,无细胞核酸被认为是核酸片段。
本文可互换使用的术语“序列读段”或“读段”是指通过本文所述或本领域已知的任何测序方法产生的核苷酸序列。读段可从核酸片段的一端生成(“单端读段”),并且有时从核酸的两端生成(例如,成对端读段、双端读段)。序列读段的长度常常与特定的测序技术相关联。例如,高通量方法提供了大小可从几十到几百个碱基对(bp)不等的序列读段。在一些实施方案中,序列读段具有约15bp至900bp长的平均值、中值或平均长度(例如,约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp)。在一些实施方案中,序列读段具有约1000bp或更长的平均值、中值或平均长度。例如,纳米孔测序可提供大小可从几十到几百到几千碱基对不等的序列读段。Illumina平行测序可提供变化不大的序列读段,例如,大部分序列读段可小于200bp。
如本文所公开的,本文所用的术语“测序”、“序列确定”等一般是指可用于确定生物大分子诸如核酸或蛋白质的顺序的任何和所有生物化学过程。例如,测序数据可包括核酸分子诸如DNA片段中的全部或一部分核苷酸碱基。
如本文所公开的,术语“单核苷酸变体”或“SNV”是指在核苷酸序列(例如,从个体读取的序列)的位置(例如,位点)处将一个核苷酸取代为不同的核苷酸。从第一核碱基X到第二核碱基Y的取代可被表示为“X>Y”。例如,胞嘧啶到胸腺嘧啶的SNV可被表示为“C>T”。
如本文所用,术语“甲基化”是指脱氧核糖核酸(DNA)的修饰,其中胞嘧啶碱基的嘧啶环上的氢原子被转化为甲基,形成5-甲基胞嘧啶。特别地,甲基化倾向于发生于胞嘧啶和鸟嘌呤的二核苷酸处,在本文中称为“CpG位点”。在其他情况下,甲基化可发生于不是CpG位点的一部分的胞嘧啶处,或者发生于不是胞嘧啶的另一个核苷酸处;然而,这种情况很少发生。在本公开中,为了清楚起见,参考CpG位点论述甲基化。异常的cfDNA甲基化可被鉴定为高甲基化或低甲基化,两者均可指示癌症状态。如本领域所熟知的,DNA甲基化异常(与健康对照组相比)可引起不同的影响,这可导致癌症。
在鉴定异常甲基化cfDNA片段中出现了各种挑战。首先,确定受试者的cfDNA异常甲基化仅与一组对照受试者相比有意义,使得如果对照组的数目较少,则该确定对小对照组失去信心。另外,在一组对照受试者中,甲基化状态可变化,这在确定受试者的cfDNA异常甲基化时可能难以说明。另一方面,CpG位点处胞嘧啶的甲基化因果地影响后续CpG位点处的甲基化。
本文所描述的原理同样适用于检测非CpG环境中的甲基化,包括非胞嘧啶甲基化。此外,甲基化状态载体可含有一般是甲基化已经发生或没有发生的位点的载体的元件(即使那些位点不是CpG位点特异性的)。有了这种取代,本文所描述的方法的其余部分是相同的,因此,本文所描述的发明概念适用于那些其他形式的甲基化。
如本文所用,每个基因组位点(例如,CpG位点,其中在沿着其5'→3'方向的线性碱基序列中胞嘧啶碱基之后是鸟嘌呤碱基的DNA区域)的术语“甲基化指数”可指显示该位点甲基化序列读段占覆盖该位点的总读段的比例。区域的“甲基化密度”可为显示甲基化区域内的位点的读段数目除以覆盖该区域中的位点的读段总数。位点可具有特定特性(例如,位点可为CpG位点)。一个区域的“CpG甲基化密度”可为显示CpG甲基化读段的数目除以覆盖该区域中的CpG位点(例如,特定CpG位点、CpG岛内的CpG位点,或更大的区域)的读段的总数。例如,人类基因组中每个100-kb仓的甲基化密度可由CpG位点处未转化的胞嘧啶(其可对应于甲基化胞嘧啶)的总数,作为映射至100-kb区域的序列读段所覆盖的所有CpG位点的比例来确定。在一些实施方案中,该分析针对其他仓大小,例如50-kb或1-Mb等执行。在一些实施方案中,区域是完整基因组或染色体或染色体的一部分(例如染色体臂)。当一个区域包括CpG位点时,该区域的CpG位点的甲基化指数可与该区域的甲基化密度相同。“甲基化胞嘧啶的比例”可指在所分析的胞嘧啶残基的总数中显示为被甲基化(例如亚硫酸氢盐转化后未转化)的胞嘧啶位点“C's”的数目,例如包括该区域中CpG背景之外的胞嘧啶。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的示例。
如本文所用,术语“甲基化谱”(也称为甲基化状态)可包括与区域的DNA甲基化相关的信息。与DNA甲基化相关的信息可包括CpG位点的甲基化指数、区域中CpG位点的甲基化密度、CpG位点在连续区域上的分布、含有多于一个CpG位点的区域内每个单独CpG位点的甲基化模式或水平,以及非CpG甲基化。基因组相当一部分的甲基化谱可被认为等同于甲基化组。哺乳动物基因组中的“DNA甲基化”可指将甲基添加到CpG二核苷酸中的胞嘧啶的杂环的5位(例如,以产生5-甲基胞嘧啶)。胞嘧啶的甲基化可发生于其他序列背景中的胞嘧啶中,例如5'-CHG-3'和5'-CHH-3',其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可呈5-羟甲基胞嘧啶的形式。DNA的甲基化可包括非胞嘧啶核苷酸诸如N6-甲基腺嘌呤的甲基化。
如本文所公开的,术语“受试者”、“参考受试者”或“测试受试者”是指任何活的或非活的生物体,包括但不限于人(例如,男性、女性、胎儿、怀孕女性、儿童等)、非人动物、植物、细菌、真菌或原生生物。任何人类或非人类动物可用作受试者,包括但不限于哺乳动物、爬行动物、禽类、两栖动物、鱼类、有蹄类动物、反刍动物、牛类(例如,牛)、马类(例如,马)、山羊类和绵羊类(例如,绵羊、山羊)、猪类(例如,猪)、骆驼类(例如,骆驼、美洲驼、羊驼)、猴、猿(例如,大猩猩、黑猩猩)、熊科(例如,熊)、家禽、狗、猫、小鼠、大鼠、鱼、海豚、鲸和鲨鱼。术语“受试者”和“患者”在本文中可互换使用,并且是指已知患有或可能患有医学病况或病症(例如癌症)的人类或非人类动物。在一些实施方案中,受试者是任何阶段的男性或女性(例如,男性、女性或儿童)。
从中取样或用本文所描述的任何方法或组合物处理的受试者可为任何年龄,并且可为成人、婴儿或儿童。在一些情况下,受试者,例如患者是0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54。55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99岁,或在其中的范围内(例如,约2岁至约20岁,约20岁至约40岁,或约40岁至约90岁)。特定类别的受试者,例如可受益于本公开的方法的患者是受试者,例如超过40岁的患者。
另一特定类别的受试者,例如可受益于本公开的方法的患者是可处于慢性心脏症状的较高风险的儿科患者。此外,受试者(例如,从中取得样品或通过本文所描述的任何方法或组合物处理的患者)可为男性或女性。
本文所使用的术语“归一化”是指将一个值或值的集合转换为用于比较目的的共同参考系。例如,当诊断性ctDNA水平用基线ctDNA水平“归一化”时,将诊断性ctDNA水平与基线ctDNA水平进行比较,从而可确定诊断性ctDNA水平与基线ctDNA水平的差异量。
如本文所用,术语“癌症”或“肿瘤”是指组织的异常团块,其中该团块的生长超过正常组织的生长,并且与正常组织的生长不协调。癌症或肿瘤可被定义为“良性”或“恶性”,这取决于以下特性:包括形态和功能的细胞分化程度、生长速率、局部侵入和转移。“良性”肿瘤可为分化良好的,具有比恶性肿瘤慢的特征性生长,并且保持定位于起源部位。此外,在一些情况下,良性肿瘤不具有浸润、侵入或转移到远处部位的能力。“恶性”肿瘤可为低分化的(间变性),具有特征性的快速生长,伴随着周围组织的进行性浸润、侵入和破坏。此外,恶性肿瘤可具有转移至远处部位的能力。
如本文所用,术语“组织”对应于一起作为功能单位的一组细胞。在单个组织中可发现不止一种类型的细胞。不同类型的组织可由不同类型的细胞(例如肝细胞、肺泡细胞或血细胞)组成,但也可对应于来自不同生物体(母亲对胎儿)的组织或对应于健康细胞对肿瘤细胞。术语“组织”一般可指发现于人体中的任何细胞组(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指无细胞核酸来源的组织。在一个示例中,病毒核酸片段可来源于血液组织。在另一个示例中,病毒核酸片段可来源于肿瘤组织。
如本文所用,术语“未经训练的分类器”是指未在目标数据集上训练的分类器。例如,考虑下面论述的甲基化状态向量的第一规范集合(canonical set)和甲基化状态向量的第二规范集合的情况。将甲基化状态向量的相应规范集合作为未经训练的分类器的集体输入,与由甲基化状态向量的第一规范集合(下文中称为“初级训练数据集”)所代表的每个相应参考受试者的细胞来源一起应用,以在细胞来源上训练未经训练的分类器,从而获得经训练的分类器。此外,应理解,术语“未经训练的分类器”不排除在这类未经训练的分类器的训练中使用迁移学习技术的可能性。例如,Fernandes等人,2017年,“应用于宫颈癌筛查的具有部分可观察性的迁移学习”,《模式识别和图像分析:第8届伊比利亚会议论文集》,243-250,其通过引用并入本文,提供了这类迁移学习的非限制性示例。在使用迁移学习的情况下,为上述未经训练的分类器提供超过和超出主训练数据集的附加数据。也就是说,在迁移学习实施方案的非限制性示例中,未经训练的分类器接收(i)甲基化状态向量的规范集合和由甲基化状态向量的规范集合所代表的每个参考受试者的细胞来源标签(“初级训练数据集”)和(ii)附加数据。典型地,该附加数据是以从另一辅助训练数据集学习的系数(例如,回归系数)的形式。此外,虽然已经公开了单个辅助训练数据集的描述,但是应理解,在本公开中,对在训练未训练分类器时可用于补充主训练数据集的辅助训练数据集的数目没有限制。例如,在一些实施方案中,两个或更多个辅助训练数据集、三个或更多个辅助训练数据集、四个或更多个辅助训练数据集或五个或更多个辅助训练数据集用于通过迁移学习来补充主训练数据集,其中每个这类辅助数据集不同于主训练数据集。在这类实施方案中可使用任何方式的迁移学习。例如,考虑除了主训练数据集之外还有第一辅助训练数据集和第二辅助训练数据集的情况。从第一辅助训练数据集学习的系数(通过对第一辅助训练数据集应用诸如回归的分类器)可使用迁移学习技术(例如,上述二维矩阵乘法)应用于第二辅助训练数据集,这继而可产生经训练的中间分类器,其系数然后应用于主训练数据集,并且这结合主训练数据集本身一起应用于未经训练的分类器。备选地,从第一辅助训练数据集学习的第一系数集合(通过将诸如回归的分类器应用于第一辅助训练数据集)和从第二辅助训练数据集学习的第二系数集合(通过将诸如回归的分类器应用于第二辅助训练数据集)可各自单独地应用于主训练数据集的单独示例(例如,通过单独的独立矩阵乘法),并且这两种将系数应用于单独的主训练数据集实例连同主训练数据集本身(或主训练数据集的某种简化形式,诸如从主训练集中学习的主分量或回归系数)的方法可应用于未经训练的分类器,以便训练未经训练的分类器。在任一示例中,使用从第一和第二辅助训练数据集导出的关于细胞来源(例如,癌症类型等)的知识,结合标记为主要训练数据集的细胞来源来训练未经训练的分类器。
术语“分类”可指与样品的特定属性相关联的任何数目(一个或多个)或其他字符(一个或多个)。例如,“+”符号(或单词“阳性”)可表示样品被分类为具有缺失或扩增。在另一个示例中,术语“分类”是指受试者和/或样品中肿瘤组织的量、受试者和/或样品中肿瘤的大小、受试者中肿瘤的阶段、受试者和/或样品中的肿瘤负荷以及受试者中肿瘤转移的存在。在一些实施方案中,分类是二元的(例如,阳性或阴性)或具有更多级的分类(例如,从1至10或0至1的标度)。在一些实施方案中,术语“截止”和“阈值”是指在操作中使用的预定数目。在一个示例中,截止大小是指超过其片段被排除的大小。在一些实施方案中,阈值是高于或低于特定分类所应用的值。这两个术语中的任一个均可用于这两种上下文中的任一种。
如本文所用,术语“对照”、“对照样品”、“参考”、“参考样品”、“正常”和“正常样品”描述来自不具有特定病况或另外健康的受试者的样品。在一个示例中,本文所公开的方法可对患有肿瘤的受试者执行,其中参考样品是取自受试者的健康组织的样品。参考样品可从受试者或从数据库获得。参考可为,例如,用于绘制从受试者样品测序获得的序列读段的参考基因组。参考基因组可指单倍体或二倍体基因组,来自生物样品和组成样品的序列读段可与该基因组进行比对和比较。组成样品的示例可为从受试者获得的白细胞的DNA。对于单倍体基因组,在每个基因座只能有一个核苷酸。对于二倍体基因组,可鉴定杂合基因座;每个杂合基因座可具有两个等位基因,其中任一等位基因可允许与该基因座的比对匹配。
以下参考用于说明的示例应用来描述若干个方面。应理解,阐述了许多具体细节、关系和方法以提供对本文所述特征的全面理解。然而,相关领域的普通技术人员将容易认识到,本文所描述的特征可以在没有一个或多个具体细节的情况下或用其他方法来实践。本文所描述的特征不受所示出的动作或事件的排序的限制,因为一些动作可按不同的顺序发生和/或与其他动作或事件同时发生。此外,并非所有示出的动作或事件来实施根据本文所描述的特征的方法。
示例性系统实施方案
现在结合图2描述示例性系统的细节。图2是示出根据一些实施方式的系统100的框图。在一些实施方式中,设备100包括一个或多个处理单元CPU(一个或多个)102(也称为处理器或处理核)、一个或多个网络接口104、用户接口106、非永久性存储器111、永久性存储器112以及用于互连这些组件的一个或多个通信总线114。一个或多个通信总线114任选地包括互连并控制系统组件之间的通信的电路(有时称为芯片组)。非永久性存储器111典型地包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪存,而永久性存储器112典型地包括CD-ROM、数字多功能盘(DVD)或其他光存储件、磁带盒、磁带、磁盘存储或其他磁存储设备、磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。永久存储器112任选地包括远离CPU(一个或多个)102的一个或多个存储设备。永久性存储器112和非永久性存储器112内的非易失性存储设备(一个或多个)包括非瞬态计算机可读存储介质。在一些实施方式中,非永久性存储器111或另选地非暂态计算机可读存储介质有时结合永久性存储器112存储以下程序、模块和数据结构或其子集:
·与任选操作系统116相关联的任选指令、程序、数据或信息,其包括用于处理各种基本系统服务和用于执行硬件相关任务的过程;
·与任选网络通信模块(或指令)118相关联的指令、程序、数据或信息,用于将系统100与其他设备或通信网络连接;
·与候选基因型集合120相关联的指令、程序、数据或信息,所述候选基因型集合为物种的参考基因组中的每个等位基因位置122存储相应候选基因型124和所述候选基因型的对应先验概率126,其中先验概率基于从物种的参考受试者群体收集的核酸序列数据;以及
·测试受试者数据库,其包括至少一个等位基因位置132-N的链特异性碱基计数集合134-N和候选基因型概率集合140-N,其中链特异性碱基计数集合134-N包括{A,T,C,G}的集合中的每个碱基的相应正向链碱基计数136和相应反向链碱基计数138,并且候选基因型概率集合140包括等位基因位置132-N的每个候选基因型142-N的相应正向链条件概率144、相应反向链条件概率146和候选基因型似然性148。
在一些实施方式中,一个或多个上述元件被存储在一个或多个先前提及的存储器设备中,并且对应于用于执行上述功能的指令集合。以上标识的模块、数据或程序(例如,指令集)可不被实施为单独的软件程序、过程、数据集或模块,并且因此这些模块和数据的各种子集可在各种实施方式中被组合或以其他方式重新布置。在一些实施方式中,非永久性存储器111任选地存储以上标识的模块和数据结构的子集。此外,在一些实施方案中,存储器存储上面没有描述的附加模块和数据结构。在一些实施方案中,上述元件中的一个或多个被存储在除了可视化系统100之外的计算机系统中,该计算机系统可由可视化系统100寻址,使得可视化系统100可检索这类数据的全部或一部分。
尽管图2描绘了“系统100”,但该图更旨在作为可存在于计算机系统中的各种特征的功能描述,而不是作为本文所描述的实施方式的结构示意图。实际上,可组合单独显示的项目,并且可分离一些项目。此外,尽管图2描绘了非永久性存储器111中的某些数据和模块,但是这些数据和模块中的一些或全部可在永久性存储器112中。
虽然已经参考图2公开了根据本公开的系统,但是现在参考图3A-图3D详细描述根据本公开的方法。任何公开的方法可利用在2017年10月25日提交的美国专利申请第15/793,830号和/或题为“用于肿瘤检测的方法和系统”的国际专利公开第WO2018/081130号中公开的任何测定或算法,所述专利中的每一个均通过引用并入本文,以便确定测试受试者中的癌症状况或受试者具有癌症状况的似然性。例如,任何公开的方法可与2017年10月25日提交的美国专利申请第15/793,830号和/或题为“用于肿瘤检测的方法和系统”的国际专利申请第WO2018/081130号中公开的任何公开的方法或算法结合工作。
鉴定体细胞变体。
图3A提供了鉴定测试受试者中体细胞变体的方法的概述。
参考框302,在一些实施方案中,本公开的系统和方法使用来自测试受试者的第一样品中的核酸的全基因组亚硫酸氢盐测序或靶向亚硫酸氢盐测序来确定(第一)多个变体调用。在一些这类实施方案中,第一样品是组织样品。
在一些实施方案中,参考框304,使用来自测试受试者的匹配种系样品中的核酸(例如,无细胞核酸片段)的全基因组测序或靶向亚硫酸氢盐序列来确定不同的(第二)多个变体调用。在一些实施方案中,来自测试受试者的匹配种系样品是全血。
参考框306,在一些实施方案中,该方法通过从第一多个变体调用中去除也在第二多个变体调用中的任何变体调用来进行。
在一些实施方案中,参考框308,该方法还包括从第一多个变体调用中去除作为已知种系变体(例如,gnomad、dbSNP)列表中的任何变体调用的任何变体调用。Gnomad和dbSNP是指已知种系变体的参考数据库。分别参见Karczewski等人,2019年,“跨越141,456个人类外显子组和基因组的变异揭示了跨人类蛋白质编码基因的功能丧失不耐受谱”,bioRxivdoi.org/10.1101/531210和Sherry等人,2011年,“dbSNP:遗传变异的NCBI数据库”,《核酸研究(Nuc.Acids.Res.)》29,308-311。在一些实施方案中,从第一多个变体调用中去除任何其他已知种系变体。
参考框310,在一些实施方案中,该方法通过从第一多个变体调用中去除已经在除测试受试者之外的受试者的组织样品中发现的任何变体调用(例如,复发性变体组织黑名单)而继续。例如,图11展示了在一些实施方案中参考基因组的某些部分如何被确定为具有更高的信息值(例如,在确定变体或在下游分析中更有信息性)。
参考框312,在一些实施方案中,该方法还从第一多个变体调用中去除未能满足质量度量(例如,最小等位基因分数、最大等位基因分数、碱基调用的质量(例如,Phred得分)、最小深度等)的任何变体调用。
以这种方式,该方法通过无细胞核酸全基因组测序和活检全基因组亚硫酸氢盐测序的组合来鉴定体细胞变体,其中体细胞变体通过分析活检测序信息鉴定。
确定是否调用测试受试者中的等位基因位置处变体。
虽然图3A论述了用于修剪测试受试者的多个变体的方法,以确保这类变体是体细胞变体,与种系变体相反,但是图3B、图3C和图3D共同说明了本公开的附加的实施方案,其涉及首先使用来自测试受试者的甲基化测序数据鉴定测试受试者的变体。
框202-326。因此,参考框320,提供了调用给定物种的测试受试者中的等位基因位置处变体(例如,SNV、插入、缺失或其他基因组变异)的方法。参考框322,在一些实施方案中,测试受试者为人类受试者。在一些实施方案中,测试受试者是哺乳动物。参考框326,在一些实施方案中,等位基因位置是单碱基位置,并且变体是单核苷酸变体(SNV)或单核苷酸多态性(SNP)。在一些实施方案中,等位基因位置是两个或更多个碱基位置,并且变体是插入或缺失。在一些实施方案中,等位基因位置是参考基因组的一部分或区域。
框328-332。使用从参考群体(例如,给定物种的多个参考受试者的群体)获取的核酸数据,对于候选基因型的集合中的每个相应候选基因型,推导等位基因位置处基因型的先验概率(例如,呈电子格式)。关于图3A中的框330,在一些实施方案中,参考群体包括至少一百名参考受试者。在一些实施方案中,参考群体包括至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900或至少1000名参考受试者。
参考框322,在一些实施方案中,基因型的集合中的每个相应候选基因型具有形式X/Y,其中X是代表母系或父系等位基因中的一项的碱基的集合{A,C,T,G}中的碱基的同一性,并且Y是代表测试受试者中等位基因位置处的母系或父系等位基因中的另一个的碱基的集合{A,C,T,G}中的碱基的同一性。换句话说,在一些实施方案中,基因型的集合中的每个候选基因型代表各自的二倍体基因型,并且等位基因位置处的父系和母系等位基因分别由X和Y指示。
在单核苷酸水平上,在一些实施方案中,每个常染色体位置有十种可能的基因型。在一些实施方案中,候选基因型的集合包括该集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的两种至十种基因型。在一些实施方案中,候选基因型的集合包括该集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的至少两种、三种、四种、五种、六种、七种、八种或九种基因型。在一些实施方案中,候选基因型的集合由整个集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}组成。
框334。该方法通过获得(例如,通过计算机系统100)等位基因位置132的链特异性碱基计数集合134而继续,所述链特异性碱基计数集合包括等位基因位置处的集合{A,T,C,G}中的每个碱基在正向和反向上的相应正向链碱基计数136和相应反向链碱基计数138,其基于:确定(i)链取向和(ii)在以电子格式映射至等位基因位置的相应多个核酸片段序列中的每个相应核酸片段序列中等位基因位置处的相应碱基的同一性。在一些实施方案中,两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、10个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、50个或更多个、或100个或更多个片段序列映射至等位基因位置,并且说明链特异性碱基计数。对应的多个核酸片段序列通过甲基化测序从测试受试者的第一生物样品中的第一多个核酸片段获取。在一些实施方案中,核酸片段序列中等位基因位置132处的碱基对链特异性碱基计数集合134没有贡献,所述碱基的同一性可受甲基化或未甲基化胞嘧啶的转化的影响。在一些实施方案中,如实施例2中所述并参考以下框336获得核酸片段。
在一些实施方案中,正向是F1R2读段(有义)取向,并且反向是F2R1(反义)读段取向。这些取向对是指对于给定的等位基因位置,相应的核酸片段序列是源自该片段的5'还是3'链。例如,F1R2读段取向是指源自核酸片段的正(有义)链的序列读段,并且F2R1读段取向是指源自核酸片段的负(反义)链的序列读段。在一些实施方案中,正向是F1R2或R2F1读段(有义)取向,并且反向是F2R1或R1F2(反义)读段取向。参见Tran等人,2013年“通过RNA深度测序表征小鼠胚胎成纤维细胞的印迹信号”,《核酸研究》42(3),1772-1783,其中使用该命名法。
在一些实施方案中,链特异性碱基计数集合用于说明亚硫酸氢盐转化。甲基化测序固有地导致影响等位基因位置上C和T等位基因检测的链特异性化学。例如,亚硫酸氢盐转化导致核酸片段正向链上的C向T的转化和相应反向链上的A向G的转化。由于A和G等位基因不受亚硫酸氢盐转化的直接影响,因此可解析正链的等位基因计数,其中正链上的C和T等位基因通过负链上的A和G等位基因鉴定。作为验证,总C和T等位基因计数总和将不受亚硫酸氢盐转化的影响。
参考框336,在一些实施方案中,第一生物样品是液体生物样品(例如,测试受试者的液体生物样品),并且第一多个核酸片段序列中的每个相应核酸片段序列代表液体生物样品中的无细胞核酸分子群体中的相应无细胞核酸分子的全部或一部分。例如,在一些实施方案中,第一生物样品包括或由受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。在这类实施方案中,第一生物样品可包括受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液以及受试者的其他组分(例如固体组织等)。
在一些实施方案中,第一生物样品是组织生物样品(例如,测试受试者的组织生物样品),并且第一多个核酸片段序列中的每个相应核酸片段序列代表组织样品中的核酸分子群体中的相应核酸分子的全部或一部分。在一些实施方案中,组织样品是来自测试受试者的肿瘤样品。在一些实施方案中,肿瘤样品是同质肿瘤。在一些实施方案中,肿瘤样品是异质肿瘤。
在一些实施方案中,生物样品包括或含有无细胞核酸片段(例如cfDNA片段)。在一些实施方案中,处理生物样品以提取无细胞核酸,为测序分析做准备。作为非限制性示例,在一些实施方案中,在K2EDTA管中从收集自受试者的生物样品(例如血液样品)提取无细胞核酸片段。在其中生物样品是血液的情况下,在一些作为非限制性示例的实施方案中,通过首先在1000g下10分钟双旋转生物样品,然后在2000g下旋转所得血浆10分钟,在收集的两小时内处理样品。然后将血浆以1ml等分试样储存在-80℃下。以这种方式,从生物样品制备合适量的血浆(例如1ml-5ml)用于无细胞核酸提取的目的。
在一些实施方案中,使用QIAamp循环核酸试剂盒(Qiagen)提取无细胞核酸并洗脱到DNA悬浮缓冲液(Sigma)中。
在一些实施方案中,将纯化的无细胞核酸储存在-20℃下直至使用。参见,例如,Swanton等人,2017年,“系统发育ctDNA分析描绘早期肺癌进化”《自然(Nature)》,545(7655):446-451,其通过引用并入本文。
出于测序的目的,可使用其他等效方法从生物方法制备无细胞核酸,并且所有这类方法均在本公开的范围内。
在一些实施方案中,从生物样品获得的无细胞核酸片段是本公开中定义的任何形式的核酸或其组合。例如,在一些实施方案中,从生物样品获得的无细胞核酸是RNA和DNA的混合物。
在一些实施方案中,来自受试者的无细胞核酸片段包括100个或更多个无细胞核酸片段、1000个或更多个无细胞核酸片段、10,000个或更多个无细胞核酸片段、100,000个或更多个无细胞核酸片段、1,000,000个或更多个无细胞核酸片段,或10,000,000个或更多个核酸片段。
无细胞核酸片段的测序。从生物样品中获得多个无细胞核酸片段后,对无细胞核酸片段进行测序。在一些实施方案中,测序包括甲基化测序。参考框338,在一些实施方案中,甲基化测序是全基因组甲基化测序。在一些实施方案中,甲基化测序是使用多个核酸探针的靶向DNA甲基化测序。在一些实施方案中,多个核酸探针包括一百个或更多个探针。在一些实施方案中,多个核酸探针包括100个或更多个、200个或更多个、300个或更多个、400个或更多个、500个或更多个、600个或更多个、700个或更多个、800个或更多个、900个或更多个、1000或更多个、2000或更多个、3000或更多个、4000或更多个、5000或更多个、6000或更多个、7000或更多个、8000或更多个、9000或更多个、10,000或更多个、25,000或更多个、或50,000或更多个探针。在一些实施方案中,探针中的一些或所有独特地映射至题为“检测癌症、癌症组织或起源或者癌症类型”的国际专利公开第WO2020154682A3号中描述的基因组区域,其通过引用并入本文,包括其中引用的序列表。在一些实施方案中,探针中的一些或所有独特地映射至题为“甲基化标志物和靶向甲基化探针组”的国际专利公开第W02020/069350A1号中描述的基因组区域,其通过引用并入本文,包括其中引用的序列表。在一些实施方案中,探针中的一些或所有独特地映射至题为“甲基化标志物和靶向甲基化探针组”的国际专利公开第WO2019/195268A2号中描述的基因组区域,其通过引用并入本文,包括其中引用的序列表。
在一些实施方案中,甲基化测序检测第一多个核酸片段中的相应核酸片段中的一个或多个5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5hmC)。在一些实施方案中,甲基化测序包括将第一多个核酸片段中的核酸片段中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。在一些实施方案中,一个或多个尿嘧啶在扩增期间被转化并在甲基化测序期间作为一个或多个相应的胸腺嘧啶被检测。在一些实施方案中,一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化包括化学转化、酶转化或其组合。
在一些这类实施方案中,在测序之前,处理无细胞的核酸片段以将未甲基化胞嘧啶转化为尿嘧啶。在一些实施方案中,该方法使用亚硫酸氢盐处理DNA,将未甲基化胞嘧啶转化为尿嘧啶而不转化甲基化胞嘧啶。例如,在一些实施方案中,商业试剂盒诸如EZ DNAMethylationTM-Gold、EZ DNA MethylationTM-Direct或EZ DNA MethylationTM-Lightning试剂盒(可得自酶研究公司(Irvine,CA))用于亚硫酸氢盐转化。在一些实施方案中,使用酶促反应实现未甲基化胞嘧啶向尿嘧啶的转化。例如,转化可使用用于将未甲基化胞嘧啶转化为尿嘧啶的市售试剂盒,诸如APOBEC-seq(NEBiolabs,Ipswich,MA)。
从转化的无细胞核酸片段制备测序文库。任选地,使用多种杂交探针富集测序文库中无细胞的核酸片段或基因组区域,所述无细胞的核酸片段或基因组区域对于细胞来源是信息性的,诸如在题为“检测癌症、癌症组织或起源或者癌症类型”的国际专利公开第WO2020154682A3号、题为“甲基化标志物和靶向甲基化探针组”的国际专利公开第W02020/069350A1号和/或题为“甲基化标志物和靶向甲基化探针组”的国际专利公开第WO2019/195268A2号中公开的区域的任何组合,所述专利中的每一个均通过引用并入本文。在一些实施方案中,杂交探针是短寡核苷酸,其与特别指定的无细胞核酸片段或靶向区域杂交,并且富集那些片段或区域用于后续测序和分析,如例如题为“检测癌症、癌症组织或起源或者癌症类型”的国际专利公开第WO2020154682A3号、题为“甲基化标志物和靶向甲基化探针组”的国际专利公开第W02020/069350A1号和/或题为“甲基化标志物和靶向甲基化探针组”的国际专利公开第WO2019/195268A2号所公开的,所述专利中的每一个均通过引用并入本文。在一些实施方案中,杂交探针用于对特定CpG位点的集合进行靶向的、高度深入的分析,所述CpG位点是细胞来源的信息。一旦制备好,测序文库或其部分被测序以获得多个序列读段。
以这种方式,在一些实施方案中,从生物样品中回收超过1000、5000、10,000、50,000、100,000、200,000、500,000、1×106、1×107或超过1×108个序列读段。在一些实施方案中,从生物样品回收的序列读段提供跨受试者基因组的至少百分之二、至少百分之五、至少百分之十、至少百分之二十、至少百分之三十、至少百分之四十、至少百分之五十、至少百分之六十、至少百分之七十、至少百分之八十、至少百分之九十、至少百分之九十八或至少百分之九十九的1x或更大、2x或更大、5x或更大、10x或更大、20x或更大、50x或更大、100x或更大、或200x或更大的平均覆盖率。在生物样品包括或含有无细胞核酸片段的实施方案中,由此得到的序列读段是生物样品中无细胞核酸片段的序列读段。
在一些实施方案中,任何形式的测序可用于从获自生物样品的无细胞核酸片段获得序列读段。示例测序方法包括但不限于高通量测序系统,诸如Roche 454平台、AppliedBiosystems SOLID平台、Helicos真单分子DNA测序技术、来自Affymetrix公司的杂交测序平台、Pacific Biosciences的单分子实时(SMRT)技术、来自454Life Sciences、Illumina/Solexa和Helicos Biosciences的合成测序平台,以及来自Applied Biosystems的连接测序平台。来自Life technologies的ION TORRENT技术和纳米孔测序也可用于从获自生物样品的无细胞核酸获得序列读段。
在一些实施方案中,基于合成测序和可逆终止子的测序(例如,Illumina的基因组分析仪;基因组分析仪II;Hiseq 2000;HISEQ 2500(Illumina,San Diego Calif.))用于从获自生物样品的无细胞核酸获得序列读段。在一些这类实施方案中,数百万个无细胞核酸(例如DNA)片段被平行测序。在这种类型的测序技术的一个示例中,使用含有光学透明载玻片的流动池,所述载玻片具有八个单独的泳道,在所述泳道的表面上结合寡核苷酸锚(例如衔接头引物)。流动池常常是固体支持物,其被配置为保持和/或允许试剂溶液在结合的分析物上有序通过。在一些情况下,流动池在形状上是平面的,光学透明的,一般在毫米或亚毫米尺度,并且通常具有其中发生分析物/试剂相互作用的通道或泳道。在一些实施方案中,无细胞核酸样品可包括促进检测的信号或标签。在一些这类实施方案中,从获自生物样品的无细胞核酸获得序列读段包括经由多种技术获得信号或标签的定量信息,所述技术例如流式细胞术、定量聚合酶链式反应(qPCR)、凝胶电泳、基因芯片分析、微阵列、质谱、细胞荧光分析、荧光显微镜、共聚焦激光扫描显微镜、激光扫描细胞计量术、亲和层析、手动分批模式分离、电场悬浮、测序及其组合。
在一些实施方案中,针对背景拷贝数校正序列读段。例如,来自受试者中复制的染色体或染色体部分的序列读段被校正用于这种复制。这可通过在运行该推理之前归一化来完成。
全基因组亚硫酸氢盐测序分析。在一些实施方案中,受试者为人类,序列读段通过亚硫酸氢盐测序获得,并且在全基因组基础上评估甲基化状态。在一些实施方案中,全基因组亚硫酸氢盐测序分析寻找基因组中甲基化模式的变异。参见例如实施例6。还参见题为“异常碎片检测和分类”的美国专利公开第US 2019-0287652A1号,其通过引用并入本文。
框340。参考图3C的框340,在一些实施方案中,本公开的系统和方法使用链特异性碱基计数集合和测序误差估计值来计算等位基因位置的候选基因型的集合中的每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而为等位基因位置计算多个正向链条件概率和多个反向链条件概率。
参见框342,在一些实施方案中,测序误差估计值在0.01和0.0001之间。在一些实施方案中,测序误差估计值小于0.01、小于0.009、小于0.008、小于0.007、小于0.006、小于0.005、小于0.004、小于0.003、小于0.002、小于0.001、小于0.00075、小于0.0005或小于0.0075。在一些实施方案中,对候选基因型的集合中的每个候选基因型使用相应的测序误差估计值。在一些实施方案中,对候选基因型的集合中的每个候选基因型使用相同的测序误差估计值。在一些实施方案中,一个或多个候选基因型具有与用于候选基因型的集合中剩余候选基因型的测序误差估计值不同的相应测序误差估计值。在一些实施方案中,对每个基因型假定对称误差估计值。
在一些实施方案中,例如对于调用种系变体,测序误差(例如,∈)被固定在0.1和0.9之间的恒定值处,诸如0.5。在一些实施方案中,例如对于体细胞变体调用,允许测序误差估计值变化。
框344。参考图3C的框344,在一些实施方案中,本公开的系统和方法计算等位基因位置的多个似然性。多个似然性中的每个相应似然性是针对候选基因型的集合中的相应候选基因型。在一些实施方案中,使用(i)多个正向链条件概率中的相应候选基因型的相应正向链条件概率,(ii)多个反向链条件概率中的相应候选基因型的相应反向链条件概率,和(iii)相应候选基因型的基因型的先验概率的组合来计算多个似然性。
在一些实施方案中,贝叶斯定理用于计算观察相应基因型的似然性。在一些实施方案中,使用观察到的等位基因频率计算每个相应基因型的先验概率。在一些实施方案中,等位基因位置的候选基因型的集合中的每个候选基因型按照相应的贝叶斯概率的顺序排列。
在一些实施方案中,候选基因型的集合中的相应候选基因型的相应似然性被表示为:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G)
其中Pr(FA,FG,FCT|FACGT,基因型,∈)是相应候选基因型的相应正向链条件概率,Pr(Rc,RT,RAG|RACGT,基因型,∈)是相应候选基因型的相应反向链条件概率,Pr(G)是相应候选基因型在等位基因位置处的基因型的先验概率,∈是测序误差估计值,基因型是指相应候选基因型,FA是链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基A的正向碱基计数,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,FG是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基G的正向碱基计数,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,FCT是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的(i)碱基C的正向碱基计数和(ii)碱基T的正向碱基计数的总和,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,RC是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基C的反向碱基计数,第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,RT是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的碱基T的反向碱基计数,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置,并且RAG是在链特异性碱基计数集合中,跨第一多个核酸片段序列的等位基因位置处的(i)碱基A的反向碱基计数和(ii)碱基G的反向碱基计数的总和,所述第一多个核酸片段序列映射至来自第一生物样品的等位基因位置。
在一些实施方案中,这种乘法取决于每个候选基因组的对称测序误差估计值的假定。在一些实施方案中,似然性是对数似然性,其通过取上面定义的等式的对数来确定。
在一些实施方案中,相应候选基因型G是A/A,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/A),
针对A/A包括如下计算:
Figure BDA0003818316930000361
在一些实施方案中,相应候选基因型G是A/A,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/A),
针对A/A包括计算对数似然性:
Figure BDA0003818316930000362
在一些实施方案中,相应候选基因型G是A/C,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/C),
针对A/C包括如下计算:
Figure BDA0003818316930000363
在一些实施方案中,相应候选基因型是G是A/C,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/C),
针对A/C包括计算对数似然性:
Figure BDA0003818316930000371
在一些实施方案中,相应候选基因型是G是A/G,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/G),
针对A/G包括如下计算:
Figure BDA0003818316930000372
在一些实施方案中,相应候选基因型G是A/G,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/G),
针对A/G包括计算对数似然性:
Figure BDA0003818316930000373
在一些实施方案中,相应候选基因型G是A/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/T),
针对A/T包括如下计算:
Figure BDA0003818316930000374
在一些实施方案中,相应候选基因型G是A/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/T),
针对A/T包括计算对数似然性:
Figure BDA0003818316930000381
在一些实施方案中,相应候选基因型G是C/C,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/C),
针对C/C包括如下计算:
Figure BDA0003818316930000382
在一些实施方案中,相应候选基因型G是C/C,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/C),
针对C/C包括计算对数似然性:
Figure BDA0003818316930000383
在一些实施方案中,相应候选基因型G是C/G,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/G),
针对C/G包括如下计算:
Figure BDA0003818316930000384
在一些实施方案中,相应候选基因型G是C/G,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/G),
针对C/G包括计算对数似然性:
Figure BDA0003818316930000391
在一些实施方案中,相应候选基因型G是C/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/T),
针对C/T包括如下计算:
Figure BDA0003818316930000392
在一些实施方案中,相应候选基因型G是C/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/T),
针对C/T包括计算对数似然性:
Figure BDA0003818316930000393
在一些实施方案中,相应候选基因型G是G/G,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/G),
针对G/G包括如下计算:
Figure BDA0003818316930000394
在一些实施方案中,相应候选基因型G是G/G,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/G),
针对G/G包括计算对数似然性:
Figure BDA0003818316930000401
在一些实施方案中,相应候选基因型G是G/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/T),
针对G/T包括如下计算:
Figure BDA0003818316930000402
在一些实施方案中,相应候选基因型G是G/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/T),
针对G/T包括计算对数似然性:
Figure BDA0003818316930000403
在一些实施方案中,相应候选基因型G是T/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(T/T),
针对T/T包括如下计算:
Figure BDA0003818316930000404
在一些实施方案中,相应候选基因型G是T/T,并且计算相应的似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(T/T),
针对T/T包括计算对数似然性:
Figure BDA0003818316930000411
图10提供了根据上述对每个候选基因型的计算,从相应的碱基计数集合134-H到相应候选基因型对数似然性集合140-H的转化的示例。
在一些实施方式中,一个或多个相应的似然性计算还包括在说明对应正向和反向链上的C的计数之间的明显差异之前的对应亚硫酸氢盐转化率。例如,如果在正向链上观察到较高数目的C碱基,这将表明T/T最终比C/C基因型的C/T更不可能。说明亚硫酸氢盐转化率、碱基质量得分和其他测序信息的似然性计算的示例提供于Liu等人2012年“Bis-SNP:结合的DNA甲基化和SNP需要亚硫酸氢盐-seq数据,“《基因组生物学(Genome Biol.)》13(7),R61”,其通过引用整体并入本文。
框346。参考图3C的框346,在一些实施方案中,本公开的系统和方法确定在框344中计算的多个似然性是否支持等位基因位置的变体调用。在一些实施方案中,这包括确定等位基因位置的任何建议基因型的多个似然性中的任何似然性是否满足变体阈值。在一些实施方案中,当等位基因位置的任何建议基因型的似然性满足变体阈值时,调用等位基因位置处的变体。因此,从对应于多个不同变体等位基因的多个似然性中,如果变体等位基因的似然性满足阈值,则从多个不同变体等位基因中调用变体等位基因。如果超过两个变体等位基因满足阈值,则调用具有低于阈值的最大似然性的等位基因。如果没有变体等位基因满足阈值,则不调用变体等位基因。因此,框346代表图15的过滤器1448。
在图12中,用参考等位基因“A”的纯合等位基因A/A的阈值来证明候选变体的过滤。在图12中,如果候选变体具有低于阈值的似然性,则确定其为变体。最终变体调用被确定为具有最高似然性的变体(例如,参考等位基因A的A/C、A/G和A/T的最大值)。图16显示了使用实施例5中描述的成对全基因组亚硫酸氢盐测序(WGBS)/全基因组测序(WGS)测序数据,其阈值为0、-10、-20、-30、-40、-50、-60、-70、-80和-90的灵敏性(Sens)、特异性(Spec)、真阳性率(TPR)和假阳性率(FPR)。因此,至少从用于图16的数据来看,基因型对数似然性的经验阈值-10(如图10中计算的)提供了最佳性能。然而,对于其他数据集,其他阈值也是适用的。在一些实施方案中,多个参考受试者(其基因型确定变体阈值)包括至少十名参考受试者。在一些实施方案中,多个参考受试者包括至少一百名参考受试者。在一些实施方案中,多个参考受试者包括至少10个参考受试者、至少25个参考受试者、至少50个参考受试者、至少75个参考受试者、至少100个参考受试者、至少200个参考受试者或至少500个参考受试者。此外,在一些实施方案中,不是使用对数似然性或似然性的阈值截止值作为过滤器1448,而是使用分类器,该分类器将(i)链特异性碱基计数集合134(包括在正向和反向方向上,在等位基因位置处的集合{A,T,C,G}中每个碱基的相应正向链碱基计数136和相应反向链碱基计数138),和(ii)调用等位基因位置的相应候选基因型的基因型的先验概率作为输入。在一些实施方案中,该分类器是一个或多个神经网络、支持向量机、朴素贝叶斯分类器、最近邻居分类器、提升树分类器、随机森林分类器、决策树分类器、多项式逻辑回归分类器、线性模型、线性回归分类器或其集成。
在一些实施方案中,似然性表示为对数似然性(例如,非归一化似然性),并且当等位基因位置的参考基因型的对数似然性小于-10时,满足变体阈值。在一些实施方案中,当等位基因位置的参考基因型的对数似然性小于-1、小于-5、小于-10、小于-25、小于-50或小于-100时,变体阈值被满足。在一些实施方案中,似然性被表示为对数似然性,并且当等位基因位置的参考基因型的对数似然性在-25和-5之间时,变体阈值被满足。在一些实施方案中,似然性被表示为对数似然性,并且当等位基因位置的参考基因型的对数似然性在-10和-1之间、在-10和-5之间、在-25和-1之间、在-25和-10之间、在-25和-15之间、在-50和-1之间、在-50和-5之间、在-50和-10之间或在-50和-25之间时,变体阈值被满足。
在一些实施方案中,似然性被表示为归一化似然性(例如,每个参考基因型的相应后验概率)。例如,在一些这类实施方案中,每个参考基因型具有不同的归一化似然性。在一些实施方案中,两种或更多种参考基因型具有相同的归一化似然性。在一些实施方案中,当等位基因位置的参考基因型的归一化似然性小于-1、小于-5、小于-10、小于-25、小于-50或小于-100时,变体阈值被满足。在一些实施方案中,当等位基因位置的参考基因型的归一化似然性在-10和-1之间、在-10和-5之间、在-25和-1之间、在-25和-10之间、在-25和-15之间、在-50和-1之间、在-50和-5之间、在-50和-10之间或在-50和-25之间时,变体阈值被满足。
在一些实施方案中,当等位基因位置处的变体被调用时,本公开的系统和方法还通过在等位基因位置的候选基因型的集合中选择在多个似然性中具有最佳似然性的候选基因型作为变体,来进一步确定变体的同一性。在一些实施方案中,这种确定需要通过其对应的似然性或对数似然性对候选基因型进行排列。
在一些实施方案中,等位基因位置的参考基因型是纯合的(例如,A/A、T/T、G/G、C/C)。
框348。在一些实施方案中,本公开的系统和方法还针对测试受试者的多个等位基因位置中的每个等位基因位置重复该方法(例如,从而获得测试受试者的多个变体调用)。在一些这类实施方案中,重复该方法包括执行以下步骤:获得基因型的相应先验概率(例如,框328-332)、获得相应的链特异性碱基计数集合(例如,框334-338)、计算相应的正向链条件概率和相应的反向链条件概率(例如,框340-342)、计算相应的多个似然性(例如,框344),以及确定相应的多个似然性(或对数似然性)是否支持多个等位基因位置中的每个等位基因位置的相应变体调用(例如,框346),从而获得测试受试者的多个变体调用,其中多个变体调用中的每个变体调用位于参考基因组中的不同基因组位置处。在一些这类实施方案中,第一生物样品是组织样品,并且甲基化测序是全基因组亚硫酸氢盐测序。在一些这类实施方案中,第一生物样品是组织样品,并且甲基化测序是靶向亚硫酸氢盐测序。参考框350,在一些实施方案中,第一生物样品是组织样品,并且甲基化测序是全基因组亚硫酸氢盐测序。
在一些实施方案中,多个变体调用包括200个变体调用。在一些实施方案中,使用从测试受试者的生物样品获得的测序数据,该多个变体调用包括测试受试者的至少10个变体调用、至少20个变体调用、至少30个变体调用、至少40个变体调用、至少50个变体调用、至少60个变体调用、至少70个变体调用、至少80个变体调用、至少90个变体调用、至少100个变体调用、至少200个变体调用、至少300个变体调用、至少400个变体调用、至少500个变体调用、至少600个变体调用、至少700个变体调用、至少800个变体调用、至少900个变体调用、至少1000个变体调用、至少2000个变体调用、至少3000个变体调用、至少4000个变体调用、10至10,000个变体调用、50至5000个变体调用或100至4500个变体调用。在一些实施方案中,本公开的系统和方法在获得测试受试者的甲基化测序数据的一天内、一小时内、三十分钟内、十五分钟内、五分钟内或一分钟内计算多个变体调用。
在一些实施方案中,参考框348和/或框350,该方法还包括使用电子形式的第二多个核酸片段序列获得第二多个变体调用,所述第二多个核酸片段序列通过全基因组测序从测试受试者的第二生物样品中的第二多个核酸片段获取,其中第二多个核酸片段是无细胞核酸片段,并且其中第二生物样品是来自受试者的匹配种系样品(例如,液体生物样品,诸如全血),并且从多个变体调用中去除也在第二多个变体调用中的每个相应变体调用(例如,去除种系变体调用)。这在上面的框304和306中进一步描述。
在一些实施方案中,该方法还包括从多个变体调用中去除在已知种系变体列表中的相应变体调用,如以上框308中所述。在一些实施方案中,该方法还包括当相应变体调用发现于除测试受试者以外的受试者的组织样品中时,从多个变体调用中去除该相应变体调用,如以上在框310中进一步详细论述的。
在一些实施方案中,该方法还包括:当相应变体调用未能满足质量度量时,从多个变体调用中去除相应变体调用,如以上在框312中所论述的。在一些实施方案中,质量度量是电子形式的第一多个核酸片段序列中的最小变体等位基因分数,其映射至相应变体调用的等位基因位置。在一些实施方案中,最小变体等位基因分数为百分之十。在一些实施方案中,最小变体等位基因分数小于1%、小于2%、小于3%、小于4%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于15%或小于20%。
在一些实施方案中,质量度量是电子形式的第一多个核酸片段序列中的最大变体等位基因分数,其映射至相应变体调用的等位基因位置。在一些实施方案中,最大变体等位基因分数是百分之九十。在一些实施方案中,最大变体等位基因分数为至少至少55%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%。
在一些实施方案中,质量度量是电子形式的第一多个核酸片段序列中的最小深度,其映射至相应变体调用的等位基因位置。在一些实施方案中,最小深度为十。在一些实施方案中,最小深度为至少5、至少10、至少50、至少100或至少200。
在一些实施方案中,参考框348和/或框350,在一些实施方案中,多个变体调用由一个或多个过滤器过滤。在一些实施方案中,过滤发生于确定测试受试者的多个变体调用之前。在一些实施方案中,过滤发生于该方法确定测试受试者的多个变体调用之后(例如,因此导致向测试受试者报告的或用于肿瘤分数确定的第二次减少的多个变体调用)。
在一些实施方案中,一个或多个过滤器选自包括以下项的集合:最小变体等位基因频率(例如,图14的1434)、最大变体等位基因频率(例如,图14B的1436)、相应等位基因的最小测序深度(例如,图14B的1438)、来自测试受试者并在框306中进一步描述(例如,框1446)的种系变体的黑名单(例如,如由freebayes所标记的)、定制数据库的黑名单(例如,图3A的复发性组织黑名单310和图14的框1444),或来自参考数据库(例如,来自gnomad和/或dbSNP数据库,图14B的框1440和1442并在上文参考框308进一步描述)的种系变体的黑名单。
参考图14B的框1432,在一些实施方案中,使用结合图3B至图3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,确定肿瘤分数),必须由具有变体等位基因的至少一个核酸片段支持。换句话说,来自测试受试者的序列读段必须包括来自测试受试者的至少一个核酸片段的测序信息,该片段映射至变体等位基因的基因组区域。在备选实施方案中,来自测试受试者的序列读段必须包括来自受试者的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500或1000个不同核酸片段的测序信息,所述核酸片段映射至变体等位基因的基因组区域并具有变体等位基因,以便保留变体等位基因以在管道中进一步使用。
参考图14B的框1434,在一些实施方案中,使用结合图3B至图3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,确定肿瘤分数),必须具有20%的最小变体等位基因频率(最小VAF)。也就是说,变体等位基因必须出现在来自测试受试者的至少20%的核酸片段中。在备选实施方案中,最小等位基因频率是来自测试受试者的核酸片段的至少3%、至少5%、至少10%、至少15%、至少25%、至少30%、至少35%、至少40%、至少45%或至少50%。
参考图14B的框1436,在一些实施方案中,使用结合图3B至图3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,以确定肿瘤分数),必须具有90%的最大变体等位基因频率(最大VAF)。也就是说,变体等位基因必须出现于受试者不超过90%的核酸片段中。在备选实施方案中,来自测试受试者的核酸片段的最大等位基因频率为95%或更少、85%或更少、80%或更少、75%或更少、70%或更少、65%或更少、60%或更少、55%或更少、或50%或更少。
参考图14B的框1438,在一些实施方案中,使用结合图3B至图3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,以确定肿瘤分数),必须由至少10的总体测序深度支持。换句话说,来自测试受试者的序列读段必须包括来自测试受试者的至少10个不同核酸片段的测序信息,所述核酸片段映射至变体等位基因的基因组区域。框1438的过滤器不要求这些片段中的每一个均具有变体等位基因。相反,框1438的过滤器是排序深度要求。在备选实施方案中,来自测试受试者的序列读段必须包括来自测试受试者的至少15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500或1000个核酸片段的测序信息,所述核酸片段映射至变体等位基因的基因组区域,以便保留变体等位基因以在管道中进一步使用。
参考图14B的框1440,在一些实施方案中,使用结合图3B至图3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,以确定肿瘤分数),必须不存在于一般已知的种系变体的列表中,诸如dbSNP数据集。分别参见Karczewski等人,2019年,“跨越141,456个人类外显子组和基因组的变异揭示了跨人类蛋白质编码基因的功能丧失不耐受谱”,bioRxiv doi.org/10.1101/531210和Sherry等人,2011年,“dbSNP:遗传变异的NCBI数据库”,《核酸研究》29,308-311。
参考图14B的框1442,在一些实施方案中,使用结合图3B至图3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,以确定肿瘤分数),必须不存在于一般已知的种系变体的列表中,诸如gnomAD数据集。分别参见Karczewski等人,2019年,“跨越141,456个人类外显子组和基因组的变异揭示了跨人类蛋白质编码基因的功能丧失不耐受谱”,bioRxiv doi.org/10.1101/531210和Sherry等人,2011年,“dbSNP:遗传变异的NCBI数据库”,《核酸研究》29,308-311。
参考图14B的框1444,在一些实施方案中,使用结合图3B至3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,以确定肿瘤分数),必须不存在于已知有噪声的基因组位置的黑名单中。在一些实施方案中,这类位点基于来自上述实施例5)中描述的CCGA途径1方法的642个样品的集合。在一些实施方案中,黑名单是ENCODE黑名单的全部或一部分。参见ameniya等人2019年,“编码黑名单:基因组问题区域的鉴定”《科学报告(Scientific Reports)》9,第9354条。
参考图14B的框1446,在一些实施方案中,使用结合图3B至3D描述的系统和方法鉴定的每个变体等位基因,为了保留用于管道中的进一步使用(例如,以确定肿瘤分数),必须不被鉴定为种系变体。在一些实施方案中,当变体调用者算法,诸如:FreeBayes、VarDict、MuTect、MuTect2、MuSE、FreeBayes、VarDict和/或MuTect(参见Bian,2018年,“使用合成数据和基因组分段比较选择的变体调用者的性能”《BMC生物信息学(BMC Bioinformatics)》19:429,其通过引用并入本文)将变体鉴定为种系变体时,变体等位基因被鉴定为种系变体,该种系变体是样品匹配的WGS cfDNA内测试受试者所专有的。
图14B的框1448显示了当应用上面结合框346描述的过滤器时的性能增益。参考图3C的框346,在一些实施方案中,本公开的系统和方法确定多个似然性中的任一个是否支持等位基因位置处的变体调用。在一些实施方案中,这包括确定等位基因位置的任何建议基因型的多个似然性中的任一似然性是否满足变体阈值。在一些实施方案中,当等位基因位置的任何建议基因型的似然性满足变体阈值时,调用等位基因位置的变体。在这类实施方案中,当等位基因位置的任一建议基因型的似然性不满足变体阈值时,不调用等位基因位置处的变体。
在一些实施方案中,图14B中所示和以上论述的过滤器中的两个或更多个用于过滤多个变体调用。
在一些实施方案中,当使用两个或更多个过滤器时,两个或更多个过滤器的排序是预定的。
在一些实施方案中,当使用两个或更多个过滤器时,对所使用的过滤器的顺序没有特别的要求。例如,在一些实施方案中,不要求过滤器以图14B所示的顺序应用,或者实际上以任何特定的顺序应用。
在一些实施方案中,包括最小变体等位基因频率、最大变体等位基因频率、等位基因处的最小深度、来自测试受试者的种系变体黑名单、定制数据库黑名单或来自参考数据库的种系变体黑名单的集合中的所有过滤器用于过滤多个变体调用。在一些实施方案中,图14B所示和实施例7所述的多个过滤器用于过滤多个变体调用。在一些实施方案中,在过滤多个变体调用时使用一个或多个附加过滤器。
白细胞克隆扩增。在一些实施方案中,本公开的系统和方法包括任选地在应用本公开中描述的过滤器的任何组合之后,使用多个变体调用来定量白细胞克隆扩增(具有一个或多个体细胞突变的血细胞克隆群体的扩增)。也就是说,本公开的系统和方法提供了用于调用体细胞SNP以及种系SNP的可靠方法。因此,该变体等位基因数据可用于确定克隆扩增/临床造血作用。例如Sano,2018年,“克隆性造血及其对心血管疾病的影响,Circle J.83(1),2-11、Natarajan等人,“血细胞的临床造血体细胞突变与动脉粥样硬化”《精准基因组医学(Genomic and Precision Medicine)》11(7);Tajddin等人,2016年,“大规模外显子组范围的关联分析鉴定白细胞性状和免疫介导疾病的多效性的基因座”Am J.Humn Gent 99(1),22-39公开了与白细胞克隆扩增相关联的基因座和交替等位基因。可使用本公开的方法的系统来评估这类基因座,以确定与特定疾病相关联的克隆扩增和/或与某些疾病相关联的克隆扩增的风险。
肿瘤分数估计。在一些实施方案中,本公开的系统和方法还包括任选地在应用图3A和/或图14和/或图15中论述的过滤器的任何组合之后,使用利用图3B至图3D中描述的方法中的任一种发现的多个变体调用来执行肿瘤分数估计。在一些这类实施方案中,这类肿瘤分数估计值用于检测受试者中的癌症。
在一些实施方案中,本公开的系统和方法包括使用多个变体调用通过使用多个变体调用的种系分析来评估受试者的遗传风险(例如,携带或表达可遗传疾病的风险)。在一些实施方案中,例如,如果相应参考受试者的生物样品衍生自无细胞核酸,则该无细胞核酸可表现出可观的肿瘤分数。在一些实施方案中,相对于相应的参考受试者,相应的肿瘤分数为至少百分之二、至少百分之五、至少百分之十、至少百分之十五、至少百分之二十、至少百分之二十五、至少百分之五十、至少百分之七十五、至少百分之九十、至少百分之九十五或至少百分之九十八。
在一些实施方案中,使用支持和不支持由与WGBS数据匹配的相应cfDNA样品的WGS测序生成的每个变体的片段的计数来确定相对于测试受试者的相应肿瘤分数(例如,对来自图15的框1448、图14的框1416或图3D的框348的多个等位基因位置中的每个等位基因的调用)。在一些这类实施方案中,使用对候选肿瘤分数的网格搜索来计算后验肿瘤分数估计值,并且使用被定义为二项式似然性的混合的每变体似然性。混合物组分说明了(1)由于肿瘤脱落而观察到的碎片,以及(2)各种错误模式,包括种系变体和错误调用变体。计算每个参与者的肿瘤分数的中值和95%可信区间。在这种情况下,图17A和17B示出了用于使用来自图15的框1448、图14的框1416或图3D的框348的多个等位基因位置的变体等位基因调用确定肿瘤分数估计值的两种不同方法。图17A的第1-7行是注释,其解释了图17A中所示的程序涉及将位点的集合(例如,来自图15的框1448、图14的框1416或图3D的框348的多个等位基因位置)作为输入,并且使用所供应的参数从这些位点计算指定可信区间(下Cl到上Cl)内的肿瘤分数。该程序对样品的种系分数(germlineFrac)作出假定,该种系分数(在0和1之间)定义了任何给定等位基因位置(位点)是种系衍生的固定似然性。在图17A中,这一预期频率被设定为50%,但是在备选实施方案中它可被改变为0和100%之间的任何值。lowerCI和upperCI是估计的可信区间的期望分位数。下限(lowerbountTF)是小于上限(upperBountTF)的值,其中lowerbountTF和upperBountTF均是在0和100%之间的不同值。
图17B的第1-7行是解释图17B中所示的程序的注释,该注释涉及将位点的集合(例如,图15的框1448、图14的框1416或图3D的框348的多个等位基因位置中的每个等位基因的调用)作为输入,并且使用所供应的参数从这些位点计算指定可信区间(下Cl至上Cl)内的肿瘤分数。该程序对样品的混合分数(mixtureFrac)作出假定,该混合分数(0和1之间)是定义任何给定等位基因位置(位点)属于以下三类中的一项的固定似然性:0%变体等位基因频率低覆盖伪影、20%变体等位基因背景误差和50%变体等位基因频率种系变体。在一些实施方案中,这三个类别的概率被调整到0%和100%之间的不同值。在图17B的程序中,lowerCI和upperCI是肿瘤分数估计值上的可信区间的期望分位数。下限(lowerbountTF)是小于上限(upperBountTF)的值,其中lowerbountTF和upperBountTF均是在0和100%之间的不同值。
复发基础。在一些实施方案中,肿瘤分数或克隆扩增评估是在随时间的复发基础上确定的,用于最小残留疾病和复发监测。在一些这类实施方案中,从癌症处理之前获得的第一样品和癌症处理之后获得的第二样品进行肿瘤分数(或克隆扩增)的确定,以评估癌症处理的功效。
在一些实施方案中,该方法重复估计测试受试者在跨时期的多个时间点中的每个相应时间点的肿瘤分数估计值(或克隆扩充估计值),从而获得测试受试者在每个相应时间点的多个肿瘤分数估计值(或克隆扩充估计值)中的对应肿瘤分数估计值(或克隆扩充估计值)。在一些实施方案中,该多个肿瘤分数估计值(或克隆扩充估计值)用于以肿瘤分数(或克隆扩充)在该时期内增加或减少的形式确定测试受试者在该时期期间疾病状况的状态或进展。
在一些实施方案中,每个时期是数月的时段,并且多个时间点中的每个时间点是数月的时段中的不同时间点。在一些实施方案中,数月的时段小于四个月。在一些实施方案中,每个时段为一个月长。在一些实施方案中,每个时期为两个月长。在一些实施方案中,每个时期为三个月长。在一些实施方案中,每个时期为四个月长。在一些实施方案中,每个时期是五个、六个、七个、八个、九个、十个、十一个、十二个、十三个、十四个、十五个、十六个、十七个、十八个、十九个、二十个、二十一个、二十二个、二十三个或二十四个月长。
在一些实施方案中,时期是数年的时段,并且多个时间点中的每个时间点是数年的时段中的不同时间点。在一些实施方案中,数年的时段在一年和十年之间。在一些实施方案中,数年的时段是一年、两年、三年、四年、五年、六年、七年、八年、九年或十年。在一些实施方案中,该时期在一到三十年之间。
在一些实施方案中,时期是数小时的时段,并且多个时间点中的每个时间点是数小时的时段中的不同时间点。在一些实施方案中,数小时的时段在1小时和24小时之间。在一些实施方案中,数小时的时段为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24小时。
在一些实施方案中,当观察到受试者的肿瘤分数估计值(或克隆扩增估计值)在整个时期内改变阈值量时,测试受试者的诊断改变。例如,在一些实施方案中,诊断从患有癌症变为处于缓解期。作为另一个示例,在一些实施方案中,诊断从不患癌症变为患癌症。作为另一个示例,在一些实施方案中,诊断从患有癌症的第一阶段变为患有癌症的第二阶段。作为另一个示例,在一些实施方案中,诊断从患有癌症的第二阶段变为患有癌症的第三阶段。作为又一个示例,在一些实施方案中,诊断从患有癌症的第三阶段变为患有癌症的第四阶段。作为另一个示例,在一些实施方案中,诊断从患有未转移的癌症变为患有已转移的癌症。
在一些实施方案中,当观察到受试者的肿瘤分数估计值(或克隆扩增估计值)在整个时期内改变阈值量时,测试受试者的预后改变。例如,在一些实施方案中,预后涉及预期寿命,并且预后从第一预期寿命变为第二预期寿命,其中第一和第二预期寿命在持续时间上不同。在一些实施方案中,预后的改变增加了受试者的预期寿命。在一些实施方案中,预后的改变降低了受试者的预期寿命。
在一些实施方案中,当观察到受试者的肿瘤分数估计值(或克隆扩增估计值)在整个时期内改变阈值量时,改变测试受试者的处理。在一些实施方案中,处理的改变包括开始癌症药物处理、增加癌症药物处理的剂量、停止癌症药物处理或减少癌症药物处理的剂量。在一些实施方案中,处理的改变包括用来那度胺(Lenalidomid)、帕博利珠单抗(Pembrolizumab)、曲妥珠单抗(Trastuzumab)、贝伐单抗(Bevacizumab)、利妥昔单抗(Rituximab)、依鲁替尼(Ibrutinib)、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗(Pertuzumab)、培美曲塞(Pemetrexed)、尼洛替尼(Nilotinib)、尼洛替尼、地诺单抗(Denosumab)、醋酸阿比特龙酯(Abiraterone acetate)、艾曲波帕(Promacta)、伊马替尼(Imatinib)、依维莫司(Everolimus)、帕博西尼(Palbociclib)、厄洛替尼(Erlotinib)、硼替佐米(Bortezomib)、硼替佐米或其通用等同物起始或终止受试者的处理。在一些实施方案中,处理的改变包括增加或减少向受试者施用的来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼洛替尼、尼洛替尼、地诺单抗、醋酸阿比特龙酯、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物的剂量。在一些实施方案中,阈值大于百分之十、大于百分之二十、大于百分之三十、大于百分之四十、大于百分之五十、大于两倍、大于三倍或大于五倍。
在一些实施方案中,测试受试者的肿瘤分数估计值在0.003和1.0之间。在一些实施方案中,测试受试者的肿瘤分数估计值在0.005和0.80之间。在一些实施方案中,测试受试者的肿瘤分数估计值在0.01和0.70之间。在一些实施方案中,测试受试者的肿瘤分数估计值在0.05和0.60之间。
在一些实施方案中,至少部分地基于测试受试者的肿瘤分数估计值(或克隆扩充估计值)对测试受试者施用处理方案。在一些实施方案中,处理方案包括向测试受试者施用用于癌症的药剂。在一些实施方案中,用于癌症的药剂是激素、免疫疗法、放射照相术或癌症药物。在一些实施方案中,用于癌症的药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼洛替尼、尼洛替尼、地诺单抗、醋酸阿比特龙酯、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施方案中,测试受试者已经用癌症试剂处理,并且测试受试者的肿瘤分数估计值用于评估受试者对癌症试剂的反应。在一些实施方案中,用于癌症的药剂是激素、免疫疗法、放射照相术或癌症药物。在一些实施方案中,用于癌症的药剂是来那度胺、帕博利珠单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼洛替尼、尼洛替尼、地诺单抗、醋酸阿比特龙酯、艾曲波帕、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等同物。
在一些实施方案中,测试受试者已经用癌症试剂处理,并且测试受试者的肿瘤分数估计值用于确定是否加强或中止测试受试者中的癌症试剂。例如,在一些实施方案中,至少一个肿瘤分数估计值(例如,大于0.05、0.10、0.15、0.20、0.25或0.30等)的观察被用作在测试受试者中加强(例如,增加剂量、增加放射处理中的放射水平)用于癌症的药剂的基础。在一些实施方案中,小于阈值肿瘤分数估计值(例如,小于0.05、0.10、0.15、0.20、0.25或0.30等)的观测值用作中止在测试受试者中使用用于癌症的药剂的基础。
在一些实施方案中,测试受试者已经接受手术干预以解决癌症,并且测试受试者的肿瘤分数估计值用于评估测试受试者响应于手术干预的状况。在一些实施方案中,该状况是基于使用本公开中提供的方法的肿瘤分数估计值的度量。
检测污染。在一些实施方案中,本公开的系统和方法包括,任选地在应用本公开中描述的一个或多个过滤器之后使用多个变体调用,以使用SNP检测污染。例如,在一些实施方案中,任选地在应用本公开中所描述的过滤器中的一个或多个之后,使用在于2018年2月20日提交并且公布为US2018/0237838的题为“使用回归技术检测测序数据中的交叉污染”的美国专利申请第15/900,645号、于2018年6月26日提交且公布为US 2018/0373832的题为“检测测序数据中的交叉污染”的美国专利申请第16/019,315号,和/或于2020年9月18日提交的题为“检测测序数据中的交叉污染”的美国专利申请第63/080,670号中公开的技术,将多个变体检测用于检测交叉污染。
附加实施方案
实施例1-鉴定体细胞变体的困难。
给定单个生物样品,可能难以区分种系和体细胞变体。由于体细胞变体与癌症的发展密切相关,这影响了卫生保健提供者为患者确定适当的处理建议的能力。如图4所示,超过60%的种系变体可从亚硫酸氢盐处理的生物样品中鉴定,不包括indel变体。WGS和WGBS测序(例如,如参考图3A所述)均用于调用图4中所示的变体。如图5进一步所示,当只有单链支持物可用时,检测变体的能力降低。
体细胞变体的检出率低得多。图6提供了一个示例。在图6中,分析了44对WGBS和WGS cfDNA人类样品的1号染色体上的变体。使用先前已知的方法确定体细胞变体的总灵敏性仅为15%,与样品的已知肿瘤分数无关。这类低百分比不能准确检测体细胞变体,并且需要改进的检测方法。
使用多种变体鉴定方法(例如,包括db SNP和gnomad)对单独的WGS数据的分析揭示了15.35%的总计灵敏性率,其类似于或略高于来自WGS和WGBS数据的组合的灵敏性率,如图6所示。特别地,WGS分析在总数为78,975个体细胞变体中鉴定出12,124个真阳性和7,750个假阳性变体。
鉴于此处强调的鉴定体细胞变体的问题,本领域需要新的方法。
实施例2-获得多个序列读段。
图7是根据本公开的一些实施方案的用于制备用于测序的核酸样品的方法700的流程图。方法700包括但不限于以下步骤。例如,方法700的任何步骤可包括用于质量控制的定量子步骤或本领域技术人员已知的其他实验室测定程序。
在框702中,从受试者提取核酸样品(DNA或RNA)。样品可为人类基因组的任何子集,包括全基因组。样品可从已知患有或怀疑患有癌症的受试者中提取。样品可包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施方案中,用于抽取血液样品的方法(例如,注射器或手指穿刺)可比用于获得组织活检的程序侵入性小,组织活检可能需要外科手术。提取的样品可包括cfDNA和/或ctDNA。对于健康个体,人体可自然清除cfDNA和其他细胞碎片。如果受试者患有癌症或疾病,提取的样品中的ctDNA可按可检测的水平存在以用于诊断。
在框704中,制备测序文库。在文库制备期间,通过衔接子连接将独特分子标识符(UMI)添加到核酸分子(例如,DNA分子)。UMI是短核酸序列(例如,4-10个碱基对),其在衔接子连接期间添加到DNA片段的末端。在一些实施方案中,UMI是用作独特标签的简并碱基对,其可用于鉴定源自特定DNA片段的序列读段。在衔接子连接后的PCR扩增期间,UMI与附着的DNA片段一起复制。这提供了在下游分析中鉴定来自相同原始片段的序列读段的方法。
在框706中,从文库中富集靶DNA序列。在富集期间,杂交探针(本文中也称为“探针”)用于靶向和下拉核酸片段,所述核酸片段提供关于癌症(或疾病)的存在或不存在、癌症状态或癌症分类(例如,癌症类别或起源组织)的信息。对于给定的工作流程,探针可设计成与DNA的靶(互补)链退火(或杂交)。在一些实施方案中,每个探针的长度在8到5000个碱基之间,长度在12到2500个碱基之间,或者长度在15到1225个碱基之间。靶链可为“正”链(例如,转录成mRNA并随后翻译成蛋白质的链)或互补的“负”链。在一些实施方案中,探针的长度可为数十、数百或数千个碱基对。
在一些实施方案中,基于甲基化位点组设计探针。
在一些实施方案中,基于一组靶向基因和/或基因组区域设计探针,以分析怀疑对应于某些癌症或其他类型疾病的特定突变或基因组(例如,人类或另一种生物体的基因组)的靶区域。例如,在一些实施方案中,探针中的每一个独特地映射至国际专利公开第WO2020154682A3号、第W02020/069350A1号或第WO2019/195268A2号,所述专利中的每一个均通过引用并入本文。
在一些实施方案中,探针覆盖靶区域的重叠部分。参考框708,在一些实施方案中,探针用于生成核酸样品的序列读段。
图8是根据一个实施方案的用于获得序列读段的过程的图形代表。图8描绘了来自样品的核酸区段800的一个示例。在此,核酸区段800可为单链核酸区段。在一些实施方案中,核酸区段800是双链cfDNA区段。所示示例描述了可被不同探针靶向的核酸区段的三个区域805A、805B和805C。具体地,三个区域805A、805B和805C中的每一个包括核酸区段800上的重叠位置。示例重叠位置在图8中描绘为胞嘧啶(“C”)核苷酸碱基802。胞嘧啶核苷酸碱基802位于区域805A的第一边缘附近、区域805B的中心处以及区域805C的第二边缘附近。
在一些实施方案中,基于基因组或甲基化位点组设计一个或多个(或全部)探针,以分析怀疑对应于某些癌症或其他类型疾病的特定突变或基因组(例如,人类或另一种生物体的基因组)的靶区域。通过使用靶向基因组或甲基化位点组,而不是测序基因组的所有表达的基因(也称为“全基因组测序”),方法800可用于增加靶区域的测序深度,其中深度是指样品内的给定靶序列已被测序的次数的计数。增加测序深度减少了核酸样品所需的输入量。例如,在一些实施方案中,靶向的基因组或甲基化位点组包括多个探针,其中探针中的每一个独特地映射至国际专利公开第WO2020154682A3号、第W02020/069350A1号或第WO2019/195268A2号,所述专利中的每一个均通过引用并入本文。
使用一种或多个探针杂交核酸样品800导致对靶序列870的理解。如图8所示,靶序列870是杂交探针靶向的区域805的核苷酸碱基序列。靶序列870也可称为杂交核酸片段。例如,靶序列870A对应于第一杂交探针靶向的区域805A,靶序列870B对应于第二杂交探针靶向的区域805B,并且靶序列870C对应于第三杂交探针靶向的区域805C。假定胞嘧啶核苷酸碱基802位于由杂交探针靶向的每个区域805A-C内的不同位置处,则每个靶序列870包括对应于靶序列870上特定位置处的胞嘧啶核苷酸碱基802的核苷酸碱基。
杂交步骤后,捕获杂交的核酸片段,也可用PCR扩增。例如,可富集靶序列870以获得可随后测序的富集序列880。在一些实施方案中,从靶序列870复制每个富集序列880。分别从靶序列870A和870C扩增的富集序列880A和880C也包括位于每个序列读段880A或880C边缘附近的胸腺嘧啶核苷酸碱基。如下文所用,富集序列880中相对于参考等位基因(例如胞嘧啶核苷酸碱基802)突变的突变核苷酸碱基(例如胸腺嘧啶核苷酸碱基)被认为是备选等位基因。另外,从靶序列870B扩增的每个富集序列880B包括位于每个富集序列880B附近或中心处的胞嘧啶核苷酸碱基。
在图7的框708中,从富集的DNA序列,例如图8所示的富集的序列880生成序列读段。可通过本领域已知的手段从富集的DNA序列获取测序数据。例如,方法800可包括下一代测序(NGS)技术,其包括合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)、连接测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies)或配对末端测序。在一些实施方案中,使用具有可逆染料终止子的合成测序进行大规模平行测序。
在一些实施方案中,可使用本领域已知的方法将序列读段与参考基因组比对,以确定比对位置信息。比对位置信息可指示参考基因组中对应于给定序列读段的起始核苷酸碱基和终止核苷酸碱基的区域的起始位置和终止位置。比对位置信息还可包括序列读段长度,其可从起始位置和终止位置确定。参考基因组中的区域可与基因或基因片段相关联。
在一些实施方案中,通过相应片段的甲基化测序获得的对应多个序列读段的平均序列读段长度在140和280个核苷酸之间。
在各种实施方案中,序列读段由表示为R1和R2的读段对组成。例如,第一读段R1可从核酸片段的第一末端测序,而第二读段R2可从核酸片段的第二末端测序。因此,第一读段R1和第二读段R2的核苷酸碱基对可与参考基因组的核苷酸碱基一致地(例如,以相反的方向)比对。从读段对R1和R2得到的比对位置信息可包括参考基因组中对应于第一读段(例如,R1)末端的起始位置和参考基因组中对应于第二读段(例如,R2)末端的终止位置。换句话说,参考基因组中的起始位置和终止位置代表核酸片段在参考基因组中对应的可能位置。可生成并输出具有SAM(序列比对图)格式或BAM(二进制)格式的输出文件,用于进一步分析,诸如甲基化状态确定。
实施例3-依据cfDNA分数检测癌症的能力。
在一些实施方案中,该方法还包括训练分类器,以至少使用与多个变体调用相关联的肿瘤分数估计信息(例如,至少部分基于受试者的一个或多个相应等位基因位置的一个或多个相应的被调用变体)来确定受试者的癌症状况或受试者获得癌症状况的似然性。
例如,在一些实施方案中,在包括一个或多个参考多个变体调用的训练集上训练未经训练的分类器,其中每个参考多个变体调用与相应的肿瘤分数估计信息相关联。
在一些实施方案中,分类器是逻辑回归。在一些实施方案中,分类器是神经网络算法、支持向量机算法、朴素贝叶斯算法、最近邻算法、提升树算法、随机森林算法、决策树算法、多项式逻辑回归算法、线性模型或线性回归算法。
在例如2020年12月11日提交的美国专利申请第17/119,606号和2019年12月18日提交的题为“使用甲基化信息估计细胞源分数的系统和方法”的美国专利公开第2020-0385813 A1号中更详细地描述了用于一些实施方案中的分类器,所述专利中的每一个均通过引用整体并入本文。
在一些实施方案中,分类器基于神经网络算法、支持向量机算法、决策树算法、无监督聚类算法、监督聚类算法或逻辑回归算法、混合模型或隐马尔可夫模型。在一些实施方案中,经训练的分类器是多项式分类器。
在一些实施方案中,分类器利用2019年3月13日提交的题为“用于选择、管理和分析高维度数据的方法和系统”的美国专利公开第US 2019-0287649 A1号中描述的B得分分类器,所述专利通过引用并入本文。
在一些实施方案中,分类器利用2019年3月13日提交的题为“甲基化片段异常检测”的美国专利公开第US 2019-0287652 A1号中描述的M得分分类器,所述专利通过引用并入本文。
在一些实施方案中,分类器是神经网络或卷积神经网络。参见Vincent等人,2010年,“堆叠去噪自动编码器:用局部去噪准则来学习深度网络中的有用代表”,《机器学习研究杂志(J Mach Learn Res 11)》,第3371-3408页;Larochelle等人,2009年,“探索用于训练深度神经网络的策略”,《机器学习研究杂志》,第1-40页;和Hasssoun,1995年,人工神经网络基础,麻省理工学院,其中的每一项均通过引用并入本文。还参见2018年6月1日提交的题为“用于数据分类的卷积神经网络系统和方法”的美国专利申请第62/679,746号,其公开了可用于根据本公开对甲基化模式进行分类的卷积神经网络,该申请通过引用并入本文。
在一些实施方案中,分类器是支持向量机(SVM)。SVM描述于Cristianini和Shawe-Taylor,2000年,“支持向量机的导论”《剑桥大学出版社》,剑桥;Boser等人,1992年,“最佳间隔分类器的训练算法”,《第五届ACM计算学习理论年度研讨会论文集》,宾夕法尼亚州匹兹堡,第142-152页;Vapnik,1998年,《统计学习理论》,纽约市威利;Mount,2001年,《生物信息学:序列和基因组分析》,冷泉港实验室出版社,纽约市冷泉港;Duda,《模式分类》,第二版,2001年,约翰·威利父子出版公司,第259页、第262-265页;以及Hastie,2001年,《统计学习的要素》,纽约市斯普林格;以及Furey等人,2000年,《生物信息学》16,906-914中,其中的每一项均通过引用整体并入本文。当用于分类时,SVM将给定的二进制标记数据的集合与距标记数据最远的超平面分离。对于不可能进行线性分离的情况,SVM能够与自动实现到特征空间的非线性映射的“内核”技术结合工作。SVM在特征空间中找到的超平面对应于输入空间中的非线性决策边界。
在一些实施方案中,分类器是决策树。决策树一般由Duda,2001年,《模式分类》,纽约市约翰·威利父子出版公司,第395-396页描述,其通过引用并入本文。基于树的方法将特征空间划分为矩形的集合,然后在每个矩形中拟合模型(如常数)。在一些实施方案中,决策树是随机森林回归。可使用的一种特定算法是分类和回归树(CART)。其他具体的决策树算法包括但不限于ID3、C4.5、MART和随机森林。CART、ID3和C4.5描述于Duda,2001年,《模式分类》,纽约市约翰·威利父子出版公司,第396-408页和第411-412页,其通过引用并入本文。CART、MART和C4.5描述于Hastie等人,2001年,《统计学习的要素》,纽约市施普林格,第9章,其通过引用整体并入本文。随机森林描述于Breiman,1999年,“随机森林-随机特征”,《技术报告》567,加州大学伯克利分校统计部门中,1999年9月,其通过引用整体并入本文。
在一些实施方案中,分类器是无监督聚类模型。在一些实施方案中,分类器是监督聚类模型。聚类描述于Duda和Hart,《模式分类和场景分析》,1973年,纽约市约翰·威利父子出版公司的第211-256页(下文中称为“Duda 1973”)中,其通过引用整体并入本文。如Duda 1973第6.7节所述,聚类问题被描述为在数据集中找到自然分组之一。为了鉴定自然分组,解决了两个问题。首先,确定测量两个样品之间的相似性(或相异性)的方式。该度量(例如,相似性度量)用于确保一个聚类中的样品比其他聚类中的样品更相似。第二,确定使用相似性度量将数据划分成聚类的机制。相似性度量论述于Duda 1973的第6.7节中,其中指出开始聚类研究的一种方式是定义距离函数并计算训练集中所有样品对之间的距离矩阵。如果距离是相似性的良好量度,则同一聚类中的参考实体之间的距离将显著小于不同聚类中的参考实体之间的距离。然而,如Duda 1973的第215页所述,聚类不需要使用距离度量。例如,可使用非度量相似性函数s(x,x')来比较两个向量x和x'。常规地,s(x,x')是对称函数,当x和x'在某种程度上“相似”时其值较大。在Duda 1973的第218页提供了非度量相似性函数s(x,x')的示例。一旦选择了用于测量数据集中的点之间的“相似性”或“相异性”的方法,则聚类需要测量数据的任何分区的聚类质量的标准函数。使用使标准函数极端化的数据集的分区来对数据进行聚类。参见Duda 1973第217页。Duda 1973第6.8节论述了标准函数。最近,Duda等人,《模式分类》,第2版,纽约市约翰·威利父子出版公司,已经出版。第537-563页详细描述了聚类。关于聚类技术的更多信息可发现于Kaufman和Rousseeuw,1990年,《在数据中查找组:聚类分析导论》,纽约州纽约市威利;Everitt,1993年,《聚类分析》(第3版),纽约州纽约市威利;以及Backer,1995年,《聚类分析中的计算机辅助推理》,新泽西州上沙德河市Prentice Hall,其中的每一项均通过引用并入本文。可用于本公开的特定示例性聚类技术包括但不限于分级聚类(使用最近邻域算法、最远邻域算法、平均连接算法、质心算法或平方和算法的聚集聚类)、k均值聚类、模糊k均值聚类算法和Jarvis-Patrick聚类。在一些实施方案中,聚类包括无监督聚类(例如,没有预先设想的聚类数目和/或没有预定的聚类分配)。
在一些实施方案中,分类器是回归模型,诸如描述于Agresti,《分类数据分析简介》,1996年,纽约市约翰·威利父子出版公司,第8章中的多类别logit模型,其通过引用整体并入本文。在一些实施方案中,分类器利用公开于Hastie等人,2001年,《统计学习的要素》,纽约市施普林格中的回归模型。
在一些实施方案中,分类器是朴素贝叶斯算法,诸如由Rosen等人开发的工具,用于处理宏基因组读段(参见,《生物信息学》27(1):127-129,2011年)。在一些实施方案中,分类器是最近邻算法,诸如由Kamvar等人,《前沿遗传学》6:208doi:10.3389/fgene.2015.00208,2015)描述的非参数方法。在一些实施方案中,分类器是混合模型,诸如Mclachlan等人,《生物信息学》18(3):413-422,2002中所描述的:在一些实施方案中,特别是包括时间分量的那些实施方案中,分类器是隐马尔可夫模型,诸如由Schliep等人,2003年,《生物信息学》19(l):i255-i263所描述的。
在一些实施方案中,分类器是A得分分类器。A得分分类器是基于非同义突变的靶向测序分析的肿瘤突变负荷分类器。例如,可使用对肿瘤突变负荷数据的逻辑回归计算分类得分(例如,“A得分”),其中从靶向cfDNA测定中获得每个个体的肿瘤突变负荷的估计值。在一些实施方案中,肿瘤突变负荷可被估计为每个个体中的变体总数,一些变体在cfDNA中被称为候选变体,通过噪声建模和联合调用,和/或在与变体重叠的任何基因注释中被发现为异义的。可将训练集的肿瘤突变负荷数输入到罚分逻辑回归分类器中,以确定使用交叉验证达到95%特异性的截止值。关于A得分的其他细节可发现于例如R.Chaudhary等人,2017年,《临床肿瘤学杂志》35(5),suppl.el4529,预印在线出版物,其通过引用整体并入本文。
在一些实施方案中,分类器是B得分分类器。B得分分类器描述于题为“用于选择、管理和分析高维度数据的方法和系统”的美国专利公开第US 2019-0287649 A1号中,其通过引用并入本文。根据B得分方法,分析来自健康受试者参考组中健康受试者的核酸样品的第一序列读段集合的低变体性区域。因此,将来自每个健康受试者的核酸样品的第一序列读段集合中的每个序列读段与参考基因组中的区域进行比对。由此,从来自训练组中的受试者的核酸样品的序列读段中选择序列读段的训练集。训练集中的每个序列读段与从参考集中鉴定的参考基因组中的低变体性区域中的区域进行比对。训练集包括来自健康受试者的核酸样品的序列读段,以及来自已知患有癌症的患病受试者的核酸样品的序列读段。来自训练组的核酸样品的类型与来自健康受试者的参考组的核酸样品的类型相同或相似。由此,使用从训练集的序列读段得到的量,确定一个或多个参数,所述参数反映来自健康受试者的核酸样品的序列读段和来自训练组内患病受试者的核酸样品的序列读段之间的差异。然后,接收与来自其癌症状态未知的测试受试者的包括cfNA片段的核酸样品相关联的序列读段的测试组,并且基于一个或多个参数确定测试受试者患有癌症的似然性。
在一些实施方案中,分类器是M得分分类器。M得分分类器描述于题为“异常碎片检测和分类”的美国专利公开第US 2019-0287652A1号中,其通过引用并入本文。
实施例4-全基因组亚硫酸氢盐测序(WGBS)。
WGBS描述于题为“异常碎片检测和分类”的美国专利申请公开第US 2019-0287652A1号中,其通过引用并入本文。
实施例5-无细胞基因组谱研究(CCGA)群组。
来自CCGA[NCT02889978]的受试者用于本公开的实施例中。CCGA是一项基于cfDNA的前瞻性、多中心、观察性早期癌症检测研究,在141家临床试验机构入组了15,254名人口统计学平衡的参与者。从15254名入组的参与者(56%癌症,44%非癌症)中收集血液样品,这些参与者来自新诊断的未治疗癌症(C,病例)和在入组时定义的未诊断出癌症的参与者(非癌症[NC],对照组)。
在第一群组(预先指定的子研究)(CCGA-1)中,从3,583名CCGA和STRIVE参与者(CCGA:1,530名癌症受试者和884名非癌症受试者;STRIVE1,169名非癌症参与者)。STRIVE是一项多中心、前瞻性群组研究,入组了接受筛查性乳腺X射线摄影检查的女性(入组了99,259名参与者)。从984名患有新诊断的未处理的癌症(20种肿瘤类型,所有阶段)的CCGA参与者和749名未诊断癌症的参与者(对照组)收集血液(n=l,785)以用于血浆cfDNA提取。这项预先计划的子研究包括20种肿瘤类型和所有临床阶段的878例病例、580例对照组和169例试验对照组(n=1627)。
对从每个参与者抽取的血液进行三次测序分析:1)成对cfDNA和白细胞(WBC)靶向测序(60,000X,507基因组)用于单核苷酸变体/indel(ART测序测定);联合调用者去除了WBC来源的体细胞变体和残留的技术噪声;2)成对cfDNA和WBC全基因组测序(WGS;35x)用于拷贝数变异;新的机器学习算法生成癌症相关信号得分;联合分析所鉴定的共享事件;和3)cfDNA全基因组亚硫酸氢盐测序(WGBS;34x)用于甲基化;使用异常甲基化片段生成归一化得分。此外,仅从患有癌症的参与者获得组织样品,使得4)全基因组测序(WGS;30x)对成对的肿瘤和WBC gDNA执行以鉴定用于比较的肿瘤变体。
在CCGA-1研究的上下文中,开发了若干种方法用于估计cfDNA样品的肿瘤分数。参见,题为“用于确定无细胞核酸中的肿瘤分数的系统和方法”的国际专利公开第WO/2019/204360号、题为“使用甲基化信息估计细胞源分数的系统和方法”的国际专利公开第WO2020/132148号,以及题为“用于从小变体估计肿瘤分数的系统和方法”的美国专利公开第US 2020-0340064A1号,其中的每一项均通过引用并入本文。
例如,这些方法之一在图13A中被示为方法1300。在该方法中,通过全基因组测序(WGS)对来自福尔马林固定石蜡包埋(FFPE)肿瘤组织(例如1304)的核酸样品和来自匹配患者(例如1306)的白细胞(WBC)的核酸样品进行测序。对照来自相同患者的匹配cfDNA测序数据(例如,1310)基于测序数据(例如,1308)鉴定的体细胞变体进行分析,用于确定肿瘤分数估计值(例如,1312)。
具体地,图13A中的方法1300需要使用活检的全基因组测序1304和匹配的白细胞全基因组测序1306来确定潜在的信息性体细胞变体调用的集合(例如1308)。种系变体典型地不涉及癌症的发展,因此在检测和/或鉴定癌症方面典型地比体细胞变体提供更少的信息。在一些实施方案中,方法1300通过获得1310测试受试者的无细胞DNA的全基因组测序信息而继续。作为搜索空间的已知体细胞变体调用1308和受试者特异性变体1310的组合可用于提供受试者的肿瘤分数估计值1312。
相比之下,图13B中的方法1302不包括来自白细胞测序的信息。代替地,方法1302使用来自活检全基因组亚硫酸氢盐测序1314的信息来生成体细胞变体调用的集合1316。在一些实施方案中,体细胞变体的集合1316与方法1300中确定的体细胞变体的集合1308不同。在一些实施方案中,方法1302通过获得测试受试者的无细胞DNA1318的全基因组测序来进行。然后,作为搜索空间的体细胞变体调用1316和来自无细胞DNA测序1318的受试者特异性变体的组合可用于提供受试者的肿瘤分数估计值1312。在一些实施方案中,对于方法1300和1302,对参考受试者的集合执行框1304、1306和1314。在方法1300和1302的一些实施方案中,对相应的测试受试者执行框1304、1306或1314中的一个或多个。
图14提供了图13B中概述的方法的示例过程,而图15示出了根据图13B的方法过滤变体以便提高变体调用的正预测值(PPV)的示例。
在第二预先指定的子研究(CCGA-2)中,基于靶向的甲基化测序方法,使用靶向的(而不是全基因组)亚硫酸氢盐测序分析来开发癌症与非癌症和组织起源的分类器。对于CCGA-2,使用3133名训练参与者和1354名验证样品(775名患有癌症;579名在确认癌症与非癌症状态之前,在入组时确定未患有癌症)。对血浆cfDNA进行亚硫酸氢盐测序测定(COMPASS测定),靶向如从独特的甲基化数据库和先前的原型全基因组和靶向测序分析中鉴定的最具信息性的亚甲基区域,以鉴定癌症和组织定义的甲基化信号。在最初为训练保留的3133个样品中,只有1308个样品被视为具有临床可评估性和可分析性。对主要分析群体n=927(654名癌症患者和273名非癌症患者)和次要分析群体n=1,027(659名癌症患者和373名癌症患者)进行分析。最后,对来自福尔马林固定石蜡包埋(FFPE)的肿瘤组织和分离自肿瘤的细胞的基因组DNA进行全基因组亚硫酸氢盐测序(WGBS)以生成癌症定义甲基化信号的大型数据库,用于小组设计和优化性能的训练中。
这些数据证明了对侵入性癌症实现>99特异性的可行性,并且支持cfDNA测定对早期癌症检测的承诺。参见,例如,Klein等人,2018年,“用于多种肿瘤类型的早期检测的综合无细胞DNA(cfDNA)测定的开发:循环无细胞基因组谱(CCGA)研究”《临床肿瘤学杂志(J.Clin.Oncology)》36(15),12021-12021;doi:10.1200/JC0.2018.36.15_suppl.12021和Liu等人,2019年,“全基因组无细胞DNA(cfDNA)甲基化特征及其对组织起源(TOO)表现的影响”《临床肿瘤学杂志》y 37(15),3049-3049;doi:10.1200/JC0.2019.37.15_suppl.3049,其中的每一项均通过引用整体并入本文。
在CCGA-2研究的上下文中,基于甲基化数据(通过靶向甲基化或WGBS获得)开发了多种方法来估计cfDNA样品的肿瘤分数(参见例如,题为“使用甲基化信息估计细胞来源分数的系统和方法”的国际专利公开第WO 2020/132148号,和于2020年2月28日提交的题为“鉴别区分或指示癌症病症的甲基化模式”的美国临时专利申请第62/983,443号,所述专利中的每一个通过引用整体并入本文)。例如,其中一种方法如图13B中的方法1302所示。在该方法中,通过全基因组亚硫酸氢盐测序(WGBS)分析来自福尔马林固定石蜡包埋(FFPE)的肿瘤组织(例如1314)的核酸样品。基于测序数据(例如,1316)鉴定的体细胞变体对照来自相同患者(例如,1318)的匹配cfDNA WGBS测序数据进行分析,用于确定肿瘤分数估计值(例如,1320)。基于WGBS测序数据的肿瘤分数分析的示例可在实施例7中找到。
实施例6-根据本公开的一些实施方案的甲基化状态载体的生成。
图9是描述根据本公开的实施方案对cfDNA片段进行测序以获得甲基化状态载体的过程900的流程图。
参考框902,从生物样品获得cfDNA片段(例如,如以上结合图3A-3D所论述的)。参考框920,处理cfDNA片段以将未甲基化胞嘧啶转化为尿嘧啶。在一些实施方案中,对cfDNA进行亚硫酸氢盐处理,将cfDNA片段的未甲基化胞嘧啶转化为尿嘧啶,而不转化甲基化胞嘧啶。例如,在一些实施方案中,商业试剂盒诸如EZ DNA MethylationTM-Gold、EZ DNAMethylationTM-Direct或EZ DNA MethylationTM-Lightning试剂盒(可得自酶研究公司(Irvine,CA))用于亚硫酸氢盐转化。在其他实施方案中,使用酶促反应实现未甲基化胞嘧啶向尿嘧啶的转化。例如,转化可使用用于将未甲基化胞嘧啶转化为尿嘧啶的市售试剂盒,诸如APOBEC-seq(NEBiolabs,Ipswich,MA)。
从转化的cfDNA片段制备测序文库(框930)。任选地,使用多个杂交探针富集935测序文库中的cfDNA片段或基因组区域,所述片段或基因组区域提供癌症状态的信息。杂交探针是短寡核苷酸,其能够与特定的cfDNA片段或靶向区域杂交,并且富集那些片段或区域用于后续测序和分析。杂交探针可用于对研究人员感兴趣的特定CpG位点的集合进行靶向、高深度分析。一旦制备好,测序文库或其部分可被测序以获得多个序列读段(940)。序列读段可为计算机可读的数字格式,用于由计算机软件处理和解释。
根据序列读段,基于序列读段与参考基因组的比对确定每个CpG位点的位置和甲基化状态(950)。每个片段的甲基化状态向量,其指定该片段在参考基因组中的位置(例如,如由每个片段中第一个CpG位点的位置或另一个类似的度量来指定)、该片段中CpG位点的数目以及该片段中每个CpG位点的甲基化状态(960)。
实施例7-基于检测体细胞变体的肿瘤分数估计。
从在cfDNA中观察到的具有肿瘤特征的片段的计数估计肿瘤分数。遗传性小核苷酸变体和甲基化变体肿瘤特征由肿瘤组织活检的WGBS确定。231名参与者的子集在训练集中匹配肿瘤活检和cfDNA测序,并且用于肿瘤分数估计。该参与者的集合排除了那些活检用于靶标选择的参与者。
更具体地,为了从SNV计算肿瘤分数,执行肿瘤组织的WGBS和cfDNA的WGS的联合分析,以鉴定肿瘤相关联的体细胞小核苷酸变体,例如,如图13B的方法1302所示。图13B的方法1302包括使用上文结合图3详述的变体调用程序调用WGBS组织内的SNV,其通过使用链特异性堆积和贝叶斯基因型模型说明亚硫酸氢盐转化(未甲基化C到T转化)的影响。方法1302的附加元件在图14B中提供(例如,框1402-1420)。
具体地,方法1302包括使用WGBS组织测序数据1402(以及图3B至图3D中公开的方法)和WGS cfDNA测序数据1418调用WGBS组织体细胞变体调用1402/1404。分析WGS cfDNA数据1418(例如,使用freebayes包)以确定多个种系变体调用1420。同时,WGBS组织测序数据1402被用作基线,从该基线去除各种无信息的变体的集合(例如,框1404-1416),从而产生体细胞变体调用的集合。
根据图14的框1404,使用结合图3B至图3D描述的系统和方法鉴定(框1404)为候选WGBS变体(框1406)的每个变体等位基因,为了被保留,不得被鉴定为种系变体(框1408)。
根据图14的框1408,在一些实施方案中,当变体调用者算法,例如FreeBayes、VarDict、MuTect、MuTect2、MuSE、FreeBayes、VarDict和/或MuTect(参见Bian,2018年,“使用合成数据和基因组分段比较所选变体调用者的表现”,《BMC生物信息学》19:429,其通过引用并入本文)将变体鉴定为种系变体(其为样品匹配的WGS cfDNA内的测试受试者所专有的)时,来自框1406的候选变体等位基因被鉴定为种系变体并从候选变体列表中去除(框1418和1420)。
根据图14的框1410,除了去除对测试受试者14A专有的种系变体(框1408)之外,还从候选WGBS变体的列表中去除作为公共数据库(诸如gnomAD和dbDNP数据集)中的已知种系变体的变体。关于这类数据集的信息,参见Karczewski等人,2019年,“跨越141,456个人类外显子组和基因组的变异揭示了跨人类蛋白质编码基因的功能丧失不耐受谱”,bioRxivdoi.org/10.1101/531210和Sherry等人,2011年,“dbSNP:遗传变异的NCBI数据库”,《核酸研究》29,308-311。
根据图14的框1412,除了去除对测试受试者专有的种系变体(框1408),以及在公共数据库诸如gnomAD和dbDNP数据集中已知的种系变体(框1410)之外,还从WGBS变体的列表中去除候选WGBS变体的列表(框1406)、在642个受试者的CCGA I数据集中出现至少两次的候选WGBS变体。在一些实施方案中,不是使用阈值2,而是使用阈值3、4、5、6、7、8、9或10,这意指变体必须出现于要在框1412中消除的群组(例如,642个受试者的CCGAI数据集)中的3、4、5、6、7、8、9或10个更多的受试者中。
根据图14的框1414,除了去除对测试受试者专有的种系变体(框1408)之外,还从候选WGBS变体等位基因片段的列表中去除作为公共数据库诸如gnomAD和dbDNP数据集中的已知种系变体的变体(框1410)、在参考群组中出现至少两次的相应变体(框1412)、跨映射至这类变体的测试受试者的独特测试片段出现频率小于最小频率(最小变体等位基因频率)或跨映射至这类变体的测试受试者的独特测试片段出现频率大于最大频率(最大变体等位基因频率)的变体。例如,在一些实施方案中,相应的变体等位基因必须出现于来自测试受试者的核酸片段的至少20%中,所述核酸片段映射至待要保留在框1414中的变体等位基因的相应等位基因位置。在备选实施方案中,最小等位基因频率是来自测试受试者的核酸片段的至少3%、至少5%、至少10%、至少15%、至少25%、至少30%、至少35%、至少40%、至少45%或至少50%。此外,在一些实施方案中,每个候选变体等位基因必须具有90%的最大变体等位基因频率(最大VAF)以便保留在框1414中。也就是说,变体等位基因必须出现于不超过90%的测试受试者的核酸片段中。在备选实施方案中,来自测试受试者的核酸片段的最大等位基因频率为95%或更少、85%或更少、80%或更少、75%或更少、70%或更少、65%或更少、60%或更少、55%或更少、或50%或更少。此外,为了保留在管道中进一步使用,在一些实施方案中,变体等位基因必须由至少10的总体测序深度支持,以便不在框1414中被消除。换句话说,来自测试受试者的序列读段必须包括来自测试受试者的至少10个不同核酸片段的测序信息,所述核酸片段映射至变体等位基因的基因组区域。该深度要求不强加这些核酸片段中的每一个均具有变体等位基因的要求。在备选实施方案中,来自测试受试者的序列读段必须包括来自测试受试者的至少15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500或1000个核酸片段的测序信息,所述核酸片段映射至变体等位基因的基因组区域,以便在框1414中不从候选WGBS变体中消除变体等位基因。
关于图15,根据图13B和图14的方法1302,一旦生成44个SNV的候选列表(例如,组织最小交替等位基因1432),就分析在以上图14中详述的每个过滤阶段(例如,1434-1446)之后的肿瘤分数估计的性能分析。这些性能统计表明,过滤阶段富集了体细胞变体,即使这些个体的匹配正常参考不可用。这些过滤器包括图14的框1416的最小变体等位基因频率1434(例如,20%的最小VAF),和图14的框1416的最大变体等位基因频率1436(例如,90%的最大VAF)、图14的框1416的最小深度1438(例如,10的深度)、图14的框1412的已知噪声位点的定制黑名单1444(在一些实施方案中,其基于来自上述实施例5中的CCGA途径1方法的642个样品的集合)、图14的框1408的样品匹配的WGS cfDNA 1446内的freebayes标记的对测试受试者专有的种系变体的去除,以及使用图14的框1410的dbSNP和gnomAD数据集(分别参见例如1440和1442)的一般已知种系变体的去除(例如,列入黑名单)。在一些实施方案中,这些过滤器以任何顺序应用于数据集。
支持和不支持每种变体的片段计数从与WGBS数据匹配的相应cfDNA样品的WGS测序生成。使用对肿瘤分数进行的网格搜索并采用定义为二项式似然性的混合的每变体似然性来计算后验肿瘤分数估计值。混合物组分说明了(1)由于肿瘤脱落而观察到的碎片,以及(2)各种错误模式,其包括种系变体和错误调用变体。计算每个参与者的肿瘤分数的中值和95%可信区间。
上述过滤器的所得组合(例如,1448-纯合参考似然性)比单独过滤器子集(例如,1434-1446)中的任何一个或任何其他组合的使用具有更好的性能。例如,过滤器1448具有32.2%的结果灵敏性和49.5%的阳性预测值。相反,组织最小交替等位基因组1432提供高灵敏性(例如,68.72%);然而,同时存在仅0.02%的低阳性预测值。图15中指示了每个其他过滤器的灵敏性(sens)和阳性预测值(PPV)。阳性预测值(PPV)是指被正确分类为与癌症相关联的变体的比例(例如,真阳性数除以真阳性数和假阳性数的总和)。
结论
本文所使用的术语仅仅是为了描述特定的情况,而不是为了限制。如本文所用,单数形式“一(a)”、“一个(an)”和“该(the)”也旨在包括复数形式,除非上下文另外明确指出。还将理解,如本文所用的术语“和/或(and/or)”是指并涵盖一个或多个相关联的所列项目的任何和所有可能的组合。还应理解,当在本说明书中使用时,术语“包括”和/或“包括有”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合的存在或添加。此外,就在详细描述和/或权利要求书中使用术语“包含”、“包含有”、“具有”、“具有”、“含有”或其变体而言,这类术语旨在以类似于术语“包括”的方式包括在内。
可为本文所描述的组件、操作或结构提供多个实例作为单个实例。最后,各种组件、操作和数据存储之间的边界在某种程度上是任意的,并且在特定说明性配置的上下文中示出了特定操作。其他功能分配是可预见的,并且可落入实施方式(一个或多个)的范围内。一般而言,在示例配置中作为单独组件呈现的结构和功能可被实施为组合结构或组件。类似地,呈现为单个组件的结构和功能可被实施为分离的组件。这些和其他变化、修改、添加和改进均属于实施方式(一个或多个)的范围内。
还应理解,尽管这里可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件与另一个元件。例如,在不脱离本公开的范围的情况下,第一受试者可被称为第二受试者,并且类似地,第二受试者可被称为第一受试者。第一受试者和第二受试者均是受试者,但它们不是同一受试者。
如本文所用,术语“如果(if)”可根据上下文解释为意指“在……时(when)”或“在……时(upon)”或“响应于确定(in response to determining)”或“响应于检测(inresponse to detecting)”。类似地,取决于上下文,短语“如果确定(if it isdetermined)”或“如果检测到[规定的条件或事件](if[a stated condition or event]isdetected)”可解释为意指“在确定时(upon determining)”或“响应于确定(in responseto determining)”或“在检测到(规定的条件或事件)时(upon detecting(the statedcondition or event))”或“响应于检测到(规定的条件或事件)(in response todetecting(the stated condition or event))”。
以上描述包括体现说明性实施方式的示例系统、方法、技术、指令序列和计算机程序产品。出于解释的目的,阐述了许多具体细节以便提供对本发明主题的各种实施方式的理解。然而,对于本领域技术人员来说显而易见的是,可在没有这些具体细节的情况下实践本发明主题的实施方式。一般而言,没有详细示出公知的指令示例、协议、结构和技术。
出于解释的目的,已经参考特定实施方式描述了上述描述。然而,以上的说明性论述并不旨在穷举或将实施方式限于所公开的精确形式。鉴于上述教导,许多修改和变化是可能的。选择和描述这些实施方式是为了最好地解释原理及其实际应用,从而使本领域的其他技术人员能够最好地利用这些实施方式以及具有各种修改的各种实施方式,以适合于所设想的特定用途。

Claims (69)

1.一种调用测试受试者的等位基因位置处的变体的方法,所述方法包括:
在具有一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的存储器的计算机系统处:
(A)使用从参考群体中获取的核酸数据,对于候选基因型的集合中的每个相应候选基因型,推导所述等位基因位置处基因型的先验概率;
(B)获得针对所述等位基因位置的链特异性碱基计数集合,其中所述链特异性碱基计数集合包括所述等位基因位置处的所述碱基的集合{A,C,T,G}中每个碱基在正向和反向上的链特异性计数,所述链特异性计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的所述等位基因位置处的相应碱基的同一性来被获取,所述第一多个核酸片段序列映射至所述等位基因位置,通过甲基化测序从所述测试受试者的第一生物样品中的第一多个核酸片段中获取,并且其中所述第一多个核酸片段序列中的所述等位基因位置处的碱基对所述链特异性碱基计数集合没有贡献,所述碱基的同一性能够受甲基化或未甲基化胞嘧啶的转化影响;
(C)使用所述链特异性碱基计数集合和测序误差估计值计算针对所述等位基因位置的所述候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而计算多个正向链条件概率和多个反向链条件概率;
(D)使用以下项的组合,计算多个似然性,所述多个似然性中的每个相应似然性用于所述候选基因型的集合中的相应候选基因型:(i)所述多个正向链条件概率中的所述相应候选基因型的所述相应正向链条件概率,(ii)所述多个反向链条件概率中的所述相应候选基因型的所述相应反向链条件概率,和(iii)所述相应候选基因型的基因型的所述先验概率;以及
(E)确定所述多个似然性是否支持所述等位基因位置处的变体调用。
2.根据权利要求1所述的方法,其中所述第一生物样品是液体生物样品,并且所述第一多个核酸片段序列中的每个相应核酸片段序列代表所述液体生物样品中的无细胞核酸分子群体中的相应无细胞核酸分子的全部或一部分。
3.根据权利要求1所述的方法,其中所述第一生物样品是组织样品,并且所述第一多个核酸片段序列中的每个相应核酸片段序列代表所述组织样品中的核酸分子群体中的相应核酸分子的全部或一部分。
4.根据权利要求3所述的方法,其中所述组织样品是来自所述测试受试者的肿瘤样品。
5.根据权利要求1所述的方法,其中所述参考群体包括至少一百名参考受试者。
6.根据权利要求1所述的方法,其中所述第一生物样品包括所述测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。
7.根据权利要求1所述的方法,其中所述第一生物样品包括:所述测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。
8.根据权利要求1-7中任一项所述的方法,其中所述测试受试者为人类。
9.根据权利要求1-8中任一项所述的方法,其中所述正向是F1R2读段取向并且所述反向是F2R1读段取向。
10.根据权利要求1-9中任一项所述的方法,其中所述基因型的集合中的每个相应候选基因型呈X/Y形式,其中:
X是在参考基因组中的所述等位基因位置处的所述碱基的集合{A,C,T,G}中的所述碱基的同一性,
Y是在所述测试受试者中的所述等位基因位置处的所述碱基的集合{A,C,T,G}中的所述碱基的同一性。
11.根据权利要求10所述的方法,其中所述候选基因型的集合包括所述集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的两种至十种基因型。
12.根据权利要求10所述的方法,其中所述候选基因型的集合包括所述集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的至少两种基因型。
13.根据权利要求10所述的方法,其中所述候选基因型的集合包括所述集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}。
14.根据权利要求10所述的方法,其中所述候选基因型的集合中的相应候选基因型的相应似然性具有以下形式:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G),
其中:
Pr(FA,FG,FCT|FACGT,基因型,∈)是所述相应候选基因型的所述相应正向链条件概率,
Pr(Rc,RT,RAG|RACGT,基因型,∈)是所述相应候选基因型的所述相应反向链条件概率,
Pr(G)是通过权利要求1的所述获得步骤(A)获取的、针对所述相应候选基因型的在所述等位基因位置处的基因型的所述先验概率,
∈是所述测序误差估计值,
基因型是所述相应候选基因型,
FA是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基A的所述正向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,
FG是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基G的所述正向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,
FCT是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的(i)碱基C的所述正向碱基计数和(ii)碱基T的所述正向碱基计数的总和,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,
RC是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基C的所述反向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,
RT是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基T的所述反向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,并且
RAG是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的(i)碱基A的所述反向碱基计数和(ii)碱基G的所述反向碱基计数的总和,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置。
15.根据权利要求14所述的方法,其中所述相应候选基因型G是A/A,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/A),
针对A/A包括如下计算:
Figure FDA0003818316920000041
16.根据权利要求14所述的方法,其中所述相应候选基因型G是A/A,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/A),
针对A/A包括如下计算:
Figure FDA0003818316920000051
17.根据权利要求14所述的方法,其中所述相应候选基因型G是A/C,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/C),
针对A/C包括如下计算:
Figure FDA0003818316920000052
18.根据权利要求14所述的方法,其中所述相应候选基因型G是A/C,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/C),
针对A/C包括如下计算:
Figure FDA0003818316920000053
19.根据权利要求14所述的方法,其中所述相应候选基因型G是A/G,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/G),
针对A/G包括如下计算:
Figure FDA0003818316920000054
20.根据权利要求14所述的方法,其中所述相应候选基因型G是A/G,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/G),
针对A/G包括如下计算:
Figure FDA0003818316920000061
21.根据权利要求14所述的方法,其中所述相应候选基因型G是A/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/T),
针对A/T包括如下计算:
Figure FDA0003818316920000062
22.根据权利要求14所述的方法,其中所述相应候选基因型G是A/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(A/T),
针对A/T包括如下计算:
Figure FDA0003818316920000063
23.根据权利要求14所述的方法,其中所述相应候选基因型G是C/C,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/C),
针对C/C包括如下计算:
Figure FDA0003818316920000064
24.根据权利要求14所述的方法,其中所述相应候选基因型G是C/C,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/C),
针对C/C包括如下计算:
Figure FDA0003818316920000071
25.根据权利要求14所述的方法,其中所述相应候选基因型G是C/G,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/G),
针对C/G包括如下计算:
Figure FDA0003818316920000072
26.根据权利要求14所述的方法,其中所述相应候选基因型G是C/G,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/G),
针对C/G包括如下计算:
Figure FDA0003818316920000073
27.根据权利要求14所述的方法,其中所述相应候选基因型G是C/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/T),
针对C/T包括如下计算:
Figure FDA0003818316920000074
28.根据权利要求14所述的方法,其中所述相应候选基因型G是C/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(C/T),
针对C/T包括如下计算:
Figure FDA0003818316920000081
29.根据权利要求14所述的方法,其中所述相应候选基因型G是G/G,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/G),
针对G/G包括如下计算:
Figure FDA0003818316920000082
30.根据权利要求14所述的方法,其中所述相应候选基因型G是G/G,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/G),
针对G/G包括如下计算:
Figure FDA0003818316920000083
31.根据权利要求14所述的方法,其中所述相应候选基因型G是G/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/T),
针对G/T包括如下计算:
Figure FDA0003818316920000084
32.根据权利要求14所述的方法,其中所述相应候选基因型G是G/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(G/T),
针对G/T包括如下计算:
Figure FDA0003818316920000091
33.根据权利要求14所述的方法,其中所述相应候选基因型G是T/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(T/T),
针对T/T包括如下计算:
Figure FDA0003818316920000092
34.根据权利要求14所述的方法,其中所述相应候选基因型G是T/T,并且计算所述相应似然性:
Pr(FA,FG,FCT|FACGT,基因型,∈)*Pr(RAG,RC,RT|RACGT,基因型,∈)*Pr(T/T),
针对T/T包括如下计算:
Figure FDA0003818316920000093
35.根据权利要求1-34中任一项所述的方法,其中所述甲基化测序是全基因组甲基化测序。
36.根据权利要求1-34中任一项所述的方法,其中所述甲基化测序是使用多个核酸探针的靶向DNA甲基化测序。
37.根据权利要求36所述的方法,其中所述多个核酸探针包括一百个或更多个探针。
38.根据权利要求1-34中任一项所述的方法,其中所述甲基化测序检测所述第一多个核酸片段中的相应核酸片段中的一个或多个5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5hmC)。
39.根据权利要求1-34中任一项所述的方法,其中所述甲基化测序包括将所述第一多个核酸片段中的所述核酸片段中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。
40.根据权利要求39所述的方法,其中所述一个或多个尿嘧啶在所述甲基化测序期间作为一个或多个对应的胸腺嘧啶被检测。
41.根据权利要求39所述的方法,其中一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的所述转化包括化学转化、酶转化或其组合。
42.根据权利要求1-34中任一项所述的方法,其中所述甲基化测序是亚硫酸氢盐测序。
43.根据权利要求1-42任一项所述的方法,其中所述等位基因位置是单碱基位置,并且所述变体是单核苷酸多态性。
44.根据权利要求1-42中任一项所述的方法,其中所述测序误差估计值为0.01至0.0001。
45.根据权利要求10的方法,其中确定所述多个似然性是否支持在所述等位基因位置处的变体调用包括:
确定所述多个似然性中对应于所述等位基因位置的所述参考基因型的所述似然性是否满足变体阈值,其中当所述等位基因位置满足变体阈值时,所述等位基因位置处的变体被调用。
46.根据权利要求45所述的方法,其中所述似然性被表示为对数似然性,并且当所述等位基因位置的所述参考基因型的所述对数似然性小于-10时,所述变体阈值被满足。
47.根据权利要求45所述的方法,其中所述似然性被表示为对数似然性,并且所述变体阈值在-25和-5之间。
48.根据权利要求45所述的方法,其中所述方法还包括,当所述等位基因位置处的变体被调用时,通过在所述等位基因位置的所述候选基因型的集合中选择具有所述多个似然性中的最佳似然性的所述候选基因型作为所述变体,来确定所述变体的同一性。
49.根据权利要求45所述的方法,其中所述等位基因位置的所述参考基因型是A/A、G/G,C/C或T/T。
50.根据权利要求1-49中任一项所述的方法,所述方法还包括:对多个等位基因位置中的每个等位基因位置执行所述(A)获得、(B)获得、(C)计算、(D)计算和(E)确定,从而获得所述测试受试者的多个变体调用,其中所述多个变体调用中的每个变体调用位于参考基因组中的不同基因组位置处。
51.根据权利要求1所述的方法,所述方法还包括:对多个等位基因位置中的每个等位基因位置执行所述(A)获得、(B)获得、(C)计算、(D)计算和(E)确定,从而获得所述测试受试者的多个变体调用,其中所述多个变体调用中的每个变体调用位于参考基因组中的不同基因组位置处,并且其中
所述第一生物样品是组织样品,并且
所述甲基化测序是全基因组亚硫酸氢盐测序。
52.根据权利要求51所述的方法,其中所述多个变体调用包括200个变体调用。
53.根据权利要求51或52所述的方法,所述方法还包括:
使用电子形式的第二多个核酸片段序列获得第二多个变体调用,所述第二多个核酸片段序列通过全基因组测序从所述测试受试者的第二生物样品中的第二多个核酸片段被获取,其中所述第二多个核酸片段是无细胞核酸片段,并且其中所述第二生物样品是液体生物样品;以及
从所述多个变体调用中去除也在所述第二多个变体调用中的相应变体调用。
54.根据权利要求51-53中任一项所述的方法,所述方法还包括从所述多个变体调用中去除已知种系变体列表中的相应变体调用。
55.根据权利要求51-54中任一项所述的方法,其中所述方法还包括当在除所述测试受试者以外的受试者的组织样品中发现相应变体调用时,从所述多个变体调用中去除所述相应变体调用。
56.根据权利要求51-55中任一项所述的方法,其中所述方法还包括当相应变体调用未能满足质量度量时从所述多个变体调用中去除所述相应变体调用。
57.根据权利要求56所述的方法,其中所述质量度量是电子形式的所述第一多个核酸片段序列中映射至所述相应变体调用的所述等位基因位置的最小变体等位基因分数。
58.根据权利要求57所述的方法,其中所述最小变体等位基因分数是百分之十。
59.根据权利要求56所述的方法,其中所述质量度量是电子形式的所述第一多个核酸片段序列中映射至所述相应变体调用的所述等位基因位置的最大变体等位基因分数。
60.根据权利要求59所述的方法,其中所述最大变体等位基因分数是百分之九十。
61.根据权利要求56所述的方法,其中所述质量度量是电子形式的所述第一多个核酸片段序列中映射至所述相应变体调用的所述等位基因位置的最小深度。
62.根据权利要求61所述的方法,其中所述最小深度为十。
63.根据权利要求53-62中任一项所述的方法,所述方法还包括在所述去除之后使用所述多个变体调用来执行肿瘤分数估计。
64.根据权利要求53-62中任一项所述的方法,所述方法还包括在所述去除之后使用所述多个变体调用来定量白细胞克隆扩增。
65.根据权利要求53-62中任一项所述的方法,所述方法还包括:使用所述多个变体调用以通过使用所述多个变体调用的种系分析来评估所述受试者的遗传风险。
66.根据权利要求50和51中任一项所述的方法,其中所述确定(e)步骤还包括通过一个或多个过滤器过滤所述多个变体调用。
67.根据权利要求66所述的方法,其中所述一个或多个过滤器选自包括以下项的所述集合:最小变体等位基因频率、最大变体等位基因频率、最小深度、将来自所述测试受试者的种系变体列入黑名单,或将来自参考数据库的种系变体列入黑名单。
68.一种计算系统,包括:
一个或多个处理器;
存储器,存储将由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于通过包括以下步骤的方法调用测试受试者中的等位基因位置处的变体的指令:
(A)使用从参考群体获取的核酸数据,获得候选基因型的集合中每个相应候选基因型在所述等位基因位置处的基因型的先验概率;
(B)获得针对所述等位基因位置的链特异性碱基计数集合,其中所述链特异性碱基计数集合包括所述等位基因位置处的所述碱基的集合{A,C,T,G}中每个碱基在正向和反向上的链特异性计数,所述链特异性计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的所述等位基因位置处的相应碱基的同一性来被获取,所述第一多个核酸片段序列映射至所述等位基因位置,通过甲基化测序从所述测试受试者的第一生物样品中的第一多个核酸片段中获取,并且其中所述第一多个核酸片段序列中的所述等位基因位置处的碱基对所述链特异性碱基计数集合没有贡献,所述碱基的同一性能够受未甲基化胞嘧啶向尿嘧啶的转化的影响;
(C)使用所述链特异性碱基计数集合和测序误差估计值计算所述等位基因位置的所述候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而计算多个正向链条件概率和多个反向链条件概率;
(D)使用以下项的组合计算多个似然性,所述多个似然性中的每个相应似然性用于所述候选基因型的集合中的相应候选基因型:(i)所述多个正向链条件概率中的所述相应候选基因型的所述相应正向链条件概率,(ii)所述多个反向链条件概率中的所述相应候选基因型的所述相应反向链条件概率,和(iii)所述相应候选基因型的基因型的所述先验概率;以及
(E)确定所述多个似然性是否支持在所述等位基因位置处的变体调用。
69.一种非暂态计算机可读存储介质,存储用于调用测试受试者中的等位基因位置处的变体的一个或多个程序,所述一个或多个程序被配置为由计算机执行,其中所述一个或多个程序包括用于以下操作的指令:
(A)使用从参考群体获取的核酸数据,获得候选基因型的集合中每个相应候选基因型在所述等位基因位置处的基因型的先验概率;
(B)获得针对所述等位基因位置的链特异性碱基计数集合,其中所述链特异性碱基计数集合包括所述等位基因位置处的所述碱基的集合{A,C,T,G}中每个碱基在正向和反向上的链特异性计数,所述链特异性计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的所述等位基因位置处的相应碱基的同一性来被获取,所述第一多个核酸片段序列映射至所述等位基因位置,通过甲基化测序从所述测试受试者的第一生物样品中的第一多个核酸片段中获取,并且其中所述第一多个核酸片段序列中的所述等位基因位置处的碱基对所述链特异性碱基计数集合没有贡献,所述碱基的同一性能够受未甲基化胞嘧啶向尿嘧啶的转化的影响;
(C)使用所述链特异性碱基计数集合和测序误差估计值计算所述等位基因位置的所述候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而计算多个正向链条件概率和多个反向链条件概率;
(D)使用以下项的组合计算多个似然性,所述多个似然性中的每个相应似然性用于所述候选基因型的集合中的相应候选基因型:(i)所述多个正向链条件概率中的所述相应候选基因型的所述相应正向链条件概率,(ii)所述多个反向链条件概率中的所述相应候选基因型的所述相应反向链条件概率,和(iii)所述相应候选基因型的基因型的所述先验概率;以及
(E)确定所述多个似然性是否支持在所述等位基因位置处的变体调用。
CN202180017401.6A 2020-02-28 2021-02-25 使用甲基化测序数据调用变体的系统和方法 Pending CN115244622A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062983404P 2020-02-28 2020-02-28
US62/983,404 2020-02-28
PCT/US2021/019746 WO2021173885A1 (en) 2020-02-28 2021-02-25 Systems and methods for calling variants using methylation sequencing data

Publications (1)

Publication Number Publication Date
CN115244622A true CN115244622A (zh) 2022-10-25

Family

ID=75143720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180017401.6A Pending CN115244622A (zh) 2020-02-28 2021-02-25 使用甲基化测序数据调用变体的系统和方法

Country Status (7)

Country Link
US (1) US20210285042A1 (zh)
EP (1) EP4111455A1 (zh)
JP (1) JP2023516633A (zh)
CN (1) CN115244622A (zh)
AU (1) AU2021227920A1 (zh)
CA (1) CA3167633A1 (zh)
WO (1) WO2021173885A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2022325153A1 (en) * 2021-08-05 2024-02-15 Grail, Llc Somatic variant cooccurrence with abnormally methylated fragments
WO2023183468A2 (en) * 2022-03-25 2023-09-28 Freenome Holdings, Inc. Tcr/bcr profiling for cell-free nucleic acid detection of cancer

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202340477A (zh) 2016-10-24 2023-10-16 美商格瑞爾有限責任公司 腫瘤檢測之方法及系統
US20180237838A1 (en) 2017-02-17 2018-08-23 Grail, Inc. Detecting Cross-Contamination in Sequencing Data Using Regression Techniques
US20180373832A1 (en) 2017-06-27 2018-12-27 Grail, Inc. Detecting cross-contamination in sequencing data
AU2019234843A1 (en) 2018-03-13 2020-09-24 Grail, Llc Anomalous fragment detection and classification
EP3765633A4 (en) 2018-03-13 2021-12-01 Grail, Inc. PROCESS AND SYSTEM FOR THE SELECTION, ADMINISTRATION AND ANALYSIS OF HIGH DIMENSIONAL DATA
WO2019195268A2 (en) 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels
EP3781709A4 (en) 2018-04-16 2022-11-30 Grail, LLC SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID
EP3856903A4 (en) 2018-09-27 2022-07-27 Grail, LLC METHYLATION MARKER AND TARGETED METHYLATION PROBE PANEL
CA3121926A1 (en) 2018-12-18 2020-06-25 Grail, Inc. Systems and methods for estimating cell source fractions using methylation information
EP3914736B1 (en) 2019-01-25 2023-12-20 Grail, LLC Detecting cancer, cancer tissue of origin, and/or a cancer cell type
US20200340064A1 (en) 2019-04-16 2020-10-29 Grail, Inc. Systems and methods for tumor fraction estimation from small variants

Also Published As

Publication number Publication date
EP4111455A1 (en) 2023-01-04
JP2023516633A (ja) 2023-04-20
WO2021173885A1 (en) 2021-09-02
US20210285042A1 (en) 2021-09-16
CA3167633A1 (en) 2021-09-02
AU2021227920A1 (en) 2022-09-08

Similar Documents

Publication Publication Date Title
CN112888459B (zh) 卷积神经网络系统及数据分类方法
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
US20210065842A1 (en) Systems and methods for determining tumor fraction
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20200385813A1 (en) Systems and methods for estimating cell source fractions using methylation information
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
IL300487A (en) Sample validation for cancer classification
CN115836349A (zh) 用于评估纵向生物特征数据的系统和方法
US20210285042A1 (en) Systems and methods for calling variants using methylation sequencing data
US20210295948A1 (en) Systems and methods for estimating cell source fractions using methylation information
JPWO2021127565A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination