CN118103524A - 用于检测拷贝数改变的方法和系统 - Google Patents

用于检测拷贝数改变的方法和系统 Download PDF

Info

Publication number
CN118103524A
CN118103524A CN202280067609.3A CN202280067609A CN118103524A CN 118103524 A CN118103524 A CN 118103524A CN 202280067609 A CN202280067609 A CN 202280067609A CN 118103524 A CN118103524 A CN 118103524A
Authority
CN
China
Prior art keywords
copy number
tumor
cancer
processors
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280067609.3A
Other languages
English (en)
Inventor
杰森·D·休斯
伯纳德·芬德勒
贾斯廷·纽伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foundation Medical Co
Original Assignee
Foundation Medical Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foundation Medical Co filed Critical Foundation Medical Co
Publication of CN118103524A publication Critical patent/CN118103524A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文中描述了用于调用拷贝数改变(CNA)的方法和系统,包括用于将基于网格的拷贝数模型拟合至序列读出数据的方法和系统。该方法可包括针对多个遗传基因座生成次要等位基因覆盖率和主要等位基因覆盖率、转换等位基因覆盖数据以及将拷贝数网格模型拟合至数据。然后可使用拟合拷贝数网格模型来分配拷贝数状态或调用拷贝数改变。拷贝数网格模型和转换的等位基因覆盖率数据可被显示以考虑所呈现的模型,其允许更有效的数据解释以及拷贝数状态或拷贝数改变的调用。

Description

用于检测拷贝数改变的方法和系统
相关申请的交叉引用
本申请要求于2021年10月8日提交的美国临时申请No.63/253,972的权益,其在此通过引用整体并入。
技术领域
本公开内容一般性地涉及用于分析基因组谱分析数据的方法和系统,并且更具体地涉及使用基因组谱分析数据用于调用拷贝数改变的方法和系统。
背景技术
结构变体(structural variant,SV)是通常包含长度为至少50个碱基对(bp)的改变的大的基因组改变(Mahmoud,et al.(2019),“Structural variant calling:the longand the short of it”,Genome Biology 20:246)。这些大的基因组改变可分为缺失、重复、插入、倒位和易位,并且描述了DNA获得、丢失或重排的不同组合。
异常染色体失衡(通常称为非整倍性)通常发生在细胞繁殖期间,其中DNA修复机制无法充分监测和纠正错误。虽然非整倍性可指示生殖系细胞中的疾病,但在体细胞中,拷贝数改变(Copy Number Alteration,CNA)通常与肿瘤发生相关,并且可确定关键的遗传驱动因素,导致群体对促进生长的遗传变化的压力增加。因此,转移性癌症通常表现出非整倍性增加,其影响纠正复制错误或促进细胞生长的基因的遗传途径。
与拷贝数分析相关的数据的典型表示(即等位基因频率或覆盖率)通常在基因组上进行分类,其中比率转换为log2(R)。通常,等位基因频率图被折叠使得仅显示次要等位基因频率。由于覆盖范围是保守的,因此次要和主要等位基因频率是冗余的,并且在该表示中不会丢失信息。在模型拟合之后,然后通常将这些拷贝数状态重叠在预测的比率和等位基因频率之上。覆盖率图通常显示与拷贝数事件相关的方向性。如果发生放大,则覆盖率增加。如果发生缺失,则覆盖率降低。从等位基因频率图中破译扩增和缺失更具挑战性。虽然这些表示是直观的,因为靶标在基因组上进行分类,并且可观察到的结果是作为该分类的函数绘制的,但可以可视化地确定拷贝数状态以及该状态与等位基因频率和覆盖率二者的对应程度通常是具有挑战性的。
发明内容
本文中描述了用于调用拷贝数改变(CNA)的方法和系统,包括用于将基于网格的拷贝数模型(即,“拷贝数网格模型”)拟合至序列读出数据的方法和系统。有利地,将拷贝数网格模型拟合至序列读出数据允许这样的数据的显示:其使得更有效地解释数据并调用拷贝数状态或拷贝数改变,这通常难以准确调用。即,拷贝数网格模型在同一表上提供了与覆盖率和等位基因频率二者及其相关错误相关的数据的可视化,同时重叠预测的拷贝数状态以获得更完整的呈现。所得的重叠的显示有利于手动调用基因组区段或基因组基因座的拷贝数,或者手动确认基因组区段或基因组基因座的拷贝数的调用(例如,通过自动化过程进行的调用)。
在一些实施方式中,用于调用拷贝数改变(CNA)的方法包括:提供从来自对象的样品中获得的多个核酸分子;将一个或更多个衔接子连接到来自所述多个核酸分子的一个或更多个核酸分子上;对来自所述多个核酸分子的一个或更多个经连接的核酸分子进行扩增;从所扩增的核酸分子中捕获经扩增的核酸分子;通过测序仪对所捕获的核酸分子进行测序以获得代表经捕获的核酸分子的多个序列读出,从而生成针对样品的基因组的序列读出数据;在一个或更多个处理器处接收所述序列读出数据;使用所述一个或更多个处理器针对多个遗传基因座生成次要等位基因覆盖率和主要等位基因覆盖率;使用所述一个或更多个处理器将基因组分割成多个基因组区段;使用所述一个或更多个处理器针对所述多个遗传基因座中的遗传基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择拷贝数网格模型;以及基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
在一些实施方式中,所述一个或更多个衔接子包含扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列。
在一些实施方式中,所捕获的核酸分子通过与一个或更多个诱饵分子杂交而从所扩增的核酸分子中捕获。在一些实施方式中,所述一个或更多个诱饵分子包含一个或更多个核酸分子,每个核酸分子包含与所捕获的核酸分子的区域互补的区域。
在一些实施方式中,对核酸分子进行扩增包括进行聚合酶链反应(polymerasechain reaction,PCR)扩增技术、非PCR扩增技术或等温扩增技术。
在一些实施方式中,所述测序包括使用大规模平行测序(massively parallelsequencing,MPS)技术、全基因组测序(whole genome sequencing,WGS)、全外显子组测序、靶向测序、直接测序或Sanger测序技术。在一些实施方式中,例如,所述测序包括大规模平行测序,并且所述大规模平行测序技术包括下一代测序(next generation sequencing,NGS)。在一些实施方式中,所述测序仪包含下一代测序仪。
在一些实施方式中,用于调用拷贝数改变(CNA)的方法包括:在一个或更多个处理器处接收与从来自对象的样品中获得的多个核酸分子相关的多个序列读出的序列读出数据;使用所述一个或更多个处理器针对多个遗传基因座生成次要等位基因覆盖率和主要等位基因覆盖率;使用所述一个或更多个处理器将基因组分割成多个基因组区段;使用所述一个或更多个处理器针对所述多个遗传基因座中的遗传基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择拷贝数网格模型;以及基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
在任何上述方法的一些实施方式中,所述分割基于所述次要等位基因覆盖率、所述主要等位基因覆盖率或总覆盖率。
在任何上述方法的一些实施方式中,从所述多个拷贝数网格模型中选择所述拷贝数网格模型包括:对于每个基因组区段,确定所述拷贝数网格模型输入数据的分布;对于每个基因组区段,鉴定所述分布与最接近的拷贝数状态之间的距离;以及基于跨所述多个基因组区段的平均距离,确定总体模型拟合评分。
在任何上述方法的一些实施方式中,所述多个拷贝数网格模型中的不同拷贝数网格模型使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化。
在任何上述方法的一些实施方式中,对于每个拷贝数网格模型,将所述多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据包括:基于初始肿瘤纯度估计值和初始肿瘤倍性估计值,将所述拷贝数网格模型的允许的拷贝数状态拟合至所述拷贝数网格模型输入数据;以及迭代地:为所述多个基因组区段中的每个基因组区段分配初步拷贝数,基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值,以及基于所述更新的肿瘤倍性估计值和更新的肿瘤纯度估计值将所述允许的拷贝数状态重新拟合至所述拷贝数网格模型输入数据。
在任何上述方法的一些实施方式中,所述初始肿瘤纯度由预选肿瘤纯度下限和预选肿瘤纯度上限界定。在一些实施方式中,所述预选肿瘤纯度下限为0并且所述预选肿瘤纯度上限为1。
在任何上述方法的一些实施方式中,所述初始肿瘤倍性由预选肿瘤倍性下限界定。在一些实施方式中,所述预选肿瘤倍性下限为约1.1至约1.5。在一些实施方式中,所述初始肿瘤倍性由预选肿瘤倍性上限界定。在一些实施方式中,所述预选肿瘤倍性下上为约6至约10。
在任何上述方法的一些实施方式中,所述多个基因组区段中的每一个的分配的拷贝数状态是所述基因组区段的总拷贝数计数、所述基因组区段的次要等位基因拷贝数计数或所述基因组区段的主要等位基因拷贝数计数。
在任何上述方法的一些实施方式中,使用循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法或变点法来进行分割步骤。在一些实施方式中,分割步骤使用变点法进行,并且所述变点法是修剪精确线性时间(prunedexact linear time,PELT)法。
在任何上述方法的一些实施方式中,所述方法还包括将所选择的拷贝数网格模型和所述拷贝数网格模型输入数据重叠以生成重叠。然后可以显示所述重叠。在一些实施方式中,所述重叠使用电子显示器来显示。
在任何上述方法的一些实施方式中,所述方法还包括基于一个或更多个分配的拷贝数状态或总覆盖率阈值来调用一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。在一些实施方式中,所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变用于在所述对象中诊断疾病或确认疾病的诊断。
在任何上述方法的一些实施方式中,所述方法还包括生成所述对象的基因组谱,其包含所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变。在一些实施方式中,所述对象的基因组谱还包含来自以下的结果:全面基因组谱分析测试、基因表达谱分析测试、癌症热点组测试、DNA甲基化测试、DNA片段化测试、RNA片段化测试、或其任意组合。在一些实施方式中,所述对象的基因组谱还包括来自基于核酸测序的测试的结果。在任何上述方法的一些实施方式中,所述方法还包括基于所生成的基因组谱选择针对所述对象的抗癌剂、向所述对象施用抗癌剂或施加抗癌治疗。
在任何上述方法的一些实施方式中,所述方法还包括将所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变用于为所述对象做出建议的治疗决定。
在任何上述方法的一些实施方式中,所述方法还包括将所述一个或更多个遗传基因座或所述一个或更多个基因组区段的所调用的拷贝数改变用于向所述对象施加或施用治疗。
本文中还描述了用于诊断疾病的方法,所述方法包括基于一个或更多个遗传基因座或者一个或更多个基因组区段的所调用的拷贝数改变来确定对象患有所述疾病,其中所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变是根据上述方法中的任一种确定的。
本文中还描述了鉴定对象为有资格进行治疗疾病的临床试验的方法,其包括:基于一个或更多个遗传基因座或者一个或更多个基因组区段的所调用的拷贝数改变来确定所述对象患有所述疾病,其中所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变是根据上述方法中的任一种确定的。在一些实施方式中,所述方法还包括将所述对象纳入到所述临床试验中。在一些实施方式中,所述方法还包括向所述对象施用治疗。在一些实施方式中,所述治疗是抗癌治疗。
在一些实施方式中,所述疾病是癌症。在一些实施方式中,所述疾病是遗传性病症,例如与染色体非整倍性相关的疾病(例如,唐氏综合征(Down syndrome)、18三体综合征或13三体综合征)或脆性X。在一些实施方式中,所述疾病是癌症,并且所述方法还包括基于所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变来选择用于施用于所述对象的抗癌治疗。
本文中还描述了为患有癌症的对象选择抗癌治疗的方法,所述方法包括:响应于根据上述方法调用的一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变,选择针对所述对象的抗癌治疗。在一些实施方式中,所述方法还包括基于所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变来确定用于施用于所述对象的抗癌治疗的有效量。在一些实施方式中,所述方法还包括基于所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变向所述对象施用抗癌治疗。
本文中还描述了在对象中治疗癌症的方法,其包括:响应于根据上述方法调用的一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变,向所述对象施用有效量的抗癌治疗。
本文中还描述了用于在对象中监测肿瘤进展或复发的方法,所述方法包括:根据上述方法使用在第一时间点时从所述对象获得的第一样品来调用一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变;使用在第二时间点时从所述对象获得的第二样品来调用所述一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变;以及将所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的第一所调用的拷贝数改变与第二所调用的拷贝数改变进行比较,从而监测所述癌症进展或复发。在一些实施方式中,根据上述方法确定使用所述第二样品中的一个或更多个遗传基因座或者一个或更多个基因组区段的所调用的拷贝数改变。在一些实施方式中,所述方法还包括响应于所述肿瘤进展而调整抗癌治疗。在一些实施方式中,所述方法还包括响应于肿瘤进展而调整所述抗癌治疗的剂量或选择不同的抗癌治疗。在一些实施方式中,所述方法还包括向所述对象施用经调整的抗癌治疗。在一些实施方式中,所述第一时间点是在向所述对象施用抗癌治疗之前,并且所述第二时间点是在向所述对象施用所述抗癌治疗之后。
在上述方法的一些实施方式中,所述对象患有癌症、处于患有癌症的风险之中、正在针对癌症进行常规测试或被怀疑患有癌症。
在上述方法的一些实施方式中,所述抗癌治疗或抗癌治疗包含化学治疗、放射治疗、免疫治疗、靶向治疗或手术。
在上述方法的一些实施方式中,所述癌症或肿瘤是实体癌。在上述方法的一些实施方式中,癌症或肿瘤是血液学癌症。在上述方法的一些实施方式中,所述癌症或肿瘤是B细胞癌(多发性骨髓瘤)、黑素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑癌、中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫癌、子宫内膜癌、口腔癌、咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠癌、阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液学组织癌、腺癌、炎性肌成纤维细胞瘤、胃肠道间质瘤(gastrointestinal stromal tumor,GIST)、结肠癌、多发性骨髓瘤(multiple myeloma,MM)、骨髓增生异常综合征(myelodysplastic syndrome,MDS)、骨髓增殖性病症(myeloproliferative disorder,MPD)、急性淋巴细胞白血病(acute lymphocyticleukemia,ALL)、急性髓细胞白血病(acute myelocytic leukemia,AML)、慢性髓细胞白血病(chronic myelocytic leukemia,CML)、慢性淋巴细胞白血病(chronic lymphocyticleukemia,CLL)、真性红细胞增多症、霍奇金淋巴瘤(Hodgkin lymphoma)、非霍奇金淋巴瘤(non-Hodgkin lymphoma,NHL)、软组织肉瘤、纤维肉瘤、黏液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因肿瘤(Ewing’s tumor)、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管源性癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤(Wilms’tumor)、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、原因不明性髓样化生、高嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见高嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、或类癌瘤。
在上述方法的一些实施方式中,所述方法还包括由所述一个或更多个处理器生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或所调用的拷贝数改变的报告。在上述方法的一些实施方式中,所述方法还包括将所述报告传输至所述对象或健康护理提供者。在一些实施方式中,所述报告经由计算机网络或对等网络连接传输。
在上述方法的一些实施方式中,所述对象被怀疑患有癌症或确定患有癌症。
在上述方法的一些实施方式中,所述方法还包括从所述对象获得所述样品。
在上述方法的一些实施方式中,所述样品包含组织活检样品、液体活检样品或正常对照。
在上述方法的一些实施方式中,所述样品是液体活检样品并且包含血液、血浆、脑脊髓液、痰、粪便、尿液或唾液。
在上述方法的一些实施方式中,所述样品是液体活检样品并且包含循环肿瘤细胞(circulating tumor cell,CTC)。
在上述方法的一些实施方式中,所述样品是液体活检样品并且包含无细胞DNA(cell-free DNA,cfDNA)、循环肿瘤DNA(circulating tumor DNA,ctDNA)、或其任意组合。
在上述方法的一些实施方式中,所述多个核酸分子包含肿瘤核酸分子与非肿瘤核酸分子的混合物。在一些实施方式中,所述肿瘤核酸分子来源于异质组织活检样品的肿瘤部分,并且所述非肿瘤核酸分子来源于异质组织活检样品的正常部分。在一些实施方式中,所述样品包含液体活检样品,并且所述肿瘤核酸分子来源于所述液体活检样品的循环肿瘤DNA(ctDNA)部分,并且所述非肿瘤核酸分子来源于所述液体活检样品的非肿瘤无细胞DNA(cfDNA)部分。
本文中还描述了包含以下的系统:一个或更多个处理器;和与所述一个或更多个处理器通信耦合并被配置为存储指令的存储器,当所述指令由一个或更多个处理器执行时,使得所述系统:在所述一个或更多个处理器处接收与从来自对象的样品中获得的多个核酸分子相关的多个序列读出的序列读出数据;使用所述一个或更多个处理器针对多个基因座生成次要等位基因覆盖率和主要等位基因覆盖率;使用所述一个或更多个处理器将基因组分割成多个基因组区段;使用所述一个或更多个处理器,针对所述多个基因座中的基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择拷贝数网格模型;以及基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
在所述系统的一些实施方式中,所述基因组基于所述次要等位基因覆盖率、所述主要等位基因覆盖率或总覆盖率进行分割。
在所述系统的一些实施方式中,使得所述系统选择所选择的拷贝数网格模型的指令包含使得所述系统进行以下的指令:对于每个基因组区段,确定所述拷贝数网格模型输入数据的分布;对于每个基因组区段,鉴定所述分布与最接近的拷贝数状态之间的距离;以及基于跨所述多个基因组区段的平均距离确定总体模型拟合评分。
在所述系统的一些实施方式中,所述多个拷贝数网格模型中的不同拷贝数网格模型使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化。
在所述系统的一些实施方式中,将允许的拷贝数状态拟合至转换的覆盖率数据的指令包含使得所述系统进行以下的指令:基于初始化肿瘤纯度估计值和初始肿瘤倍性估计值将所述允许的拷贝数状态拟合至所述拷贝数网格模型输入数据;以及迭代地:为多个区段中的每个区段分配初步拷贝数,基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值,以及基于所述更新的肿瘤倍性估计值和更新的肿瘤纯度估计值,将所述允许的拷贝数状态重新拟合至所述拷贝数网格模型输入数据。
在所述系统的一些实施方式中,所述初始肿瘤纯度由预选肿瘤纯度下限和预选肿瘤纯度上限界定。在一些实施方式中,所述预选肿瘤纯度下限为0并且所述预选肿瘤纯度上限为1。
在所述系统的一些实施方式中,所述初始肿瘤倍性由预选肿瘤倍性下限界定。在一些实施方式中,所述预选肿瘤倍性下限为约1.1至约1.5。在所述系统的一些实施方式中,所述初始肿瘤倍性由预选肿瘤倍性上限界定。在所述系统的一些实施方式中,所述预选肿瘤倍性下上为约6至约10。
在所述系统的一些实施方式中,所述多个基因组区段中的每一个的分配的拷贝数状态是所述基因组区段的总拷贝数计数、所述基因组区段的次要等位基因拷贝数计数或所述基因组区段的主要等位基因拷贝数计数。
在所述系统的一些实施方式中,所述基因组使用循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法或变点法分割成多个基因组区段。在一些实施方式中,分割步骤使用变点法进行,并且所述变点法是修剪精确线性时间(PELT)法。
在所述系统的一些实施方式中,所述系统还包含电子显示器,并且所述指令还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所选择的拷贝数网格模型和所述拷贝数网格模型输入数据重叠以生成重叠,并将所述重叠显示在所述电子显示器上。
在所述系统的一些实施方式中,所述系统还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统基于一个或更多个分配的拷贝数状态或总覆盖率阈值来调用所述一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。
在所述系统的一些实施方式中,所述系统还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或所调用的拷贝数改变的报告。在一些实施方式中,所述系统还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所述报告传输至所述对象或健康护理提供者。在一些实施方式中,所述报告经由计算机网络或对等网络连接传输。
本文中还描述了存储一个或更多个程序的非暂态计算机可读存储介质,所述一个或更多个程序包含指令,所述指令在由系统的一个或更多个处理器执行时使得所述系统:在所述一个或更多个处理器处接收与从来自对象的样品中获得的多个核酸分子相关的多个序列读出的序列读出数据;使用所述一个或更多个处理器针对多个基因座生成次要等位基因覆盖率和主要等位基因覆盖率;使用所述一个或更多个处理器将基因组分割成多个基因组区段;使用所述一个或更多个处理器,针对所述多个基因座中的基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择所选择的拷贝数网格模型;以及基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
在所述非暂态计算机可读存储介质的一些实施方式中,所述基因组基于所述次要等位基因覆盖率、所述主要等位基因覆盖率或总覆盖率进行分割。
在所述非暂态计算机可读存储介质的一些实施方式中,使得所述系统选择所选择的拷贝数网格模型的指令包含使得所述系统进行以下的指令:对于每个基因组区段,确定所述拷贝数网格模型输入数据的分布;对于每个基因组区段,鉴定所述分布与最接近的拷贝数状态之间的距离;以及基于跨所述多个基因组区段的平均距离确定总体模型拟合评分。
在所述非暂态计算机可读存储介质的一些实施方式中,所述多个拷贝数网格模型中的不同拷贝数网格模型使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化。
在所述非暂态计算机可读存储介质的一些实施方式中,使得所述系统将允许的拷贝数状态拟合至所述拷贝数网格模型输入数据的指令包含使得所述系统进行以下的指令:基于初始化肿瘤纯度估计值和初始肿瘤倍性估计值将所述允许的拷贝数状态拟合至所述拷贝数网格模型输入数据;以及迭代地:为多个区段中的每个区段分配初步拷贝数;基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值;以及基于所述更新的肿瘤倍性估计值和更新的肿瘤纯度估计值将所述允许的拷贝数状态重新拟合至所述拷贝数网格模型输入数据。
在所述非暂态计算机可读存储介质的一些实施方式中,所述初始肿瘤纯度由预选肿瘤纯度下限和预选肿瘤纯度上限界定。在一些实施方式中,所述预选肿瘤纯度下限为0并且所述预选肿瘤纯度上限为1。
在所述非暂态计算机可读存储介质的一些实施方式中,所述初始肿瘤倍性由预选肿瘤倍性下限界定。在一些实施方式中,所述预选肿瘤倍性下限为约1.1至约1.5。在一些实施方式中,所述初始肿瘤倍性由预选肿瘤倍性上限界定。在一些实施方式中,所述预选肿瘤倍性下上为约6至约10。
在所述非暂态计算机可读存储介质的一些实施方式中,所述分配的拷贝数状态是所述基因组区段的总拷贝数计数、所述基因组区段的次要等位基因拷贝数计数或所述基因组区段的主要等位基因拷贝数计数。
在所述非暂态计算机可读存储介质的一些实施方式中,所述基因组使用循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法或变点法分割成多个基因组区段。在一些实施方式中,分割步骤使用变点法进行,并且所述变点法是修剪精确线性时间(PELT)法。
在所述非暂态计算机可读存储介质的一些实施方式中,所述系统包含电子显示器,并且其中所述指令还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所选择的拷贝数网格模型和所述拷贝数网格模型输入数据重叠以生成重叠,并将所述重叠显示在所述电子显示器上。
在所述非暂态计算机可读存储介质的一些实施方式中,所述存储介质还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统基于一个或更多个分配的拷贝数状态或总覆盖率阈值来调用所述一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。
在所述非暂态计算机可读存储介质的一些实施方式中,所述存储介质还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或所调用的拷贝数改变的报告。在一些实施方式中,所述存储介质还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所述报告传输至所述对象或健康护理提供者。在一些实施方式中,所述报告经由计算机网络或对等网络连接传输。
附图说明
所公开的方法、设备和系统的多个方面在所附权利要求中具体阐述。通过参考以下示例性实施方案的详细描述和附图,将获得对所公开的方法、设备和系统的特征和优点的更好的理解,其中:
图1提供了针对主要等位基因覆盖率和次要等位基因覆盖率的总和的主要等位基因覆盖率与次要等位基因覆盖率之间的差值的图的示例性拷贝数网格点组。
图2A示出了拷贝数空间中的示例性拷贝数网格,其中次要等位基因拷贝数和主要等位基因拷贝数针对彼此绘制。
图2B示出了通过假设所示实例中的纯度为0.95且倍性为2而缩放的图2A的示例性拷贝数网格。
图2C示出了通过旋转的图2B的缩放的拷贝数网格。
图2D示出了通过基于纯度和倍性的平移参数转换的图2D的旋转和缩放的拷贝数网格。
图3示出了根据一些实施方案的示例性界面,其包括具有转换的覆盖率数据的所选择的拷贝数网格模型。
图4示出了根据一些实施方案的用于确定一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数状态的示例性方法。
图5示出了根据本文中所述系统的一些实例的示例性计算设备。
图6示出了根据本文中所述系统的一些实例的示例性计算机系统或计算机网络。
具体实施方式
本文中描述了用于调用拷贝数改变(CNA)的方法和系统,包括用于将基于网格的拷贝数模型(即,“拷贝数网格模型”)拟合至序列读出数据的方法和系统。例如,拷贝数改变可针对对象中的肿瘤进行调用。来自对象的样品可包含例如肿瘤与非肿瘤核酸分子的混合物。虽然健康(例如,非肿瘤)组织的拷贝数状态包括单个母系等位基因和单个父系等位基因整倍体对象,但肿瘤中的拷贝数改变事件使得调用肿瘤的拷贝数状态更具挑战性,特别是当样品的肿瘤倍性和/或肿瘤纯度是先验未知的时。本文中所述的方法允许调用患病组织(例如,肿瘤)的基因组中的基因组区段的拷贝数状态。
本文中所述的方法可使用序列读出数据来产生针对多个遗传基因座的次要等位基因覆盖率和主要等位基因覆盖率。例如,基于次要等位基因覆盖率、主要等位基因覆盖率或总覆盖率,可将基因组分割成多个基因组区段。次要等位基因覆盖率和主要等位基因覆盖率可被转换以产生拷贝数网格模型输入数据,所述网格模型输入数据可包含(i)主要等位基因覆盖率与次要等位基因覆盖率之间的差值,以及(ii)主要等位基因覆盖率和次要等位基因覆盖率的总和。
因为拷贝数改变事件必然是整数事件,所以在系统中不存在任何噪声的情况下,针对等位基因覆盖率的总和绘制等位基因覆盖率之间的差值应该提供均匀间隔的网格点。事实上,序列读出数据包括噪声,所述噪声通常阻止经转换覆盖率数据(即,拷贝数网格模型输入数据)和网格点之间的完美匹配。通过将多个拷贝数网格模型拟合至拷贝数网格模型输入数据,可选择拷贝数网格模型(例如,最佳拟合拷贝数网格模型),所述拷贝数网格模型可被用于识别基因组区段的至少一部分的拷贝数状态。拷贝数网格模型包括允许的拷贝数状态。如本文中进一步描述的,可使用初始肿瘤纯度估计值和肿瘤倍性估计值的不同组合来初始化多个拷贝数网格模型中的拷贝数模型,所述组合不需要是先验已知的。所选择的数字网格模型可与拷贝数网格模型输入数据重叠,并且例如在电子显示器或打印报告上的界面输出上显示该重叠。这允许容易地查看数据,并且有利于手动调用拷贝数改变或确认调用的拷贝数改变(例如,由自动化过程调用的拷贝数改变)。
使用模型分配的拷贝数状态可以是基因组区段的总拷贝数计数、基因组区段的次要等位基因拷贝数计数、或基因组区段的主要等位基因拷贝数计数。分割可基于区段内基因组基因座的相等拷贝数的近似值。因此,可假设区段内的基因组基因座具有与基因组区段本身相同的拷贝数状态(stat)。基于为相应基因组区段分配的拷贝数状态,可调用一个或更多个遗传基因座的拷贝数改变(例如,调用是否已发生拷贝数改变、调用拷贝数提高、调用拷贝数提高、或调用多个调用)。
定义
除非另有定义,否则本文中使用的所有技术术语具有与本公开内容所属技术领域的普通技术人员通常所理解含义的相同含义。
除非上下文另外明确指出,否则如在本说明书和所附权利要求书中使用的未用数量词修饰的名词意指“一个/种或更多个/种”。除非另有说明,否则本文中对“或/或者”的任何引用旨在涵盖“和/或/或者”。
如本文中所使用的,术语“包含”(以及包含的任何形式或变体,例如“包含多项”和“包含一项”)、“具有”(以及具有的任何形式或变体,例如“具有多项”和“具有一项”)、“包括”(以及包括的任何形式或变体,例如“包括多项”和“包括一项”)、或“含有”(以及含有的任何形式或变体,例如“含有多项”和“含有一项”)是包含性的或开放式的并且不排除另外的、未记载的添加物、组分、整数、要素或方法步骤。
如本文中所使用的,术语“约”数字或值是指该数字或值加上或减去该数字或值的10%。术语“约:当在范围的情况下使用时,是指该范围减去其最低值的10%并加上其最大值的10%。
如本文中所使用的,术语“亚基因组区间”(或“亚基因组序列区间”)是指基因组序列的一部分。
如本文中所使用的,术语“对象区间”是指亚基因组区间或表达的亚基因组区间(例如,亚基因组区间的转录序列)。
如本文中所使用的,术语“变体序列”或“变体”可互换使用,并且是指相对于相应的“正常”或“野生型”序列的经修饰的核酸序列。在一些情况下,变体序列可以是“短变体序列”(或“短变体”),即长度小于约50个碱基对的变体序列。
术语“等位基因频率”和“等位基因分数”在本文中可互换使用,并且是指对应于特定等位基因的序列读出相对于针对基因组基因座的总序列读出数的分数。
术语“变体等位基因频率”和“变体等位基因分数”在本文中可互换使用,并且是指对应于特定变体等位基因的序列读出相对于针对基因组基因座的总序列读出数的分数。
如本文中所使用的,术语“分割”(或“序列分割”)是指这样的过程:其用于将序列读出数据划分成覆盖所有序列读出数据点的多个非重叠区段,使得多个区段中的每个区段尽可能同质,并且与给定区段相关的所有序列读出都具有相同的拷贝数。在一些情况下,可通过使用本领域技术人员已知的多种方法中的任一种处理比对的序列读出数据(或来源于该序列读出数据的其他测序相关数据,例如覆盖数据、等位基因频率数据等)来进行分割(参见,例如,Braun and Miller(1998),“Statistical methods for DNA sequencesegmentation”,Statistical Science13(2):142-162)。分割方法的一些实例包括但不限于循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法、变点法,或其任意组合。
如本文中所使用的,术语“倍性”是指肿瘤样品中多个基因座的平均拷贝数。在一些情况下,由于肿瘤样品的异质性(即肿瘤样品纯度的变化),肿瘤样品的“倍性”可不同于细胞中完整染色体组的数目,并因此不同于常染色体基因(即位于编号的非性染色体上的基因)的可能等位基因的数目。
应当理解,本文中所述的本发明的一些方面和变型包括“由这些方面和变型组成”和/或“基本上由这些方面和变型组成”。
当提供值的范围时,应当理解,在该范围的上限与下限之间的每个中间值以及在该状态范围内的任何其他规定的值或中间值均涵盖在本公开内容的范围内。在规定的范围包括上限或下限的情况下,排除被包含在内的那些限制中的任一个的范围也包含在本公开内容中。
本文中所述的一些分析方法包括将序列映射至参考序列、确定序列信息和/或分析序列信息。本领域公知的是,可容易地确定和/或分析互补序列,并且本文中提供的描述涵盖参照互补序列进行的分析方法。
本文中使用的章节标题仅出于组织目的,并且不应被解释为限制所述的主题。呈现该描述以使本领域的普通技术人员能够制作和使用本发明,并且该描述是在专利申请及其要求的上下文中提供的。对所述实施方案的多种修改对于本领域技术人员来说将是显而易见的,并且本文中的一般原理可应用于另一些实施方案。因此,本发明并不旨在限于所示的实施方案,而是应被赋予与本文中所述的原理和特征一致的最宽范围。
附图示出了根据多个实施方案的过程。在一些示例性过程中,一些模块被任选地组合,一些模块的顺序被任选地改变,以及一些模块被任选地省略。在一些实例中,可与示例性过程组合来进行另外的步骤。因此,如所示出(和以下更详细描述)的操作本质上是示例性的,并因此不应被视为限制性的。
本文中所提及的所有出版物、专利和专利申请的公开内容各自均在此通过引用整体并入。在通过引用并入的任何参考文献与本公开内容相冲突的程度上,则以本公开内容为准。
确定拷贝数的方法
本文中所述的方法提供了对来自对象样品的基因组的一个或更多个基因组区段的拷贝数状态的确定。与从来自对象的样品获得的多个核酸分子相关的测序读出数据可被用于产生多个遗传基因座的次要等位基因覆盖率和主要等位基因覆盖率。例如,基于次要等位基因覆盖率、主要等位基因覆盖率或总覆盖率,可将对象的基因组分割成多个基因组区段。遗传基因座中每一个的次要等位基因覆盖率和主要等位基因覆盖率可被转换以产生拷贝数网格模型输入数据,所述拷贝数网格模型输入数据可包含(i)主要等位基因覆盖率与次要等位基因覆盖率之间的差值,以及(ii)主要等位基因覆盖率和次要等位基因覆盖率的总和。包括允许的拷贝数状态的多个拷贝数网格模型可被拟合至拷贝数网格模型输入数据。可使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化多个拷贝数网格模型中的不同拷贝数网格模型。可从多个拷贝数网格模型选择数字网格模型。然后可基于所选择的拷贝数网格模型来分配多个基因组区段的至少一部分的拷贝数状态。
主要等位基因频率和次要等位基因频率(例如,SNP等位基因频率)以及总覆盖率(即,主要等位基因覆盖率和次要等位基因覆盖率的总和,其通过归一化因子进行归一化)可从序列读出数据确定。样品(例如,患者肿瘤样品)的覆盖率数据可例如通过以下来确定:将与样品中和对照(例如,配对的正常对照、过程匹配的对照或“正常组”对照)中的一个或更多个亚基因组区间内的一个或更多个遗传基因座重叠的多个序列读出与参考基因组(例如,GRCh38人参考基因组)进行比对,以及确定与样品中和对照中的一个或更多个亚基因组区间内的一个或更多个基因座中的每一个重叠的序列读出数,以将肿瘤样品的覆盖度(coverage)相对于对照中的覆盖度归一化。在一些情况下,例如,如果配对的正常对照样品不可用,则可使用过程匹配的对照(例如,来自多个HapMap细胞系的DNA的混合物)代替配对的正常对照来归一化覆盖度。在一些情况下,例如,如果配对的正常对照样品不可用,则可使用“正常组”对照代替配对的正常对照来归一化覆盖度。
在一些情况下,“正常组”或“切线归一化(Tangent normalization)”对照方法可被用于归一化测序覆盖度(参见,例如,Tabak,et al.(2019)“The Tangent copy-numberinference pipeline for cancer genome analyses”,https://www.biorxiv.org/content/10.1101/566505v1.full.pdf)。切线归一化方法是对肿瘤数据进行归一化以处理数据中的噪声的方法。具体地,切线法涉及降低由于在其下生成来自肿瘤和/或其正常对照的测序数据的实验条件差异而导致的系统噪声。已经表明,切线归一化方法比常规归一化方法导致更大的噪声降低。
在示例性切线归一化方法中,令nN为正常样品的数目并且nT为肿瘤样品的数目。令i为集合{1,2,…,nN}的要素并且j为集合{1,2,…,nT}的要素。将Ni定义为第i个正常样品的基因组顺序中log2拷贝比强度的向量。类似地,将Tj定义为第j个肿瘤样品的基因组顺序中log2拷贝比强度的向量。正常样品向量和肿瘤样品向量是所有可能的覆盖谱的M维向量空间的要素。现在定义所有可能的覆盖谱的向量空间的参考子空间N为包含正常样品的向量{N1,N2,…,NnN}的所有线性组合的空间。N被称为“噪声空间”并且是(nN-1)维平面。
鉴于此设置,切线归一化方法按如下方式进行。首先,对于每个肿瘤样品向量Tj,通过使用欧几里德度量(Euclidean metric)来确定噪声空间N中最接近Tj的向量。将该向量p(Tj)表示为Tj在N上的投影。p
(Tj)表示在与Tj相似的条件下表征的正常样品的谱。现在可通过计算Tj与Tj在N上的投影p(Tj)之间的差值来计算Tj的归一化:
Tj的归一化=Tj-p(Tj)
可使用标准线性代数技术直接计算投影p(Tj)。
在一些情况下,样品(例如,患者肿瘤样品)的等位基因分数数据通过以下来确定:将与样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组(例如,GRCh38人参考基因组)进行比对,检测样品中一个或更多个亚基因组区间中的一个或更多个基因座处存在的不同等位基因的数目,以及通过将针对给定等位基因序列识别的序列读出的数目除以针对该基因座识别的序列读出的总数目来确定一个或更多个基因座处存在的不同等位基因的等位基因分数。
给定针对给定遗传基因座的主要和次要等位基因分数和覆盖率,可从序列读出数据产生单倍性覆盖率(即,次要等位基因覆盖率和主要等位基因覆盖率)。次要等位基因覆盖率与次要等位基因频率和总覆盖率成正比。类似地,主要等位基因覆盖率与主要等位基因频率和总覆盖率成正比。缩放因子可用于将次要和主要等位基因覆盖率缩放至总覆盖率,例如通过将总覆盖率与等位基因频率的乘积乘以2。例如,主要等位基因覆盖率(RA)和次要等位基因覆盖率(RB)可如下确定:RA=2*R*FA并且RB=2*R*FB,其中R是总覆盖率,并且FA和FB分别是主要等位基因分数和次要等位基因分数。
可对样品(例如患者肿瘤样品)的基因组进行分割以定义基因组区段。因此,遗传基因座被归入(bin)在基因组区段内。基因组可例如通过以下切割:将与样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组(例如,GRCh38人参考基因组)进行比对,以及使用分割算法(例如,循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法、变点法,或其任意组合)处理比对的序列读出数据(或来源于该序列读出数据的其他测序相关数据,例如总覆盖率数据、等位基因频率数据等)以产生多个非重叠区段,使得与给定区段相关的序列具有相同的拷贝数。在一些情况下,可使用修剪精确线性时间(PELT)方法来产生样品(例如,患者肿瘤样品)的分割数据,以确定正确考虑经比对序列读出数据(或来源于该序列读出数据的其他测序相关数据,例如,覆盖率数据、等位基因频率数据等)所需的区段数目,其中每个区段(以及与该区段相关的序列读出)具有相同的拷贝数。
基因组基因座的等位基因覆盖率是等位基因拷贝数、样品的肿瘤纯度(即样品中肿瘤来源的核酸分子相对于非肿瘤来源的核酸分子的比例)和肿瘤倍性的函数。即:
/>
其中ρ是肿瘤纯度(也称为肿瘤分数)并且ψ是肿瘤倍性,并且x可以是指主要等位基因(A)或次要等位基因(B)。因为肿瘤纯度、肿瘤倍性和拷贝数不是直接检测到的(并且不是先验已知的),因此模型拟合允许基于次要等位基因覆盖率和主要等位基因覆盖率对这些值取近似。
数据次要等位基因覆盖率和主要等位基因覆盖率可被转换以产生经转换覆盖率数据(即,拷贝数网格模型输入数据),使得拷贝数网格模型可拟合至数据。经转换覆盖率数据可包含(i)主要等位基因覆盖率与次要等位基因覆盖率之间的差值(即,RA-RB),以及(i)主要等位基因覆盖率和次要等位基因覆盖率的总和(即RA+RB)。主要等位基因覆盖率与次要等位基因覆盖率之间的差值与拷贝数、肿瘤纯度和倍性相关,如下:
当主要等位基因和次要等位基因的拷贝数为偶数(排除任何噪声差异)时,主要等位基因覆盖率与次要等位基因覆盖率之间的差值应为零,并且拷贝数的变化应以的偶数步长提高。主要等位基因覆盖率和次要等位基因覆盖率的总和与拷贝数、肿瘤纯度和倍性相关,如下:
主要等位基因覆盖率和次要等位基因覆盖率的总和的最小值为并且拷贝数的变化应以/>的偶数步长提高。
因此,假设系统中没有噪声,当针对主要等位基因覆盖率和次要等位基因覆盖率的总和绘制主要等位基因覆盖率与次要等位基因覆盖率之间的差值时,每个遗传基因座应具有位于一组均匀间隔的网格点之一上的经转换数据点。图1中示出了主要等位基因覆盖率与次要等位基因覆盖率之间的差值针对主要等位基因覆盖率和次要等位基因覆盖率的总和的图的示例性拷贝数网格点组。
拷贝数网格模型代表作为倍性和肿瘤纯度值的函数进行缩放和转换的拷贝数空间。图2A示出了拷贝数空间中的示例性拷贝数网格,其中次要等位基因拷贝数和主要等位基因拷贝数针对彼此绘制。拷贝数必然是整数值,因此该图提供了均匀间隔的网格。也就是说拷贝数网格模型可包括允许的拷贝数状态(即,主要等位基因拷贝数和次要等位基因拷贝数各自的整数值),如网格点所表示的。拷贝数网格模型参数β0(平移参数)和β1(缩放参数)可如下定义:
缩放拷贝数网格模型参数可用于缩放次要等位基因拷贝数和主要等位基因拷贝数轴。拷贝数轴可通过附加因子例如或/>来缩放。可使用用于拷贝数轴的其他缩放因子。图2B示出了以/>缩放的示例性拷贝数网格(假设在所示的实例中纯度为0.95并且倍性为2)。然后可将经缩放的拷贝数网格以/>旋转,如图2C中所示。此外,拷贝数网格可通过平移参数β0进行平移,如图2D中所示(在所示实例中,β0以20倍缩放以减小与y轴的分离)。
通过产生拷贝数网格,已将非线性参数空间(ρ,ψ)转换为线性参数空间(β01)。此外,并且这种表示更有影响力的方面可能是相对于简并解(degenerate solution)而言在调用显著拷贝数事件中的稳定性。拷贝数网格坐标系允许β1表示相邻状态之间的距离或状态密度。此外,拷贝数网格可建立“零水平”,使得无论哪种拷贝数网格模型拟合至经转换数据,对于具有零拷贝的拷贝数状态,β0必须保持相同。这种转换的好处是双重的。首先,虽然仍然有两个参数待检索,但所有解都将包含相同的零水平解。在拷贝数事件的分离之间仍然存在简并性,但网格的起点没有改变,仅有网格点之间的分离。通过将推理参数之一锁定为固定的最小比率,检索已简化为状态之间的分离。此外,该系统提供了用于显著拷贝数事件的调用方法。现在可通过零水平(固定参数)来定义显著性,而不管分离如何。在这种方法下,不再需要精确地知道拷贝数来进行拷贝数改变调用。
样品的倍性和肿瘤纯度值是先验未知的。因此,可使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化多个拷贝数网格模型。
在一些实施方式中,初始肿瘤纯度估计值受预选初始肿瘤纯度估计值下限和/或高于预选初始肿瘤纯度估计值上限的限制。在一些实施方式中,预选初始肿瘤纯度估计值下限是0、0.001、0.005、0.01或这些范围之间的任何值。在一些实施方式中,预选初始肿瘤纯度估计值下限是0。在一些实施方式中,预选初始肿瘤纯度估计值上限是1、0.999、0.995、0.99或这些范围之间的任何值。在一些实施方式中,预选初始肿瘤纯度估计值上限是1。
在一些实施方式中,初始肿瘤倍性估计值受预选初始肿瘤倍性估计值下限和/或高于预选初始肿瘤倍性估计值上限的限制。在一些实施方式中,预选初始肿瘤倍性估计值下限设定为约1.1至约1.5,例如约1.2。在一些实施方式中,初始肿瘤倍性估计值下限是1.2。在一些实施方式中,预选初始肿瘤倍性估计值上限为约6至约10。在一些实施方式中,预选初始肿瘤倍性估计值上限是8。
虽然在一些实施方式中,初始肿瘤纯度估计值和/或肿瘤倍性受物理空间的限制(例如,物理肿瘤纯度坚决不能低于0或者高于1,以及预选肿瘤纯度估计值下限和肿瘤纯度估计值上限可设置为0和1或在0至1之间),但是初始或建模的肿瘤纯度估计值和/或肿瘤倍性估计值不必受物理空间的限制。由于模型简并性,可能存在在非物理空间中可解的拷贝数模型(例如,其中纯度>1.0)。虽然这些解是非物理的,但我们可在非物理空间中拟合模型,并使用简并解之间的关系来找到物理值。也就是说,非物理纯度可被转换回物理纯度或物理倍性。在一些实施方案中,多个拷贝数网格模型的初始肿瘤纯度和/或初始肿瘤倍性可包括非物理肿瘤纯度估计值和/或非物理肿瘤倍性。在一些实施方案中,多个拷贝数网格模型的初始肿瘤纯度和/或初始肿瘤倍性可包括虚数肿瘤纯度估计值和/或虚数肿瘤倍性估计值。
然后可将不同的拷贝数网格模型拟合至经转换覆盖率数据。举例来说,对于任何给定的拷贝数网格模型,可基于初始肿瘤纯度估计值和初始肿瘤倍性估计值将拷贝数网格模型的允许的拷贝数状态拟合至经转换覆盖率数据。可向多个基因组区段中的每个基因组区段分配初步拷贝数。虽然基因组区段内的遗传基因座的经转换覆盖率数据形成2D高斯分布,但假设基因组区段内的遗传基因座具有相同的拷贝数。该分配可基于例如基因组区段的最接近的允许的拷贝数状态。例如,可基于基因组区段内遗传基因座的经转换覆盖率数据的位置来确定遗传区段与允许的拷贝数状态的距离,例如马哈拉诺比斯距离(Mahalanobis distance)。一旦对基因组区段进行了初步拷贝数分配,则可相应地确定基因组区段内的遗传基因座、更新的肿瘤倍性估计值和更新的肿瘤纯度估计值。然后可基于更新的肿瘤倍性估计值和更新的肿瘤纯度估计值将允许的拷贝数状态重新拟合至经转换覆盖率数据。然而,一旦确定了更新的肿瘤纯度估计值和肿瘤倍性估计值,最佳拷贝数状态分配可能不再是最佳的。因此,可迭代地进行以下过程直至收敛(即,局部拟合最大化):将初步拷贝数分配给多个基因组区段中的每个基因组区段;基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值;以及基于更新的肿瘤倍性估计值和更新的肿瘤纯度估计值将允许的拷贝数状态重新拟合至经转换覆盖率数据。
在拟合多个拷贝数网格模型之后,可从多个拷贝数网格模型中选择拷贝数网格模型。如上所讨论的,基因组区段内遗传基因座的经转换覆盖率数据形成可被确定的2D高斯分布。在所述方法的一些实施方式中,可分配每个基因组区段与分配的拷贝数状态的距离,例如马哈拉诺比斯距离。总体模型拟合评分可基于多个基因组区段和相应的分配的拷贝数状态之间的平均距离来确定。虽然所选择的模型不一定是具有最佳总体模型拟合评分的模型,但是可基于总体模型拟合评分对模型进行排序。例如,可将一个或更多个过滤程序应用于模型来排除某些模型。也就是说单独的最佳拟合可能并不表示最佳模型。例如,可通过以下一项或更多项来过滤模型:(i)预选倍性范围,(ii)预选纯度范围,(iii)模型中噪声参数和拷贝数状态间距之间的差异,(iv)当相应的较低倍性模型可行时,倍性高于预选值的模型,或其他期望的过滤参数。
在一些实施方式中,如果模型具有低于预选肿瘤纯度下限和/或高于预选肿瘤纯度上限的肿瘤纯度,则该模型可被排除。在一些实施方式中,预选肿瘤纯度下限是0、0.001、0.005、0.01或这些范围之间的任何值。在一些实施方式中,预选肿瘤纯度下限是0。在一些实施方式中,预选肿瘤纯度上限是1、0.999、0.995、0.99或这些范围之间的任何值。在一些实施方式中,预选的肿瘤纯度上限是1。
在一些实施方式中,如果模型具有低于预选肿瘤倍性下限和/或高于预选肿瘤倍性上限的肿瘤倍性,则该模型可被排除。在一些实施方式中,预选肿瘤倍性下限设定为约1.1至约1.5,例如约1.2。在一些实施方式中,预选肿瘤倍性下限是1.2。在一些实施方式中,预选肿瘤倍性上限为约6至约10。在一些实施方式中,预选肿瘤倍性上限是8。
然后可使用所选择的拷贝数网格模型为基因组区段的至少一部分或全部分配拷贝数状态。分配的拷贝数状态可以是例如针对对象中的肿瘤或癌症的总拷贝数计数(即,主要等位基因拷贝数和次要等位基因拷贝数的总和)、次要等位基因拷贝数计数或主要等位基因拷贝数计数。给定对应于基因组区段的遗传基因座的经转换覆盖率数据的分布,分配可基于例如基因组区段的最接近的允许的拷贝数状态。例如,可基于基因组区段内遗传基因座的经转换覆盖率数据的位置来确定遗传区段与允许的拷贝数状态的距离,例如马哈拉诺比斯距离。
本文中所述的方法的具体优点是可用等位基因分数和等位基因覆盖度数据来产生拷贝数网格模型(例如,使用电子显示器上的界面输出)。因此,可选择特定的基因组区段或特定的基因组基因座,以便于拷贝数状态的可视化。图3中示出了包括具有经转换覆盖率数据的所选择的拷贝数网格模型的示例性界面。
在图3中所示的界面中,多个遗传基因座的经转换覆盖率数据在图中呈现为黑点。拷贝数网格模型302与经转换覆盖率数据一起呈现。在无噪声系统中,经转换覆盖率数据将与代表整数拷贝数状态的网格点(即网格线的交点)完美地收敛。在所呈现的实例中,网格线的间距和网格的易位分别取决于所确定的纯度和倍性值0.614和3.739。表示基因组区段的点也可包括在界面中,其任选地与基因组区段内基因组基因座的经转换覆盖率数据的分布成比例。这使得易于观察基因组区段拷贝数状态与允许的拷贝数状态的接近程度。
拷贝数网格模型还促进并改善了调用一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数改变的质量。在一个实施方式中,可基于针对非二倍体的一个或更多个基因组区段或者一个或更多个基因组基因座分配的拷贝数状态来调用拷贝数改变。在一个实施方式中,可基于针对高于预定拷贝数阈值的一个或更多个基因组区段或者一个或更多个基因组基因座分配的拷贝数状态来调用拷贝数改变。可基于期望的风险耐受性或针对特定基因的期望的风险耐受性来选择预定拷贝数阈值。例如,某些基因可比其他基因具有更高的预定拷贝数阈值。在一些实施方式中,总覆盖率(即,主要等位基因覆盖率和次要等位基因覆盖率的总和)阈值可被用于调用拷贝数改变。图3中示出了示例性总覆盖率306,设置为3.5。在图3中,超过阈值306的基因组区段308以虚线圈出,并且可为这些基因组区段调用拷贝数改变。
图4示出了用于确定一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数状态的示例性方法。在402处,接收多个序列读出的序列读出数据,例如在电子(例如计算机)系统的一个或更多个处理器处。序列读出数据与从来自对象的样品获得的多个核酸分子相关。样品可包含例如来自肿瘤组织的核酸分子与来自非肿瘤组织的核酸分子的混合物,或者可包含无细胞DNA,所述无细胞DNA包括无细胞肿瘤DNA和无细胞非肿瘤DNA。在404处,产生多个遗传基因座的次要等位基因覆盖率和主要等位基因覆盖率,例如使用一个或更多个处理器。在406处,对基因组(例如,适合于对象的参考基因组)进行分割以产生多个基因组区段,例如使用一个或更多个处理器。分割可基于例如次要等位基因覆盖率、主要等位基因覆盖率或总覆盖率。基因组的分割可识别基因组的连续部分,所述连续部分基于具有相似的覆盖率并因此被推测具有相似的拷贝数状态而分组在一起。因此,可假设基因组区段内的遗传基因座具有相同的拷贝数状态。在408处,可例如使用一个或更多个处理器转换遗传基因座的次要等位基因覆盖率和主要等位基因覆盖率以产生拷贝数网格模型输入数据。拷贝数网格模型输入数据可包含(i)主要等位基因覆盖率与次要等位基因覆盖率之间的差值,以及(i)主要等位基因覆盖率和次要等位基因覆盖率的总和。在410处,将多个拷贝数网格模型拟合至拷贝数网格模型输入数据。拷贝数网格模型包括允许的拷贝数状态(例如,整数状态),并且可使用肿瘤纯度估计值和肿瘤倍性估计值来参数化。可使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化多个拷贝数网格模型中的不同拷贝数网格模型。在412处,可从多个拷贝数网格模型选择拷贝数网格模型。如上所讨论的,所选择的拷贝数网格模型不一定是具有最佳拟合的拷贝数网格模型,因为可应用一个或更多个拷贝数网格模型过滤程序来去除不太可能或不可行的模型。然而,拷贝数网格模型选择可至少部分地基于总体模型拟合评分。在414处,可基于所选择的拷贝数网格模型为基因组区段的至少一部分分配拷贝数状态。任选地,在416处,所选择的拷贝数网格模型可与拷贝数网格模型输入数据重叠,例如经由电子显示器的界面。还任选地,在418处,可生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或调用拷贝数改变的报告。该报告可例如经由计算机网络或对等网络连接传输至对象、健康护理提供者或一些其他第三方。
在一些情况下,公开的方法还可包括以下步骤中的一个或更多个:
(i)从对象(例如,怀疑患有或确定患有癌症的对象)获得样品,(ii)从样品中提取核酸分子(例如,肿瘤核酸分子与非肿瘤核酸分子的混合物),(iii)将一个或更多个衔接子连接至从样品中提取的核酸分子(例如,一个或更多个扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列),(iv)扩增核酸分子(例如,使用聚合酶链反应(PCR)扩增技术、非PCR扩增技术或等温扩增技术),(v)从扩增的核酸分子中捕获核酸分子(例如,通过与一个或更多个诱饵分子杂交,其中诱饵分子各自包含一个或更多个核酸分子,所述核酸分子各自包含与捕获的核酸分子的区域互补的区域),(vi)使用例如下一代(大规模平行)测序技术、全基因组测序(WGS)技术、全外显子组测序技术、靶向测序技术、直接测序技术或Sanger测序技术),使用例如下一代(例如,大规模平行)测序仪对从样品(或来源于其的文库代替物(library proxy))中提取的核酸分子进行测序,以及(vii)向对象(或患者)、照料者、健康护理提供者、医师、肿瘤学家、电子病历系统、医院、诊所、第三方支付方、保险公司或政府办公室生成、显示、传输和/或递送报告(例如,电子的、基于网络的或纸质报告)。在一些情况下,该报告包括来自本文中所述方法的输出。在一些情况下,报告的全部或一部分可显示于在线或基于网络的健康护理门户的图形用户界面中。在一些情况下,报告经由计算机网络或对等网络连接传输。
所公开的方法可用于多种样品中的任一种。例如,在一些情况下,样品可包含组织活检样品、液体活检样品或正常对照。在一些情况下,样品可以是液体活检样品并且可包含血液、血浆、脑脊液、痰、粪便、尿液或唾液。在一些情况下,样品可以是液体活检样品并且可包含循环肿瘤细胞(CTC)。在一些情况下,样品可以是液体活检样品并且可包含无细胞DNA(cfDNA)、循环肿瘤DNA(ctDNA)、或其任意组合。
在一些情况下,从样品中提取的核酸分子可包含肿瘤核酸分子与非肿瘤核酸分子的混合物。在一些情况下,肿瘤核酸分子可来源于异质组织活检样品的肿瘤部分,并且非肿瘤核酸分子可来源于异质组织活检样品的正常部分。在一些情况下,样品可包含液体活检样品,并且肿瘤核酸分子可来源于液体活检样品的循环肿瘤DNA(ctDNA)部分,而非肿瘤核酸分子可来源于液体活检样品的非肿瘤、无细胞DNA(cfDNA)部分。
在一些情况下,所公开的方法可用于诊断对象(例如患者)中疾病(例如癌症)的存在。在一些情况下,所公开的方法可适用于诊断如本文中其他地方所述的多种癌症中的任一种。在一些实施方式中,疾病是遗传性病症,例如与染色体非整倍性相关的疾病(例如,唐氏综合征、18三体综合征或13三体综合征)或者是与脆性X相关的疾病。
在一些情况下,所公开的方法可用于鉴定符合疾病治疗临床试验条件的对象。所述方法还可包括将对象纳入临床试验中和/或向对象施用治疗。在一些情况下,疾病可以是癌症。在一些情况下,疾病是与染色体非整倍性相关的疾病(例如,唐氏综合征、18三体综合征或13三体综合征)或者是与脆性X相关的疾病。
在一些情况下,所公开的方法可用于为对象选择合适的疗法或治疗(例如,癌症疗法或癌症治疗)。在一些情况下,例如,癌症疗法或治疗可包括使用聚(ADP-核糖)聚合酶抑制剂(poly(ADP-ribose)polymerase inhibitor,PARPi)、铂化合物、化学治疗、放射治疗、靶向治疗(例如免疫治疗)、手术、或其任意组合。
在一些情况下,所公开的方法可用于在对象中治疗疾病(例如,癌症)。例如,响应于使用本文中公开的任一方法确定了CNA存在于患者样品中的一个或更多个基因座中,可向对象施用有效量的癌症疗法或癌症治疗。
在一些情况下,所公开的方法可用于监测对象中的疾病进展或复发(例如,癌症或肿瘤进展或复发)。例如,在一些情况下,所述方法可用于检测在第一时间点处从对象获得的第一样品中的CNA,并用于检测在第二时间点处从对象获得的第二样品中的CNA,其中CNA的第一测定值和CNA的第二测定值的比较允许监测疾病进展或复发。在一些情况下,第一时间点选在已向对象施用疗法或治疗之前,并且第二时间点选在已向对象施用疗法或治疗之后。
在一些情况下,所公开的方法可用于选择进行临床试验的患者。例如,可基于使用本文中所述的方法调用的一种或更多种基因中具有拷贝数改变来选择患者。
在一些情况下,所公开的方法可用于调整对象的疗法或治疗(例如,癌症治疗或癌症疗法),例如,通过响应于调用拷贝数改变(CNA)的变化来调整治疗剂量和/或选择不同的治疗。
在一些情况下,使用所公开的方法确定的调用CNA可用作与样品相关的预后或诊断指标。例如,在一些情况下,预后或诊断指标可包括样品中存在疾病(例如癌症)的指标、样品中存在疾病(例如癌症)的可能性的指标、样品来源的对象将发生疾病(例如癌症)的可能性的指标(即风险因素),或者样品来源的对象将对特定的疗法或治疗作出响应的可能性的指标。
在一些情况下,所公开的方法可作为基因组谱分析过程的一部分来实施,所述基因组谱分析过程包括鉴定来源于对象的样品中一个或更多个基因座处变体序列的存在,作为检测、监测特定疾病(例如癌症)、预测其风险因素或为其选择治疗的一部分。在一些情况下,选择用于基因组谱分析的变体组可包括在选择的基因座组处检测变体序列。在一些情况下,选择用于基因组谱分析的变体组可包括通过全面基因组谱分析(comprehensivegenomic profiling,CGP)检测多个基因座处的变体序列,所述全面基因组谱分析(CGP)是用于在单次测定中评估数百个基因(包括相关癌症生物标志物)的下一代测序(NGS)方法。包含所公开的方法作为基因组谱分析过程的一部分(或包含来自用于调用CNA的所公开方法的输出作为对象的基因组谱的一部分)可通过例如独立地确认给定患者样品中一个或更多个基因座中CNA的存在,提高基于基因组谱做出的例如疾病检测调用和治疗决策的有效性。
在一些情况下,基因组谱可包含关于个体的基因组和/或蛋白质组中基因(或其变体序列)、拷贝数变异、表观遗传性状、蛋白质(或其修饰)和/或其他生物标志物的存在的信息,以及关于个体的相应表型性状和遗传或基因组性状、表型性状与环境因素之间相互作用的信息。
在一些情况下,对象的基因组谱可包含来自全面基因组谱分析(CGP)测试、基于核酸测序的测试、基因表达谱分析测试、癌症热点组测试、DNA甲基化测试、DNA片段化测试、RNA片段化测试、或其任意组合的结果。
在一些情况下,所述方法还可包括基于所产生的基因组谱向对象施用或施加治疗或疗法(例如,抗癌剂、抗癌治疗或抗癌疗法)。抗癌剂或抗癌治疗可以是指在癌细胞治疗中有效的化合物。抗癌剂或抗癌治疗的一些实例包括但不限于烷基化剂、抗代谢物、天然产物、激素、化学治疗、放射治疗、免疫治疗、手术或配置为靶向特定细胞信号传导途径中的缺陷(例如DNA错配修复(mismatch repair,MMR)途径中的缺陷)的治疗。
样品
所公开的方法和系统可与从对象(例如患者)收集的包含核酸(例如DNA或RNA)的多种样品(在本文中也称为样本)中的任一种一起使用。一些实例包括但不限于肿瘤样品、组织样品、活检样品、血液样品(例如外周全血样品)、血浆样品、血清样品、淋巴样品、唾液样品、痰样品、尿液样品、妇科流体样品、循环肿瘤细胞(CTC)样品、脑脊液(cerebralspinal fluid,CSF)样品、心包液样品、胸膜液样品、腹水(腹膜液)样品、粪便(或大便)样品、或者其他体液、分泌物和/或排泄物样品(或来源于其的细胞样品)。在某些情况下,样品可以是冷冻样品或经福尔马林固定的石蜡包埋的(formalin-fixed paraffin-embedded,FFPE)样品。
在一些情况下,可通过组织切除(例如,手术切除)、针刺活检、骨髓活检、骨髓抽吸、皮肤活检、内窥镜活检、细针抽吸、口腔拭子、鼻拭子、阴道拭子或细胞学涂片、刮片、冲洗或灌洗(例如导管灌洗或支气管肺泡灌洗)等来收集样品。
在一些情况下,样品是液体活检样品,并且可包含例如全血、血浆、血清、尿液、粪便、痰、唾液或脑脊液。在一些情况下,样品可以是液体活检样品并且可包含循环肿瘤细胞(CTC)。在一些情况下,样品可以是液体活检样品并且可包含无细胞DNA(cfDNA)、循环肿瘤DNA
(ctDNA)、或其任意组合。
在一些情况下,样品可包含一种或更多种癌前(premalignant)或恶性细胞。如本文中所使用的,癌前是指尚未恶变但即将恶变的细胞或组织。在某些情况下,样品可从实体瘤、软组织肿瘤或转移性病变获取。在某些情况下,样品可从血液学恶性肿瘤或初癌(pre-malignancy)获取。在另一些情况下,样品可包含来自手术切缘的组织或细胞。在某些情况下,样品可包含肿瘤浸润淋巴细胞。在一些情况下,样品可包含一种或更多种非恶性细胞。在一些情况下,样品可以是原发性肿瘤或转移(例如,转移活检样品),或者是其一部分。在一些情况下,样品可从与相邻部位(例如,与肿瘤相邻的部位)相比具有最高肿瘤(例如,肿瘤细胞)百分比的部位(例如,肿瘤部位)获得。在一些情况下,样品可从与相邻部位(例如,与肿瘤相邻的部位)相比具有最大肿瘤病灶(例如,当在显微镜下观察时,最大数目的肿瘤细胞)的部位(例如,肿瘤部位)获得。
在一些情况下,所公开的方法还可包括分析主要对照(例如,正常组织样品)。在一些情况下,所公开的方法还可包括确定初始对照是否可用,并且如果可用的话,则从所述主要对照中分离对照核酸(例如,DNA)。在一些情况下,如果没有可用的主要对照,则样品可包含任何正常对照(例如,正常邻近组织(normal adjacent tissue,NAT))。在一些情况下,样品可以是或可包含组织学上正常的组织。在一些情况下,所述方法包括使用本文中所述的方法评价样品,例如组织学上正常的样品(例如,来自手术组织切缘)。在一些情况下,所公开的方法还可包括例如通过从不附带主要对照的样品中的所述NAT宏观解剖非肿瘤组织来获取富含非肿瘤细胞的子样品。在一些情况下,所公开的方法还可包括确定没有主要对照且没有NAT可用,以及标记所述样品用于在没有匹配对照的情况下进行分析。
在一些情况下,从组织学上正常的组织(例如在其他情况下,组织学上正常的手术组织切缘)获得的样品仍可包含遗传改变,例如如本文中所述的变体序列。因此,所述方法还可包括基于检测到的遗传改变的存在对样品进行重新分类。在一些情况下,同时处理(例如,来自不同对象的)多个样品。
所公开的方法和系统可应用于从多种组织样品(或其疾病状态)(例如,实体组织样品、软组织样品、转移性病变或液体活检样品)中的任一种提取的核酸的分析。组织的一些实例包括但不限于结缔组织、肌肉组织、神经组织、上皮组织和血液。组织样品可从动物或人体内的任何器官收集。人体器官的一些实例包括但不限于脑、心脏、肺、肝、肾、胰腺、脾、甲状腺、乳腺、子宫、前列腺、大肠、小肠、膀胱、骨、皮肤等。
在一些情况下,从样品中提取的核酸可包含脱氧核糖核酸(deoxyribonucleicacid,DNA)分子。可适合于通过所公开的方法分析的DNA的一些实例包括但不限于基因组DNA或其片段、线粒体DNA或其片段、无细胞DNA(cfDNA)和循环肿瘤DNA(ctDNA)。无细胞DNA(cfDNA)由在凋亡和坏死期间正常细胞和/或癌细胞释放的并且在血流中循环和/或在其他体液中积累的DNA片段构成。循环肿瘤DNA
(ctDNA)由癌细胞和肿瘤释放的、在血流中循环和/或在其他体液中积累的DNA片段构成。
在一些情况下,DNA是从来自样品的有核细胞中提取的。在一些情况下,样品可具有低有核细胞性,例如,当样品主要由红细胞、含有过量细胞质的病变细胞或具有纤维化的组织构成时。在一些情况下,具有低有核细胞性的样品可能需要更多的(例如更大的)组织体积用于DNA提取。
在一些情况下,从样品中提取的核酸可包含核糖核酸(ribonucleic acid,RNA)分子。可适合于通过所公开的方法分析的RNA的一些实例包括但不限于总细胞RNA、在耗竭某些丰富的RNA序列(例如核糖体RNA)之后的总细胞RNA、无细胞RNA(cell-free RNA,cfRNA)、信使RNA(messenger RNA,mRNA)或其片段、总RNA的poly(A)尾mRNA部分、核糖体RNA(ribosomal RNA,rRNA)或其片段、转移RNA(transfer RNA,tRNA)或其片段、以及线粒体RNA或其片段。在一些情况下,可从样品中提取RNA并使用例如逆转录反应将RNA转换为互补DNA
(complementary DNA,cDNA)。在一些情况下,cDNA是通过随机引发的cDNA合成方法产生的。在另一些情况下,通过用含有寡(dT)的寡核苷酸引发,在成熟mRNA的poly(A)尾处启动cDNA合成。用于耗竭、poly(A)富集和cDNA合成的方法是本领域技术人员公知的。
在一些情况下,样品可包含肿瘤内容物,例如包含肿瘤细胞或肿瘤细胞核。在一些情况下,样品可包含至少5%至50%、10%至40%、15%至25%或20%至30%肿瘤细胞核的肿瘤内容物。在一些情况下,样品可包含至少5%、至少10%、至少20%、至少30%、至少40%或至少50%肿瘤细胞核的肿瘤内容物。在一些情况下,通过将样品中肿瘤细胞的数目除以样品中具有细胞核的所有细胞的总数来确定(例如,计算)肿瘤细胞核百分比。在一些情况下,例如当样品是包含肝细胞的肝样品时,由于存在的肝细胞的细胞核的DNA含量是其他(例如非肝细胞、体细胞核)的两倍或多于两倍,因此可能需要不同的肿瘤含量计算。在一些情况下,检测遗传改变(例如变体序列)或确定例如微卫星不稳定性的灵敏度可能取决于样品的肿瘤含量。例如,对于给定尺寸的样品,具有较低肿瘤含量的样品可导致较低的检测灵敏度。
在一些情况下,如上所述,样品包含例如来自肿瘤或来自正常组织的核酸(例如DNA、RNA(或来源于RNA的cDNA)或二者)。在某些情况下,样品还可包含例如来自肿瘤或正常组织的非核酸组分(例如细胞、蛋白质、碳水化合物或脂质)。
对象
在一些情况下,样品是从患有病症或疾病(例如,过度增殖性疾病或非癌症适应证)或者疑似患有所述病症或疾病的对象(例如,患者)获得(例如,收集)的。在一些情况下,过度增殖性疾病是癌症。在一些情况下,癌症是实体瘤或其转移形式。在一些情况下,癌症是血液学癌症,例如,白血病或淋巴瘤。
在一些情况下,对象患有癌症或处于患有癌症的风险之中。例如,在一些情况下,对象具有癌症的遗传倾向(例如,具有提高他或她发生癌症之基线风险的遗传突变)。在一些情况下,对象已暴露于提高他或她发生癌症之风险的环境扰动(例如,辐射或化学物质)。在一些情况下,需要针对癌症的发展来监测对象。在一些情况下,需要针对癌症的进展或消退(例如,在用癌症疗法(或癌症治疗)进行治疗之后)来监测对象。在一些情况下,需要针对癌症的复发来监测对象。在一些情况下,需要针对最小残留疾病(minimum residualdisease,MRD)来监测对象。在一些情况下,对象已经针对癌症进行过治疗或者正在针对癌症进行治疗。在一些情况下,对象尚未用癌症疗法(或癌症治疗)治疗过。
在一些情况下,对象(例如,患者)正在用一种或更多种靶向治疗进行治疗,或者先前已经用一种或更多种靶向治疗进行过治疗。在一些情况下,例如,对于先前已经用靶向治疗治疗过的患者,获得(例如,收集)靶向治疗之后的样品(例如,样本)。在一些情况下,靶向治疗之后的样品是在靶向治疗完成之后获得(例如,收集)的样品。
在一些情况下,患者先前未用靶向治疗治疗过。在一些情况下,例如,对于先前未用靶向治疗治疗过的患者,样品包含切除物,例如,原始切除物或复发后(例如,治疗后疾病复发后)切除物。
癌症
在一些情况下,样品是从患有癌症的对象获取的。示例性癌症包括但不限于B细胞癌(例如,多发性骨髓瘤)、黑素瘤、乳腺癌、肺癌(例如非小细胞肺癌或NSCLC(non-smallcell lung carcinoma))、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫或子宫内膜癌、口腔癌或咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液学组织癌、腺癌、炎性肌成纤维细胞瘤、胃肠道间质瘤(GIST)、结肠癌、多发性骨髓瘤(MM)、骨髓增生异常综合征(MDS)、骨髓增殖性病症(MPD)、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性髓细胞白血病(CML)、慢性淋巴细胞白血病(CLL)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(NHL)、软组织肉瘤、纤维肉瘤、黏液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因肿瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管源性癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、原因不明性髓样化生、高嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见高嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、类癌瘤等。
在一些情况下,癌症是血液学恶性肿瘤(或初癌)。如本文中所使用的,血液学恶性肿瘤是指造血或淋巴组织的肿瘤,例如影响血液、骨髓或淋巴结的肿瘤。示例性血液学恶性肿瘤包括但不限于白血病(例如,急性淋巴细胞白血病(ALL)、急性髓系白血病(acutemyeloid leukemia,AML)、慢性淋巴细胞白血病(CLL)、慢性髓细胞性白血病(chronicmyelogenous leukemia,CML)、毛细胞性白血病、急性单核细胞白血病(acute monocyticleukemia,AMoL)、慢性粒单核细胞白血病(chronic myelomonocytic leukemia,CMML)、幼年型粒单核细胞白血病(juvenile myelomonocytic leukemia,JMML)或大颗粒淋巴细胞白血病)、淋巴瘤(例如,AIDS相关淋巴瘤、皮肤T细胞淋巴瘤、霍奇金淋巴瘤(例如,经典霍奇金淋巴瘤或结节性淋巴细胞为主的霍奇金淋巴瘤)、蕈样肉芽肿、非霍奇金淋巴瘤(例如,B细胞非霍奇金淋巴瘤(例如,伯基特淋巴瘤、小淋巴细胞淋巴瘤(CLL/SLL)、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、免疫母细胞性大细胞淋巴瘤、前体B淋巴母细胞淋巴瘤或套细胞淋巴瘤)或T细胞非霍奇金淋巴瘤(蕈样肉芽肿、间变性大细胞淋巴瘤或前体T淋巴母细胞淋巴瘤)、原发性中枢神经系统淋巴瘤、Sézary综合征、巨球蛋白血症)、慢性骨髓增生性肿瘤、朗格汉斯细胞组织细胞增生症(Langerhans cell histiocytosis)、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征或骨髓增生异常/骨髓增生性肿瘤。
核酸提取及处理
可使用本领域技术人员已知的多种技术中的任一种从组织样品、活检样品、血液样品或其他体液样品中提取DNA或RNA(参见,例如,国际专利申请公开No.WO 2012/092426的实施例1;Tan,et al.(2009),“DNA,RNA,and Protein Extraction:The Past and ThePresent”,J.Biomed.Biotech.2009:574398;16LEV血液DNA试剂盒(PromegaCorporation,Madison,WI)的技术文献;和Maxwell 16颊拭子LEV DNA纯化试剂盒技术手册(Promega Literature#TM333,2011年1月1日,Promega Corporation,Madison,WI))。用于RNA分离的方案公开于例如/>16总RNA纯化试剂盒技术公告(PromegaLiterature#TB351,August 2009,Promega Corporation,Madison,WI)中。
典型的DNA提取过程例如包括(i)收集要从中提取DNA的液体样品、细胞样品或组织样品,(ii)如果需要的话,破坏细胞膜(即细胞裂解)以释放DNA和其他细胞质组分,(iii)用浓盐溶液处理液体样品或裂解样品以沉淀蛋白质、脂质和RNA,然后离心以分离出沉淀的蛋白质、脂质和RNA,以及(iv)从上清液中纯化DNA以去除在细胞膜裂解步骤期间使用的洗涤剂、蛋白质、盐或其他试剂。
细胞膜的破坏可使用多种机械剪切(例如,通过弗氏压碎器(French pressing)或细针)或超声破坏技术来进行。细胞裂解步骤通常包括使用洗涤剂和表面活性剂来溶解细胞膜和核膜的脂质。在一些情况下,裂解步骤还可包括使用蛋白酶来分解蛋白质,和/或使用RNA酶来消化样品中的RNA。
用于DNA纯化的合适技术的一些实例包括但不限于(i)在冰冷的乙醇或异丙醇中沉淀,然后离心(DNA的沉淀可通过提高离子强度来增强,例如通过添加醋酸钠来增强),(ii)苯酚-氯仿提取,然后离心以将含有核酸的水相与含有变性蛋白质的有机相分离,以及(iii)固相色谱法,其中核酸吸附到固相(例如二氧化硅或其他)取决于缓冲液的pH和盐浓度。
在一些情况下,与DNA结合的细胞蛋白和组蛋白可通过添加蛋白酶或通过用醋酸钠或醋酸铵沉淀蛋白质来去除,或者通过在DNA沉淀步骤之前用苯酚-氯仿混合物提取来去除。
在一些情况下,可使用多种合适的商业DNA提取和纯化试剂盒中的任一种来提取DNA。一些实例包括但不限于来自Qiagen(Germantown,MD)的QIAamp(用于从人样品中分离基因组DNA)和DNAeasy(用于从动物或植物样品中分离基因组DNA)试剂盒或来自Promega(Madison,WI)的和ReliaPrepTM系列试剂盒。
如上所述,在一些情况下,样品可包含福尔马林固定的(也称为甲醛固定的或多聚甲醛固定的)、石蜡包埋(FFPE)的组织制备物。例如,FFPE样品可以是包埋在基质(例如FFPE块)中的组织样品。从甲醛固定的或多聚甲醛固定的、石蜡包埋(FFPE)的组织中分离核酸(例如DNA)的方法公开于例如Cronin,et al.,(2004)Am J Pathol.164(1):35–42;Masuda,et al.,(1999)Nucleic Acids Res.27(22):4436–4443;Specht,et al.,(2001)Am JPathol.158(2):419–429;the Ambion RecoverAllTMTotal Nucleic Acid IsolationProtocol(Ambion,目录号AM1975,2008年9月);16FFPE Plus LEV DNA纯化试剂盒技术手册(Promega Literature#TM349,2011年2月);/>FFPE DNA试剂盒手册(OMEGA bio-tek,Norcross,GA,产品编号D3399-00、D3399-01和D3399-02,2009年6月);和/>DNA FFPE组织手册(Qiagen,目录号37625,2007年10月)。例如,RecoverAllTM总核酸分离试剂盒在高温下使用二甲苯来溶解石蜡包埋的样品,并使用玻璃纤维过滤器来捕获核酸。/>16FFPE Plus LEV DNA纯化试剂盒与/>16仪器一起使用,用于从FFPE组织的1至10μm切片纯化基因组DNA。使用二氧化硅包覆的顺磁颗粒(paramagnetic particle,PMP)来纯化DNA,并以低洗脱体积进行洗脱。/>FFPE DNA试剂盒使用旋转柱和缓冲系统来分离基因组DNA。/>DNA FFPE组织试剂盒使用/>DNA Micro技术来纯化基因组和线粒体DNA。
在一些情况下,所公开的方法还可包括确定或获取从样品中提取的核酸的产率值并将所确定的值与参考值进行比较。例如,如果所确定的或获取的值小于参考值,则可以在进行文库构建之前扩增核酸。在一些情况下,所公开的方法还可包括确定或获取样品中核酸片段的大小(或平均大小)的值,并将所确定的或获取的值与参考值进行比较,例如至少100、200、300、400、500、600、700、800、900或1000个碱基对(bps)的大小(或平均大小)。在一些情况下,可响应于该确定来调整或选择本文中所述的一个或更多个参数。
分离之后,核酸通常溶解于弱碱性缓冲液例如Tris-EDTA(TE)缓冲液中,或溶解于超纯水中。在一些情况下,分离的核酸(例如,基因组DNA)可通过使用本领域技术人员已知的多种技术中的任一种进行片段化或剪切。例如,基因组DNA可通过物理剪切方法、酶促切割方法、化学切割方法和本领域技术人员已知的其他方法进行片段化。DNA剪切的方法描述于国际专利申请公开No.WO 2012/092426的实施例4中。在一些情况下,可使用DNA剪切方法的替代方法来避免文库制备期间的连接步骤。
文库制备
在一些情况下,分离自样品的核酸可用于构建文库(例如,如本文中所述的核酸文库)。在一些情况下,使用上述方法中的任一种将核酸片段化,任选地进行链末端损伤的修复,并任选地连接至合成衔接子、引物和/或条码(例如,扩增引物、测序衔接子、流动池衔接子、底物衔接子、样品条码或索引、和/或唯一分子标识符序列),进行大小选择(例如,通过制备凝胶电泳)和/或扩增(例如,使用PCR、非PCR扩增技术或等温扩增技术)。在一些情况下,在基于杂交的靶序列选择之前,使用片段化和衔接子连接的核酸组,而不进行明确的大小选择或扩增。在一些情况下,通过本领域技术人员已知的多种特异性或非特异性核酸扩增方法中的任一种来扩增核酸。在一些情况下,例如通过全基因组扩增方法例如随机引发链置换扩增来扩增核酸。用于下一代测序的核酸文库制备技术的一些实例描述于例如vanDijk,et al.(2014),Exp.Cell Research322:12–20,以及Illumina的基因组DNA样品制备试剂盒中。
在一些情况下,所得核酸文库可包含基因组的全部或基本上全部复杂性。在本上下文中,术语“基本上全部”是指在实践中在操作的初始步骤期间可能存在一些不期望的基因组复杂性损失的可能性。本文中所述的方法在核酸文库包含基因组的一部分的情况下(例如,在通过设计降低基因组的复杂性的情况下)也是有用的。在一些情况下,基因组的任何选定部分可用本文中所述的方法使用。例如,在某些实施方案中,分离整个外显子组或其亚组。在一些情况下,文库可包含至少95%、90%、80%、70%、60%、50%、40%、30%、20%、10%或5%的基因组DNA。在一些情况下,文库可由基因组DNA的cDNA拷贝组成,其包含至少95%、90%、80%、70%、60%、50%、40%、30%、20%、10%或5%的基因组DNA的拷贝。在某些情况下,用于产生核酸文库的核酸量可少于5微克、少于1微克、少于500ng、少于200ng、少于100ng、少于50ng、少于10ng、少于5ng、或少于1ng。
在一些情况下,文库(例如,核酸文库)包含核酸分子的集合。如本文中所述,文库的核酸分子可包含靶核酸分子(例如,肿瘤核酸分子、参考核酸分子和/或对照核酸分子;本文中也分别称为第一、第二和/或第三核酸分子)。文库的核酸分子可来自单个对象或个体。在一些情况下,文库可包含来源于多于一名对象(例如,2、3、4、5、6、7、8、9、10、20、30或更多个对象)的核酸分子。例如,来自不同对象的两个或更多个文库可以组合以形成具有来自多于一个对象的核酸分子的文库(其中来源于每个对象的核酸分子任选地与对应于特定对象的唯一样品条码连接)。在一些情况下,对象是患有癌症或肿瘤或者处于患有癌症或肿瘤风险中的人。
在一些情况下,文库(或其一部分)可包含一个或更多个亚基因组区间。在一些情况下,亚基因组区间可以是单个核苷酸位置,例如该位置处的变体与肿瘤表型(正或负)相关的核苷酸位置。在一些情况下,亚基因组区间包含多于一个核苷酸位置。这样的例子包括长度为至少2、5、10、50、100、150、250或多于250个核苷酸位置的序列。亚基因组区间可包含例如一个或更多个完整基因(或其部分)、一个或更多个外显子或编码序列(或其部分)、一个或更多个内含子(或其部分)、一个或更多个微卫星区域(或其部分),或其任意组合。亚基因组区间可包含天然存在的核酸分子(例如基因组DNA分子)的片段的全部或部分。例如,亚基因组区间可对应于经受测序反应的基因组DNA片段。在一些情况下,亚基因组区间是来自基因组来源的连续序列。在一些情况下,亚基因组区间包含基因组中不连续的序列,例如cDNA中的亚基因组区间可包含由于剪接而形成的外显子-外显子连接处。在一些情况下,亚基因组区间包含肿瘤核酸分子。在一些情况下,亚基因组区间包含非肿瘤核酸分子。
用于分析的靶向基因座
本文中所述的方法可与如本文中所述的用于评价多个对象区间或对象区间组(例如靶序列)(例如来自基因组基因座的组(例如基因座或其片段))的方法组合使用或作为该方法的一部分使用。
在一些情况下,通过所公开的方法评价的基因组基因座的组包含多个,例如突变形式的基因,其与对细胞分裂、生长或存活的影响相关,或与癌症相关,例如与本文中所述的癌症相关。
在一些情况下,通过所公开的方法评价的基因座的组包含至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个或多于100个基因座。
在一些情况下,所选择的基因座(本文中也称为靶基因座或靶序列)或其片段可包含含有对象基因组的非编码序列、编码序列、基因内区域或基因间区域的对象区间。例如,对象区间可包括非编码序列或其片段(例如,启动子序列、增强子序列、5'非翻译区(5'UTR)、3'非翻译区(3'UTR),或其片段)、编码序列或其片段、外显子序列或其片段、内含子序列或其片段。
靶标捕获试剂
本文中所述的方法可包括使核酸文库与多种靶标捕获试剂接触,以便选择和捕获多种特定靶序列(例如,基因序列或其片段)用于分析。在一些情况下,使用靶标捕获试剂(即,可与靶分子结合并因此允许捕获靶分子的分子)来选择待分析的对象区间。例如,靶标捕获试剂可以是诱饵分子,例如核酸分子(例如DNA分子或RNA分子),其可以与靶分子杂交(即互补),从而允许捕获靶核酸。在一些情况下,靶标捕获试剂是捕获寡核苷酸(或捕获探针),靶标捕获试剂例如诱饵分子(或诱饵序列)。在一些情况下,靶核酸是基因组DNA分子、RNA分子、来源于RNA分子的cDNA分子、微卫星DNA序列等。在一些情况下,靶标捕获试剂适合于与靶标进行液相杂交。在一些情况下,靶标捕获试剂适合于与靶标进行固相杂交。在一些情况下,靶标捕获试剂适合于与靶标进行液相杂交和固相杂交二者。靶标捕获试剂的设计和构建更详细地描述于例如国际专利申请公开No.WO 2020/236941中(其全部内容通过引用并入本文)。
本文中所述的方法通过适当选择靶标捕获试剂来选择待测序的靶核酸分子为来自一个或更多个对象的来自样品(例如癌组织样本、液体活检样品等)的大量基因组基因座(例如基因或基因产物(例如mRNA)、微卫星基因座等)提供了优化测序。在一些情况下,靶标捕获试剂可与特定靶基因座(例如特定靶基因座或其片段)杂交。在一些情况下,靶标捕获试剂可与靶基因座的特定组(例如特定基因座的组或其片段)杂交。在一些情况下,可以使用包含靶标特异性和/或组特异性靶标捕获试剂的混合物的多种靶标捕获试剂。
在一些情况下,与核酸文库接触以捕获用于核酸测序的多个靶序列的多个靶标捕获试剂(例如,诱饵组)中,靶标捕获试剂(例如,诱饵分子)的数量大于10、大于50、大于100、大于200、大于300、大于400、大于500、大于600、大于700、大于800、大于900、大于1,000、大于1,250,大于1,500、大于1,750、大于2,000、大于3,000、大于4,000、大于5,000、大于10,000、大于25,000或大于50,000。
在一些情况下,靶标捕获试剂序列的总长度可以为约70个核苷酸至1000个核苷酸。在一种情况下,靶标捕获试剂的长度为约100至300个核苷酸、110至200个核苷酸、或120至170个核苷酸。除了上述那些之外,长度为约70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸的中间体寡核苷酸可用于本文中所述的方法中。在一些实施方案中,可以使用约70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220或230个碱基的寡核苷酸。
在一些情况下,每个靶标捕获试剂序列可包含:(i)靶标特异性捕获序列(例如,基因座或微卫星基因座特异性互补序列),(ii)衔接子、引物、条码和/或唯一分子标识符序列,以及(iii)在一端或两端上的通用尾部。如本文中所使用,术语“靶标捕获试剂”可以是指靶标特异性的靶标捕获序列或是指包含靶标特异性的靶标捕获序列的整个靶标捕获试剂寡核苷酸。
在一些情况下,靶标捕获试剂中的靶标特异性捕获序列的长度为约40个核苷酸至1000个核苷酸。在一些情况下,靶标特异性捕获序列的长度为约70个核苷酸至300个核苷酸。在一些情况下,靶标特异性序列的长度为约100个核苷酸至200个核苷酸。在又一些情况下,靶标特异性序列的长度为约120个核苷酸至170个核苷酸,通常长度为120个核苷酸。除上述那些之外的中间体长度也可用于本文中所述的方法中,例如长度为约40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸的靶标特异性序列,以及长度在上述长度之间的靶标特异性序列。
在一些情况下,靶标捕获试剂可被设计成选择含有一个或更多个重排的对象区间,例如含有基因组重排的内含子。在这样的情况下,靶标捕获试剂被设计成掩蔽重复序列以提高选择效率。在重排具有已知接合序列的情况下,可以设计互补的靶标捕获试剂以识别接合序列以提高选择效率。
在一些情况下,所公开的方法可包括使用被设计为捕获两个或更多个不同靶标类别的靶标捕获试剂,每个类别具有不同的靶标捕获试剂设计策略。在一些情况下,本文中公开的基于杂交的捕获方法和靶标捕获试剂组合物可提供靶序列组的捕获和均匀覆盖,同时最小化靶序列组之外的基因组序列的覆盖。在一些情况下,靶序列可包含基因组DNA的整个外显子组或其所选择的亚组。在一些情况下,靶序列可包含例如大的染色体区域(例如整个染色体臂)。本文中公开的方法和组合物提供了不同的靶标捕获试剂,用于实现复杂的靶核酸序列组的不同测序深度和覆盖模式。
通常,DNA分子被用作靶标捕获试剂序列,但也可以使用RNA分子。在一些情况下,DNA分子靶标捕获试剂可以是单链DNA(single stranded DNA,ssDNA)或双链DNA(double-stranded DNA,dsDNA)。在一些情况下,RNA-DNA双链体比DNA-DNA双链体更稳定,从而提供了潜在的更好的核酸捕获。
在一些情况下,所公开的方法包括提供从一个或更多个核酸文库捕获的选择的核酸分子组(例如,文库捕获物(library catch))。例如,该方法可包括:提供一个或多个核酸文库,每个核酸文库包含从来自一个或更多个对象的一个或更多个样品中提取的多种核酸分子(例如,多种靶核酸分子和/或参考核酸分子);使一个或多个文库(例如,在基于溶液的杂交反应中)与一种、两种、三种、四种、五种或多于五种的多种靶标捕获试剂(例如,寡核苷酸靶标捕获试剂)接触以形成包含多种靶标捕获试剂/核酸分子杂交体的杂交混合物;(例如通过使所述杂交混合物与结合实体接触)从所述杂交混合物中分离多种靶标捕获试剂/核酸分子杂交体,所述结合实体允许所述多种靶标捕获试剂/核酸分子杂交体从杂交混合物中分离,从而提供文库捕获物(例如,来自一个或多个文库的选择的或富集的核酸分子亚组)。
在一些情况下,所公开的方法还可包括(例如,通过进行PCR)扩增文库捕获物。在另一些情况下,不扩增文库捕获物。
在一些情况下,靶标捕获试剂可以是试剂盒的一部分,所述试剂盒可任选地包含说明书、标准品、缓冲液或酶或另一些试剂。
杂交条件
如上所述,本文中公开的方法可包括使文库(例如核酸文库)与多种靶标捕获试剂接触以提供选择的文库靶核酸序列(即文库捕获物)的步骤。接触步骤可在例如基于溶液的杂交中实现。在一些情况下,该方法包括重复杂交步骤进行一轮或更多轮另外的基于溶液的杂交。在一些情况下,该方法还包括使文库捕获物与相同或不同的靶标捕获试剂集合经受一轮或更多轮另外的基于溶液的杂交。
在一些情况下,接触步骤使用固体支持物例如阵列来实现。用于杂交的合适的固体支持物描述于例如Albert,T.J.et al.(2007)Nat.Methods 4(11):903-5;Hodges,E.etal.(2007)Nat.Genet.39(12):1522-7;和Okou,D.T.et al.(2007)Nat.Methods 4(11):907-9中,其内容通过引用整体并入本文。
本领域描述了可适用于本文中方法的杂交方法,例如如国际专利申请公开No.WO2012/092426中所述。用于将靶标捕获试剂与多种靶核酸杂交的方法更详细地描述于例如国际专利申请公开No.WO 2020/236941中,其全部内容通过引用并入本文。
测序方法
本文中公开的方法和系统可与用于对核酸进行测序的方法或系统(例如,下一代测序系统)组合使用或作为其一部分使用,以产生与样品中的亚基因组区间内一个或更多个基因座重叠的多个序列读出,从而确定例如多个基因座处的基因等位基因序列。如本文中所使用,“下一代测序”(或"Next-generation sequencing,NGS")也可称为“大规模平行测序”,并且是指以高通量方式(例如,其中同时对多于103、104、105或多于105个分子进行测序)确定任一单个核酸分子(例如,如在单个核酸分子测序中)或单个核酸分子的克隆扩增代替物(proxy)的核苷酸序列的任何测序方法。
下一代测序方法是本领域已知的,并且描述于例如Metzker,M.(2010)NatureBiotechnology Reviews 11:31-46,其通过引用并入本文。适合在实施本文中公开的方法和系统时使用的测序方法的另一些实例描述于例如国际专利申请公开No.WO 2012/092426中。在一些情况下,测序可包括例如全基因组测序(whole genome sequencing,WGS)、全外显子组测序、靶测序或直接测序。在一些情况下,可使用例如Sanger测序来进行测序。
所公开的方法和系统可使用测序平台例如Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent、Complete Genomics、Pacific Bioscience、Helicos和/或Polonator平台来实施。在一些情况下,测序可包括Illumina MiSeq测序。在一些情况下,测序可包括Illumina HiSeq测序。在一些情况下,测序可包括Illumina NovaSeq测序。用于对从样品提取的核酸中的大量靶基因组基因座进行测序的优化方法更详细地描述于例如国际专利申请公开No.WO 2020/236941中,其全部内容通过引用并入本文。
在某些情况下,所公开的方法包括以下步骤中的一个或更多个:(a)从样品中获取包含多个正常和/或肿瘤核酸分子的文库;(b)在允许靶标捕获试剂与靶核酸分子杂交的条件下,使文库同时或顺序与一种、两种、三种、四种、五种或多于五种的多种靶标捕获试剂接触,从而提供选择的捕获的正常和/或肿瘤核酸分子组(即,文库捕获物);(c)(例如通过使杂交混合物与结合实体接触)从杂交混合物中分离所选择的核酸分子亚组(例如文库捕获物),所述结合实体允许靶标捕获试剂/核酸分子杂交体从杂交混合物中分离;(d)对文库捕获物进行测序,以从所述文库捕获物中获取与一个或更多个对象区间(例如,一个或更多个靶序列)重叠的多个读出(例如,序列读出),所述文库捕获物可包含突变(或改变),例如包含体细胞突变或种系突变的变体序列;(e)使用本文中别处所述的比对方法来比对所述序列读出;和/或(f)从多个序列读出中的一个或更多个序列读出中为对象区间中的核苷酸位置分配核苷酸值(例如,使用例如贝叶斯方法(Bayesian method)或本文中所述的其他方法调用(call)突变)。
在一些情况下,获取一个或更多个对象区间的序列读出可包括对至少1、至少5、至少10、至少20、至少30、至少40、至少50、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少450、至少500、至少550、至少600、至少650、至少700、至少750、至少800、至少850、至少900、至少950、至少1,000、至少1,250、至少1,500、至少1,750、至少2,000、至少2,250、至少2,500、至少2,750、至少3,000、至少3,500、至少4,000、至少4,500或至少5,000个基因座(例如基因组基因座、基因座、微卫星基因座等)进行测序。在一些情况下,获取一个或更多个对象区间的序列读出可包括对本段中所述范围内任意数量基因座的对象区间(例如至少2,850个基因座)进行测序。
在一些情况下,获取一个或更多个对象区间的序列读出包括用提供以下序列读出长度(或平均序列读出长度)的测序方法对对象区间进行测序:至少20个碱基、至少30个碱基、至少40个碱基、至少50个碱基、至少60个碱基、至少70个碱基、至少80个碱基、至少90个碱基、至少100个碱基、至少120个碱基、至少140个碱基、至少160个碱基、至少180个碱基碱基、至少200个碱基、至少220个碱基、至少240个碱基、至少260个碱基、至少280个碱基、至少300个碱基、至少320个碱基、至少340个碱基、至少360个碱基、至少380个碱基、或至少400个碱基。在一些情况下,获取一个或更多个对象区间的序列读出可包括用提供本段落中描述的范围内的任意数量的碱基的序列读出长度(或平均序列读出长度)(例如,56个碱基的序列读出长度(或平均序列读出长度))的测序方法对对象区间进行测序。
在一些情况下,获取一个或更多个对象区间的序列读出可包括以至少100×或更多的平均覆盖(或深度)进行测序。在一些情况下,获取一个或更多个对象区间的序列读出可包括以至少100×、至少150×、至少200×、至少250×、至少500×、至少750×、至少1,000×、至少1,500×、至少2,000×、至少2,500×、至少3,000×、至少3,500×、至少4,000×、至少4,500×、至少5,000×、至少5,500×或至少6,000×或更多的平均覆盖(或深度)进行测序。在一些情况下,获取一个或更多个对象区间的序列读出可包括以具有本段中描述的值范围内的任意值(例如至少160×)的平均覆盖(或深度)进行测序。
在一些情况下,获取一个或更多个对象区间的读出包括以具有从至少100×到至少6,000×范围内的任意值的平均测序深度对大于约90%、92%、94%、95%、96%、97%、98%或99%的测序基因座进行测序。例如,在一些情况下,获取对象区间的读出包括以至少125×的平均测序深度对至少99%的测序基因座进行测序。作为另一个实例,在一些情况下,获取对象区间的读出包括以至少4,100×的平均测序深度对至少95%的测序基因座进行测序。
在一些情况下,文库中核酸种类的相对丰度可通过计算测序实验产生的数据中其同源序列出现的相对数量(例如,给定同源序列的序列读出的数量)来估计。
在一些情况下,所公开的方法和系统提供了如本文中所述的对象区间组(例如,基因座)的核苷酸序列。在某些情况下,提供序列而不使用包含匹配的正常对照(例如,野生型对照)和/或匹配的肿瘤对照(例如,原发性与转移性)的方法。
在一些情况下,本文中使用的测序深度水平(例如,测序深度的X倍水平)是指在检测和去除重复读出(例如,PCR重复读出)之后获得的读出(例如,独特读出)的数量。在另一些情况下,评价重复读出,例如,以支持拷贝数改变(copy number alteration,CNA)的检测。
比对
比对是将读出与位置(例如基因组位置或基因座)进行匹配的过程。在一些情况下,NGS读出可以与已知的参考序列(例如,野生型序列)进行比对。在一些情况下,NGS读出可以从头组装。NGS读出的序列比对方法描述于例如Trapnell,C.and Salzberg,S.L.Nature Biotech.,2009,27:455-457中。从头序列组装的一些实例描述于例如WarrenR.,et al.,Bioinformatics,2007,23:500-501;Butler,J.et al.,Genome Res.,2008,18:810-820;和Zerbino,D.R.and Birney,E.,Genome Res.,2008,18:821-829中。序列比对的优化在本领域中有所描述,例如如国际专利申请公开No.WO 2012/092426中所阐述的。序列比对方法的另外的描述在例如国际专利申请公开No.WO 2020/236941中提供,其全部内容通过引用并入本文。
错位(Misalignment)(例如,来自短读出的碱基对放置在基因组中不正确的位置),(例如由于实际癌症突变周围的序列背景(例如,重复序列的存在)而导致的读出错位可导致突变检测的灵敏度降低)可导致突变检测的灵敏度降低,因为替代等位基因的读出可会偏离替代等位基因读出的直方图峰值。可能导致错位的序列背景的另一些实例包括短串联重复序列、散在重复序列、低复杂性区域、插入-缺失(插失(indel))和旁系同源物。如果有问题的序列背景出现在不存在实际突变的情况下,则错位可通过将实际参考基因组碱基序列的读出放置在错误的位置来引入“突变”等位基因的赝象读出(artifactual read)。由于多基因分析的突变调用算法即使对低丰度突变也应该敏感,因此序列错位可提高假阳性发现率和/或降低特异性。
在一些情况下,本文中公开的方法和系统可整合多种单独调整的比对方法或算法的使用以优化测序方法中的碱基调用性能,特别是在依赖于大量不同基因组座处的大量不同的遗传事件的大规模平行测序的方法中。在一些情况下,所公开的方法和系统可包括使用一种或更多种全局比对算法。在一些情况下,所公开的方法和系统可包括使用一种或更多种局部比对算法。可以使用的比对算法的一些实例包括但不限于:伯劳斯-惠勒比对(Burrows-Wheeler Alignment,BWA)软件包(参见例如Li,et al.(2009)、“Fast andAccurate Short Read Alignment with Burrows-Wheeler Transform”,Bioinformatics25:1754-60;Li,et al.(2010)、Fast and Accurate Long-Read Alignment withBurrows-Wheeler Transform”,Bioinformatics epub.PMID:20080505)、史密斯-沃特曼算法(参见,例如,Smith,et al.(1981),"Identification of Common MolecularSubsequences",J.Molecular Biology 147(1):195–197)、条带式史密斯-沃特曼算法(参见,例如,Farrar(2007)、“Striped Smith–Waterman Speeds Database Searches SixTimes Over Other SIMD Implementations”,Bioinformatics23(2):156-161)、内德勒曼-温施算法(Needleman,et al.(1970)"A General Method Applicable to the Search forSimilarities in the Amino Acid Sequence of Two Proteins",J.Molecular Biology48(3):443–53),或其任意组合。
在一些情况下,本文中公开的方法和系统还可包括使用序列组装算法,例如Arachne序列组装算法(参见例如Batzoglou,et al.(2002),“ARACHNE:A Whole-GenomeShotgun Assembler”,Genome Res.12:177-189)。
在一些情况下,用于分析序列读出的比对方法没有针对不同基因组基因座处的不同变体(例如,点突变、插入、缺失等)的检测来单独定制或调整。在一些情况下,使用不同的比对方法来分析单独定制或调整的读出以检测在不同基因组基因座处检测到的不同变体的至少一个亚组。在一些情况下,使用不同的比对方法来分析单独定制或调整的读出以检测不同基因组基因座处的每个不同变体。在一些情况下,调整可以是以下一项或更多项的函数(function):(i)被测序的遗传基因座(例如,基因座、微卫星基因座或其他对象区间),(ii)与样品相关的肿瘤类型,
(iii)被测序的变体,或(iv)样品或对象的特征。选择或使用针对待测序的多个特定对象区间单独调整的比对条件使速度、灵敏度和特异性优化。当对相对大量的不同对象区间的读出比对进行优化时,该方法特别有效。在一些情况下,该方法包括使用针对重排优化的比对方法以及针对与重排不相关的对象区间优化的其他比对方法的组合。
在一些情况下,本文中公开的方法还包括选择或使用用于分析(例如比对)序列读出的比对方法,其中所述比对方法是以下一项或更多项的函数、响应于以下一项或更多项而选择、或针对以下一项或更多项而优化:(i)肿瘤类型,例如样品中的肿瘤类型;(ii)被测序的对象区间的位置(例如,基因座);(iii)被测序的对象区间中的变体类型(例如,点突变、插入、缺失、替换、拷贝数变异(copy number variation,CNV)、重排或融合);(iv)被分析的位点(例如,核苷酸位置);(v)样品的类型(例如,本文中所述的样品);和/或(vi)被评价的对象区间中或附近的相邻序列(例如,根据由于例如在对象区间中或附近存在重复序列而导致对象区间错位的其预期倾向)。
在一些情况下,本文中公开的方法允许快速且有效地比对麻烦的读出,例如具有重排的读出。因此,在对象区间的读出包含具有重排(例如易位)的核苷酸位置的一些情况下,该方法可包括使用适当调整的比对方法,并且该方法包括:(i)选择重排参考序列用于与读出进行比对,其中所述重排参考序列与重排进行比对(在一些情况下,参考序列与基因组重排不完全相同);(ii)将读出与所述重排参考序列进行比较,例如比对。
在一些情况下,可使用替代方法来比对麻烦的读出。当对相对大量的不同对象区间的读出比对进行优化时,这些方法特别有效。举例来说,分析样品的方法可包括:(i)使用第一组参数(例如,使用第一映射算法,或通过与第一参考序列比较)进行读出的比较(例如,比对比较),并确定所述读出是否满足第一比对标准(例如,读出可以与所述第一参考序列比对,例如,具有少于具体数量的错配);(ii)如果所述读出未能满足第一比对标准,则使用第二组参数进行第二比对比较(例如,使用第二映射算法,或通过与第二参考序列比较);以及(iii)任选地,确定所述读出是否满足所述第二标准(例如,读出可以与所述第二参考序列比对,例如,具有少于具体数量的错配),其中所述第二组参数包含使用,例如所述第二参考序列,与所述第一组参数相比,所述第二组参数更有可能导致与变体(例如,重排、插入、缺失或易位)的读出的比对。
在一些情况下,所公开的方法中的序列读出的比对可以与本文中别处所述的突变调用方法组合。如本文中所讨论的,检测实际突变的灵敏度降低可通过评价被分析的基因或基因组基因座(例如基因座)中的预期突变位点周围的比对质量(手动或以自动方式)来解决。在一些情况下,待评价的位点可以从人基因组(例如,HG19人参考基因组)或癌症突变(例如,COSMIC)的数据库中获得。被识别为有问题的区域可通过使用选择在相关序列背景中提供更好的性能的算法来补救,例如通过使用较慢但更精确的比对算法(例如史密斯-沃特曼比对)进行比对优化(或重新比对)。在通用比对算法无法补救问题的情况下,可以通过以下来创建定制比对方法,例如调整包含替换的可能性高的基因的最大差异错配罚分参数;基于某些肿瘤类型中常见的特定突变类型(例如黑色素瘤中的C→T)来调整特定的错配罚分参数;或者基于某些样品类型中常见的特定突变类型(例如FFPE中常见的替换)来调整特定的错配罚分参数。
通过手动或自动检验测序数据中的所有突变调用可以评估由于错位而导致的评价对象区间的特异性降低(假阳性率提高)。那些被发现容易由于错位而产生虚假突变调用的区域可以进行如上所述的比对补救。在找不到可行的算法补救的情况下,可以对来自问题区域的“突变”进行分类或从靶基因座的组中筛选出来。
突变调用
碱基调用是指测序装置的原始输出,例如寡核苷酸分子中确定的核苷酸序列。突变调用是指对于被测序的给定核苷酸位置选择核苷酸值(例如A、G、T或C)的过程。通常,位置的序列读出(或碱基调用)将提供多于一个值,例如一些读出将指示T以及一些将指示G。突变调用是将正确核苷酸值(例如,这些值中的一个)分配给序列的过程。尽管其被称为“突变”调用,但其可应用于将核苷酸值分配给任何核苷酸位置,例如对应于突变体等位基因、野生型等位基因、尚未表征为突变体或野生型的等位基因的位置,或不以可变性为特征的位置。
在一些情况下,所公开的方法可包括使用定制的或调整的突变调用算法或其参数来优化应用于测序数据时的性能,特别是在依赖于对样品(例如,来自患有癌症的对象的样品)中大量不同基因组基因座(例如,基因座、微卫星区域等)处的大量不同遗传事件的大规模平行测序的方法中。突变调用的优化在本领域中有所描述,例如如国际专利申请公开No.WO 2012/092426中所阐述的。
用于突变调用的方法可包括以下的一种或更多种:基于参考序列中每个位置处的信息进行独立调用(例如,检验序列读出;检验碱基调用和质量评分;计算观察到的碱基的概率和给定潜在基因型的质量评分;以及分配基因型(例如,使用贝叶斯规则));去除假阳性(例如,使用深度阈值以拒绝读取深度远低于或高于预期的SNP;局部重新比对以去除由于小插失而导致的假阳性);并进行连锁不平衡(linkage disequilibrium,LD)/基于插补的分析以完善调用。
用于计算与特定基因型和位置相关的基因型可能性的等式描述于例如Li,H.andDurbin,R.Bioinformatics,2010;26(5):589-95中。在评价来自该癌症类型的样品时,可以使用某种癌症类型中特定突变的先验期望。这样的可能性可来源于癌症突变的公共数据库,例如癌症体细胞突变目录(Catalogue of Somatic Mutation in Cancer,COSMIC)、HGMD(人类基因突变数据库)、SNP联盟、乳腺癌突变数据库(Breast Cancer Mutation DataBase,BIC)和乳腺癌基因数据库(Breast Cancer Gene Database,BCGD)。
基于LD/插补的分析的一些实例描述于例如Browning,B.L.and Yu,Z.Am.J.Hum.Genet.2009,85(6):847-61。低覆盖SNP调用方法的一些实例描述于例如Li,Y.,et al.,Annu.Rev.Genomics Hum.Genet.2009,10:387-406中。
在比对之后,可使用突变调用方法(例如,贝叶斯突变调用方法)来进行替换的检测,该突变调用方法应用于每个对象区间中的每个碱基,例如待评价的基因或其他基因座的外显子,其中观察到替代等位基因的存在。该方法将在存在突变的情况下观察读出数据的概率与在仅存在碱基调用错误的情况下观察读出数据的概率进行比较。如果这种比较足够有力地支持突变的存在,则可以称为突变。
贝叶斯突变检测方法的优点是,突变存在的概率与单独碱基调用错误的概率的比较可通过该位点处存在突变的先验期望来加权。如果在给定癌症类型的频繁突变位点处观察到替代等位基因的一些读出,则即使突变证据的数量未达到通常的阈值,也可以确信地调用(call)突变的存在。然后这种灵活性可用于提高对于甚至更罕见突变/更低纯度样品的检测灵敏度,或者使测试对读出覆盖中的降低更稳健。基因组中随机碱基对在癌症中发生突变的可能性为约1e-6。在例如典型的多基因癌症基因组组中,在许多位点处发生特定突变的可能性可能要高出几个数量级。这些可能性可来源于癌症突变的公共数据库(例如,COSMIC)。
插失调用(Indel Calling)是通过插入或缺失在测序数据中查找与参考序列不同的碱基的过程,通常包括相关的置信度评分或统计证据度量。插失调用的方法可包括以下步骤:识别候选插失、通过局部重新比对计算基因型可能性、以及进行基于LD的基因型推断和调用。通常,使用贝叶斯方法来获得潜在的插失候选者,并随后在贝叶斯框架中将这些候选者与参考序列一起进行测试。
生成候选插失的算法描述于例如McKenna,A.,et al.,Genome Res.2010;20(9):1297-303;Ye,K.,et al.,Bioinformatics,2009;25(21):2865-71;Lunter,G.,andGoodson,M.,Genome Res.2011;21(6):936-9和Li,H.,et al.(2009),Bioinformatics 25(16):2078-9中。
用于生成插失调用和个体水平基因型可能性的方法包括例如Dindel算法(Albers,C.A.,et al.,Genome Res.2011;21(6):961-73)。例如,贝叶斯EM算法可用于分析读出,进行初始插失调用,并为每个候选插失生成基因型可能性,随后使用例如QCALL(LeS.Q.and Durbin R.Genome Res.2011;21(6):952-60)进行基因型插补。可以基于插失的大小或位置来调整(例如,增加或减少)参数,例如观察插失的先验期望。
已经开发出一些方法来解决癌症DNA分析中50%或100%等位基因频率的有限偏差。(参见,例如SNVMix-Bioinformatics.2010March 15;26(6):730–736)。然而,本文中公开的方法允许考虑以1%至100%的频率(或等位基因分数)(即,0.01至1.0的等位基因分数)存在突变等位基因的可能性,并且尤其是低于50%的水平。这种方法对于检测例如天然(多克隆)肿瘤DNA的低纯度FFPE样品中的突变尤其重要。
在一些情况下,用于分析序列读出的突变调用方法并未针对不同基因组基因座处的不同突变的检测进行单独定制或微调。在一些情况下,使用不同的突变调用方法,这些方法针对在不同基因组基因座处检测到的不同突变的至少一个亚组进行单独定制或微调。在一些情况下,使用不同的突变调用方法,所述方法针对在每个不同基因组基因座处检测到的每个不同突变进行单独定制或微调。定制或调整可基于本文中所述的一种或更多种因素,例如样品中的癌症类型、待测序的对象区间所位于的基因或基因座、或待测序的变体。这种针对待测序的多个对象区间单独定制或微调的突变调用方法的选择或使用允许优化突变调用的速度、灵敏度和特异性。
在一些情况下,使用独特的突变调用方法为X个独特的对象区间中的每一个中的核苷酸位置分配核苷酸值,并且X为至少2、至少3、至少4、至少5、至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少1000、至少1500、至少2000、至少2500、至少3000、至少3500、至少4000、至少4500、至少5000或更大。调用方法可以不同,并因此是独特的,例如通过依赖于不同的贝叶斯先验值。
在一些情况下,分配所述核苷酸值是值的函数,该值是或代表观察在肿瘤类型中的所述核苷酸位置处显示变体(例如突变)的读出的先验(例如文献)期望。
在一些情况下,该方法包括为至少10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个核苷酸位置分配核苷酸值(例如,调用突变),其中每个分配是独特值(相对于其他分配的值)的函数,其是或代表观察在肿瘤类型中的所述核苷酸位置处显示变体(例如突变)的读出的先验(例如文献)期望。
在一些情况下,分配所述核苷酸值是值组的函数,其表示如果变体以指定频率(例如,1%、5%、10%等)存在于样品中和/或如果变体不存在(例如,仅由于碱基调用错误而在读出中观察到),观察在所述核苷酸位置处显示所述变体的读出的概率。
在一些情况下,本文中所述的突变调用方法可包括以下:(a)对于每个所述X个对象区间中的核苷酸位置获取:(i)第一值,其是或代表观察在X型肿瘤中的所述核苷酸位置处显示变体(例如突变)的读出的先验(例如文献)期望;以及(ii)第二值组,其代表如果变体以一定频率(例如,1%、5%、10%等)存在于样品中和/或如果变体不存在(例如,仅由于碱基调用错误而在读出中观察到),观察在所述核苷酸位置处显示所述变体的读出的概率;以及(b)响应于所述值,通过使用第一值(例如,计算突变存在的后验概率)对第二组中的值之间的比较进行加权(例如通过本文中所述的贝叶斯方法),从所述读出中为每个所述核苷酸位置分配核苷酸值(例如,调用突变),从而分析所述样品。
突变调用方法的另外的描述在例如国际专利申请公开No.WO 2020/236941中提供,其全部内容通过引用并入本文。
CNA检测和调用系统
本文中还公开了被设计用于实施所公开的方法的任一种的系统。该系统可包含例如一个或更多个处理器,以及与一个或更多个处理器通信地耦合并被配置为存储指令的存储器单元,当由一个或更多个处理器执行时,其使所述系统:在一个或更多个处理器处接收与从对象的样品获得的多个核酸分子相关的多个序列读出的序列读出数据;使用一个或更多个处理器生成多个基因座的次要等位基因覆盖率和主要等位基因覆盖率;使用一个或更多个处理器将基因组分割成多个基因组区段(例如,基于次要等位基因覆盖率、主要等位基因覆盖率或总覆盖率);使用一个或更多个处理器为多个基因座中的基因座生成拷贝数网格模型输入数据,所述输入数据包含(i)主要等位基因覆盖率与次要等位基因覆盖率之间的差值,以及(ii)主要等位基因覆盖率和次要等位基因覆盖率之和;使用一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至拷贝数模型输入数据;使用一个或更多个处理器从多个拷贝数网格模型中选择拷贝数网格模型;以及使用一个或更多个处理器基于所选择的拷贝数网格模型为多个基因组区段的至少一部分分配拷贝数状态。可以使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化多个拷贝数网格模型中的不同拷贝数网格模型。
在一些实施方式中,使得系统选择所选择的拷贝数网格模型的指令包含使得系统进行以下的指令:对于每个基因组区段,确定所述拷贝数网格模型输入数据的分布;对于每个基因组区段,鉴定所述分布与最接近的拷贝数状态之间的距离;以及基于跨所述多个基因组区段的平均距离确定总体模型拟合评分。
在一些实施方式中,将允许的拷贝数状态拟合至拷贝数网格模型输入数据的指令包含使系统进行以下的指令:基于初始肿瘤纯度估计值和初始肿瘤倍性估计值将允许的拷贝数状态拟合至拷贝数网格模型输入数据;并且迭代地:(a)将初步拷贝数分配给多个区段中的每个区段;(b)基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值;以及(c)基于更新的肿瘤倍性估计值和更新的肿瘤纯度估计值将允许的拷贝数状态重新拟合至拷贝数网格模型输入数据。
在一些实施方式中,所述系统还包含电子显示器。指令还可包含这样的指令:当由一个或更多个处理器执行时,其使系统将所选择的拷贝数网格模型与转换的覆盖率数据重叠并且使用电子显示器的界面呈现该重叠。
在一些实施方式中,该系统还包含这样的指令:当由一个或更多个处理器执行时,其使系统基于一个或更多个分配的拷贝数状态或总覆盖率阈值调用一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。
在一些实施方案中,该系统还包含这样的指令:当由一个或更多个处理器执行时,其使系统生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或调用的拷贝数改变的报告。指令还可使系统例如通过计算机网络或对等网络连接将报告传输至对象或健康护理提供者。
在一些情况下,所公开的系统还可包含测序仪,例如下一代测序仪(也称为大规模平行测序仪)。下一代(或大规模平行)测序平台的一些实例包括但不限于Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent或Pacific Bioscience测序平台。
在一些情况下,所公开的系统可用于调用如本文中所述的多种样品(例如,来源于对象的组织样品、活检样品、血液学样品或液体活检样品)中的任一种中的CNA。
在一些情况下,对其测序数据进行处理以确定拷贝数改变的多个基因座可包含至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或多于10个基因座。
在一些情况下,使用下一代测序技术(也称为大规模平行测序技术)来获取核酸序列数据,所述下一代测序技术的读出长度少于400个碱基、少于300个碱基、少于200个碱基、少于150个碱基、少于100个碱基、少于90个碱基、少于80个碱基、少于70个碱基、少于60个碱基、少于50个碱基、少于40个碱基或少于30个碱基。
在一些情况下,如本文中别处所述,确定一个或更多个基因座中拷贝数改变以用于选择、启动、调整或终止对样品所来源的对象(例如患者)的癌症治疗。
在一些情况下,所公开的系统还可包含样品处理和文库制备工作站、微板处理机器人、流体分配系统、温度控制模块、环境控制室、另外的数据存储模块、数据通信模块(例如WiFi、内联网或互联网通信硬件和相关软件)、显示模块、一个或更多个本地和/或基于云的软件包(例如仪器/系统控制软件包、测序数据分析软件包)等,或其任意组合。在一些情况下,系统可以包含如本文中别处所述的计算机系统或计算机网络或者是计算机系统或计算机网络的一部分。
非暂态计算机可读存储介质,其可以是本文中所述的系统的一部分或独立于这样的系统,可以存储包含指令的一个或更多个程序,当由系统的一个或更多个处理器执行时,其使系统:在一个或更多个处理器处接收与从对象的样品获得的多个核酸分子相关的多个序列读出的序列读出数据;使用一个或更多个处理器生成多个基因座的次要等位基因覆盖率和主要等位基因覆盖率;使用一个或更多个处理器将基因组分割成多个基因组区段(例如,基于次要等位基因覆盖率、主要等位基因覆盖率或总覆盖率);使用一个或更多个处理器为多个基因座中的基因座生成拷贝数网格模型输入数据,所述输入数据包含(i)主要等位基因覆盖率与次要等位基因覆盖率之间的差值,以及(ii)主要等位基因覆盖率和次要等位基因覆盖率之和;使用一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至转换的覆盖率数据、拷贝数网格模型输入数据;使用一个或更多个处理器从多个拷贝数网格模型中选择所选择的拷贝数网格模型;以及使用一个或更多个处理器基于所选择的拷贝数网格模型为多个基因组区段的至少一部分分配拷贝数状态。可以使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化多个拷贝数网格模型中的不同拷贝数网格模型。
在所述非暂态计算机可读存储介质的一些实施方式中,使系统选择所选择的拷贝数网格模型的指令包含使系统进行以下的指令:对于每个基因组区段,确定拷贝数网格模型输入数据的分布;对于每个基因组区段,识别分布与最接近的拷贝数状态之间的距离;以及基于跨多个基因组区段的平均距离确定总体模型拟合评分。
在所述非暂态计算机可读存储介质的一些实施方式中,使系统将允许的拷贝数状态拟合至拷贝数网格模型输入数据的指令包含使系统进行以下的指令:基于初始肿瘤纯度估计值和初始肿瘤倍性估计值将允许的拷贝数状态拟合至拷贝数网格模型输入数据;并且迭代地:(a)将初步拷贝数分配给多个区段中的每个区段;(b)基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值;以及(c)基于更新的肿瘤倍性估计值和更新的肿瘤纯度估计值将允许的拷贝数状态重新拟合至拷贝数网格模型输入数据。
在所述非暂态计算机可读存储介质的一些实施方式中,指令还包含这样的指令:当由一个或更多个处理器执行时,其使系统将所选拷贝数网格模型与拷贝数网格模型输入数据重叠,并且使用电子显示器的界面呈现该重叠。
在一些实施方式中,非暂态计算机可读存储介质还包含这样的指令:当由一个或更多个处理器执行时,其使系统基于一个或更多个分配的拷贝数状态或总覆盖率阈值调用一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。
在一些实施方式中,非暂态计算机可读存储介质还包含这样的指令:当由一个或更多个处理器执行时,其使系统生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或调用的拷贝数改变的报告。指令还可使系统例如通过计算机网络或对等网络连接将报告传输至对象或健康护理提供者。
计算机系统和网络
图5示出了根据一个实施方案的计算设备或系统的实例。设备500可以是与网络连接的主机计算机。设备500可以是客户端计算机或服务器。如在图5中所示,设备500可以是任何合适类型的基于微处理器的设备,例如个人计算机、工作站、服务器或手持计算设备(便携式电子设备),例如电话或平板电脑。该设备可包含例如一个或更多个处理器510、输入设备520、输出设备530、存储器或存储设备540、通信设备560和核酸测序仪570。驻留在存储器或存储设备540中的软件550可包含例如操作系统以及用于执行本文中所述的方法的软件。输入设备520和输出设备530可通常对应于本文中所述的那些,并且可以与计算机连接或集成。
输入设备520可以是提供输入的任何合适的设备,例如触摸屏、键盘或小键盘(keypad)、鼠标或语音识别设备。输出设备530可以是提供输出的任何合适的设备,例如触摸屏、触觉设备或扬声器。输入设备520和输出设备530可以是相同或不同的设备。
存储器540可以是提供存储的任何合适的设备(例如电存储器、磁存储器或光学存储器,包含RAM(易失性或非易失性)、高速缓存、硬盘驱动器或可移动存储盘)。通信设备560可包含能够通过网络发送和接收信号的任何合适的设备,例如网络接口芯片或设备。计算机的组件可以以任何合适的方式连接,例如通过有线介质(例如,物理系统总线580、以太网连接或任何其他有线传输技术)或无线地(例如,或任何其他无线技术)。
可作为可执行指令存储在存储器540中并由处理器510执行的软件模块550可包含例如操作系统和/或体现本公开内容方法的功能的程序(例如,如在本文中所述的设备中体现的)。
软件模块550还可以在任何非暂态计算机可读存储介质内存储和/或传输,以供通过指令执行系统、装置或设备(例如本文中所述的那些)使用或与其结合使用,所述软件模块可以从指令执行系统、装置或设备获取与该软件相关的指令并执行该指令。在本公开内容的上下文中,计算机可读存储介质可以是任何这样的介质(例如存储器540),所述介质可包含或存储供指令执行系统、装置或设备使用或与其结合使用的程序。计算机可读存储介质的一些实例可包括存储器单元如硬盘驱动器、闪存驱动器以及作为单个功能单元操作的分布式模块。此外,本文中所述的多种过程可以体现为被配置为根据上述实施方案和技术进行操作的模块。此外,虽然可以单独地示出和/或描述程序,但是本领域技术人员将理解,以上程序可以是其他程序内的例程或模块。
软件模块550还可以在任何传输介质中传播,以供指令执行系统、装置或设备(例如上述那些)使用或与其结合使用,所述软件模块可以从指令执行系统、装置或设备获取与该软件相关的指令并执行该指令。在本公开内容的上下文中,传输介质可以是任何可传递、传播或传输程序以供指令执行系统、装置或设备使用或与其结合使用的介质。传输可读介质可包括但不限于电子、磁、光学、电磁或红外有线或无线的传播介质。
设备500可以连接到网络(例如,如图6所示和/或下文所述的网络604),其可以是任何合适类型的互连通信系统。网络可以实施任何合适的通信方案且可以由任何合适的安全协议保护。网络可包含可实施网络信号的传输和接收的任何合适布置的网络链路,例如无线网络连接、T1或T3链路、有线网络、DSL或电话线路。
设备500可使用任何操作系统来实施,例如适合于在网络上运行的操作系统。软件模块550可以用任何合适的编程语言(例如C、C++、Java或Python)编写。在多个实施方案中,体现本公开内容的功能的应用软件可以以不同的配置(例如以客户端/服务器布置或通过网络浏览器)来部署为例如基于网络的应用或网络服务。在一些实施方案中,操作系统由一个或更多个处理器执行,处理器例如处理器510。
设备500还可包含测序仪570,其可以是任何合适的核酸测序仪器。
图6示出了根据一个实施方案的计算系统的实例。在系统600中,设备500(例如,如上所述和图5中所示)连接到网络604,网络604也连接到设备606。在一些实施方案中,设备606是测序仪。示例性测序仪可包括但不限于Roche/454的基因组测序仪(GS)FLX系统,Illumina/Solexa的基因组分析仪(GA),Illumina的HiSeq 2500、HiSeq3000、HiSeq 4000和NovaSeq 6000测序系统,Life/APG的支持寡核苷酸连接检测(SOLiD)系统,Polonator的G.007系统,Helicos BioSciences的HeliScope基因测序系统或Pacific Biosciences的PacBio RS系统。
设备500和606可例如通过网络604(例如局域网(Local Area Network,LAN)、虚拟专用网(Virtual Private Network,VPN)或因特网使用合适的通信接口进行通信。在一些实施方案中,网络604可以是例如因特网、内联网、虚拟专用网、云网络、有线网络或无线网络。设备500和606可以部分或全部地通过无线或硬接线通信,例如以太网、IEEE 802.11b无线等进行通信。另外,设备500和606可例如使用合适的通信接口通过第二网络例如移动/蜂窝网络进行通信。设备500与606之间的通信还可包含多种服务器(例如邮件服务器、移动服务器、媒体服务器、电话服务器等)或与其通信。在一些实施方案中,设备500和706可以直接通信(代替或补充通过网络604的通信),例如通过无线或硬接线通信,例如以太网、IEEE802.11b无线等。在一些实施方案中,设备500和606通过通信608进行通信,这可以是直接连接或可以通过网络(例如,网络604)发生。
设备500和606中的一个或全部通常包含逻辑(例如,http网络服务器逻辑)或被编程为格式化数据,从本地或远程数据库或其他数据和内容源访问,用于根据本文中所述的多种实例通过网络604提供和/或接收信息。
从前述内容应当理解,虽然已经示出和描述了所公开的方法和系统的具体实施方式,但是可以对其进行多种修改并且在本文中是可预期的。也并不旨在通过说明书内提供的具体实例来限制本发明。尽管已参考前述说明书描述了本发明,但本文中优选实施方案的描述和图示并不意味着以限制的意义来解释。此外,应当理解,本发明的所有方面不限于本文阐述的具体描述、配置或相对比例,其取决于多种条件和变量。对于本领域技术人员来说,本发明实施方案的形式和细节上的多种修改将是显而易见的。因此可预期的是,本发明还将覆盖任何这样的修改、变化或等同形式。

Claims (105)

1.方法,其包括:
提供从来自对象的样品中获得的多个核酸分子;
将一个或更多个衔接子连接到来自所述多个核酸分子的一个或更多个核酸分子上;
对来自所述多个核酸分子的一个或更多个经连接的核酸分子进行扩增;
从所扩增的核酸分子中捕获经扩增的核酸分子;
通过测序仪对所捕获的核酸分子进行测序以获得代表所捕获的核酸分子的多个序列读出,从而生成针对所述样品的基因组的序列读出数据;
在一个或更多个处理器处接收所述序列读出数据;
使用所述一个或更多个处理器针对多个遗传基因座生成次要等位基因覆盖率和主要等位基因覆盖率;
使用所述一个或更多个处理器将所述基因组分割成多个基因组区段;
使用所述一个或更多个处理器针对所述多个遗传基因座中的遗传基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;
使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;
使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择拷贝数网格模型;以及
基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
2.权利要求1所述的方法,其中所述一个或更多个衔接子包含扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列。
3.权利要求1或2所述的方法,其中所捕获的核酸分子通过与一个或更多个诱饵分子杂交而从所扩增的核酸分子中捕获。
4.权利要求3所述的方法,其中所述一个或更多个诱饵分子包含一个或更多个核酸分子,每个核酸分子包含与所捕获的核酸分子的区域互补的区域。
5.权利要求1至4中任一项所述的方法,其中对核酸分子进行扩增包括进行聚合酶链反应(PCR)扩增技术、非PCR扩增技术或等温扩增技术。
6.权利要求1至5中任一项所述的方法,其中所述测序包括使用大规模平行测序(MPS)技术、全基因组测序(WGS)、全外显子组测序、靶向测序、直接测序或Sanger测序技术。
7.权利要求6所述的方法,其中所述测序包括大规模平行测序,并且所述大规模平行测序技术包括下一代测序(NGS)。
8.权利要求1至7中任一项所述的方法,其中所述测序仪包含下一代测序仪。
9.方法,其包括:
在一个或更多个处理器处接收与从来自对象的样品中获得的多个核酸分子相关的多个序列读出的序列读出数据;
使用所述一个或更多个处理器针对多个遗传基因座生成次要等位基因覆盖率和主要等位基因覆盖率;
使用所述一个或更多个处理器将基因组分割成多个基因组区段;
使用所述一个或更多个处理器针对所述多个遗传基因座中的遗传基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;
使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;
使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择拷贝数网格模型;以及
基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
10.权利要求1至9中任一项所述的方法,其中所述分割基于所述次要等位基因覆盖率、所述主要等位基因覆盖率或总覆盖率。
11.权利要求1至10中任一项所述的方法,其中从所述多个拷贝数网格模型中选择所述拷贝数网格模型包括:
对于每个基因组区段,确定所述拷贝数网格模型输入数据的分布;
对于每个基因组区段,鉴定所述分布与最接近的拷贝数状态之间的距离;以及
基于跨所述多个基因组区段的平均距离,确定总体模型拟合评分。
12.权利要求1至11中任一项所述的方法,其中所述多个拷贝数网格模型中的不同拷贝数网格模型使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化。
13.权利要求1至12中任一项所述的方法,其中对于每个拷贝数网格模型,将所述多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据包括:
基于初始肿瘤纯度估计值和初始肿瘤倍性估计值将所述拷贝数网格模型的允许的拷贝数状态拟合至拷贝数网格模型输入数据;以及
迭代地:
为所述多个基因组区段中的每个基因组区段分配初步拷贝数;
基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值;以及
基于所述更新的肿瘤倍性估计值和更新的肿瘤纯度估计值,将所述允许的拷贝数状态重新拟合至所述拷贝数网格模型输入数据。
14.权利要求12或13所述的方法,其中所述初始肿瘤纯度由预选肿瘤纯度下限和预选肿瘤纯度上限界定。
15.权利要求14所述的方法,其中所述预选肿瘤纯度下限为0并且所述预选肿瘤纯度上限为1。
16.权利要求12至15中任一项所述的方法,其中所述初始肿瘤倍性由预选肿瘤倍性下限界定。
17.权利要求16所述的方法,其中所述预选肿瘤倍性下限为约1.1至约1.5。
18.权利要求12至17中任一项所述的方法,其中所述初始肿瘤倍性由预选肿瘤倍性上限界定。
19.权利要求18所述的方法,其中所述预选肿瘤倍性下上为约6至约10。
20.权利要求1至19中任一项所述的方法,其中所述多个基因组区段中的每一个的分配的拷贝数状态是所述基因组区段的总拷贝数计数、所述基因组区段的次要等位基因拷贝数计数或所述基因组区段的主要等位基因拷贝数计数。
21.权利要求1至20中任一项所述的方法,其中所述分割使用循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法或变点法进行。
22.权利要求21所述的方法,其中所述分割使用变点法进行,并且所述变点法是修剪精确线性时间(PELT)法。
23.权利要求1至22中任一项所述的方法,其还包括将所选择的拷贝数网格模型和所述拷贝数网格模型输入数据重叠以生成重叠;以及显示所述重叠。
24.权利要求23所述的方法,其中所述重叠使用电子显示器来显示。
25.权利要求1至24中任一项所述的方法,其还包括基于一个或更多个分配的拷贝数状态或总覆盖率阈值来调用一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。
26.权利要求25所述的方法,其中所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变用于在所述对象中诊断疾病或确认疾病的诊断。
27.权利要求24或25所述的方法,其还包括生成所述对象的基因组谱,所述基因组谱包含所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变。
28.权利要求27所述的方法,其中所述对象的基因组谱还包含来自以下的结果:全面基因组谱分析测试、基因表达谱分析测试、癌症热点组测试、DNA甲基化测试、DNA片段化测试、RNA片段化测试、或其任意组合。
29.权利要求27或28所述的方法,其中所述对象的基因组谱还包含来自基于核酸测序的测试的结果。
30.权利要求27至29中任一项所述的方法,其还包括基于所生成的基因组谱选择针对所述对象的抗癌剂、向所述对象施用抗癌剂或施加抗癌治疗。
31.权利要求25至30中任一项所述的方法,其中所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变被用于为所述对象做出建议的治疗决定。
32.权利要求25至31中任一项所述的方法,其中所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变被用于向所述对象施加或施用治疗。
33.用于诊断疾病的方法,所述方法包括:
基于一个或更多个遗传基因座或者一个或更多个基因组区段的所调用的拷贝数改变来确定对象患有所述疾病,其中所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变是根据权利要求25所述的方法确定的。
34.鉴定对象为有资格进行治疗疾病的临床试验的方法,其包括:
基于一个或更多个遗传基因座或者一个或更多个基因组区段的所调用的拷贝数改变来确定所述对象患有所述疾病,其中所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变是根据权利要求25所述的方法确定的。
35.权利要求34所述的方法,其还包括将所述对象纳入到所述临床试验中。
36.权利要求34或35所述的方法,其还包括向所述对象施用治疗。
37.权利要求36所述的方法,其中所述治疗是抗癌治疗。
38.权利要求33至37中任一项所述的方法,其中所述疾病是癌症、与染色体非整倍性相关的疾病或脆性X。
39.权利要求33至37中任一项所述的方法,其中所述疾病是癌症。
40.权利要求39所述的方法,其还包括基于所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变来选择用于施用于所述对象的抗癌治疗。
41.为患有癌症的对象选择抗癌治疗的方法,所述方法包括:
响应于根据权利要求25所述的方法而调用的所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的拷贝数改变,来选择针对所述对象的抗癌治疗。
42.权利要求41所述的方法,其还包括基于所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变来确定用于施用于所述对象的抗癌治疗的有效量。
43.权利要求42所述的方法,其还包括基于所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变向所述对象施用所述抗癌治疗。
44.在对象中治疗癌症的方法,其包括:
响应于根据权利要求25所述的方法而调用的所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的所调用的拷贝数改变,向所述对象施用有效量的抗癌治疗。
45.用于在对象中监测肿瘤进展或复发的方法,所述方法包括:
根据权利要求25所述的方法,使用在第一时间点时从所述对象获得的第一样品来调用一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变;
使用在第二时间点时从所述对象获得的第二样品来调用所述一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变;以及
将所述一个或更多个遗传基因座或者所述一个或更多个基因组区段的第一所调用的拷贝数改变与第二所调用的拷贝数改变进行比较,从而监测癌症进展或复发。
46.权利要求45所述的方法,其中根据权利要求25所述的方法确定使用所述第二样品中的所述一个或更多个遗传基因座或者一个或更多个基因组区段的所调用的拷贝数改变。
47.权利要求45或46所述的方法,其还包括响应于所述肿瘤进展而调整抗癌治疗。
48.权利要求45至47中任一项所述的方法,其还包括响应于肿瘤进展而调整所述抗癌治疗的剂量或选择不同的抗癌治疗。
49.权利要求48所述的方法,其还包括向所述对象施用经调整的抗癌治疗。
50.权利要求45至49中任一项所述的方法,其中所述第一时间点是在向所述对象施用抗癌治疗之前,并且其中所述第二时间点是在向所述对象施用所述抗癌治疗之后。
51.权利要求45至50中任一项所述的方法,其中所述对象患有癌症、处于患有癌症的风险之中、正在针对癌症进行常规测试或被怀疑患有癌症。
52.权利要求30至32、37、40至44和47至51中任一项所述的方法,其中所述抗癌治疗包含化学治疗、放射治疗、免疫治疗、靶向治疗或手术。
53.权利要求38至52中任一项所述的方法,其中所述癌症或肿瘤是实体癌。
54.权利要求38至52中任一项所述的方法,其中所述癌症或肿瘤是血液学癌症。
55.权利要求38至54中任一项所述的方法,其中所述癌症或肿瘤是B细胞癌(多发性骨髓瘤)、黑素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑癌、中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫癌、子宫内膜癌、口腔癌、咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠癌、阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液学组织癌、腺癌、炎性肌成纤维细胞瘤、胃肠道间质瘤(GIST)、结肠癌、多发性骨髓瘤(MM)、骨髓增生异常综合征(MDS)、骨髓增殖性病症(MPD)、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性髓细胞白血病(CML)、慢性淋巴细胞白血病(CLL)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(NHL)、软组织肉瘤、纤维肉瘤、黏液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因肿瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管源性癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、原因不明性髓样化生、高嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见高嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、或类癌瘤。
56.权利要求1至55中任一项所述的方法,其还包括由所述一个或更多个处理器生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或所调用的拷贝数改变的报告。
57.权利要求56所述的方法,其还包括将所述报告传输至所述对象或健康护理提供者。
58.权利要求56或57所述的方法,其中所述报告经由计算机网络或对等网络连接传输。
59.权利要求1至58中任一项所述的方法,其中所述对象被怀疑患有癌症或确定患有癌症。
60.权利要求1至59中任一项所述的方法,其还包括从所述对象获得所述样品。
61.权利要求1至60中任一项所述的方法,其中所述样品包含组织活检样品、液体活检样品或正常对照。
62.权利要求61所述的方法,其中所述样品是液体活检样品并且包含血液、血浆、脑脊髓液、痰、粪便、尿液或唾液。
63.权利要求61所述的方法,其中所述样品是液体活检样品并且包含循环肿瘤细胞(CTC)。
64.权利要求61所述的方法,其中所述样品是液体活检样品并且包含无细胞DNA(cfDNA)、循环肿瘤DNA(ctDNA)、或其任意组合。
65.权利要求1至64中任一项所述的方法,其中所述多个核酸分子包含肿瘤核酸分子与非肿瘤核酸分子的混合物。
66.权利要求65所述的方法,其中所述肿瘤核酸分子来源于异质组织活检样品的肿瘤部分,并且所述非肿瘤核酸分子来源于异质组织活检样品的正常部分。
67.权利要求65所述的方法,其中所述样品包含液体活检样品,并且其中所述肿瘤核酸分子来源于所述液体活检样品的循环肿瘤DNA(ctDNA)部分,并且所述非肿瘤核酸分子来源于所述液体活检样品的非肿瘤无细胞DNA(cfDNA)部分。
68.系统,其包含:
一个或更多个处理器;和
与所述一个或更多个处理器通信耦合并被配置为存储指令的存储器,当所述指令由所述一个或更多个处理器执行时,使得所述系统:
在所述一个或更多个处理器处接收与从来自对象的样品中获得的多个核酸分子相关的多个序列读出的序列读出数据;
使用所述一个或更多个处理器针对多个基因座生成次要等位基因覆盖率和主要等位基因覆盖率;
使用所述一个或更多个处理器将基因组分割成多个基因组区段;
使用所述一个或更多个处理器针对所述多个基因座中的基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;
使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;
使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择拷贝数网格模型;以及
基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
69.权利要求68所述的系统,其中所述基因组基于所述次要等位基因覆盖率、所述主要等位基因覆盖率或总覆盖率进行分割。
70.权利要求68或69所述的系统,其中使得所述系统选择所选择的拷贝数网格模型的指令包含使得所述系统进行以下的指令:
对于每个基因组区段,确定所述拷贝数网格模型输入比率数据的分布;
对于每个基因组区段,鉴定所述分布与最接近的拷贝数状态之间的距离;以及
基于跨所述多个基因组区段的平均距离确定总体模型拟合评分。
71.权利要求68至70中任一项所述的系统,其中所述多个拷贝数网格模型中的不同拷贝数网格模型使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化。
72.权利要求68至71中任一项所述的系统,其中使得所述系统将允许的拷贝数状态拟合至所述拷贝数网格模型输入数据的指令包含使得所述系统进行以下的指令:
基于初始肿瘤纯度估计值和初始肿瘤倍性估计值将所述允许的拷贝数状态拟合至所述拷贝数网格模型输入数据;以及
迭代地:
为所述多个区段中的每个区段分配初步拷贝数;
基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值;以及
基于所述更新的肿瘤倍性估计值和更新的肿瘤纯度估计值,将所述允许的拷贝数状态重新拟合至所述拷贝数网格模型输入数据。
73.权利要求71或72所述的系统,其中所述初始肿瘤纯度由预选肿瘤纯度下限和预选肿瘤纯度上限界定。
74.权利要求73所述的系统,其中所述预选肿瘤纯度下限为0并且所述预选肿瘤纯度上限为1。
75.权利要求71至74中任一项所述的系统,其中所述初始肿瘤倍性由预选肿瘤倍性下限界定。
76.权利要求75所述的系统,其中所述预选肿瘤倍性下限为约1.1至约1.5。
77.权利要求71至76中任一项所述的系统,其中所述初始肿瘤倍性由预选肿瘤倍性上限界定。
78.权利要求77所述的系统,其中所述预选肿瘤倍性下上为约6至约10。
79.权利要求68至78中任一项所述的系统,其中所述多个基因组区段中的每一个的分配的拷贝数状态是所述基因组区段的总拷贝数计数、所述基因组区段的次要等位基因拷贝数计数或所述基因组区段的主要等位基因拷贝数计数。
80.权利要求68至79中任一项所述的系统,其中所述基因组使用循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法或变点法分割成多个基因组区段。
81.权利要求80所述的系统,其中所述分割步骤使用变点法进行,并且所述变点法是修剪精确线性时间(PELT)法。
82.权利要求68至81中任一项所述的系统,其还包含电子显示器,并且其中所述指令还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所选择的拷贝数网格模型和所述拷贝数网格模型输入数据重叠以生成重叠,并将所述重叠显示在所述电子显示器上。
83.权利要求68至82中任一项所述的系统,其还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统基于一个或更多个分配的拷贝数状态或总覆盖率阈值来调用所述一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。
84.权利要求68至83中任一项所述的系统,其还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或所调用的拷贝数改变的报告。
85.权利要求84所述的系统,其还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所述报告传输至所述对象或健康护理提供者。
86.权利要求84或85所述的系统,其中所述报告经由计算机网络或对等网络连接传输。
87.存储一个或更多个程序的非暂态计算机可读存储介质,所述一个或更多个程序包含指令,所述指令在由系统的一个或更多个处理器执行时使得所述系统:
在所述一个或更多个处理器处接收与从来自对象的样品中获得的多个核酸分子相关的多个序列读出的序列读出数据;
使用所述一个或更多个处理器针对多个基因座生成次要等位基因覆盖率和主要等位基因覆盖率;
使用所述一个或更多个处理器将基因组分割成多个基因组区段;
使用所述一个或更多个处理器针对所述多个基因座中的基因座生成拷贝数网格模型输入数据,所述拷贝数网格模型输入数据包含(i)所述主要等位基因覆盖率与所述次要等位基因覆盖率之间的差值,以及(ii)所述主要等位基因覆盖率和所述次要等位基因覆盖率的总和;
使用所述一个或更多个处理器将包含允许的拷贝数状态的多个拷贝数网格模型拟合至所述拷贝数网格模型输入数据;
使用所述一个或更多个处理器从所述多个拷贝数网格模型中选择所选择的拷贝数网格模型;以及
基于所选择的拷贝数网格模型,使用所述一个或更多个处理器为所述多个基因组区段中的至少一部分分配拷贝数状态。
88.权利要求87所述的非暂态计算机可读存储介质,其中所述基因组基于所述次要等位基因覆盖率、所述主要等位基因覆盖率或总覆盖率进行分割。
89.权利要求87或88所述的非暂态计算机可读存储介质,其中使得所述系统选择所选择的拷贝数网格模型的指令包含使得所述系统进行以下的指令:
对于每个基因组区段,确定所述拷贝数网格模型输入数据的分布;
对于每个基因组区段,鉴定所述分布与最接近的拷贝数状态之间的距离;以及
基于跨所述多个基因组区段的平均距离确定总体模型拟合评分。
90.权利要求87至89中任一项所述的非暂态计算机可读存储介质,其中所述多个拷贝数网格模型中的不同拷贝数网格模型使用不同的初始肿瘤纯度估计值和肿瘤倍性估计值来初始化。
91.权利要求87至90中任一项所述的非暂态计算机可读存储介质,其中使得所述系统将允许的拷贝数状态拟合至所述拷贝数网格模型输入数据的指令包含使得所述系统进行以下的指令:
基于初始肿瘤纯度估计值和初始肿瘤倍性估计值将所述允许的拷贝数状态拟合至所述拷贝数网格模型输入数据;以及
迭代地:
为所述多个区段中的每个区段分配初步拷贝数;
基于初步拷贝数分配确定更新的肿瘤倍性估计值和更新的肿瘤纯度估计值;以及
基于所述更新的肿瘤倍性估计值和更新的肿瘤纯度估计值,将所述允许的拷贝数状态重新拟合至所述拷贝数网格模型输入数据。
92.权利要求90或91所述的非暂态计算机可读存储介质,其中所述初始肿瘤纯度由预选肿瘤纯度下限和预选肿瘤纯度上限界定。
93.权利要求92所述的非暂态计算机可读存储介质,其中所述预选肿瘤纯度下限为0并且所述预选肿瘤纯度上限为1。
94.权利要求90至93中任一项所述的非暂态计算机可读存储介质,其中所述初始肿瘤倍性由所述预选肿瘤倍性下限界定。
95.权利要求94所述的非暂态计算机可读存储介质,其中所述预选肿瘤倍性下限为约1.1至约1.5。
96.权利要求90至95中任一项所述的非暂态计算机可读存储介质,其中所述初始肿瘤倍性由预选肿瘤倍性上限界定。
97.权利要求96所述的非暂态计算机可读存储介质,其中所述预选肿瘤倍性下上为约6至约10。
98.权利要求87至97中任一项所述的非暂态计算机可读存储介质,其中所述分配的拷贝数状态是所述基因组区段的总拷贝数计数、所述基因组区段的次要等位基因拷贝数计数或所述基因组区段的主要等位基因拷贝数计数。
99.权利要求87至98中任一项所述的非暂态计算机可读存储介质,其中所述基因组使用循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法或变点法分割成多个基因组区段。
100.权利要求99所述的非暂态计算机可读存储介质,其中所述分割步骤使用变点法进行,并且所述变点法是修剪精确线性时间(PELT)法。
101.权利要求87至100中任一项所述的非暂态计算机可读存储介质,其中所述系统包含电子显示器,并且其中所述指令还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所选择的拷贝数网格模型和所述拷贝数网格模型输入数据重叠以生成重叠,并将所述重叠显示在所述电子显示器上。
102.权利要求87至101中任一项所述的非暂态计算机可读存储介质,其还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统基于一个或更多个分配的拷贝数状态或总覆盖率阈值来调用所述一个或更多个遗传基因座或者一个或更多个基因组区段的拷贝数改变。
103.权利要求87至101中任一项所述的非暂态计算机可读存储介质,其还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统生成指示一个或更多个基因组基因座或者一个或更多个基因组区段的拷贝数状态或所调用的拷贝数改变的报告。
104.权利要求103所述的非暂态计算机可读存储介质,其还包含这样的指令:当由所述一个或更多个处理器执行时使得所述系统将所述报告传输至所述对象或健康护理提供者。
105.权利要求103或104所述的系统,其中所述报告经由计算机网络或对等网络连接传输。
CN202280067609.3A 2021-10-08 2022-10-07 用于检测拷贝数改变的方法和系统 Pending CN118103524A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163253972P 2021-10-08 2021-10-08
US63/253,972 2021-10-08
PCT/US2022/077781 WO2023060250A1 (en) 2021-10-08 2022-10-07 Methods and systems for detecting copy number alterations

Publications (1)

Publication Number Publication Date
CN118103524A true CN118103524A (zh) 2024-05-28

Family

ID=85803756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280067609.3A Pending CN118103524A (zh) 2021-10-08 2022-10-07 用于检测拷贝数改变的方法和系统

Country Status (2)

Country Link
CN (1) CN118103524A (zh)
WO (1) WO2023060250A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822555B2 (en) * 2002-11-11 2010-10-26 Affymetrix, Inc. Methods for identifying DNA copy number changes
US9411937B2 (en) * 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
US11978535B2 (en) * 2017-02-01 2024-05-07 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors
JP7488772B2 (ja) * 2018-06-06 2024-05-22 ミリアド・ウィメンズ・ヘルス・インコーポレーテッド コピー数バリアントコーラ

Also Published As

Publication number Publication date
WO2023060250A1 (en) 2023-04-13

Similar Documents

Publication Publication Date Title
AU2019229273B2 (en) Ultra-sensitive detection of circulating tumor DNA through genome-wide integration
CA3092352A1 (en) Systems and methods for detection of residual disease
CN110800063A (zh) 使用无细胞dna片段大小检测肿瘤相关变体
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
CN114026646A (zh) 用于评估肿瘤分数的系统和方法
JP2023504529A (ja) がん予測パイプラインにおけるrna発現コールを自動化するためのシステムおよび方法
CN110770838A (zh) 用于确定体细胞突变克隆性的方法和系统
US20230140123A1 (en) Systems and methods for classifying and treating homologous repair deficiency cancers
WO2023287410A1 (en) Methods and systems for determining microsatellite instability
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
IL300487A (en) Sample validation for cancer classification
WO2023107869A1 (en) Methods and systems for highlighting clinical information in diagnostic reports
WO2023122427A1 (en) Methods and systems for predicting genomic profiling success
WO2023081639A1 (en) System and method for identifying copy number alterations
CN118103524A (zh) 用于检测拷贝数改变的方法和系统
WO2022165069A1 (en) Methods and systems for characterizing and treating combined hepatocellular cholangiocarcinoma
CN118103916A (zh) 用于检测和去除针对拷贝数改变调用的污染的方法和系统
US20240062916A1 (en) Tree-based model for selecting treatments and determining expected treatment outcomes
CN118103525A (zh) 用于自动调用拷贝数改变的方法和系统
WO2023114667A1 (en) Methods and systems for predicting the reliability of somatic/germline calls for variant sequences
WO2024006744A2 (en) Methods and systems for normalizing targeted sequencing data
WO2023096658A1 (en) Methods and systems for reporting clinically-actionable potential germline pathogenic variant sequences
US20230162815A1 (en) Methods and systems for accurate genotyping of repeat polymorphisms
US20220223226A1 (en) Methods for detecting and characterizing microsatellite instability with high throughput sequencing
WO2024006702A1 (en) Methods and systems for predicting genotypic calls from whole-slide images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication