CN118660974A - 细胞游离dna的单分子全基因组突变谱和片段谱 - Google Patents

细胞游离dna的单分子全基因组突变谱和片段谱 Download PDF

Info

Publication number
CN118660974A
CN118660974A CN202280091205.8A CN202280091205A CN118660974A CN 118660974 A CN118660974 A CN 118660974A CN 202280091205 A CN202280091205 A CN 202280091205A CN 118660974 A CN118660974 A CN 118660974A
Authority
CN
China
Prior art keywords
cancer
mutation
subject
genome
cfdna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280091205.8A
Other languages
English (en)
Inventor
V·E·韦古列斯库
R·B·沙普夫
D·C·布鲁姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Johns Hopkins University
Original Assignee
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Johns Hopkins University filed Critical Johns Hopkins University
Publication of CN118660974A publication Critical patent/CN118660974A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Primary Health Care (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

用于非侵入性癌症检测的方法使用cfDNA的全基因组突变和片段特征的组合,从而有助于癌症筛查。

Description

细胞游离DNA的单分子全基因组突变谱和片段谱
关于联邦政府资助研究的声明
本发明是在美国国立卫生研究院(National Institutes of Health)授予的政府资助CA006973、CA121113和CA233259下完成的。政府对本发明拥有一定的权利。
相关申请的交叉引用
本申请要求于2021年12月15日提交的美国临时申请63/290,017的权益。本申请的全部内容通过引用以其整体并入本文。
技术领域
实施方案涉及用于确定受试者中的体细胞突变频率的方法,且特别是癌症的诊断和治疗。
发明背景
人类癌症的大部分死亡率是当治疗较不有效时的晚期诊断的后果1。用于癌症的早期筛查已证实了在多种癌症类型中的临床益处,但筛查方法的实施仍然存在挑战2。例如,在美国,目前推荐使用低剂量计算机断层扫描(LDCT)的肺癌筛查用于已吸烟至少20包年并且目前在吸烟或在过去15年内已戒烟的50-80岁的成人3。尽管用LDCT的筛查已显示了降低的死亡率4,5,但在高危人群中对该检测的依从性很低(<6%)6,部分原因是担忧其低特异性、辐射暴露和不必要的诊断程序的潜在危害。液体活组织检查可以克服这些挑战中的一些,并且为肺癌和其它恶性肿瘤的非侵入性检测提供有吸引力的方法。
发明内容
本文提供了单细胞游离DNA(cfDNA)分子的非侵入性和超灵敏分析,以检测基因组中体细胞突变的频率。发现,与健康个体相比,癌症患者具有与染色质组织相关的改变的突变谱。
相应地,在某些方面,确定受试者中的体细胞突变频率的方法包括:从受试者的生物样品中提取细胞游离DNA(cfDNA);由所提取的cfDNA生成基因组文库;对各个cfDNA分子进行测序,以获得突变谱;确定突变谱中的多区域差异;以及,确定受试者中的体细胞突变频率。
在某些实施方案中,确定全基因组突变谱和片段谱包括:鉴定各个cfDNA分子的序列中的突变和片段长度的变化。
在某些实施方案中,突变谱包括受试者的基因组的突变频率和突变类型。
在某些实施方案中,使用大小范围从至少约1000个碱基到至少约2000万个碱基的非重叠箱(non-overlapping bins)来确定受试者的基因组的突变谱。
在某些实施方案中,使用大小范围从至少约1000个碱基到至少约1000万个碱基的非重叠箱来确定受试者的基因组的突变谱。
在某些实施方案中,使用大小范围从至少约1000个碱基到至少约500万个碱基的非重叠箱来确定受试者的基因组的突变谱。
在某些实施方案中,在去除常见种系变体和不能评价的区域后,确定每个经测序的分子的突变。
在某些实施方案中,与正常受试者的基因组的单分子体细胞突变频率和突变类型相比,受试者的基因组的单分子体细胞突变频率和突变类型可诊断癌症。
在某些方面,治疗受试者中的癌症的方法,该方法包括:从受试者的生物样品中提取细胞游离DNA(cfDNA);由所提取的cfDNA生成基因组文库;对各个cfDNA分子进行测序,以获得突变谱;确定突变谱中的多区域差异,并确定受试者中的体细胞突变频率;并且在此基础上向受试者施加癌症治疗。
在某些实施方案中,癌症治疗包括:手术、辅助化疗、新辅助化疗、放射疗法、激素疗法、细胞毒性疗法、免疫疗法、过继性T细胞疗法、靶向疗法及其组合。
在某些实施方案中,癌症包含结肠直肠癌、肺癌、乳腺癌、胃癌、胰腺癌、胆管癌、脑癌或卵巢癌。
在某些实施方案中,肺癌是小细胞肺癌(SCLC)。
在某些实施方案中,肺癌是非小细胞肺癌(NSCLC)。
在某些实施方案中,与健康个体相比,患有癌症的受试者包括与染色质组织相关的改变的突变谱。
在某些实施方案中,全基因组突变谱和片段谱包括:鉴定各个cfDNA分子的序列中的突变和片段长度中的变化。
在某些实施方案中,突变谱包括:受试者的基因组的突变频率和突变类型。
在某些实施方案中,使用大小范围从至少约1000个碱基到至少约2000万个碱基的非重叠箱来确定受试者的基因组的突变谱。
在某些实施方案中,使用大小范围从至少约1000个碱基到至少约1000万个碱基的非重叠箱来确定受试者的基因组的突变谱。
在某些实施方案中,使用大小范围从至少约1000个碱基到至少约500万个碱基的非重叠箱来确定受试者的基因组的突变谱。
在某些实施方案中,在去除常见种系变体和不能评价的区域后,确定每个经测序的分子的全基因组突变。
在某些实施方案中,确定基因组的突变的区域频率的方法,包括:对从受试者中分离的各个cfDNA分子进行测序,估算基因组的突变频率和突变类型;确定癌症中改变的基因组区域中的突变类型和频率与正常cfDNA中的突变谱和突变的区域,以确定突变谱中的多区域差异;从而确定基因组的突变的区域频率。在某些实施方案中,基因组的突变频率和突变类型的估算包括使用大小范围从数千个碱基到数百万个碱基的非重叠箱。在某些实施方案中,通过一种或更多种测定来定量肿瘤特异性变化。在某些实施方案中,该一种或更多种测定包括计算机(in silico)稀释测定和/或降采样(downsampling)测定。在某些实施方案中,在去除常见种系变体和/或不能评价的区域后,针对单核苷酸变化扫描每个经测序的分子。在某些实施方案中,基因组区域的特征在于晚复制时序、低基因表达、B区室化、高H3K9me3丰度、低GC含量,或它们的组合。在某些实施方案中,推定突变的频率定义为所有测序的DNA分子中每百万个评估位置的变体数目。在某些实施方案中,该方法进一步包括组合突变谱和全基因组片段谱。在某些实施方案中,该方法进一步包括执行用于确定全基因组突变谱中的变化的机器学习模型,其中机器学习模型基于对于受试者鉴定的全基因组突变谱,将受试者分类为患有癌症或处于患有癌症的风险中或者排除患有癌症或患有癌症的风险。
在某些实施方案中,确定受试者是否响应治疗的方法包括本文体现的任何一种或更多种方法。在某些实施方案中,治疗选自手术、辅助化疗、新辅助化疗、放射疗法、激素疗法、细胞毒性疗法、免疫疗法、过继性T细胞疗法、靶向疗法,及它们的组合。
定义
除非另有定义,否则本文使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员通常理解相同的含义。将进一步理解的是,术语,例如在常用词典中定义的那些应该被解释为具有与其在相关技术的上下文中的含义一致的含义,并且除非本文明确地如此定义,否则不应当以理想化或过于正式的意义加以解释。
如本文使用的,除非上下文另有明确指示,否则单数形式“一个/种(a)”、“一个/种(an)”和“该/所述(the)”旨在包括复数形式。此外,就术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“含有”或其变型在详细说明书和/或权利要求书中使用而言,此类术语旨在以类似于术语“包含(comprising)”的方式包含在内。
术语“约”或“大约”意指在如通过本领域普通技术人员确定的特定值在可接受误差范围内,这将取决于如何测量或确定该值,即测量系统的限制。例如,按照本领域的实践,“约”可以意指在1个或多于1个标准差内。可替代地,“约”可以意指给定值或范围的至多20%、至多10%、至多5%或至多1%的范围。可替代地,特别是关于生物系统或过程,该术语可以意指在数值的5倍内,也可在2倍内的数量级内。当在申请和权利要求书中描述特定值时,除非另有说明,否则应该术语“约”应被认为是指在特定值的可接受误差范围内。
术语“比对(aligned)”、“比对(alignment)”、“映射(mapped)”或“比对(aligning)”、“映射(mapping)”是指一个或多个序列,其被鉴定为根据其核酸分子的顺序与来自参考基因组的已知序列相匹配。此类比对可以手动完成或通过计算机算法完成,实例包括作为Illumina Genomics Analytics pipeline的部分分布的核苷酸数据高效局部比对(Efficient Local Alignment of Nucleotide Data,ELAND)计算机程序。比对中序列读数的匹配可以是100%序列匹配或小于100%(非完全匹配)。
如本文使用的,术语“癌症”意指以本领域已知的不受调控的细胞生长或复制为特征的疾病、病症、性状、基因型或表型;包括肺癌(包括非小细胞肺癌)、胃癌、结肠直肠癌,以及例如白血病,例如急性粒细胞性白血病(AML)、慢性粒细胞性白血病(CML)、急性淋巴细胞性白血病(ALL)和慢性淋巴细胞性白血病、AIDS相关癌症(诸如卡波西氏肉瘤);乳腺癌;骨癌,诸如骨肉瘤、软骨肉瘤、尤因氏肉瘤、纤维肉瘤、巨细胞瘤、造釉细胞瘤和脊索瘤;脑癌诸如脑膜瘤、胶质母细胞瘤、低级星形细胞瘤、少突胶质细胞瘤、垂体瘤、神经鞘瘤和转移性脑癌;头颈癌,包括各种淋巴瘤,诸如套细胞淋巴瘤、非霍奇金淋巴瘤、腺瘤、鳞状细胞癌、喉癌、胆囊癌和胆管癌、视网膜癌例如视网膜母细胞瘤、食道癌、胃癌、多发性骨髓瘤、卵巢癌、子宫癌、甲状腺癌、睾丸癌、子宫内膜癌、黑色素瘤、膀胱癌、前列腺癌、胰腺癌、肉瘤、肾母细胞瘤、宫颈癌、头颈癌、皮肤癌、鼻咽癌、脂肪肉瘤、上皮癌、肾细胞癌、胆腺癌、腮腺腺癌、子宫内膜肉瘤、多药耐药性癌症;以及增殖性疾病和病症,诸如与肿瘤血管生成相关的新血管形成。
术语“细胞游离核酸”、“细胞游离DNA”或“cfDNA”是指在个体体内(例如血流)循环并且源于一个或多个健康细胞和/或一个或多个癌细胞的核酸片段。另外,cfDNA可能来自其它来源,例如病毒、胎儿等。
术语“循环肿瘤DNA”或“ctDNA”是指源于肿瘤细胞或其它类型的癌细胞的核酸片段,其可能由于生物过程(诸如濒死细胞的凋亡或坏死)而释放到个体的血流内,或者由活肿瘤细胞主动释放。
如本文使用的,提及项目、组合物、设备、方法、过程、系统等的定义或描述要素的术语“包括(comprising)”、“包括(comprise)”或“包括(comprised)”及其变型意指包含性的或开放式的,允许另外的要素,从而指示定义或描述的项目、组合物、设备、方法、过程、系统等包括那些指定的要素—或者适当时其等同物—并且可以包括其它要素,且仍落入定义的项目、组合物、设备、方法、过程、系统等的范围/定义内。
“诊断(Diagnostic)”或“诊断(diagnosed)”意指鉴定病理状况的存在或性质。诊断方法的其灵敏度和特异性各不相同。诊断测定的“灵敏度”是测试呈阳性的患病个体的百分比(“真阳性”的百分比)。通过测定并未检测到的患病个体是“假阴性”。未患病但在测定中测试呈阴性的受试者称为“真阴性”。诊断测定的“特异性”为1减去假阳性率,其中“假阳性”率定义为测试呈阳性的未患病个体的比例。虽然特定的诊断方法可能无法提供病症的明确诊断,但只要该方法提供有助于诊断的积极指示就足够了。
如本文使用的,“有效量”意指提供治疗或预防益处的量。
如本文使用的,术语“片段谱”、“片段模式中的位置依赖性差异”和“基因组中以位置依赖性方式的片段大小和覆盖率中的差异”是等同的,并且可以互换使用。在一些实施方案中,确定哺乳动物中的cfDNA片段谱可以用于鉴定患有癌症的哺乳动物。例如,可以使从哺乳动物(例如,从哺乳动物中获得的样品)中获得的cfDNA片段经受低覆盖率全基因组测序,并且可以将测序片段映射到基因组(例如,在非重叠窗口中)并进行评价,以确定cfDNA片段谱。如本文所述的,患有癌症的哺乳动物的cfDNA片段谱比健康哺乳动物(例如,并未患有癌症的哺乳动物)的cfDNA片段谱更具异质性(例如,在片段长度方面)。因此,本公开内容还提供了用于评价、监测和/或治疗患有或疑似患有癌症的哺乳动物(例如,人)的方法和材料。在一些实施方案中,本文件提供了用于将哺乳动物鉴定为患有癌症的方法和材料。例如,可以评价从哺乳动物中获得的样品(例如,血液样品),以至少部分地基于哺乳动物的cfDNA片段谱来确定哺乳动物中癌症的存在和任选的癌症的起源组织。在一些实施方案中,提供了用于监测患有癌症的哺乳动物的方法和材料。例如,可以评价从哺乳动物中获得的样品(例如,血液样品),以至少部分地基于哺乳动物的cfDNA片段谱来确定哺乳动物是否患有癌症。在一些实施方案中,提供了用于鉴定患有癌症的哺乳动物并且将一种或多种癌症治疗施用于哺乳动物,以治疗哺乳动物的方法和材料。例如,可以评价从哺乳动物中获得的样品(例如,血液样品),以至少部分地基于哺乳动物的cfDNA片段谱来确定哺乳动物是否患有癌症,并且可以对该哺乳动物进行一种或多种癌症治疗。
如本文使用的,突变的“频率”定义为所有测序的DNA分子中每百万个评估位置的变体数目。
术语“基因组核酸”或“基因组DNA”是指源于一个或多个健康(例如,非肿瘤)细胞的核酸,包括染色体DNA。在各个实施方案中,基因组DNA可以从衍生自血细胞谱系的细胞,例如白细胞(WBC)中提取。
如本文使用的,术语“突变谱”是指如在跨基因组的箱中观察到的突变类型和频率。癌症中更常改变的基因组区域之间的突变谱与来自正常cfDNA中更频繁突变的区域的突变谱的比较可用于确定多区域差异。
“任选的”或“任选地”意指随后描述的事件或情况可能发生或不发生,并且描述包括其中事件或情况发生的情形和不发生的情形。
如本说明书和所附权利要求书中使用的,术语“或”通常用于包括“和/或”的含义,除非内容另有明确规定。
免疫原性组合物的“肠胃外”施用包括例如皮下(s.c.)、静脉内(i.v.)、肌内(i.m.)或胸骨内注射或输注技术。
术语“患者”或“个体”或“受试者”在本文中可互换使用,并且是指待治疗的哺乳动物受试者,其中人类患者是优选的。在一些实施方案中,本发明的方法可用于实验动物、兽医应用和疾病的动物模型的开发中,其中动物包括但不限于啮齿类动物(包括小鼠、大鼠和仓鼠)以及灵长类动物。
如本文使用的,术语“参考基因组”可以指数字或先前鉴定的核酸序列数据库,组装为物种或受试者的代表性实例。参考基因组可以由来自多个受试者、样品或生物体的核酸序列组装而成,并不一定代表单个人的核酸组成。参考基因组可用于将来自样品的测序读数映射到染色体位置。例如,用于人受试者以及许多其它生物体的参考基因组在ncbi.nlm.nih.gov的国家生物技术信息中心(National Center for BiotechnologyInformation)中找到。
术语“读数区段”或“读数”是指任何核苷酸序列,包括从个体中获得的序列读数和/或衍生自来自从个体中获得的样品的初始序列读数的核苷酸序列。
术语“样品”、“患者样品”、“生物样品”等涵盖了从患者、个体或受试者获得的各种样品类型,并且可用于诊断、预后和/或监测测定中。患者样品可得自于健康受试者、患病患者或肺癌患者。在某些实施方案中,“提供”的样品可以通过进行测定的人(或机器)获得,或者可以通过他人来获得并转移到进行测定的人(或机器)。此外,从患者中获得的样品可以被分份,并且只有一部分可以用于诊断。进一步地,样品或其一部分可以在保持样品用于以后分析的条件下储存。该定义具体涵盖了血液和生物起源的其他液体样品(包括但不限于外周血、血清、血浆、脐带血、羊水、脑脊液、尿、唾液、粪便和滑液)、固体组织样品例如活组织检查样本或组织培养物或由其衍生的细胞及其后代。在某些实施方案中,样品包含脑脊液。在具体实施方案中,样品包含血液样品。在另一实施方案中,样品包含血浆样品。在又一实施方案中,使用血清样品。“样品”的定义还包括在获得后以任何方式处理过的样品,诸如通过离心、过滤、沉淀、透析、层析、用试剂处理、洗涤或富集某些细胞群体。该术语进一步涵盖了临床样品,并且还包括培养中的细胞、细胞上清液、组织样品、器官等等。样品还可以包含新鲜冷冻和/或福尔马林固定的石蜡包埋的组织块,诸如由临床或病理活组织检查制备的、通过免疫组织化学制备用于病理分析或研究的块。
术语“序列读数”是指从获自于个体的样品得到的核苷酸序列读数。序列读数可以通过本领域已知的各种方法获得。
如本文定义的,化合物或试剂的“治疗有效”量(即,有效剂量)意指足以产生治疗上(例如临床上)期望结果的量。组合物可以从每天一次或多次到每周一次或多次,包括每隔一天一次进行施用。本领域技术人员应了解,某些因素会影响有效治疗受试者所需的剂量和时机,包括但不限于疾病或病症的严重程度、先前的治疗、受试者的总体健康状况和/或年龄、以及存在的其它疾病。此外,用治疗有效量的本发明化合物的受试者治疗可以包括单一治疗或一系列治疗。
如本文使用的,术语“治疗(treat)”、“治疗(treating)”、“治疗(treatment)”等是指降低或改善疾病和/或与其相关的症状。应当理解的是,尽管不排除,但治疗病症或状况并不要求完全消除疾病、病症或与其相关的症状。
基因:本文公开的所有基因、基因名称和基因产物旨在对应于本文公开的组合物和方法适用于的任何物种的同源物。应当理解的是,当公开了来自特定物种的基因或基因产物时,本公开内容仅是示例性的,且不应被解释为限制性,除非它在其中出现的上下文清楚地指示。因此,例如,对于本文公开的基因或基因产物,旨在涵盖同源和/或直向同源基因以及来自其它物种的基因产物。
范围:在整个公开内容中,本发明的各个方面可以以范围形式呈现。应当理解的是,以范围形式的描述仅仅是为了方便和简洁起见,而不应该被解释为对本发明范围的不可改变的限制。相应地,范围的描述应该被视为已具体公开了所有可能的子范围以及该范围内的各个数值。诸如,范围例如1至6的描述应该被视为已具体公开了子范围,诸如1至3、1至4、1至5、2至4、2至6、3至6等,以及该范围内的各个数字,例如1、2、2.7、3、4、5、5.3和6。这适用于所有广度的范围。
本文提供的任何组合物或方法都可以与本文提供的任何其它组合物和方法中的一种或多种组合。
附图说明
图1是使用单分子cfDNA测序进行癌症检测的整体方法的示意图。从个体群体中采集血液,其中一些个体患有癌症。从血浆提取cfDNA,并且使用大规模平行测序方法对其进行单分子测序。序列改变用于获得癌症和非癌症突变频率的全基因组突变谱和区域差异,并且使用机器学习进行鉴定,以区分患有癌症和未患癌症的个体。
图2A-2J是显示了来自PCAWG联盟的肺癌和正常样品的单分子突变分析的一系列示图和图示。图2A:当在一系列测序覆盖量和肿瘤分数下进行降采样时,在吸烟个体的PCAWG肺癌样品中检测到的突变数目。图2B:在所指示的不同序列覆盖率和肿瘤分数下,在单个DNA分子中观察到的PCAWG肺癌突变的分数。图2C:没有质量或种系过滤器的情况下,肺癌和血液衍生的匹配的正常样品中的单分子体细胞和背景C>A变化的频率。图2D:具有质量和种系过滤器的情况下,包括8-氧代-dG相关序列变化的过滤,在肺癌和血液衍生的匹配的正常样品中的单分子体细胞和背景C>A变化的频率。图2E:患者DO25320中跨越1号染色体的50Mb区域中单分子体细胞和背景C>A变化的频率。以100kb的步长在滑动2.5Mb窗口中计算C>A频率。红色和黑色虚线表示肺癌和匹配的血液衍生的正常样品中最富集C>A变化的最高十分位分箱的突变频率。图2F:在去除已知的PCAWG体细胞突变后获得的肺癌和匹配的血液衍生的正常样品中,最富集C>A变化的最高十分位分箱的背景C>A频率。对于每个样品,背景C>A频率在这些区域之间是相似的,这可以从实线看出。图2G:肺癌和血液衍生的正常样品中具有每个背景C>A变化的分子数目。即使在>30x覆盖率下,大多数背景变化也仅在单个分子中观察到。图2H:使用GEMINI方法,从肿瘤样品中富集突变的最高十分位分箱减去正常样品中富集的最高十分位分箱中的C>A频率后,正常样品或肿瘤样品区域C>A频率中的差异。区域C>A频率中的差异优先地消除背景变化,从而富集所观察到的体细胞突变的频率。图2I:通过PCAWG联盟在这些样品中报告的单分子C>A频率中的区域差异与高置信度体细胞C>A变化频率之间的相关。图2J:在质量和种系过滤后,与使用总体单分子C>A频率相比,使用GEMINI方法用于区分肺癌与正常样品的接受者操作特性(ROC)曲线,其中测试集降采样至1x覆盖率。没有过滤8-氧代-dG相关变化的GEMINI方法的ROC将产生0.47的AUC,从而突出了去除这些伪影(artifacts)对于鉴定肿瘤特异性变化的重要性。
图3A-3B是证实组织和血浆样品的全基因组突变谱与复制时序相关的一系列图示和示图。图3A:以100kb的步长在滑动2.5Mb窗口在基因组中计算来自吸烟个体(n=65)的PCAWG肺癌的体细胞突变频率,并且表示为个体的平均值。图3B:来自NSCLC、黑色素瘤、BNHL或无癌症的患者的组织和cfDNA中的组织特异性复制时序层的突变频率的相关性。复制时序作为代表来自IMR90、NHEK和GM12878细胞系47,48以1kb箱在复制期间的不同时间点的六个分数谱的小波平滑变换获得,所述细胞系分别用于分析NSCLC、黑色素瘤和BNHL。在2.5Mb箱中计算复制时序值的加权平均值,随后为箱分组成5个相等的分箱集合,其含有具有最早到最晚复制时序的分箱。在每个分箱集合中,使用通过PCAWG联盟报告的每Mb基因组的体细胞突变数目计算在不同复制层下在组织中的突变频率,并且使用皮尔森相关性将其与血浆中的单分子突变频率进行比较。为了控制所测量的全基因组突变频率中的潜在系统可变性,从癌症和非癌症cfDNA样品中扣除20个非癌症cfDNA样品的独立实验对象组中的每个箱集合中的单分子突变频率。然后在每个样品和突变类型内对突变频率进行比例化,使其最小值为零。
图4A-4I是一系列图示和ROC曲线,证实了使用GEMINI和组合的GEMINI/DELFI方法来检测肺癌。图4A:患有或未患肺癌,具有>20包/年的吸烟史,50-80岁的高危个体中的GEMINI评分,其中在每个分期或组织学处示出个体数目。重要的是,患有和未患良性结节的非癌症个体具有相似的GEMINI评分,而患有癌症的个体具有更高的GEMINI评分。图4B:未患肺癌的高危个体以及通过基线时的成像确定的未患肺癌但后来发展肺癌的个体的GEMINI评分。图4C:50-80岁患有和未患癌症的当前或曾吸烟者的验证队列中的GEMINI评分。验证队列富集了早期疾病(I期=25,II期=2,III期=2,IV期=2,以及具有未知分期的1个个体)。图4D:使用GEMINI或GEMINI和DELFI方法,检测LUCAS队列中的高危个体(n=89患有肺癌,n=74未患癌症)中的肺癌的ROC曲线显示了高性能。图4E:检测LUCAS队列中具有至少40包年的高危个体子集(n=63患有肺癌,n=46未患癌症)中的肺癌的ROC曲线显示了GEMINI对于较高吸烟史增加的性能。图4F:检测来自LUCAS队列的诊断有I期肺癌的高危个体(n=13患有肺癌,n=74未患癌症)的ROC曲线。图4G:检测验证队列中的个体中的I期肺癌的ROC曲线(n=25患有肺癌,n=14未患癌症)。图4H:检测来自LUCAS队列和≥40包年的吸烟史的诊断有I期肺癌的高危个体(n=9患有肺癌,n=46未患癌症)的ROC曲线。图4I:检测验证队列中的个体(n=13患有肺癌,n=5未患癌症)中的I期肺癌和≥40包年的吸烟史的ROC曲线。
图5A-5F是一系列图示和ROC曲线,证实了GEMINI方法用于非侵入性检测多种癌症类型。图5A:LUCAS和验证队列中,SCLC患者和未患癌症的高危个体中的GEMINI评分显示了对癌症检测的高性能(补充表4)。图5B:LUCAS和验证队列中的单分子C>A频率中的区域差异证实了,GEMINI方法可用于鉴定SCLC和NSCLC之间改变最多的箱。图5C:与非癌症对照(n=88)(橙色)相比,用于检测SCLC(n=13),以及用于区分组合LUCAS和验证队列中的SCLC(n=13)与NSCLC(n=99)(紫色)的ROC曲线。图5D:在每个突变类型内以中值为中心,在肝癌队列中的cfDNA中的单分子突变频率中的交叉验证的区域差异,显示了HCC患者中高水平的T>C突变。P值使用威尔科克森秩和检验生成,并且使用Benjamini-Hochberg方法对于多重比较进行校正。水平虚线表示0.05的p值。图5E:其中个体数目在每个分期指示的肝癌队列中的GEMINI评分证实了用于检测所有分期的肝癌的高灵敏度。图5F:欧几里德距离矩阵的主坐标分析反映了NSCLC、SCLC和HCC之间的区域突变频率中的交叉验证的配对差异。前两个主坐标以等值线示出,表明对于每种癌症类型的核密度估计为0.7和0.95概率。右侧指示了衍生自具有k=3的K均值聚类的聚类中的癌症类型的组成。
图6是显示了所分析的队列的概述的示意图。每个框代表分析的队列,并且表明GEMINI方法是用交叉验证进行评估还是使用固定模型进行验证。虚线表示用于评估各个肿瘤类型或比较癌症亚型的队列子集分析。
图7是显示了常见癌症中的基因组突变谱的一系列图示。根据25种常见癌症类型的2511个PCAWG样品的分析,获得了所获得的1号染色体上以100kb的步长滑动2.5Mb窗口中计算的平均体细胞突变频率。
图8是稀释和降采样实验的示意图。在这个实例中,考虑在基因组位置1、2、…、N处含有N个体细胞突变的肿瘤样品。从30个非肿瘤衍生的观察和10个肿瘤衍生的突变(25%的肿瘤纯度)开始。在稀释步骤期间,掺入非肿瘤观察,直到达到所需的肿瘤分数。在稀释后,从所有片段的集合中随机采样片段,以实现基因组位置的所需平均覆盖率。计数所得到的观察到的突变数目,计算仅在单个片段中观察到的所观察到的突变比例。在这个实例中,存在3个观察到的突变,并且其中之一仅在单个分子中观察到。
图9A、9B是证实了与8-氧代-dG损伤相关的单分子测序中的背景变化的鉴定的图示和示图。图9A:对于背景变化和已知种系变体两者,当在突变之前的嘌呤鸟嘌呤或腺嘌呤(pu)在读数1(R1)上或嘧啶胞嘧啶或胸腺嘧啶(py)在读数2(R2)上时与当嘧啶在读数1上和嘌呤在读数2上时,来自PCAWG的62个组织样品(31个肺癌和31个血液衍生的匹配的正常样品)中的每种类型的单碱基变化的频率的比率。背景变化反映了通过单分子分析鉴定的序列变化,这些变化并未被PCAWG报告为体细胞变体。在此处,从背景变体中还去除由PCAWG报告的种系变体,以富集可能的人为变化。图9B:在去除可能的8-氧代-dG相关序列变化(R1pu或py,R2pu或py)之前,以及在过滤这些变化之后,通过单分子分析鉴定的已知体细胞突变/背景变化的比率,其中仅考虑了在R1上具有胞嘧啶的碱基和在读数2上具有鸟嘌呤的碱基(R1py,R2pu)。
图10A、10B是证实了PCAWG肺癌和正常样品中的单分子序列变化分析的图示。图10A:在PCAWG肺癌(n=31)和血液衍生的匹配的正常样品(n=31)中的单分子突变频率。使用Benjamini Hochberg方法对多重比较的P值进行校正。水平虚线表示p值为0.05。图10B:在每个突变类型内以中值为中心,在PCAWG肺癌(n=31)和血液衍生的匹配的正常样品(n=31)中的单分子突变频率中的交叉验证的区域差异。P值使用威尔科克森秩和检验生成,并且使用Benjamini-Hochberg方法对多重比较进行校正。水平虚线表示p值为0.05。
图11是证实了PCAWG肺癌中的突变类型的体细胞和背景变化分析的图示。对于所分析的每种突变类型,在去除潜在的8-氧代-dG相关伪影后,通过单分子分析鉴定的体细胞变化/背景变化的比率。体细胞变化反映了通过单分子分析鉴定的序列变化,这些变化也被PCAWG报告为体细胞突变,而背景变化通过单分子分析进行鉴定,但并未被PCAWG报告为体细胞突变。总体而言,C:G>A:T变化代表了体细胞变化的最高比例。
图12是证实了对PCAWG肺癌和正常样品中的测序泳道的单分子序列变化分析的一系列图示。跨越测序泳道在PCAWG肺癌和血液衍生的正常样品中的单分子突变频率。对于每个样品,测序读数基于其相关的读数组被分成独立的二进制比对图(Binary AlignmentMap,BAM)文件,其表明测序读数来自NGS实验的一个泳道。所得到的BAM文件含有4.64亿个读数(范围:6-7.38亿)的中值。大约100万个读数被随机采样5次,具有来自每个测序泳道的替换(每个样品最多显示6个泳道)。取决于分析的泳道和序列改变的类型,单分子突变频率在各个样品内变化很大。
图13是证实了肺癌中的全基因组体细胞单分子C>A突变谱的一系列图示。取决于基因组位置,从31个PCAWG肺癌样品的汇总分析获得的常染色体,以100kb的步长在滑动2.5Mb窗口中计算的单分子C>A体细胞突变频率显示了突变频率中的广泛差异。
图14是证实了PCAWG肺癌中的4号染色体上的体细胞单分子C>A突变谱的一系列图示。在滑动2.5Mb窗口中,以100kb的步长计算来自PCAWG肺癌样品的4号染色体上的单分子C>A体细胞突变频率,揭示了不同肺癌之间相似的突变谱。
图15是GEMINI区域突变频率分析的示意图。将基因组分成1144个不重叠的2.5Mb箱(此处描述了20个箱),并且单分子突变频率在每个箱中计算为每百万个可评估碱基的序列变化数目,其定义为在质量和种系过滤后,其中可以检测到每个序列变化的片段中的位置数目。训练集中的样品用于鉴定在癌症样品和非癌症样品之间突变差异最大的箱。在训练集中,组合来自所有癌症样品和所有非癌症样品的序列数据,并且在每个框中计算癌症和非癌症单分子突变频率。接下来,计算每个箱中的癌症样品和非癌症样品之间的单分子突变频率中的差异,并且鉴定癌症样品相对于非癌症样品中突变最多的10%的箱,以及非癌症样品相对于癌症样品中突变最多的10%的箱(分别由三角形和圆形表示)。在测试集中,计算并未包括在训练集中的新样品中的这两个箱集合之间的单分子突变频率中的差异,生成突变频率中的区域差异,其可以用于将样品分类成衍生自健康个体或患有癌症的个体。通过考虑各个样品内的基因组中的两个区域集合之间的单分子突变频率中的差异,这种方法控制了该样品中可能起因于测序运行中的技术可变性的序列变化的总数。
图16是证实了通过单分子测序,PCAWG肺癌中匹配的WBC过滤对体细胞改变富集的作用的图示。在去除>30x覆盖率下匹配的血液衍生的正常样品中鉴定的任何序列变化后,PCAWG肺癌(n=31)中的单分子C>A频率。分析揭示了,在匹配的正常样品中观察到的突变扣除在去除背景变化方面是无效的,因为此类改变通常只观察到一次,并且不存在于肿瘤和匹配的非癌症样品中。
图17A-17C是证实了组织和血浆样品的单分子全基因组突变谱与基因组特征的相关性的一系列图示。这些图分别示出了在来自患有NSCLC、黑色素瘤、BNHL或未患癌症的患者的组织和cfDNA中,跨越组织特异性基因表达、A/B区室化和H3K9me3丰度的全基因组突变频率。在2.5Mb箱中计算每个特征值的加权平均值,随后将箱分组成按特征值排序的5个相等的箱集合。在每个箱集合中,我们使用通过PCAWG联盟报告的每Mb基因组的体细胞突变数目计算在不同层下在组织中的突变频率,并且使用皮尔森相关性将这与血浆中的单分子突变频率进行比较。为了说明cfDNA中的每个框中的每个突变类型的总体频率中的差异,从癌症和非癌症cfDNA样品中的每个箱集合中的单分子突变频率中扣除非癌症样品实验对象组(n=20)中的每个框集合中的单分子突变频率,并且所得到的值进行比例哈,以使每个突变类型和样品类型的最小值为零。图17A:将基因表达计算为重叠每个2.5Mb箱的百万转录本数(TPM)的总和,该总和通过跨越TCGA NSCLC、黑色素瘤和BNHL样品求平均值的转录物的长度加权。图17B:在很大程度上分别代表基因组的开放区域和封闭区域的A/B区室化测量为跨越用于NSCLC分析的TCGA NSCLC样品在100kb框中的平均甲基化β值的相关矩阵的第一特征向量,并且跨越用于黑色素瘤分析的12个TCGA癌症类型求平均值。关于来自淋巴母细胞样细胞(GM12878细胞系)的Hi-C分析的基因组接触矩阵的第一个特征向量用于BNHL分析33。图17C:从分别用于NSCLC、黑色素瘤和BNHL分析的A549细胞(三个合并的重复)、GM23248和Karpas 422细胞(两个合并的复制)的ChIP-seq获得H3K9me3(异染色质的已知标记物)的丰度,作为与对照样品相比富集样品中的覆盖率的倍数变化48
图18是证实了高危LUCAS队列中的单分子突变频率中的区域差异的图示。在每个突变类型内以中值为中心,在患有肺癌的个体(n=89)和未患癌症的个体(n=74)中的cfDNA中的单分子突变频率中的交叉验证的区域差异。区域C>A突变频率在肺癌样品和非癌症样品之间优先改变,但在随机排列类别标记时没有改变(p=0.36,威尔科克森秩和检验)。P值使用威尔科克森秩和检验生成,并且使用Benjamini-Hochberg方法对多重比较进行校正。水平虚线表示p值为0.05。
图19是示出了在非癌症个体中通过流动池和测序通道的C>A序列变化的分析的图示。来自LUCAS队列的所有非癌症个体(n=158),跨越流动池和测序泳道的单分子C>A频率以及在单分子C>A频率中的区域差异。尽管测序背景突变率因泳道而异,使得测序泳道内的多个样品具有相似的单分子C>A频率,解释了99%的方差(p<0.0001,F检验),但用GEMINI方法获得的单分子C>A频率中的区域差异消除了这种相关性(p=0.17,F检验)。
图20A-20K是示出了用于分析cfDNA中的单分子突变频率和检测肺癌的全基因组固定箱的一系列图示和示意图。图20A:与从所有样品的分析中鉴定的固定模型中利用的箱集合相比,在每个训练折叠中鉴定为富集肺癌样品和非癌症样品中的突变的箱的相似性百分比。跨训练折叠的高相似性表明箱选择并非由各个样品驱动。图20B:富含肺癌患者的cfDNA中的突变的箱和富含未患癌症的个体的cfDNA中的突变的箱的染色体定位。图20C:与来自未患癌症的个体的样品相比,来自患有肺癌的个体的样品具有肺癌中富集的箱中跨越样品更多的C>A变化/基因组箱,并且在非癌症中富集的箱中具有更少的这些变化。图20D-20E:每个基因组箱的可评估碱基的平均数目和拷贝数在肺癌中富集的箱和非癌症的框中富集的箱中,在非癌症个体和患有肺癌的个体中是相似的。使用ichorCNA估计拷贝数。图20F-20K:固定模型中的箱与复制时序、基因表达、A/B区室化和H3K9me3丰度、GC含量相关,但与序列可映射性无关。图20F:复制时序作为代表来自IMR90细胞47,49以1kb箱在复制期间的不同时间点的六个分数谱的小波平滑变换获得,然后计算每个2.5Mb箱中的加权平均值,其中较高的值表示较早的复制时序。图20G:基因表达计算为重叠每个2.5Mb框的百万转录本数(TPM)的总和,该总和通过跨越TCGA NSCLC样品求平均值的转录物的长度加权,并且log转化为log10(TPM)。图20H:在很大程度上分别代表基因组的开放区域和封闭区域的A/B区室化测量为跨越TCGA肺癌样品在100kb框中的平均甲基化β值的相关矩阵的第一特征向量33。图20I:从A549细胞48的ChIP-seq获得H3K9me3(异染色质的已知标记)的丰度,并且显示为与来自三个合并重复的对照样品相比,富集样品中的覆盖率的倍数变化。图20J:从hg19参考基因组中获得每个基因组框中的GC含量。与非癌症中富集的箱相比,肺癌中富集的箱趋于是富集AT(贫GC),这可以通过我们先前的结果来解释,即富含肺癌中的突变的后期复制区域具有较低的GC含量(斯皮尔曼相关系数=0.83,p<0.0001)。图20K:可映射性,反映了100聚体序列如何唯一地与基因组的一个区域比对,计算为2.5Mb箱中的加权平均值。
图21A-21F是示出了肺癌患者的组织和血浆样品中的双碱基取代的分析的一系列图示。图21A:由PCAWG联盟在来自吸烟个体(n=65)的肺癌组织样品中鉴定的体细胞双碱基取代的数目揭示了,与其它双重突变相比大量的CC>AA变化。水平实线表示个体中每种突变类型的中值数目。图21B:当CC或CC>AA在读数1中且GG或GG>TT在读数2中时(R1CC,R2GG)的单分子CC>AA频率相对于当GG或GC>TT在读数1中且CC或CC>AA在读数2中时(R1GG,R2CC)的比率在高危LUCAS队列中的样品聚集。背景CC>AA变化代表仅在未患癌症的个体中的单个cfDNA片段中观察到的那些改变,而可能的体细胞变化代表来自肺癌患者的个体样品特有的那些改变,并且在多个cfDNA片段中观察到。在高危LUCAS队列内,在89名患有肺癌的个体的两个或更多个片段中观察到67个特有的CC>AA变化,并且74名未患癌症的个体仅观察到一个此类变化,这表明这些改变中的大多数很可能是体细胞起源的。柱状图表示关于比率的95%自举置信区间。背景CC>AA变化更常被检测为R1CC,R2GG,但没有观察到可能的体细胞CC>AA变化的不平衡,表明作为R1CC,R2GG检测到的可能的伪影背景CC>AA变化的富集。图21C:在高危LUCAS队列中,围绕CC>AA变化(+/-5bp)的序列背景,其中对于每组指示了突变的数目,并且在每个位置处的字母的总高度指示了以比特为单位测量的位置的信息内容。图21D:与非癌症个体相比,单分子CC>AA频率在患有肺癌的个体中升高,其中在过滤作为R1GG,R2CC检测到的CC>AA变化后观察到较大的分离。图21E-21F:在过滤作为R1CC,R2GG检测到的CC>AA变化后,单分子CC>AA频率与cfDNA(图21E)和肺肿瘤(图21F)中的单分子C>A频率中的区域差异呈正相关。
图22A-22F是证实了临床特性对LUCAS队列的非癌症个体的GEMINI评分的影响的一系列图示。图22A示出了男性(n=87)和女性(n=71)的GEMINI评分;图22B,患有(n=43)或未患(n=115)自身免疫性疾病的个体的GEMINI评分;图22C,患有(n=28)或未患(n=130)COPD的个体的GEMINI评分;图22D,不同年龄的个体的GEMINI评分;以及图22E-22F,对于CRP(mg/L)和IL-6水平(pg/mL)相比的GEMINI评分。
图23A、23B是证实了GEMINI评分反映cfDNA中的肿瘤DNA含量的一系列图示。图23A:在不同水平的ctDNA下,在未患癌症的个体和患有肺癌的个体中的高危LUCAS队列中的GEMINI评分。评分>0.55反映了在80%特异性下肺癌检测的阳性测试。b,在具有<3%或≥3%ctDNA的患有肝硬化的个体和患有肝癌的个体中,肝癌队列中的GEMINI评分。评分>0.86反映了在80%特异性下关于肝癌检测的阳性测试。使用ichorCNA估计每个样品中的ctDNA百分比。
图24A、24B是一系列ROC曲线,证实了GEMINI或组合的GEMINI/DELFI方法用于检测肺癌的性能。图24A:在患有II-IV期疾病的患者和吸烟≥40包年的这些患者的子集中,使用GEMINI或组合的GEMINI/DELFI方法,用于检测高危LUCAS队列中的肺癌的ROC曲线。图24B:在患有腺癌、鳞状细胞癌或小细胞肺癌的患者和吸烟≥40包年的这些患者的子集中,使用GEMINI或组合的GEMINI/DELFI方法,用于检测高危LUCAS队列中的肺癌的ROC曲线。图4F和图4H示出了I期疾病的性能。
图25是证实了GEMINI和DELFI评分以及其用于检测LUCAS队列中的癌症的综合性能的图示。对于高危LUCAS队列中的每个患者(n=163)显示了GEMINI和DELFI评分。垂直虚线和水平虚线分别表示在80%特异性下阳性GEMINI和DELFI测试的阈值,而实心圆圈表示在相同特异性下组合方法的阳性测试。几个癌症个体通过一种方法而不是另一种方法检测到,并且与单独的任一种方法相比,组合评分检测到更多患有肺癌的个体。
图26是证实了肺癌患者中的GEMINI/DELFI评分和临床结果的图示。基于肺癌患者中0.84的中值GEMINI/DELFI评分,将高危LUCAS队列中的肺癌患者(n=89)分为两组。与GEMINI/DELFI评分<0.84(蓝色)的患者相比,GEMINI/DELFI评分≥0.84(黄色)的患者具有显著较差的总体存活(p=0.004,对数秩检验)。
图27A-27D是显示了LUCAS、DECAMP和AHN队列中的非癌症患者的cfDNA特性的比较的一系列图示和示图。图27A:队列的非癌症样品中的平均全基因组覆盖率。水平虚线表示每个队列中的样品的中值覆盖率。图27B:单分子C>A频率中的区域差异在队列之间是相似的(p=0.17,Kruskal-Wallis检验)。水平实线表示每组的中值。图27C:对于每个非癌症样品,在473个非重叠的5Mb箱中计算短片段(100-150bp)与长片段(151-220bp)的比率,并且以均值为中心。中值片段谱表示每个箱中样品的这些值的中值,并且在队列之间是高度相关的(对于每个成对比较,皮尔森相关系数>0.97)。图27D:非癌症样品中的染色体臂水平Z评分在队列之间是相似的(对于每个染色体臂,p>0.05,具有Bonferroni校正的Kruskal-Wallis检验)。
图28A-28C是证实了肺癌患者中的GEMINI评分和吸烟暴露的一系列图示。图28A:在LUCAS队列中,患有肺癌(n=3)或未患肺癌(n=34)的从不吸烟者中,单分子C>A频率是相似的。在高危组中,具有≥20包年的吸烟史且50-80岁的当前或曾经吸烟者中,患有肺癌的个体(n=89)中的单分子C>A频率略微高于未患肺癌的个体(n=74)。图28B:患有肺癌(n=3)或未患肺癌(n=34)的从不吸烟者中,GEMINI评分是相似的。在高危组中,患有肺癌的个体(n=89)中的GEMINI评分高于未患肺癌的那些个体(n=74)。类似地,对于具有≥40包年的吸烟史且50-80岁的个体,患有肺癌的那些个体(n=63)的GEMINI评分高于未患肺癌的那些个体(n=46)。图28C:患有肺癌(n=32)和未患肺癌(n=14)的50-80岁的当前/曾经吸烟者中,以及在患有肺癌(n=18)和未患肺癌(n=5)的有≥40包年的吸烟史的子集中,验证队列中的患有肺癌的个体的GEMINI评分更高。
图29是示出了在排除最频繁的突变类型后,癌症患者中的主坐标分析的图示。使用C>G、C>T、T>A和T>G突变的留一法计算NSCLC、SCLC和HCC之间的单分子突变频率中的区域差异,产生12个特征值。由这12个特征值生成了反映样品之间的成对差异的欧几里德距离矩阵。欧几里德距离矩阵的主坐标分析揭示了,与还分析了C>A和T>C突变时相比,以癌症类型的样品分离减少(图5F)。
图30是示出了治疗期间的GEMINI评分和MAF水平的一系列图示。在用酪氨酸激酶抑制剂治疗之前和期间,对有吸烟史的个体以及靶向深度测序11和低覆盖率全基因组测序数据13的可用性进行分析(箭头表示治疗开始)。GEMINI评分与每个时间点的最大突变等位基因分数相关(斯皮尔曼相关系数=0.50,p=0.03)。
具体实施方式
体细胞突变是肿瘤发生的标志,可用于癌症的非侵入性诊断。然而,由于细胞游离DNA(cfDNA)中肿瘤衍生分子的数量有限,检测循环中的体细胞变化具有挑战性。本文开发了单个cfDNA分子的超灵敏分析,以检测基因组中体细胞突变的频率,并且发现与健康个体相比,癌症患者具有与染色质组构相关的改变的突变谱。组合全基因组cfDNA突变谱和片段化特征,随后进行CT成像,检测到95%患有各分期和亚型的癌症患者,包括95%的I期和II期患者,具有90%的组合特异性。该模型在患有早期肺癌的高危个体的分开筛查队列中进行独立验证。全基因组突变谱将患有小细胞肺癌的个体与患有非小细胞肺癌的个体区分开,并且可以比标准方法更早地鉴定肺癌。这种方法对于使用cfDNA的全基因组突变和片段化特征的组合的非侵入性癌症检测奠定了基础,其可能促进癌症筛查。
GEMINI
序列改变在癌症基因组中大量存在,但细胞游离DNA(cfDNA)中携带肿瘤特异性(体细胞)突变的片段比例经常较低7,8,由于文库构建、基因选择、PCR扩增和测序中引入的序列改变,使得难以在背景噪声中检测到真正的变体。已做出了广泛的努力来检测cfDNA中以低频率出现的突变。然而,这些方法通常依赖于深度测序,并且局限于检查包含基因组的小子集的特异性基因9-11。由于cfDNA中衍生自癌细胞的基因组等同物的数目较少,此类方法对于检测癌症的存在,尤其是在早期疾病中的存在的效力有限12-14。另外,cfDNA的序列改变可能来自于白细胞(WBC),这混淆了使用序列突变来检测癌症患者7,15,16
本文公开且称为用于癌症的非侵入性检测的全基因组突变发生率(GEMINI)的方法,其鉴定了用于癌症检测的cfDNA中的显著大量的肿瘤衍生的改变(图1)。该方法基于对各个cfDNA分子进行测序,以使用大小范围从数千个碱基到数百万个碱基的非重叠箱来估计基因组的突变频率和改变类型。对于每个个体,将癌症中更常改变的基因组区域中的突变谱与来自正常cfDNA中更频繁突变的区域的谱进行比较,以确定突变谱的多区域差异。以这种方式,GEMINI方法富集了可能的体细胞突变,同时考虑到整体突变数目中的个体可变性。
因此,在某些实施方案中,确定受试者中体细胞突变频率的方法包括:从受试者的生物样品中提取细胞游离DNA(cfDNA);由提取的cfDNA生成基因组文库;对各个cfDNA分子进行测序,以获得突变谱;确定突变谱中的多区域差异;以及,确定受试者中的体细胞突变频率。
全基因组突变谱的生成包括:鉴定各个cfDNA分子的序列中的突变。使用大小范围从至少约100个碱基到至少约2000万个碱基的非重叠箱来确定受试者的基因组的突变谱。在某些实施方案中,使用大小范围从至少约500个碱基到至少约1500万个碱基的非重叠箱来确定受试者的基因组的突变谱。在某些实施方案中,使用大小范围从至少约750个碱基到至少约1000万个碱基的非重叠箱来确定受试者的基因组的突变谱。在某些实施方案中,使用大小范围从至少约900个碱基到至少约1000万个碱基的非重叠箱来确定受试者的基因组的突变谱。在某些实施方案中,使用大小范围从至少约1000个碱基到至少约500万个碱基的非重叠箱来确定受试者的基因组的突变谱。
在某些实施方案中,与正常受试者基因组中单分子体细胞突变频率和突变类型相比,受试者基因组中单分子体细胞突变频率和突变类型可诊断癌症。
在某些实施方案中,各个基因座处的体细胞突变频率指示癌症。在某些实施方案中,突变的类型指示癌症。
cfDNA片段谱:cfDNA片段谱可包括一种或多种cfDNA片段化模式。cfDNA片段化模式可包括任何适当的cfDNA片段化模式。cfDNA片段化模式的实例包括但不限于中值片段大小、片段大小分布、小cfDNA片段/大cfDNA片段的比率,以及cfDNA片段的覆盖率。在一些实施方案中,cfDNA片段化模式包括中值片段大小、片段大小分布、小cfDNA片段/大cfDNA片段的比率以及cfDNA片段的覆盖率中的两种或更多种(例如两种、三种或四种)。在一些实施方案中,cfDNA片段谱可以是全基因组cfDNA谱(例如,跨基因组的窗口中的全基因组cfDNA谱)。在一些实施方案中,cfDNA片段谱可以是靶向区域谱。靶向区域可以是基因组的任何适当部分(例如染色体区域)。可如本文所述确定cfDNA片段谱的实例包括但不限于染色体的一部分(例如2q、4p、5p、6q、7p、8q、9q、10q、11q、12q和/或14q的一部分)和染色体臂(例如8q、13q、11q和/或3p的染色体臂)。在一些实施方案中,cfDNA片段谱可包括两个或更多个靶向区域谱。
在一些实施方案中,cfDNA片段谱可用于鉴定cfDNA片段长度中的变化(例如,改变)。改变可以是全基因组改变或者一个或多个靶向区域/基因座中的改变。靶区域可以是包含一个或多个癌症特异性改变的任何区域。在一些实施方案中,cfDNA片段谱可用于鉴定(例如,同时鉴定)约10个改变至约500个改变(例如,约25至约500、约50至约500、约100至约500、约200至约500、约300至约500、约10至约400、约10至约300、约10至约200、约10至约100、约10至约50、约20至约400、约30至约300、约40至约200、约50至约100、约20至约100、约25至约75、约50至约250、或约100至约200个改变)。
可以使用任何适当的方法获得cfDNA片段谱。在一些实施方案中,可以将来自哺乳动物(例如,患有或疑似患有癌症的哺乳动物)的cfDNA处理成测序文库,可使所述测序文库经受全基因组测序(例如,低覆盖率全基因组测序),映射到基因组,并且进行分析以确定cfDNA片段长度。可以在覆盖基因组的非重叠窗口中对所映射的序列进行分析。窗口可以是任何适当的大小。例如,窗口的长度可以是数千到数百万个碱基。作为一个非限制性实例,窗口可以是约5兆碱基(Mb)长。可以映射任何适当数目的窗口。例如,可以在基因组中映射数十到数千个窗口。例如,可以在基因组中映射数百到数千个窗口。可以在每个窗口内确定cfDNA片段谱。
在一些实施方案中,本文所述的方法和材料还可包括机器学习。例如,机器学习可用于鉴定突变频率、改变的片段谱(例如,使用cfDNA片段的覆盖率、cfDNA片段的片段大小、染色体的覆盖率和mtDNA)。
治疗方法
本文实施的方法包括将哺乳动物鉴定为患有癌症。该方法包括:从受试者的生物样品中提取细胞游离DNA(cfDNA);由提取的cfDNA生成基因组文库;对各个cfDNA分子进行测序,以获得突变谱;确定突变谱中的多区域差异,并且确定受试者中的体细胞突变频率;以及,对受试者施用癌症治疗。
在某些实施方案中,受试者被诊断为患有癌症,例如早期癌症。在某些实施方案中,鉴定癌症的类型,并且通过包括对于癌症类型特异性的疗法在内的各种疗法来治疗癌症。在某些实施方案中,癌症包含结肠直肠癌、肺癌、乳腺癌、胃癌、胰腺癌、胆管癌、脑癌或卵巢癌。在某些实施方案中,肺癌是小细胞肺癌(SCLC)。在某些实施方案中,肺癌是非小细胞肺癌(NSCLC)。
癌症治疗可以是手术、辅助化疗、新辅助化疗、放射疗法、激素疗法、细胞毒性疗法、免疫疗法、过继性T细胞疗法、靶向疗法或其任何组合。该方法还可以包括向哺乳动物施用癌症治疗(例如,手术、辅助化疗、新辅助化疗、放射疗法、激素疗法、细胞毒性疗法、免疫疗法、过继性T细胞疗法、靶向疗法或其任何组合)。在施用癌症治疗后,可以监测哺乳动物是否存在癌症。
一般而言,癌症疗法还包括具有基于化学和放射的治疗的各种组合疗法。组合化疗包括例如顺铂(CDDP)、卡铂、丙卡巴肼(procarbazine)、氮芥、环磷酰胺、喜树碱、异环磷酰胺、美法仑、苯丁酸氮芥、白消安、亚硝脲、更生霉素(dactinomycin)、柔红霉素、多柔比星、博来霉素、普利康霉素(plictomycin)、丝裂霉素、依托泊苷(VP16)、他莫昔芬、雷洛昔芬、雌激素受体结合剂、紫杉醇、吉西他滨、诺维本、法尼酰基蛋白转移酶抑制剂、反铂、5-氟尿嘧啶、长春新碱、长春碱和氨甲蝶呤、替马唑胺(DTIC的水性形式),或前述的任何类似物或衍生变体。化学疗法与生物疗法的组合被称为生物化疗。化疗也可以以连续的低剂量进行施用,其被称为节拍化疗。
再进一步的组合化疗包括例如:烷化剂类,诸如噻替哌(thiotepa)和环磷酰胺;烷基磺酸盐类,诸如白消安、英丙舒凡(improsulfan)和哌泊舒凡(piposulfan);氮丙啶类,诸如苯并多巴、卡波醌、美妥替哌(meturedopa)和脲多巴(uredopa);乙烯亚胺类和甲基蜜胺类,包括六甲蜜胺、三亚乙基蜜胺、三亚乙基磷酰胺、三亚乙基硫代磷酰胺和三羟甲基蜜胺;乙酸原化合物(acetogenin)(尤其是布拉他辛和布拉他辛酮);喜树碱(包括合成类似物,拓扑替康);苔藓抑素;卡利他汀类(callystatin);CC-1065(包括其阿多来新(adozelesin)、卡折来新(carzelesin)和比折来新(bizelesin)合成类似物);念珠藻素(cryptophycins)(特别是念珠藻素1和念珠藻素8);多拉司他汀;多卡霉素(duocarmycin)(包括合成类似物KW-2189和CB1-TM1);艾榴塞洛素(eleutherobin);盘克斯他汀(pancratistatin);沙考地汀(sarcodictyin);海绵抑素(spongistatin);氮芥,诸如苯丁酸氮芥(chlorambucil)、萘氮芥(chlornaphazine)、氯磷酰胺(cholophosphamide)、雌莫司汀(estramustine)、异环磷酰胺(ifosfamide)、二氯甲基二乙胺(mechlorethamine)、盐酸氧化氮芥(mechlorethamineoxide hydrochloride)、美法仑、新恩比兴(novembichin)、苯芥胆甾醇、泼尼氮芥、曲磷胺、尿嘧啶氮芥(uracil mustard);亚硝基脲类,诸如卡莫司汀、氯脲霉素、福莫司汀、洛莫斯汀、尼莫斯汀和雷莫斯汀;抗生素,诸如烯二炔类抗生素(如卡利奇霉素(calicheamicin),尤其是卡利奇霉素γ和卡利奇霉素ω);达内霉素(dynemicin),包括达内霉素A;双膦酸盐类,诸如氯膦酸盐(clodronate);埃波霉素(esperamicin);以及新制癌菌素发色团和相关的色蛋白烯二炔类抗生素发色团,阿克拉霉素(aclacinomysins),放线菌素D,氨茴霉素(authrarnycin),重氮丝氨酸,博来霉素,放线菌素C,carabicin,洋红霉素,嗜癌霉素,色霉素,更生霉素,柔红霉素,地托比星,6-重氮基-5-氧代-L-正亮氨酸,多柔比星(包括吗啉代-多柔比星、氰基吗啉代-多柔比星、2-吡咯烷基-多柔比星和脱氧多柔比星),表柔比星,依索比星,伊达比星,麻西罗霉素,丝裂霉素如丝裂霉素C,霉酚酸,诺加霉素,橄榄霉素,培洛霉素,泊非霉素,嘌呤霉素,三铁阿霉素(quelamycin),罗多比星,链黑菌素,链佐星,杀结核菌素,乌苯美司,净司他丁,佐柔比星;抗代谢物,诸如氨甲蝶呤和5-氟尿嘧啶(5-FU);叶酸类似物,诸如二甲叶酸、蝶罗呤、三甲曲沙;嘌呤类似物,诸如氟达拉滨、6-巯基嘌呤、硫咪嘌呤、硫鸟嘌呤;嘧啶类似物,诸如安西他滨、阿扎胞苷、6-氮杂尿苷、卡莫氟(carmofur)、阿糖胞苷、双脱氧尿苷、去氧氟尿苷、依诺他滨、氟尿苷;雄激素,诸如卡鲁睾酮、丙酸屈他雄酮、环硫雄醇、美雄烷、睾内酯酮;抗肾上腺素,诸如米托坦、曲洛司坦;叶酸补充剂,例如亚叶酸(frolinic acid);乙酰葡醛酯;醛磷酰胺糖苷;氨基酮戊酸;恩尿嘧啶;安吖啶;bestrabucil;比生群(bisantrene);依达曲沙;地磷酰胺;地美可辛(demecolcine);地吖醌;依氟鸟氨酸;依利醋铵;埃博霉素;依托格鲁;硝酸镓;羟基脲;香菇多糖;氯尼达明;美登木素生物碱,例如美登素和安丝菌素;米托胍腙;米托蒽醌;莫哌达醇;硝氨丙吖啶;喷司他丁;蛋氨氮芥;吡柔比星;洛索蒽醌;鬼臼酸;2-乙基酰肼;丙卡巴肼;PSK多糖复合物;雷佐生;根霉素;西索菲兰;锗螺胺;细交链孢菌酮酸;三亚胺醌;2,2',2"-三氯三乙胺;单端孢霉烯(尤其是T-2毒素、疣孢菌素A、杆孢菌素A和蛇形菌素);尿烷(urethan);长春地辛;达卡巴嗪;甘露莫司汀;二溴甘露醇;二溴卫矛醇;哌泊溴烷;gacytosine;阿糖胞苷(“Ara-C”);环磷酰胺;类紫杉烷类,诸如紫杉醇和多西他赛;吉西他滨;6-硫代鸟嘌呤;巯基嘌呤;铂配位络合物,诸如顺铂、奥沙利铂和卡铂;长春碱;铂;依托泊苷(VP-16);异环磷酰胺;米托蒽醌;长春新碱;长春瑞滨;诺肖林;替尼泊苷;依达曲沙;道诺霉素;氨甲蝶呤;希罗达;伊班膦酸盐;依立替康(如CPT-11);拓扑异构酶抑制剂RPS2000;二氟甲基鸟氨酸(DMFO);类视黄醇,诸如视黄酸;卡培他滨;卡铂、丙卡巴肼、plicomycin、吉西他滨、诺维本、法尼酰基蛋白转移酶抑制剂、反铂;以及上文任何的药学上可接受的盐、酸或衍生物。
免疫疗法通常依赖于使用免疫效应细胞和分子来靶向并破坏癌细胞。免疫效应物可以是例如对于肿瘤细胞表面上的一些标记物特异性的抗体。抗体单独可以充当治疗的效应物,或者它可以募集其它细胞来实际上实现细胞杀伤。抗体也可以与药物或毒素(化学治疗剂、放射性核素、蓖麻毒素A链、霍乱毒素、百日咳毒素等)缀合,并且仅仅充当靶向试剂。可替代地,效应物可以是携带表面分子的淋巴细胞,其中表面分子与肿瘤细胞靶直接或间接相互作用。各种效应细胞包括细胞毒性T细胞和NK细胞,以及经修饰以表达嵌合抗原受体的这些细胞类型的遗传工程化变体。
免疫疗法可包括抑制T调节细胞(Treg)、髓源性抑制细胞(MDSC)和癌症相关成纤维细胞(CAF)。在一些实施方案中,免疫疗法是肿瘤疫苗(例如,全肿瘤细胞疫苗、肽和重组肿瘤相关抗原疫苗)或过继性细胞疗法(ACT)(例如,T细胞、天然杀伤细胞、TIL和LAK细胞)。可以用针对特异性肿瘤抗原的嵌合抗原受体(CAR)或T细胞受体(TCR)对T细胞进行工程化。如本文使用的,嵌合抗原受体(或CAR)可以指对于感兴趣的抗原特异性的任何工程化受体,当在T细胞中表达时,其对T细胞赋予CAR的特异性。一旦使用标准分子技术产生,表达嵌合抗原受体的T细胞就可以引入患者内,如采用例如过继细胞转移等技术一样。在一些方面,T细胞在个体中是活化的CD4和/或CD8 T细胞,其特征在于产生γ-1FN的CD4或CD8 T细胞和/或相对于组合施用之前增强的细胞溶解活性。CD4和/或CD8 T细胞可表现出使选自IFN-γ、TNF-a和白细胞介素的细胞因子的释放增加。CD4和/或CD8 T细胞可以是效应记忆T细胞。在某些实施方案中,CD4和/或CDS效应记忆T细胞的特征在于具有CD44CD62L的表达。
免疫疗法可以是癌症疫苗,其包含一种或多种癌抗原(特别是蛋白质或其免疫原性片段),编码所述癌抗原的DNA或RNA(特别是蛋白质或其免疫源性片段),癌细胞裂解物,和/或来自肿瘤细胞的蛋白质制剂。如本文使用的,癌抗原是存在于癌细胞中的抗原性物质。原则上,在由于突变而具有异常结构的癌细胞中产生的任何蛋白质都可以充当癌抗原。原则上,癌抗原可以是突变的癌基因和肿瘤抑制基因的产物、其它突变基因的产物,过表达或异常表达的细胞蛋白、由致癌病毒产生的癌抗原、癌胚抗原、改变的细胞表面糖脂和糖蛋白、或细胞类型特异性分化抗原。癌抗原的实例包括ras和p53基因的异常产物。其它实例包括组织分化抗原、突变蛋白质抗原、致癌病毒抗原、癌-睾丸抗原和血管或基质特异性抗原。组织分化抗原是对某一类型的组织特异性的那些抗原。突变蛋白质抗原很可能对癌细胞更具特异性,因为正常细胞不应该含有这些蛋白质。正常细胞将在其MHC分子上展示正常的蛋白质抗原,而癌细胞将展示突变形式。一些病毒蛋白与癌症的形成有关,并且一些病毒抗原也是癌抗原。癌-睾丸抗原是主要在睾丸生殖细胞中表达的抗原,但也在胎儿卵巢和滋养层中表达。一些癌细胞异常表达这些蛋白质,并且因此呈现这些抗原,允许这些抗原特异性的T细胞的攻击。这种类型的示例性抗原是CTAG1 B和MAGEA1,以及Rindoppimut,一种靶向针对表皮生长因子受体vlll(EGFRvlll;外显子2–7缺失)变体的14聚体可皮内注射肽疫苗。当与如本文所述的CD95/CD95L信号传导系统的抑制剂组合使用时,Rindopepimut特别适合于治疗胶质母细胞瘤。另外,正常情况下产生的量很低,但在癌细胞中产生的量急剧增加的蛋白质可能会触发免疫应答。此类蛋白质的实例是酪氨酸酶,其是黑色素生成所必需的。正常情况下,酪氨酸酶产生的量很少,但在黑色素瘤细胞中其水平升高很多。癌胚抗原是另一类重要的癌抗原。实例是甲胎蛋白(AFP)和癌胚抗原(CEA)。正常情况下,这些蛋白质在胚胎发育的早期阶段产生,并且到免疫系统完全发育时消失。因此,并不发展针对这些抗原的自身耐受性。感染肿瘤病毒如EBV和HPV的细胞也会产生异常蛋白质。由这些病毒感染的细胞含有被转录的潜伏病毒DNA,并且所得到的蛋白质产生免疫应答。癌症疫苗可以包括肽癌症疫苗,其在一些实施方案中是个性化肽疫苗。在一些实施方案中,肽癌症疫苗是多价长肽疫苗、多肽疫苗、肽鸡尾酒式疫苗(peptide cocktail vaccine)、杂合肽疫苗或肽脉冲(peptide-pulsed)的树突状细胞疫苗。
免疫疗法可以是抗体,诸如多克隆抗体制剂的部分,或者可以是单克隆抗体。抗体可以是人源化抗体、嵌合抗体、抗体片段、双特异性抗体或单链抗体。如本文公开的抗体包括抗体片段,诸如但不限于Fab、Fab’和F(ab’)2、Fd、单链Fv(scFv)、单链抗体、二硫键连接的Fv(sdfv)和包括VL或VH结构域的片段。在一些方面,抗体或其片段特异性结合表皮生长因子受体(EGFR1、Erb-B1)、HER2/neu(Erb-B2)、CD20、血管内皮生长因子(VEGF)、胰岛素样生长因子受体(IGF-1R)、TRAIL受体、上皮细胞粘附分子、癌胚抗原、前列腺特异性膜抗原、粘蛋白-1、CD30、CD33或CD40。
单克隆抗体的实例包括但不限于:曲妥珠单抗(抗HER2/neu抗体);培妥珠单抗(抗HER2 mAb);西妥昔单抗(针对表皮生长因子受体EGFR的嵌合单克隆抗体);帕尼单抗(抗EGFR抗体);尼妥珠单抗(抗EGFR抗体);扎芦木单抗(Zalutumumab)(抗EGFR mAb);奈妥木单抗(抗EGFR mAb);MDX-210(人源化的抗HER-2双特异性抗体);MDX-210(人源化的抗HER-2双特异性抗体);MDX-447(人源化的抗EGF受体双特异性抗体);利妥昔单抗(嵌合鼠/人抗CD20mAb);阿托珠单抗(抗CD20 mAb);奥法木单抗(抗CD20 mAb);Tositumumab-I131(抗CD20mAb);替伊莫单抗(抗CD20 mAb);贝伐珠单抗(抗VEGF mAb);雷莫芦单抗(抗VEGFR2 mAb);雷珠单抗(抗VEGF mAb);阿柏西普(与IgG1 Fc融合的VEGFR1和VEGFR2的细胞外结构域);AMG386(与IgG1 Fc融合的血管生成素-1和-2结合肽);达罗托组单抗(抗IGF-1RmAb);吉妥珠单抗奥唑米星(抗CD33 mAb);阿仑单抗(抗Campath-1/CD52 mAb);维布妥昔单抗(抗CD30mAb);卡妥索单抗(靶向上皮细胞粘附分子和CD3的双特异性mAb);那普妥莫单抗(抗5T4mAb);吉妥昔单抗(抗碳酸酐酶ix);或法妥组单抗(抗叶酸受体)。其它实例包括抗体,诸如PanorexTM(17-1A)(鼠单克隆抗体);Panorex(MAb17-lA)(嵌合鼠单克隆抗体);BEC2(抗特型mAb,模拟GD表位)(具有BCG);Oncolym(Lym-1单克隆抗体);SMART M195 Ab,人源化的13’1LYM-1(Oncoloym),Ovarex(B43.13,抗特型鼠mAb);结合腺癌上的EGP40(17-1A)泛癌抗原的3622W94 mAb;Zenapax(SMART抗Tac(IL-2受体);SMART M195 Ab,人源化Ab,人源化的);NovoMAbG2(泛癌特异性Ab);TNT(针对组蛋白抗原的嵌合mAb);TNT(针对组蛋白抗原的嵌合mAb);Gliomab-H(单克隆人源化Ab);GNI-250Mab;EMD-72000(嵌合EGF拮抗剂);LymphoCide(人源化IL.L.2抗体);和MDX-260双特异性,靶向GD-2、ANA Ab、SMART IDIO Ab、SMART ABL364Ab或ImmuRAITCEA。抗体的其它实例包括扎努木单抗(Zanulimumab)(抗CD4 mAb)、凯利昔单抗(抗CD4 mAb);伊匹木单抗(MDX-101;抗CTLA-4mAb);Tremilimumab(抗CTLA-4mAb);(达克珠单抗(抗CD25/IL-2R mAb);巴利昔单抗(抗CD25/IL-2R mAb);MDX-1106(抗PD1mAb);针对GITR的抗体;GC1008(抗TGF-β抗体);美替木单抗/CAT-192(抗TGF-β抗体);乐德木单抗/CAT-152(抗TGF-β抗体);ID11(抗TGF-β抗体);地诺单抗(抗RANKL mAb);BMS-663513(人源化的抗4-1BB mAb);SGN-40(人源化的抗CD40 mAb);CP870,893(人抗CD40mAb);英夫利昔单抗(嵌合抗TNF mAb;阿达木单抗(人抗TNF mAb);赛妥珠单抗(人源化的Fab抗TNF);戈利木单抗(抗TNF);依那西普(与IgG1 Fc融合的TNFR的细胞外结构域);贝拉西普(与Fe融合的CTLA-4的细胞外结构域);阿巴西普(与Fe融合的CTLA-4的细胞外结构域);贝利木单抗(抗B淋巴细胞刺激因子);莫罗单抗-CD3(抗CD3 mAb);奥昔组单抗(抗CD3mAb);替利组单抗(抗CD3 mAb);托珠单抗(抗IL6R mAb);REGN88(抗IL6R mAb);乌司奴单抗(抗IL-12/23mAb);布雷奴单抗(抗IL-12/23mAb);那他珠单抗(抗α4整联蛋白);维多珠单抗(抗α4β7整联蛋白mAb);T1 h(抗CD6 mAb);依帕珠单抗(抗CD22 mAb);依法珠单抗(抗CD11amAb);和阿塞西普(与Fc融合的跨膜激活物和钙调节配体相互作用分子的细胞外结构域)。
系统
在一些实例中,本公开内容提供了系统、方法或套件(kit),其可包括在测量设备(例如实验室仪器,例如测序机)中实现的数据分析、在计算硬件上执行的软件代码。软件可以存储在存储器中,并且在一个或多个硬件处理器上执行。软件可以被组构成能够相互通信的例行程序或包。模块可以包括一个或多个设备/计算机,以及潜在地在一个或多个设备/计算机上执行的一个或多个软件例行程序/包。例如,分析应用程序或系统可包括至少数据接收模块、数据预处理模块、数据分析模块(其可以对一种或多种类型的基因组数据进行操作)、数据解释模块或数据可视化模块。
数据接收模块可以将实验室硬件或仪器与处理实验室数据的计算机系统连接。数据预处理模块可以对数据执行操作,为分析做准备。可以应用于预处理模块中的数据的操作的实例包括仿射变换、去噪操作、数据清理、重新格式化或二次采样。数据分析模块可以专门用于分析来自一种或多种基因组材料的基因组数据,例如可以获取组装的基因组序列并执行概率和统计分析,以鉴定与疾病、病理状态、状态、风险、状况或表型相关的异常模式。数据解释模块可以使用例如来自统计学、数学或生物学的分析方法,以支持对所鉴定的异常模式与健康状况、功能状态、预后或风险之间关系的理解。数据分析模块和/或数据解释模块可包括一个或多个机器学习模型,其可以在硬件中实现,例如,所述硬件执行体现机器学习模型的软件。数据可视化模块可以使用数学建模、计算机图形或渲染的方法来创建数据的可视化表示,从而促进对结果的理解或解释。本公开提供了被编程以实现本公开方法的计算机系统。
在一些实施方案中,本文公开的方法可包括:对来自个体或多个个体的样品的核酸测序数据进行计算分析。分析可基于概率建模、统计建模、机械建模、网络建模或统计推断来鉴定从序列数据推断的变体,从而鉴定序列变体。分析方法的非限制性实例包括主成分分析、自编码器、奇异值分解、傅立叶基、小波分析(wavelets)、判别分析、回归、支持向量机、基于树的方法、网络、矩阵分解和聚类分析(clustering)。变体的非限制实例包括种系变异或体细胞突变。在一些实例中,变体可以指已知的变体。已知的变体可以被科学证实或在文献中报道。在一些实例中,变体可以指与生物学变化相关的推定变体(putativevariant)。生物学变化可以是已知的或未知的。在一些实例中,推定变体可以在文献中报道,但尚未得到生物学证实。可替代地,推定变体从未在文献中报道,但是可以基于本文公开的计算分析来推断。在一些实例中,种系变体可以指诱导天然或正常变异的核酸。
在某些实施方案中,计算机系统包括中央处理器(CPU,在本文中也称为“处理器”和“计算机处理器”),其可以是单核或多核处理器,或者用于并行处理的多个处理器;存储器(例如,高速缓冲存储器、随机存取存储器、只读存储器、闪速存储器或其它存储器);电子存储单元(例如,硬盘)、用于与一个或多个其它系统通信的通信接口(例如,网络适配器);以及外围设备,诸如用于高速缓冲存储器、其它存储器、数据存储器和/或电子显示器的适配器。存储器、存储单元、接口和外围设备可以通过通信总线(实线)例如主板与CPU通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。可以从一个或多个测量设备输入一种或多种分析物特征输入。本文描述了示例分析物和测量设备。
计算机系统借助于通信接口可操作地连接到计算机网络(“网络”)。网络可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些情况下,网络是电信和/或数据网络。网络可以包括一个或多个计算机服务器,其能够实现分布式计算,诸如网络(“云”)上的云计算,以执行本公开的分析、计算和生成的各个方面,例如如阀或泵的激活以将试剂或样品从一个腔室转移到另一腔室,或向样品施加热(例如,在扩增反应期间),处理和/或测定样品的其它方面,执行测序分析,测量代表分子类别的值集合,从测定数据中鉴定特征和特征向量集合,使用机器学习模型处理特征向量以获得输出分类,以及训练机器学习模型(例如迭代地搜索机器学习模型的参数的最佳值)。此类云计算可以由云计算平台提供,这些平台例如如亚马逊网络服务(Amazon Web Services,AWS)、微软(Microsoft)Azure、谷歌云平台(Google Cloud Platform)和IBM云。在一些情况下,借助于计算机系统,网络可以实现对等网络,这可以使连接到计算机系统的设备能够充当客户端或服务器。
CPU可以执行一系列机器可读指令,其可以包含在程序或软件中。指令可以存储在存储器位置,诸如存储器中。指令可以被引导到CPU,CPU随后可以对CPU进行编程或以其它方式配置以实现本公开的方法。CPU可以是电路(诸如集成电路)的一部分。系统的一个或多个其它部件可以包括在电路中。在一些情况下,电路是专用集成电路(ASIC)。
存储单元可存储文件,诸如驱动程序、文库和保存的程序。存储单元可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统可包括一个或多个位于计算机系统外部的附加数据存储单元,例如定位于通过内联网或因特网与计算机系统通信的远程服务器上。
计算机系统可通过网络与一个或多个远程计算机系统通信。例如,计算机系统可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、触屏平板或平板PC(例如,iPad、Galaxy Tab)、电话、智能手机(例如,iPhone、支持安卓系统的设备、)或个人数字助理。用户可以经由网络访问计算机系统。
本文所述的方法可通过存储在计算机系统的电子存储位置,例如如存储器或电子存储单元上的机器(例如,计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用过程中,代码可以由CPU执行。在一些情况下,代码可以在存储单元中检索并且存储在存储器上,以供CPU随时访问。在一些情形下,可以排除电子存储单元,并且机器可执行指令存储在存储器上。
可对代码进行预编译并配置,以供具有适于执行代码的处理器的机器使用,或者可以在运行过程中进行编译。代码可以以编程语言的形式来提供,该编程语言可以被选择以使得代码能够以预编译或编译的方式执行。
本文提供的系统和方法的各方面,诸如计算机系统可以在编程中体现。该技术的各个方面可以被视为通常以机器(或处理器)可执行代码和/或相关数据形式的“产品”或“制品”,这些代码和/或相关数据被携带或包含在一类机器可读介质中。机器可执行代码可以存储在电子存储单元,例如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”类型的介质可包括计算机、处理器等的任何或所有有形存储器或者其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其它电信网络进行通信。例如,此类通信可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器内,例如,从管理服务器或主计算机加载到应用服务器的计算机平台内。因此,可以承载软件元件的另一类介质包括例如跨越本地设备之间的物理接口、通过有线和光纤固话网络以及在各种空中链路(air-links)上使用的光波、电波和电磁波。携带此类波的物理元件,例如有线或无线链路、光学链路等,也可以被视为承载软件的介质。如本文使用的,除非限于非暂时性的、有形的“存储”介质,否则术语例如计算机或机器“可读介质”是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质,诸如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,诸如任何计算机等中的任何存储设备,诸如可用于实现图中所示的数据库等。易失性存储介质包括动态存储器,诸如此类计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的导线。
载波传输介质可采取电信号或电磁信号的形式,或者采用声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些声波或光波。因此,计算机可读介质的常见形式包括例如:软磁盘、软盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD或DVD-ROM、任何其它光学介质、穿孔卡片纸带、任何其它具有孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其它存储芯片或盒、传输数据或指令的载波、传输此类载波的电缆或链路、或者计算机可以从其中读取编程代码和/或数据的任何其它介质。许多这些形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
计算机系统可包括电子显示器或与电子显示器通信,其中电子显示器包含用户界面(UI),用于提供例如样品处理或测定的当前阶段(例如,特定步骤,诸如裂解步骤,或正在执行的测序步骤)。通过计算机系统从一个或多个测量接收输入。UI的实例包括但不限于图形用户界面(GUI)和基于web的用户界面。例如,算法可以处理和/或测定样品,执行测序分析,测量代表分子类别的值集合,从测定数据中鉴定特征和特征向量集合,使用机器学习模型处理特征向量以获得输出分类,并且训练机器学习模型(例如,迭代地搜索机器学习模型的参数的最佳值)。
在一些实施方案中,能够执行一种或多种算法(用于确定cfDNA突变谱、突变频率和/或片段谱中的变化)的系统,例如膝上型计算机、台式机、iPad、移动设备等基于受试者的cfDNA突变谱、突变频率或片段将受试者分类为癌症患者。这些系统进一步执行机器学习算法,其可以用于生成模型,诸如如高危群体和低危普通群体(使用Mathios等人(MathiosD,Johansen JS,Cristiano S,Medina JE,Phallen J,Larsen KR等人Detection andcharacterization of lung cancer using cell-free DNA fragmentomes.Nat Commun2021;12(1):5060)的惩罚逻辑回归)特征以及来自转录因子结合位点的覆盖。这些模型可以对受试者队列进行训练,伴随具有10次重复的5重交叉验证,并且关于每个样品的评分通过跨越重复的均值进行计算,并且使用AUC-ROC进行评估。例如,第一个模型使用高危非癌症和HCC患者,而第二个模型使用没有肝脏病理状况的非癌症个体。对队列训练的锁定高危模型应用于第二个且不同的队列,以对外部验证集生成癌症预测。“类别标签”可以应用于每个样品,指示任何数目的输入特征的样品分类。例如,关于队列集合的类别标签可以指示cfDNA突变谱的身份、基于基因组定位的突变频率和/或片段谱等。将所得到的训练集提供给机器学习单元,例如神经网络或支持向量机。使用训练集,机器学习单元可以生成模型,以根据cfDNA突变谱、突变频率和/或片段谱对样品进行分类。
在一些实施方案中,提供了用于创建经训练的分类器的方法,其包括以下步骤:(a)提供多个不同的类别,其中每个类别代表具有共享特征的受试者集合(例如,来自一个或多个队列);(b)提供代表来自属于每个类别的多个样品各自的细胞游离DNA分子的多参数模型,从而提供训练数据集;并且(c)在训练数据集上训练学习算法,以创建一个或多个训练分类器,其中每个训练分类器将测试样品分类到多个类别中的一个或多个类中。
例如,经训练的分类器可使用选自以下的学习算法:随机森林、神经网络、支持向量机和线性分类器。多个不同类别中的每一个可选自健康体、乳腺癌、结肠癌、肺癌、胰腺癌、前列腺癌、卵巢癌、黑色素瘤和肝癌。
经训练的分类器可应用于对来自受试者的样品进行分类的方法。这种分类方法可以包括:(a)提供代表来自受试者的测试样品的细胞游离DNA分子的多参数模型;以及,(b)使用经训练的分类器对测试样品进行分类。在测试样品分类到一个或多个类别之后,可以基于样品的分类对受试者进行治疗干预。
在一些实施方案中,将训练集提供给机器学习单元,例如神经网络或支持向量机。使用训练集,机器学习单元可以生成模型,以根据对一个或多个治疗干预的治疗响应对样品进行分类。这也被称为“调用(calling)”。所开发的模型可以采用来自测试向量的任何部分的信息。
一般而言,机器学习可用于将从所有(原始样品/分析物/测试)组合生成的一组数据简化成最佳预测特征集,例如,其满足指定的标准。在各种实例中,可以应用统计学习和/或回归分析。从简单到复杂以及从小到大的模型进行的各种建模假设可以应用于交叉验证范例中的数据。从简单到复杂包括考虑特征的线性到非线性以及非层次(non-hierarchical)到层次表示。从小到大的模型包括考虑数据投影到基础向量空间的大小以及在建模过程中包括的特征之间的交互作次数。
机器学习技术可用于评价对于如初始问题中定义的成本/性能/商业覆盖范围最佳的商业测试模式。可以执行阈值检查:如果应用于未在交叉验证中使用的保留数据集的方法超过了初始化的约束,则锁定测定,并启动生产。例如,测定性能的阈值可以包括期望的最小准确度、阳性预测值(PPV)、阴性预测值(NPV)、临床灵敏度、临床特异性、曲线下面积(AUC)或其组合。例如,期望的最小准确度、PPV、NPV、临床灵敏度、临床特异性或其组合可以是至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。作为另一个实例,期望的最小AUC可以是至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.81、至少约0.82、至少约0.83、至少约0.84、至少约0.85、至少约0.86、至少约0.87、至少约0.88、至少约0.89、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。可以根据测定性能的阈值,诸如期望的最小准确度、阳性预测值(PPV)、阴性预测值(NPV)、临床灵敏度、临床特异性、曲线下面积(AUC)及其组合,基于执行测定子集的总成本,从待对给定样品执行的测定集合中选择测定子集。如果不满足阈值,则测定操纵程序可以循环回到约束设置用于可能的放松,或者循环回到湿实验室以改变其中获取数据的参数。考虑到临床问题,生物学约束、预算、实验室机器等都可以约束这个问题。
在某些实施方案中,机器学习技术的计算机处理可包括统计学、数学、生物学或其任何组合的方法。在各种实例中,任何一种计算机处理方法可包括降维方法、逻辑回归、降维、主成分分析、自动编码器、奇异值分解、傅立叶基、奇异值分解、小波分析、判别分析、支持向量机、基于树的方法、随机森林、梯度提升树、逻辑回归、矩阵分解、网络聚类、统计测试和神经网络。
在某些实施方案中,机器学习技术的计算机处理可包括逻辑回归、多元线性回归(MLR)、降维、偏最小二乘(PLS)回归、主成分回归、自动编码器、变分自动编码器、奇异值分解、傅立叶基、小波分析、判别分析、支持向量机、决策树、分类与回归树(CART)、基于树的方法、随机森林、梯度提升树、逻辑回归、矩阵分解、多尺度分析(MDS)、降维方法、t-分布随机邻域嵌入(t-SNE)、多层感知器(MLP)、网络聚类、神经模糊、神经网络(浅层和深层)、人工神经网络、皮尔逊积矩相关系数、斯皮尔曼等级相关系数、Kendall tau等级相关系数或其任何组合。在一些实例中,计算机处理方法是受监督的机器学习方法(supervised machinelearning method),包括例如回归、支持向量机、基于树的方法和神经网络。在一些实例中,计算机处理方法是无监督机器学习方法,例如包括聚类、网络、主成分分析和矩阵分解。
对于监督学习,训练样品(例如,以千计)可包括(例如,各种分析物的)测量数据和已知标签,其可以经由其它耗时的过程进行确定,例如受试者的成像和通过受过训练的从业者进行的分析。示例标签可以包括受试者的分类,例如,受试者是否患有癌症的离散分类,或者提供离散值的概率(例如,风险或评分)的连续分类。学习模块可以优化模型的参数,使得利用一个或多个指定标准来实现质量度量(例如,对已知标签的预测准确性)。确定质量度量可以对于任何任意函数来实现,包括所有风险、损失、效用和决策函数的集合。梯度可以与学习步骤结合使用(例如,对于优化过程的给定时间步长,模型的参数应该更新多少的度量)。
如上文所述,实例可以用于各种目的。例如,可以从对于状况有症状(例如,已知患有该状况)的受试者和健康受试者中收集血浆(或其它样品)。可以采集和分析遗传数据(例如,cfDNA),以获得各种不同的特征,其可以包括基于全基因组分析的特征。这些特征可以形成特征空间,对该特征空间进行搜索、拉伸、旋转、平移以及线性或非线性变换,以生成准确的机器学习模型,所述模型可以区别健康受试者和患有该病症的受试者(例如,鉴定受试者的疾病或非疾病状态)。从该数据和模型导出的输出(其可以包括病症的概率、病症的阶段(水平)或其它值)可以用于生成另一模型,该另一模型可以用于推荐进一步的程序,例如,推荐活组织检查或持续监测受试者的病症。
在一些实施方案中,可以通过一组多路复用阵列来分析来自几个个体群体的DNA。每个多路复用阵列的数据可以使用包含在该特定阵列中的信息进行自标准化。该标准化算法可以对于在双色通道中观察到的标称强度变化、通道之间的背景差异以及染料之间的可能串扰进行调整。然后可以使用聚类算法对每个碱基位置的行为进行建模,其中聚类算法结合了关于突变谱、突变频率和/或片段谱的几种生物学启发法(biologicalheuristics)。在其中观察到很少cfDNA片段的情况下(例如,由于次要等位基因频率低),可以使用神经网络来估计缺失序列的位置和形状。取决于谱和百分比序列同一性,可以设计统计评分(训练评分)。评分诸如GenCall Score被设计为模仿通过人类专家的视觉和认知系统做出的评估。另外,已使用来自顶部链和底部链的基因分型数据对其进行进化。该评分可以与几个惩罚项(例如,低强度、现有和预测的cfDNA片段之间的错配)组合,以补足训练评分。保存训练评分以供调用算法使用。
为了调用治疗响应,调用算法可以获取患有疾病或病症的多个个体的遗传信息和治疗响应。数据可以首先被标准化(使用与用于聚类算法相同的程序)。可以使用例如贝叶斯模型来执行调用操作(分类)。每个调用的调用评分的评分可以是训练评分和数据模型拟合评分的乘积。在对所有治疗响应评分之后,应用程序可以计算综合评分。
在一些实施方案中,训练数据集包含选自癌症分期、手术操作类型、年龄、肿瘤分级、肿瘤浸润深度、术后并发症的发生和静脉侵犯的存在的临床数据。在一些实施方案中,对训练数据集进行预处理,包括将所提供的数据转换成类别-条件概率。
另一实施方案使用机器学习技术,以基于关于每个患者的组织学报告的语料库中的单词出现,为每个癌症阶段类别训练统计分类器,特别是支持向量机。然后,可以根据最可能的阶段对新的报告进行分类,从而促进群体分期数据的收集和分析。
在一些实施方案中,机器学习算法选自由以下组成的组:选自支持向量机、随机森林、最近邻分析、线性回归、二元决策树、判别分析、逻辑分类器和聚类分析的有监督或无监督学习算法。
一般而言,系统可以包括用于报告癌症测试结果和治疗选项的报告生成器。报告生成器系统可以是中央数据处理系统,其配置为通过通信链路与以下直接建立通信:远程数据站点或实验室、医疗机构/保健提供者(治疗专业人员)和/或患者/受试者。实验室可以是医学实验室、诊断实验室、医疗设施、医疗机构、护理点测试设备或能够生成受试者临床信息的任何其它远程数据站点。受试者临床信息包括但不限于实验室测试数据、X射线数据、检查和诊断。医疗保健提供者或诊所26包括医疗服务提供者,诸如医生、护士、家庭健康助理、技师和医师助理,并且诊所是配备有医疗保健提供者的任何医疗保健机构。在某些情况下,医疗保健提供者/诊所也是远程数据站点。在癌症治疗实施方案中,受试者可能患有癌症等。
关于癌症受试者的其它临床信息包括针对本领域普通技术人员可以容易鉴定的特定癌症的实验室测试、成像或医疗程序的结果。癌症临床信息的适当来源列表包括但不限于:CT扫描、MRI扫描、超声扫描、骨扫描、PET扫描、骨髓测试、钡X射线检查、内窥镜检查、淋巴管造影、IVU(静脉尿路造影)或IVP(IV肾盂造影)、腰椎穿刺、膀胱镜检查、免疫学测试(抗恶性素抗体筛查)和癌症标记物测试。
受试者临床信息可以手动或自动从实验室获得。为了简化系统,信息以预定或规律的时间间隔自动获得。规律的时间间隔指在其下通过本文所述的方法和系统基于时间(例如数小时、数天、数周、数月、数年等)测量自动进行实验室数据收集的时间间隔。在本发明的一个实施方案中,每天至少进行一次数据收集和处理。在一个实施方案中,数据的传输和收集每月一次、每两周一次、或每周一次、或每几天一次进行。可替代地,信息的检索可以以预定但不规律的时间间隔进行。例如,第一检索步骤可能在一周之后进行,而第二检索步骤可能在一个月之后进行。数据的传输和收集可以根据待管理的病症的性质以及受试者的所需测试和医学检查的频率来定制。
在某些实施方案中,由受试者的样品例如cfDNA生成遗传报告。可以对样品中的多核苷酸进行测序,例如全基因组测序、NGS测序,产生多个序列读数。在一些实施方案中,遗传信息包括定义癌细胞的基因组组构或单个扩散癌细胞的基因组组构的变量。在一些实施方案中,遗传信息包含来自个体的细胞游离DNA中的一个或多个遗传基因座的序列或丰度数据。
对cfDNA遗传信息进行处理(72)。还可以鉴定遗传变体。遗传变体包括序列变体、拷贝数变体和核苷酸修饰变体。序列变体是遗传核苷酸序列中的变异。拷贝数变体是在基因组的一部分在拷贝数上与野生型的偏差。遗传变体包括例如单核苷酸变异(SNP)、插入、缺失、倒置、颠换、易位、基因融合、染色体融合、基因截短、拷贝数变异(例如,非整倍体、部分非整倍性、多倍性、基因扩增)、核酸化学修饰中的异常变化、表观遗传模式中的异常变化和核酸甲基化中的异常变化。然后,该过程确定含有遗传物质的样品中的遗传变体的频率。由于这一过程是有噪声的,因此该过程将信息与噪声分开(73)。检测遗传变体的灵敏度可以通过增加多核苷酸的读数深度(例如,通过在两个或更多个时间点将来自受试者的样品测序到更大的读数深度)得到增加。
为了增加诊断置信度,可以进行多次测量。或者可替代地,使用在多个时间点(例如,2、3、4、5、6、7、8、9、10个或更多个时间点)的测量来确定癌症是否正在进展、处于缓解还是稳定。诊断置信度可用于鉴定疾病状态。例如,取自受试者的细胞游离多核苷酸可以包括衍生自正常细胞的多核苷酸,以及衍生自患病细胞(例如癌细胞)的多核苷酸。来自癌细胞的多核苷酸可能携带遗传变体,例如体细胞突变和拷贝数变体。当对来自受试者的样品的细胞游离多核苷酸进行测序时,可以产生cfDNA突变谱、突变频率和/或片段谱,如下述实施例节段中所描述的。
使用本文所述的方法和系统能够检测多种癌症。与大多数细胞一样,癌细胞的特征在于更新速度,即衰老细胞死亡并被新的细胞替换。通常,与给定受试者中的脉管系统接触的死细胞会将DNA或DNA片段释放到血流内。在疾病的各个阶段中,癌细胞也是如此。取决于疾病的阶段,癌细胞还可以通过各种遗传异常例如拷贝数变异以及突变进行表征。这一现象可以用于使用本文所述的方法和系统来检测癌症个体的存在或不存在。
在癌症的早期检测中,本文所述的任何系统或方法,包括突变检测或拷贝数变异检测都可以用于检测癌症。这些系统和方法可用于检测可能导致或引起癌症的任何数目的遗传畸变。这些可能包括但不限于cfDNA突变谱、突变频率、cfDNA片段谱、突变、突变、插入缺失(indels)、拷贝数变异、颠换、易位、倒置、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体病变、DNA病变、核酸化学修饰中的异常变化、表观遗传模式中的异常变化、核酸甲基化感染中的异常变化和癌症。
另外,本文所述的系统和方法也可以用于帮助表征某些癌症。由本公开的系统和方法产生的遗传数据可以允许从业者帮助更好地表征特定形式的癌症。通常情况下,癌症在组成和分期方面均是不同的。遗传谱数据使得能够表征癌症的特定亚型,其在该特定亚型的诊断或治疗中可能是重要的。这一信息还可以为受试者或从业者提供关于特定类型的癌症的预后的线索。
本文提供的系统和方法可用于监测特定受试者中的已知癌症或其它疾病。这可以允许受试者或从业者根据疾病的进展来调整治疗方案。在该实例中,本文所述的系统和方法可用于构建疾病过程的特定受试者的遗传cfDNA突变谱、突变频率和/或片段谱。在一些情况下,癌症可以进展,变得更具侵略性和遗传上不稳定。在其它实例中,癌症可能保持良性、无活性或休眠。本公开的系统和方法可用于确定疾病进展。
进一步地,本文所述的系统和方法可用于确定特定治疗方案的功效。在一个实例中,某些治疗方案可能与随着时间的癌症的遗传cfDNA突变谱、突变频率和/或片段谱具有相关性。这种相关性在选择疗法方面可能是有用的。另外,如果观察到癌症在治疗后处于缓解中,则本文所述的系统和方法可以用于监测残留疾病或疾病复发。
进一步地,本公开的方法可以用于表征受试者中的异常状况的异质性,该方法包括产生受试者中细胞外多核苷酸的cfDNA突变谱、突变频率和/或片段谱,其中cfDNA突变谱包括来自于谱变异和突变分析的多个数据。在一些情况下,其包括但不限于癌症,疾病可能是异质性的。疾病细胞可能不相同的。在癌症的实例中,已知一些肿瘤包含不同类型的肿瘤细胞,一些细胞处于癌症的不同阶段。在其它实例中,异质性可能包含疾病的多个病灶。再次,在癌症的实例中,可能存在多个肿瘤病灶,其中一个或多个病灶可能是从原发部位扩散的转移的结果(也称为远处转移)。
本公开的方法可以用于生成谱、指纹或数据集,其为衍生自异质性疾病中的不同细胞的遗传信息的总和。这一数据集可包括单独或组合的拷贝数变异和突变分析。
进一步地,这些报告经由互联网以电子方式提交且访问。数据分析在除受试者所在地外的地点进行。生成报告并将其发送到受试者的所在地。经由联网的计算机,受试者访问反映其肿瘤负荷的报告。
注释信息可以由医疗保健提供者用于选择其它药物治疗方案和/或向保险公司提供关于药物治疗方案的信息。该方法可以包括在例如NCCN肿瘤学临床实践指南(NCCNClinical Practice Guidelines in OncologyTM)或美国临床肿瘤学会(American Societyof Clinical Oncology)(ASCO)临床实践指南中注释用于状况的药物治疗方案。
生成报告,绘制关于癌症受试者的基因组位置和cfDNA突变谱变异。与具有已知结果的受试者的其它谱相比,这些报告可以表明特定癌症是侵袭性且是对治疗有抗性的。对受试者进行一段时间的检测并重新测试。如果在该时期结束时,cfDNA突变谱、突变频率和/或片段变异谱并未变化,则这可能表明当前的治疗不起作用。与其它受试者的cfDNA突变谱进行比较。例如,如果确定cfDNA突变变异中的变化表明癌症正在进展,则所开具的原始治疗方案不再治疗癌症,并开出新的治疗方案。
在某些实施方案中,该系统接收来自DNA测序仪的遗传信息。该过程则确定特异性cfDNA改变及其频率。这些报告经由互联网以电子方式提交且访问。数据分析在除受试者所在地外的地点进行。生成报告并将其发送到受试者的所在地。经由联网的计算机,受试者访问反映其肿瘤负荷的报告。
虽然时间信息可用于增强关于cfDNA突变谱和突变频率的信息,但也可应用其它共识方法(consensus methods)。在其它实施方案中,历史比较可以与其它共识的cfDNA突变谱、突变频率和/或片段谱结合使用。共识的cfDNA突变谱和突变频率可以针对照样品进行标准化。映射到参考序列的分子测量也可以跨越基因组进行比较,以鉴定基因组中cfDNA突变谱和突变频率变化或保持相同的区域。共识方法包括例如构建衍生自数字通信理论、信息理论或生物信息学的共识cfDNA突变谱和突变频率的线性或非线性方法(例如投票、求平均值、统计、最大后验或最大似然检测、动态规划、贝叶斯、隐马尔可夫或支持向量机方法等)。在已确定序列读数覆盖率后,应用随机建模算法,以将关于每个窗口区域的标准化核酸序列读数覆盖率转换为离散拷贝数状态。在一些情况下,该算法可以包含下述中的一个或多个:隐马尔可夫模型、动态规划、支持向量机、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼滤波方法和神经网络。
人工神经网络(NNet)基于大脑的神经结构模仿“神经元”网络。它们一次处理一个记录,或者以批处理模式处理记录,并且通过将其记录的分类(在开始时,这很大程度上是任意的)与已知的实际记录分类进行比较来“学习”。在MLP-NNet中,来自第一个记录的初始分类的错误被反馈回网络内,并且用于第二次修改网络的算法,以此类推用于许多迭代。神经网络使用迭代学习过程,其中数据病例(行)一次一个地呈现给网络,并且每次调整与输入值相关联的权重。
在呈现所有病例后,过程通常重新开始。在这个学习阶段过程中,网络通过调整权重进行学习,以便能够预测输入样品的正确类别标签。由于单元之间的联系,神经网络学习也被称为“连接学习(connectionist learning)”。神经网络的优点包括其对噪声数据的高容忍度,以及对未经训练的模式进行分类的能力。一种神经网络算法是反向传播算法,如Levenberg-Marquadt。一旦已对于特定应用构建了网络,就可以对该网络进行训练。为了开始这个过程,初始权重是随机选择的。然后,开始训练或学习。
网络使用隐藏层中的权重和函数,一次处理一个训练数据中的记录,然后将所得到的输出与期望输出进行比较。然后,错误通过系统传播回来,引起系统调整权重以应用于待处理的下一个记录。随着权重不断地调整,这个过程反复地发生。在网络的训练过程中,随着连接权重不断地改进,同一数据集合被处理多次。
在一实施方案中,机器学习单元对训练数据集的训练步骤可生成一个或多个分类模型以应用于测试样品。这些分类模型可以应用于测试样品,以预测受试者对治疗干预的响应。
将序列覆盖率与对照样品或参考序列进行比较可有助于跨窗口的标准化。在该实施方案中,从容易获得的体液(如血液)中提取且分离细胞游离DNA。例如,可使用本领域已知的各种方法来提取细胞游离DNA,包括但不限于异丙醇沉淀和/或基于二氧化硅的纯化。可以从任何数目的受试者中提取细胞游离DNA,所述受试者例如未患癌症的受试者、有患癌风险的受试者或已患有癌症的受试者(例如通过其它手段)。
在分离/提取步骤之后,可以对细胞游离多核苷酸样品进行多种不同测序操作中的任一种。在测序之前,可以用一种或多种试剂(例如酶、唯一标识符(例如条形码)、探针等)来处理样品。在一些情况下,如果用唯一标识符例如条形码处理样品,则可以用唯一标识符个别地或以亚组的形式来标记样品或样品的片段。经标记的样品然后可以用于下游应用例如测序反应中,通过该反应可以追踪各个分子到亲本分子。
可标记或追踪细胞游离多核苷酸,以允许特定多核苷酸的后续鉴定和起源。将标识符(例如条形码)分配给多核苷酸的个体或亚组使得能够将唯一标识符分配给单个序列或序列的片段。这可以允许从各个样品获取数据,并不限于样品的平均值。在一些实例中,衍生自单链的核酸或其它分子可以共享共同标签或标识符,并且因此稍后可以被鉴定为衍生自该链。类似地,来自核酸单链的所有片段可以用相同的标识符或标签来标记,从而允许后续鉴定来自亲本链的片段。在其它情况下,可以对基因表达产物(例如,mRNA)进行标记以定量表达,由此,能够计数条形码或与它附着至其的序列组合的条形码。在另外其它情况下,系统和方法可以用作PCR扩增对照。在此类情况下,来自PCR反应的多个扩增产物可以用相同的标签或标识符进行标记。如果随后对产物进行测序并证实序列差异,则具有相同标识符的产物中的差异可以归于PCR错误。另外,可以基于关于读数自身的序列数据的特性来鉴定各个序列。例如,在各个测序读数的开始(起始)和结束(终止)部分的唯一序列数据的检测可以单独使用,或者与每个序列读数的唯一序列的长度或碱基对的数目组合使用,以将唯一标识符分配给各个分子。已分配唯一标识符的来自核酸单链的片段从而可以允许来自亲本链的片段的后续鉴定。这可以与限制初始起始遗传物质的瓶颈结合使用,以限制多样性。
通常,本文提供的方法和系统可用于制备下游应用测序反应的细胞游离多核苷酸序列。通常,测序方法是下一代测序(NGS)、经典桑格测序、全基因组亚硫酸氢盐测序(WGSB)、小RNA测序、低覆盖率全基因组测序(lcWGS)等。
如本文使用的,术语“测序”是指用于确定生物分子(例如核酸,如DNA或RNA)序列的多种技术中的任一种。示例性测序方法包括但不限于靶向测序、单分子实时测序、外显子测序、基于电子显微镜检查的测序、面板测序(panel sequencing)、晶体管介导的测序、直接测序、随机鸟枪法测序、桑格双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、凝胶电泳、双链测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模并行签名测序、乳液PCR、低温变性共扩增PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、双端测序、近期测序(near-term sequencing)、核酸外切酶测序、连接测序、短读测序、单分子测序、合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析测序、SOLiDTM测序、MS-PET测序及其组合。在一些实施方案中,测序可以通过基因分析仪,例如从Illumina或Applied Biosystems商购可得的基因分析仪进行。在一些实施方案中,测序方法可以是大规模并行测序,即同时(或快速连续)测序至少100、1000、10000、100000、100万、1000万、1亿或10亿多核苷酸分子中的任一个。
测序后,为读数分配质量评分。质量评分可以是读数的表示,其指示这些读数是否可用于基于阈值的后续分析中。在一些情况下,一些读数的质量或长度不足以进行后续的映射步骤。可以从数据集中过滤出质量评分至少90%、95%、99%、99.9%、99.99%或99.999%的测序读数。在其它情况下,可以从数据集中过滤出质量评分至少90%、95%、99%、99.9%、99.99%或99.999%的测序读数。将符合指定的质量评分阈值的基因组片段读数映射到参考基因组,或已知不含突变的参考序列。在映射比对后,为序列读数分配映射评分。映射评分可以是映射回参考序列的表示或读数,其指示每个位置是否是唯一可映射的。在某些情况下,读数可能是与突变分析无关的序列。例如,一些序列读数可能源于污染的多核苷酸。可以从数据集中过滤出映射评分至少90%、95%、99%、99.9%、99.99%或99.999%的测序读数。在其它情况下,可以从数据集中过滤出映射评分小于90%、95%、99%、99.9%、99.99%或99.999%的测序读数。对于每个可映射的碱基,不满足可映射性的最小阈值的碱基或低质量碱基可以被如参考序列中发现的相应碱基替换。
使用本文所述的方法和系统可以检测多种癌症。与大多数细胞一样,癌细胞的特征在于更新速度,即衰老细胞死亡并被新的细胞替换。通常,与给定受试者中的脉管系统接触的死细胞可以将DNA或DNA片段释放到血流内。在疾病的各个阶段过程中,癌细胞也是如此。取决于疾病的阶段,癌细胞还可以通过各种遗传异常例如拷贝数变异以及突变来表征。这一现象可以用于使用本文所述的方法和系统来检测癌症个体的存在或不存在。
可检测到的癌症的类型和数目可包括但不限于血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体肿瘤、异质性肿瘤、同质性肿瘤等。
另外,本文所述的系统和方法也可以用于帮助表征某些癌症。由本公开的系统和方法产生的遗传数据能够有助于从业者更好地表征特定形式的癌症。通常情况下,癌症在组成和分期方面均是不同的。遗传谱数据能够表征特定亚型的癌症,这在该特定亚型的诊断或治疗中可能是重要的。这一信息还可以为受试者或从业者提供关于特定类型的癌症的预后的线索。
本文提供的系统和方法可用于监测特定受试者中的已知癌症或其它疾病。这可以允许受试者或从业者根据疾病的进展来调整治疗方案。在该实例中,本文所述的系统和方法可用于构建疾病过程的特定受试者的遗传谱。在一些情况下,癌症可以进展,变得更具侵略性和遗传上不稳定。在其它实例中,癌症可能保持良性、无活性或休眠。本公开的系统和方法可以用于确定疾病进展。
进一步地,本文所述的系统和方法可用于确定特定治疗方案的功效。在一个实例中,如果治疗成功,则成功的治疗方案实际上可能增加受试者的血液中检测到的拷贝数变异或突变的量,因为更多的癌症可能死亡并脱落DNA。在其它实例中,这可能并不发生。在另一实例中,随着时间的推移,某些治疗方案可能与癌症的遗传谱具有相关性。这种相关性在选择疗法方面可能是有用的。另外,如果观察到癌症在治疗后缓解,则本文所述的系统和方法可用于监测残留疾病或疾病复发。
数据通过直接连接或互联网发送到计算机进行处理。系统的数据处理方面可以在数字电子电路中实现,或者在计算机硬件、固件、软件或其组合中实现。本发明的数据处理装置可以在计算机程序产品中实现,该计算机程序产品有形地包含在机器可读存储设备中,以供可编程处理器执行;并且本发明的数据处理方法步骤可以由可编程处理器来执行,该可编程处理器执行指令程序以通过对输入数据进行操作并生成输出来执行本发明的功能。本发明的数据处理方面可以有利地在可编程系统上执行的一个或多个计算机程序中实现,所述可编程系统包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备,所述至少一个可编程处理器被连接以从数据存储系统接收数据和指令并向数据存储系统发送数据和指令。需要时,每个计算机程序都可以以高级程序或面向对象的编程语言实现,或者以汇编语言或机器语言实现;并且,在任何情况下,该语言都可以是编译语言或解释语言。例如,合适的处理器包括通用和专用微处理器两者。通常,处理器将从只读存储器和/或随机存取存储器接收指令和数据。适合于有形地包含计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,例如包括半导体存储器设备,诸如EPROM、EEPROM和闪存设备;磁盘例如内部硬盘和可移动磁盘;磁光盘;和CD-ROM磁盘。前述任一种都可以由ASIC(专用集成电路)来补充或并入其中。
为了提供与用户的交互,可以使用计算机系统来实现该方法,所述计算机系统具有用于向用户显示信息的显示设备,诸如显示器或LCD(液晶显示器)屏幕,以及用户通过其可以向计算机系统提供输入的输入设备,诸如键盘、二维指向设备(诸如鼠标或轨迹球)、或者三维指向设备(诸如数据手套或陀螺鼠标)。计算机系统可以被编程为提供计算机程序通过其与用户交互的图形用户界面。计算机系统可以被编程为提供虚拟现实、三维显示界面。
实施例
实施例1:用于非侵入性检测肺癌的细胞游离DNA的单分子全基因组突变谱和片段谱
考虑到鉴定跨基因组的体细胞序列变化是否能够检测增加数目的肿瘤衍生的cfDNA变化,并且提高检测早期疾病的能力。肿瘤基因组含有数千种体细胞变化19,20,并且肿瘤组织的此类改变的知识已被用于指导治疗过程中循环中的靶向分析21,22。原则上,如果此类全基因组变化可以直接在cfDNA中鉴定而无需知晓肿瘤中的改变,则它们可以用于早期癌症检测。然而,此类方法需要能够有效地检测体细胞变化并且将这些变化与大量其它非肿瘤衍生的变化区分来。
为了应对这些挑战,本文开发了称为癌症非侵入性检测的全基因组突变发生率(GEMINI)的方法,其可以鉴定用于癌症检测的cfDNA中的显著大量的肿瘤衍生的改变(图1)。这种方法应用于分析来自多个患者队列的组织和cfDNA样品(图6)。该方法基于对各个cfDNA分子进行测序,以使用大小范围从数千个碱基到数百万个碱基的非重叠箱来估计跨基因组的突变频率和改变类型。对于每个个体,将癌症中更常改变的基因组区域中的突变类型和频率与来自正常cfDNA中更频繁突变的区域的谱进行比较,以确定突变谱中的多区域差异。以这种方式,GEMINI方法富集了可能的体细胞突变,同时考虑了整体背景变化中的个体可变性。
结果
为了开发这种方法,检查来自全基因组泛癌分析(Pan-Cancer Analysis ofWhole Genomes)(PCAWG)研究25,26的跨越25种不同癌症的2511个个体的癌症全基因组序列,鉴定了不同肿瘤类型中跨基因组的体细胞突变的不同频率(图7;补充表1)。例如,对来自65名具有吸烟暴露的个体的肺肿瘤和匹配的正常组织基因组的分析揭示了,癌症具有52209个(范围为6031至193539)真正的(bona fide)体细胞突变/基因组的平均值。为了定量预计在这些个体的血浆中看到多少肿瘤特异性变化,进行了计算机(in silico)稀释和下采样实验(图8)。在这些模拟中,发现当使用以1x覆盖率的全基因组测序进行分析时,即使在低至1:10000的肿瘤分数下,理论上所有患者都将具有可检测的体细胞突变的子集(图2A)。
由于在全基因组低覆盖率下检测到的大多数突变将预计在单个DNA分子中观察到(图2B),因此开发了严格的方法来检查种系变体、WBC改变以及实验和测序伪影(sequencing artifacts)(全部被视为背景变化)的混合物中的单个分子体细胞突变的频率。针对单核苷酸变化扫描每个测序分子,在去除常见种系变体和不能评价的区域后,计算高质量读数中的推定突变的频率,其定义为所有测序的DNA分子的变体数目/百万个评估位置(方法)。由于可能与7,8-二氢-8-氧代鸟嘌呤(8-氧代-dG)27的积累相关的特异性颠换在PCAWG单分子改变中比其它变化更高度代表,并且高于由已知多态性位点处的类似颠换的分析预计的,因此当这些变化发生在某些读数组合中时,从进一步考虑中过滤掉这些改变(图9A、9B,方法)。在具有匹配的正常血细胞的PCAWG肺肿瘤样品集合(n=31)中检查这些变化,因为血细胞代表了非癌症个体中cfDNA的最大来源28。分析集中于剩余的C:G>A:T突变(下文称为C>A),鉴于其在当前和以前吸烟者的肿瘤中丰度很高29。正如所预期的,鉴于总体背景变化的高且可变的频率,发现与正常样品相比,肿瘤中的C>A突变频率是相似的(图2C),并且即使在上文过滤步骤和去除种系变体之后也仅略微更高,其中只有一小部分肿瘤改变是体细胞起源的(平均值=7.5%,范围0.8%-22%)(图2D、10A、11)。
在样品中调查了总背景变化的高量和可变性,并且发现这些在很大程度上与测序泳道和运行特异性伪影有关(图12)。假设以样品特异性的方式控制总体背景率可以改善肿瘤衍生变化的检测。先前的分析表明,不同癌症基因组的突变率不同,与常染色质相关的区域,包括表达的基因和早期复制区域,与代表未表达的基因和晚期复制区域的异染色质区域相比更低的突变率30,31。为了检查整个基因组的突变频率的变化,通过将含有3076901个突变的序列数据分箱到1144个非重叠的2.5兆碱基(Mb)箱内,来分析31个PCAWG配对样品,并且在整个基因组中发现由许多肿瘤共享的突变频率增加的区域(图13、14)。
为了评估用于检测肿瘤衍生的DNA的GEMINI方法,我们鉴定了在癌症和对照的训练集中具有最高C>A变化的基因组区域,并且对于训练集中并未表现的患者计算了在这些区域的平均C>A差异(图15,方法)。在31个PCAWG癌症而非正常样品中鉴定了富含C>A变化的区域(图2E),并且发现关于每个患者样品,背景变化在癌症和对照区域中是高度相关联的(皮尔森相关系数=0.99,p<0.0001)(图2F),这表明在给定患者样品内减去癌症和对照区域之间的改变频率可用于去除背景突变。相比之下,在单分子测序数据中观察到的匹配的正常样品中观察到特定突变的扣除在去除背景变化方面是无效的(图16),因为此类改变通常从头发生并且只出现一次(图2G)。在扣除背景后,与正常样品相比,剩余的区域突变频率在肿瘤中明显更高(与1.3相比,相应中值为13.4,p<0.0001,威尔科克森秩和检验),其中高比例的变化起因于体细胞突变(平均值=80%,范围=31%-100%)(图2H),并且与通过PCAWG联盟在这些样品中报告的高置信度体细胞C>A变化的频率高度相关联(皮尔森相关系数=0.96,p<0.0001)(图2I)。与使用低覆盖率全基因组测序的单独突变频率(AUC=0.64,95%CI=0.50-0.79)相比,使用C>A区域频率的GEMINI方法能够以高准确度(AUC=0.91,95%CI=0.84-0.99)区分PCAWG癌症样品与非癌症样品(图2J、10A、10B)。使用变体质量过滤器、种系变体去除和从单分子测序中扣除区域突变频率用于过滤背景变化的总体方法使得这些样品中的体细胞突变中富集了1903倍。
为了确定GEMINI方法是否可用于非侵入性检测癌症患者的cfDNA的改变,在来自前瞻性肺癌诊断队列(LUCAS)18的个体中评估了该方法检测序列改变的能力。分析了来自该试验中检查的365名个体的低覆盖率血浆全基因组序列数据(~2x覆盖率),其中大多数个体处于肺癌的高危人群(50-80岁且吸烟史≥20包年;补充表2),并且其中血液样品在临床诊断之前进行收集。鉴于cfDNA片段的短长度13,除上文过滤步骤和8-氧代-dG相关变化的去除之外,还采用了将分析限制于配对末端文库中的重叠读数中具有相同序列调用的区域的额外过滤器。在两个读数中要求Phred质量评分≥30,理论上将降低由于测序错误的错误突变率,并且受益于关于较短的肿瘤衍生的cfDNA序列的更高重叠度32,从而潜在地富集循环肿瘤DNA(ctDNA)改变的检测。补充表5是经历靶向疗法的肺癌患者的cfDNA样品和基因组分析的概括。
来自LUCAS队列的子集和PCAWG肿瘤组织样品的cfDNA的单分子测序的比较揭示了,在肺癌患者的肿瘤组织和cfDNA之间,以及在黑色素瘤患者和B细胞非霍奇金淋巴瘤(BNHL)患者的组织和cfDNA之间,具有增加的癌症类型特异性突变加频率的基因组区域在很大程度上是相似的(在所有情况下,皮尔森相关性>0.80,p<0.001),并且定位于与组织特异性后期复制时序相关的基因组区域中(图3A、3B)。分析的肿瘤中不同的突变类型促成突变频率增加,包括肺癌中的C>A变化,黑色素瘤中的C>T变化和淋巴瘤中的T>G变化。还发现了肿瘤和突变类型特异性区域突变频率与基因表达30、如通过甲基化的特征向量分析测量的基因组区室化33、以及组蛋白3赖氨酸9三甲基化(H3K9me3)(异染色质的已知标记物)34有关,并且在肿瘤和cfDNA分析之间是一致的(在所有情况下,皮尔森相关性>0.80,p<0.001)(图17A-17C)。未患癌症或癌症中突变类型或区域并未富集的个体并不具有这些特性或与这些特性弱相关(图3B、17A-17C)。总体而言,这些结果表明,cfDNA中跨基因组的突变率变异性与染色质组构有关,并且可以通过GEMINI方法利用检测循环中肿瘤衍生的序列变化。
使用GEMINI方法,对于LUCAS队列中的个体,在单分子突变频率中鉴定了交叉验证的区域差异。类似于PCAWG肺癌中的分析,与非癌症个体相比,区域C>A突变频率在患有肺癌的个体中优先改变(p<0.0001,威尔科克森秩和检验)(图18),并且与总体C>A频率相比,跨越测序泳道是稳定的(图19)。所鉴定的区域在交叉验证折叠在很大程度上是一致的,并且包含具有类似可评估的碱基、拷贝数水平和可映射性的高质量序列,但定位于与患有肺癌和未患肺癌的个体之间的不同突变频率相关的基因组位置处,反映了上述表观基因组特性(图20A-20K,补充表6)。进一步比较所鉴定的C>A突变频率与CC>AA双突变中的区域差异,因为这些双重突变在吸烟个体的肺癌中富集26,并且鉴于在相邻位置中发生的两个相同变化的要求,且具有非常低的偶然发生的可能性(图21A-21F)。发现了高质量CC>AA变化的频率与组织(Spearman’s rho=0.62,p=0.0002)和cfDNA样品(Spearman’s rho=0.65,p<0.0001)两者中的单分子C>A频率中的区域差异高度相关联(图21E、21F)。这些数据有力地支持了GEMINI突变频率反映循环中肿瘤衍生的序列变化的观点。
将单分子C>A频率中的区域差异针对GEMINI评分进行校正,反映了个体的癌症概率(方法)。为了评估临床特性是否会影响全基因组cfDNA突变谱,研究了非恶性结节、性别、年龄或者慢性阻塞性肺病(COPD)或自身免疫性疾病的存在是否与GEMINI评分相关。当比较具有和不具有良性病变的非癌症个体(中值GEMINI评分0.30相对于0.33,p=0.94,威尔科克森秩和检验)(图4A),或比较男性和女性(p=0.14)时,并未观察到GEMINI评分中的差异(图22A-22F)。并未观察到GEMINI评分与年龄的相关性(rho=-0.15,p=0.053),也并未观察到其与炎症标记物CRP(rho=0.01,p=0.89)或IL-6(rho=-0.07,p=0.40)水平的相关性(图22A-22F)。类似地,在患有或未患COPD(p=0.73)或自身免疫性疾病(p=0.31)的个体之间并未观察到GEMINI评分中的变化(图22A-22F)。总之,这些分析表明,cfDNA中单分子突变频率并不受人口统计学特性或者存在急性或慢性炎症状况的显著影响。
接下来,评估了GEMINI评分与癌症分期和组织学之间的关系。虽然非癌症个体的GEMINI评分很低(具有或不具有良性病变的那些个体的中位数分别为0.30和0.33),但癌症患者具有跨越分期(I期=0.74,II期=0.67,III期=0.76且IV期=0.74)(对于I、II、III或IV期p<0.001,威尔科克森秩和检验)(图4a)和组织学亚型(腺癌=0.71,鳞状细胞癌=0.72,小细胞肺癌(SCLC)=0.98)(对于所有亚型p<0.0001,威尔科克森秩和检验(图4A)显著更高的中值评分。如预计的,GEMINI评分通常与ctDNA水平相关,随着通过ichorCNA35估计的肿瘤分数而增加(p<0.0001,威尔科克森秩和检验)(图18A)。SCLC患者中较高的GEMINI评分很可能反映了该肿瘤类型中已知的较高ctDNA分数36,且具有更低GEMINI评分(例如低于0.5)的患者更有可能具有NSCLC组织学,补充表7(p=0.03,费希尔精确检验)和更低的ichorCNA肿瘤分数估计值(p=0.003,威尔科克森秩和检验)。代表用于鉴定癌症患者的GEMINI方法的灵敏度和特异性的接受者操作特性(ROC)曲线揭示了0.85的总体曲线下面积(AUC)(95%CI=0.79-0.91)(图4D),具有跨越分期和亚型的高水平检测(图4F、24A、24B)。
固定GEMINI模型用于评估来自7名患者的样品,所述患者在血液收集时并未患有癌症,但随后被诊断患有肺癌。这些个体具有0.78的中值GEMINI评分,显著高于非癌症个体的那些评分(p=0.0005,威尔科克森秩和检验)(图4B)。这七个个体中的六个具有在80%特异性下高于阈值的评分,其中肺癌诊断的时间范围从231天到1868天,提供了cfDNA突变谱中的异常将比标准诊断早几年用于癌症检测的证据。在这些患者中,5名诊断有NSCLC(两个患者患有I期疾病,1名患者患有III期疾病,并且分期信息对于其它两个患者不可用),1名患者诊断有SCLC(未知分期),并且另1名我们没有分期或组织学信息的患者在其诊断后几个月内死亡。通过GEMINI并未检测到的患者具有从抽血到诊断的最长时间(1954天)。有趣的是,在最初抽血时,基于CT成像,对于这些患者中的四个并未怀疑癌症,并且没有执行活组织检查。对于剩余3名患者,基于CT成像,存在癌症的怀疑,并且患者经历了活组织检查,然而,他们的病理报告指示了良性肺结节,突出显示了当前诊断方法的局限性。
接下来,检查GEMINI突变谱是否可以与通过DELFI方法使用的全基因组片段特征相组合,因为假设这些方法测量了互补的cfDNA特征,并且可以用于提高检测患有早期肺癌的个体的能力。将GEMINI和DELFI评分整合到综合评分内,以评估相对于单独使用的这些特征的预测准确性(方法)。虽然GEMINI和DELFI评分呈正相关(Spearman’s rho=0.50,p<0.0001),但使用组合方法检测到通过分开的任一方法遗漏的几个样品,使得在80%的特异性下假阴性降低例如56%(图25)。组合方法引起整体性能的增加,整体AUC为0.93(95%CI=0.89-0.97)(与单独的GEMINI或DELFI相比时,p<0.05)(图4D)。对于I期患者(n=13),单独的DELFI片段或GEMINI分析分别实现了0.73(95%CI=0.59-0.88)和0.80(95%CI=0.67-0.93)的AUC,并且组合方法使得AUC为0.87(95%CI=0.76-0.98)(与单独的DELFI或GEMINI相比,p<0.05)(图4f)。组合的GEMINI和片段方法的表现提供了在80%的特异性下91%的总灵敏度(GEMINI/DELFI评分>0.38)(表1)。当将这种方法视为LDCT的预筛选时,在85%的组合特异性下,具有LDCT的组合方法的灵敏度将为>95%(表1)。重要的是,与具有较高评分的个体相比,具有较低GEMINI/DELFI评分的个体具有更好的预后(p=0.004,对数秩检验)(图26),降低了使用这种方法的假阴性的担忧,因为具有较低评分的个体将具有更好的预后,并且可以在后续筛查中被检测到。
为了从外部验证个体GEMINI方法以及组合的GEMINI/DELFI方法,评估了来自肺癌筛查项目的个体的额外队列(n=57,补充表3)。该队列包括其中样品在临床诊断之前进行收集,占优势地患有早期癌症的无症状高危个体(I期=32,II期=4,III期=3,IV期=2和未知=1),以及最终确定未患癌症的个体(n=15)。42名患有肺癌的个体中有21名(50%)诊断有IA期疾病,与美国国家肺癌筛查试验5(National Lung Screening Trial)中通过LDCT检测到的比例相似。从这些个体的血浆中分离cfDNA,并进行低覆盖率全基因组测序,其覆盖率和特征度量类似于LUCAS队列(图27A-27D)。使用来自LUCAS队列分析的固定GEMINI和片段机器学习模型来分析这些样品。与最初的研究一致,观察到与未患癌症的那些个体相比,GEMINI评分在患有癌症的高危个体(50-80岁,具有吸烟史)中更高(p=0.001,威尔科克森秩和检验)(图4C)。在验证和LUCAS队列中,晚期肺癌患者(III/IV期,中值GEMINI评分=0.74)的GEMINI评分显著高于早期患者(I/II期,中值GEMINI评分=0.64)(p=0.03,威尔科克森秩和检验)。GEMINI方法用于检测这一队列中的个体中的I期疾病的性能较高,当与片段特征组合时,总AUC为0.81(95%CI=0.67-0.94)和0.86(95%CI=0.74-0.97)(图4G)。总体而言,这些分析表明,全基因组突变谱分析可广泛用于高危群体中的早期肺癌检测。
由于肺癌中的体细胞变化与吸烟有关,因此假设在cfDNA突变谱与吸烟史之间存在关系。尽管在LUCAS队列中,患有肺癌和未患肺癌的非吸烟者中的总体cfDNA C>A突变频率是相似的(p=0.65,威尔科克森秩和检验),但患有肺癌的吸烟者比未患癌症的吸烟者具有更高的总体突变频率(p=0.01,威尔科克森秩和检验),以及显著更高的GEMINI评分(p<0.0001,威尔科克森秩和检验(图23A、23B)。癌症患者中的GEMINI评分与吸烟年限呈正相关(rho=0.24,p=0.01)。有趣的是,在未患癌症的个体中,GEMINI评分与吸烟暴露呈负相关(rho=-0.25,p=0.002),这潜在地反映了非癌症组织中的吸烟相关的DNA损伤37,这可能有助于cfDNA的改变。LUCAS和验证队列中的患者分析表明,GEMINI方法在检测具有更长吸烟史的个体方面可能具有更高的性能(图4E、4H、4I、28A-28C),包括使用组合的GEMINI/DELFI方法将LUCAS队列中的GEMINI性能增加到0.90和0.95的AUC(与分别具有0.90和0.88的AUC的单独GEMINI或DELFI相比,p<0.05,DeLong氏检验)。在80%的特异性下的阳性GEMINI测试与≥20包年吸烟者中的癌症几率增加13.5倍相关(关于比值比(odds ratio)的95%CI:6.7-30.7,p<0.0001),并且与≥40包年吸烟者中癌症几率增加20.1倍相关(关于比值比的95%CI:7.7-54.6,p<0.0001)。这些观察与吸烟暴露导致影响不同基因组区域的ctDNA和非肿瘤cfDNA两者中的序列改变的观点一致,这可能有助于使用GEMINI方法改善的癌症检测。
鉴于SCLC和非小细胞肺癌(NSCLC)的生物学特征和临床管理之间的重要差异,我们检查了全基因组突变谱是否可用于检测SCLC,并且非侵入性地将这种癌症与其它癌症类型区分开。与非癌症个体(n=88)相比,在SCLC患者(n=13)的GEMINI评分极高(p<0.0001,威尔科克森秩和检验)(图5A,补充表2、3),并且可以以>0.99的AUC(95%CI=0.99-1.00)区分这些患者(图5C)。GEMINI方法用于评价NSCLC患者(n=99)相比,SCLC患者的cfDNA中的区域突变差异,并且发现以这种方式获得的突变频率在SCLC中更高(p<0.0001,威尔科克森秩和检验)(图5B,补充表4),并且可以用于区分这种癌症类型与NSCLC(AUC=0.86,95CI=0.75-0.96)(图5C)。这些发现表明,全基因组突变谱可能有助于提供用于检测SCLC且区分不同组织亚型的肺癌的非侵入性方法。
为了探索GEMINI方法检测其它癌症的可推广性,应用该方法来评估患有肝癌或未患肝癌的个体的前瞻性队列(n=62)。突变频率中的交叉验证的区域差异鉴定了患有肝癌的个体中的全基因组T>C突变谱中的显著差异(图5D)。与肝硬化个体相比,衍生的GEMINI评分在所有阶段(0-A、B和C)的肝癌患者个体中更高(对于每次比较p<0.01)(图5E)。类似于肺癌患者的分析,来自肝癌患者的GEMINI评分通常与ctDNA水平相关,随着通过ichorCNA35估计的肿瘤分数而增加(p=0.008,威尔科克森秩和检验)(图23B,补充表8)。
由于cfDNA突变谱表现出是癌症类型特异性的,因此我们假设GEMINI方法可用于区分不同的癌症类型。使用GEMINI,在NSCLC、SCLC和HCC(n=159)之间比较cfDNA中突变谱的差异,并且发现了谱在很大程度上聚类成三组,其中每种癌症类型包含聚类中的大多数观察结果(图5F)(方法)。最常见的肿瘤特异性改变(图3A-3B、7)的排除阻碍了按癌症类型的准确分组(图29)。总体而言,这些分析表明,突变谱可能是用于非侵入性确定癌症起源的有用方法。
为了探索GEMINI方法是否可用于在治疗期间监测患者,我们评价了来自经历EGFR或ERBB2抑制剂治疗的肺癌患者的系列血液样品,其中突变等位基因分数(MAF)低至0.1%。使用在高危LUCAS队列上训练的固定模型,发现了在启动疗法后,所有患者的GEMINI评分下降,与对治疗的初始响应一致,并且随着时间的推移,GEMINI评分增加,与这些个体的已知进展一致(图30)。将GEMINI评分与来自这些患者靶向测序的突变等位基因分数进行比较,揭示了两种方法之间的ctDNA水平的显著相关性(斯皮尔曼相关系数=0.50,p=0.03),表明GEMINI对低MAF水平具有高灵敏度,并且反映了在治疗期间的ctDNA负荷。
在这项研究中,显示了通过从cfDNA的低覆盖率全基因组测序获得的单分子突变谱,可以非侵入性地检测患有癌症的个体。在癌症患者的血浆中可检测到肿瘤类型特异性突变景观(landscapes)的改变,这似乎与基因组的复制时序和其它染色质特征有关,其中DNA损伤的修复可能是受损的38。此处描述的方法并不需要对匹配的血细胞进行深度测序以过滤造血改变16,也不需要通过肿瘤测序来鉴定肿瘤特异性突变以评估血浆22,因此该方法适用于癌症的重新检测和表征。cfDNA的全基因组序列和片段分析的组合为癌症的成本效益和可扩展检测提供了机会。
尽管所述队列中的大多数患者代表了具有发展癌症的风险中的个体,但在临床使用之前,需要在筛查群体中对肺癌、肝癌和其它癌症进行大规模验证。然而,将读数长度从100bp增加到150bp将使通过两个读数测序的可评估碱基增加~4倍。尽管评价了各种全基因组肿瘤特异性突变谱,包括不同的肺癌组织学、肝癌、黑色素瘤和淋巴瘤,但在其它背景下,使用其它序列改变分析另外的全基因组突变谱可能是更有效的。由于癌症基因组的突变率差异很大31,因此检测cfDNA中改变的区域突变频率提供了可推广的方法,其可以用于早期癌症检测和监测。
实施例2:方法和材料
被分析的研究群体
来自PCAWG联盟的组织样品由2778个具有体细胞突变调用的肿瘤组成39。从分析中排除高突变肿瘤,包括具有推定的聚合酶ε或错配修复缺陷的那些肿瘤,以及一个使用替莫唑胺治疗的肿瘤(n=49),以及具有少于20个样品的癌症类型(n=129个样品)和具有<250个突变/样品的平均值的癌症类型(毛细胞型星形细胞瘤,n=89个样品),导致跨越25种常见癌症类型的2511个肿瘤。单分子突变分析由来自通过质量控制度量的86名供体的肺癌和匹配的固体组织或血细胞组成39。该队列由30名女性和56名男性组成,其在41至83岁之间被诊断患有肺癌。在这些个体中,38人患有肺腺癌,48人患有肺鳞状细胞癌,并且其中65人具有归于吸烟相关标志4的突变。在这65名患者中,31名患者同时具有肿瘤组织和血液衍生的正常测序数据两者。关于这些样品的额外信息可在dcc.icgc.org/releases/PCAWG获得。参见补充表1。
如先前所述18,LUCAS队列是由365名患者组成的前瞻性收集组,这些患者出现在Department of Respiratory Medicine,Infiltrate Unite,Bispebjerg Hospital,Copenhagen,在胸部X射线或胸部CT中呈现阳性成像。排除了具有已知活动性疾病的诊断有癌症的患者或在招募时正在接受治疗的患者。该研究从2012年9月到2013年3月进行了7个月,并且所有患者具有直到死亡或2020年4月的临床随访。所有患者都提供了书面知情同意书,并且该研究根据赫尔辛基宣言(Declaration of Helsinki)进行。LUCAS研究得到了丹麦区域伦理委员会(Danish Regional Ethics Committee)和丹麦数据保护局(DanishData Protection Agency)的批准。在做出肺癌的可能诊断之前,所有患者都具有在其第一次临床就诊时收集的血液样品。分析的队列包括没有既往、基线或未来癌症的158名患者,具有基线肺癌的114名患者,具有肺转移的15名患者,以及在血液收集时未患肺癌但患有早期或晚期肺癌或另一癌症类型的78名患者。高危LUCAS队列被定义肺癌的高风险中的个体(50-80岁,≥20包年的吸烟史),并且包括在基线时患有原发性肺癌的个体(n=89)以及没有既往、基线或未来癌症的个体(n=74)(补充表2)。每ml经分析的血浆,单倍体基因组当量的中值为~1451(范围:392-2111。
验证队列由来自肺癌筛查项目(n=57)(补充表3)的个体组成,包括主要患有早期癌症或被确定为良性的结节的无症状高危个体。个体通过军事人员早期肺癌检测(Detection of Early Lung Cancer Among Military Personnel,DECAMP)联盟40,或通过在阿勒格尼健康网络(Allegheny Health Network,AHN)的筛查工作来招募。DECAMP-1方案包括当前吸烟者或曾吸烟者,其具有≥20包年暴露、放射学检查结果显示在招募前12个月内发现大小0.7至3.0cm的不确定肺结节,以及在招募前3个月进行额外的CT扫描。基于使用低剂量螺旋式CT扫描进行肺癌的高危筛查的合格性,或基于其它高危特性例如肺癌家族史进行肺癌筛查的指示,确定在AHN招募的个体。所有患者都提供了参与这些收集的书面知情同意书,并且根据赫尔辛基宣言进行研究。所有个体在可能被诊断为肺癌之前都进行了收集的液体活组织检查。
肺癌监测队列由来自经历EGFR或ERBB2抑制剂治疗11的肺癌患者队列的系列抽血组成。研究群体包括来自具有吸烟史的患者(n=5)的系列抽血样品(n=18),具有可获得的靶向和全基因组测序13。患者50-73岁,患有II-IV期肺腺癌(n=4)或混合组织学(n=1)。
肝癌队列由62名肝癌(n=48)或肝硬化(n=14)患者组成。样品在由JohnsHopkins机关审查委员会(Johns Hopkins Institutional Review Board)批准的方案下,作为在Johns Hopkins University School of Medicine的HCC生物标记物登记的部分被前瞻性地收集。肝癌通过如公认的指南定义的适当的影像学特性来定义。肿瘤分期通过巴塞罗那临床肝癌分期系统(Barcelona Clinic Liver Cancer staging system)(BCLC)进行确定。详细的临床数据摘自电子病历(补充表8)。
血液样品收集和保存
LUCAS队列的样品收集在筛查访视时进行,并且如下执行:将静脉外周血收集在一根K2-EDTA管中。在两小时内,将血液收集管在4℃下以2330g离心10分钟。离心后,将EDTA血浆等分并贮存于-80℃下。
对于验证队列,将每个个体的静脉外周血收集在一根K2-EDTA管(AHN)或一根Streck管(DECAMP)中。将来自AHN和DECAMP收集的管以低速(800-1600g)离心10分钟。将来自第一次旋转的血浆部分第二次旋转10分钟。离心后,将血浆等分并贮存于-80℃下用于cfDNA分析。
对于肺癌监测队列,将全血收集在EDTA试管中,并立即或在4℃下贮存一天内进行处理,或者收集在Streck试管中,并在收集两天内进行处理,如先前所述的13。通过在4℃下以800g离心10分钟来分离血浆和细胞组分。血浆在室温下以18000g离心第二次,以去除任何残留的细胞碎片,并且贮存于-80℃下直到DNA提取时。
对于肝癌队列,样品收集如下执行:将静脉外周血收集在在一根K2-EDTA管。在距离血液收集两小时内,管在4℃下以2330g离心10分钟,将血浆转移到新管中,并且将样品在室温下以14000rpm(18000rcf)旋转10分钟,以使沉淀任何残留的细胞碎片。离心后,将EDTA血浆等分并贮存于-80℃下用于cfDNA分析。
血浆测序文库制备
对于所有血浆样品,使用Qiagen QIAamp循环核酸试剂盒(Qiagen GmbH)从2-4ml血浆中分离出循环细胞游离DNA,在52μlμ含有0.04%叠氮化钠(Qiagen-GmbH)的无RNA酶水中洗脱,并且在LoBind管(Eppendorf AG)中贮存于-20℃下。使用Bioanalyzer 2100(Agilent Technologies)评价cfDNA的浓度和质量。
将来自LUCAS、验证和肝癌队列的下一代测序(NGS)cfDNA文库制备为用于全基因组测序,当可用时使用15ng的cfDNA,或当少于15ng可用时使用全部经纯化的量。简言之,使用NEBNext DNA Library Prep Kit for Illumina(New England Biolabs(NEB))来制备基因组文库,其中对制造商的指南的四个主要修改:(i)文库纯化步骤使用珠上(on-bead)AMPure XP(Beckman-Colter)方法,以最小化洗脱和管转移步骤过程中的样品损失;(ii)适当地调整NEBNext末端修复、A-加尾和适配子连接酶和缓冲液体积,以适应珠上AMPure XP纯化;(iii)在连接反应中使用Illumina双索引适配子;并且(iv)用Phusion热启动聚合酶来扩增cfDNA文库。所有这些样品在DNA连接步骤后都经历了4轮的PCR扩增。对于肺癌监测队列,使用5-250ng cfDNA,制备下一代测序(NGS)cfDNA文库用于WGS和靶向测序,如先前所述11,13
来自PCAWG样品的全基因组测序数据
可从国际癌症基因组联盟(International Cancer Genome Consortium)(ICGC)数据门户(https://dcc.icgc.org/releases/PCAWG)下载体细胞突变调用、肿瘤纯度、覆盖率统计数据以及通过SigProfiler26生成的突变标志丰度。可从Bionimbus Protected DataCloud(bionimbus.opensciencedatacloud.org)下载Bam文件和种系变体调用。Bam文件使用SAMtools41编制索引。
来自PCAWG肺癌样品的体细胞突变的降采样和稀释
图8示出了降采样和稀释实验方法。具体而言,对于PCAWG中伴随标志4的存在,患有肺癌的个体(n=65)获得体细胞突变调用(n=3393564个突变)26。排除观察到的参考等位基因或突变等位基因的数目(n=5857)具有缺失值的突变,导致65名个体的3387707个体细胞突变。对于给定的个体,分开考虑了参考等位基因或突变等位基因的每次观察。通过观察总数乘以样品的肿瘤纯度来计算肿瘤衍生的测序观察的数目。然后,我们在观察中加入参考等位基因,直到10-1、10-2、10-3或10-4个观察是肿瘤起源。接下来计算在稀释之后的突变位置的平均覆盖率,并且对观察进行随机采样,以实现8x、4x、2x、1x和0.5x的所需覆盖率。对于个体的癌症基因组中的每个已知体细胞突变,我们记录了对于稀释量和基因组覆盖率的每个组合下观察到的突变次数,并使用这一信息来计算单个DNA分子中观察到的突变百分比。
血浆样品的全基因组测序
在Illumina HiSeq 2000/2500(LUCAS18,验证和肺癌监测队列13)和NovaSeq 6000(肝癌队列)上使用100bp双端(paired-end)运行(200个循环),以~2x覆盖率/样品对由癌症患者和无癌个体的全基因组制备的文库进行测序。为了评价可用样品很少的癌症类型中组织和cfDNA突变谱之间的一致性,在Illumina NovaSeq 6000上,对来自黑色素瘤(n=2)和淋巴瘤(n=1)患者、以及40个非癌症对照和患有大部分晚期肺癌的15个个体的LUCAS样品重新测序,达到10x覆盖率的中值。在比对之前,使用fastp42从读数中过滤适配子序列。使用Bowtie243将序列读数与hg19人类参考基因组进行比对,并且使用Sambamba44去除重复读数。来自每个样品的测序数据包含>750万个片段,>1500万个读数,>1000万个映射到参考基因组的读数,>85%Phred质量评分≥20(Q20)的碱基,以及>80%Phed质量评分≥30(Q30)的碱基。
单分子中的单碱基变化和双碱基变化的鉴定
扫描映射到非重叠100kb箱中常染色体的正确配对的读数对的初级比对,并且使用pysam获得每个测序碱基的碱基调用、Phred评分和映射质量(MAPQ)。仅考虑MAPQ的读数对至少为40,并且仅考虑在每个读数内Phred评分至少为30的位置。为了避免在单碱基变化的分析中计数多核苷酸变体,过滤了其中两个相邻位置均含有参考等位基因且Phred评分至少为30的位置。在双碱基变化的分析中使用了类似的过滤器,以避免计数较大的多碱基变体。另外,还去除了与Duke Excluded Regions轨迹(hgdownload.cse.ucsc.edu/goldenpath/hg19/encodeDCC/wgEncodeMapabili ty)重叠的位置。在每个100kb箱中,对参考基因组中其为C:G或A:T的测序碱基的数目进行计数。还计数了在100kb箱中观察到的每种类型的单碱基变化(C:G>A:T、C:G>G:C、C:G>T:A、T:A>A:T、T:A>C:G和T:A>G:C)和CC:GG>AA:TT双碱基变化的次数。基于每个碱基对的嘌呤或嘧啶是在双端测序数据的读数1还是读数2中,分开对观察值进行计数。为了排除潜在的种系变体,使用gnomAD数据库(版本3.0),其含有来自>70000个全基因组的遗传变体45。从gnomAD浏览器下载gnomAD版本3.0变体调用格式(VCF)文件,该文件在hg38坐标下获得。首先提升的是使用R包rtracklayer从hg19到hg38鉴定的每个序列变化的位置。去除并未提升到hg38的序列变化,提升到hg38但到多重不同位置的序列变化,或者提升到hg38但hg19和hg38基因组构建之间的参考基因组序列不同的序列变化。用群体等位基因频率鉴定的序列变化,以及变体是否通过gnomAD质量过滤器进行注释。如果变体存在于gnomAD中,但变体并未通过gnomAD质量过滤器,或者如果变体以>1/100000的等位基因频率存在于gnomAD中,则随后去除任何候选变体。对于PCAWG样品,在每个样品中对剩余的变体进行注释,指示它们是否被PCAWG联盟调用为体细胞或种系变体。对于组织样品的分析,如果片段中的任何位置通过两个读数对进行测序,则随机保留来自读数1或读数2的位置。对于血浆样品,分析具有相同碱基调用的读数对的读数1和读数2测序的片段中的位置。为了从单碱基分析中过滤8-氧代-dG相关的序列变化,排除读数1上鸟嘌呤或G>T以及读数2上胞嘧啶或C>A的任何碱基。为了过滤人为的CC>AA变化,排除读数1上CC或CC>AA和读数2上GG或GG>TT的任何碱基。为了说明样品之间的测序深度中的潜在差异,单分子突变频率总是计算为每个序列变化的数目除以可评估的碱基的数目,所述可评估的碱基的数目定义为在质量和种系过滤后片段中可检测到的每个序列变化的位置数目。
8-氧代-dG水平的估计
对于每个样品,8-氧代-dG水平被估计为当鸟嘌呤或G>T在读数1上且胞嘧啶或C>A在读数2上时与当胞嘧啶或C>A在读数1上且鸟嘌呤或G>T在读数2上时的单分子C>A频率的比率。
单分子突变频率中的区域差异的生成
图15中示出了对于给定突变类型计算单分子突变频率中的区域差异的方法。具体而言,首先将100kb箱聚集为1144个不重叠的2.5Mb箱。设定分别表示非癌症参与者和癌症参与者在箱i处的序列变化(例如C>A)数目。我们通过表示相应的可评估位置数(例如,通过质量过滤器的C:G碱基数目)。对于由具有J个癌症参与者和K个非癌症参与者的n-1个样品构成的训练集,将癌症参与者与非癌症参与者进行比较,在箱i处的序列变化数目相对于可评估碱基数目的差异由下式给出
设定δ(s)表示sth次序统计量,使得δ(1)是相对于非癌症在癌症中关于序列变化最小的箱,并且δ(1144)是相对于非癌症在癌症中关于序列变化最富集的箱。训练集中的特征选择通过鉴定在δ的最低十分位的箱(具有值δ(1),...,δ(114)的箱)和在最高十分的箱(具有值δ(1144),...,δ(1030)的箱)来进行。通过{A-h}和{B-h}分别表示关于最高十分位和最低十分位的箱集合,对于排除hth样品的训练集,关于测试样品的单分子突变频率中的区域差异由下式给出:
使用留一法交叉验证,重复该程序,使得每个参与者在测试集中出现一次,并且对于所有n个参与者获得单分子突变频率中的区域差异。
在PCAWG中将单分子C>A频率中的区域差异降采样到1x覆盖率为了简洁起见,替代符号用于区域差异其中
通过区域差异表示下采样(*)的区域差异,这些量首先通过确定hg19参考基因组中的可评估C:G位置的数目rA和rB来得出。接下来,从集合{1,...,xAh}中随机采样(而无替换)rA索引并且从集合{1,...,xBh}中随机采样(而无替换)rB索引,以表示这些箱集合中的可评估位置的索引。两个随机样品中小于或等于yAh和yBh的索引数目分别用于重复上述过程,直到PCAWG中的所有参与者都具有在单分子C>A频率中的降采样的区域差异。
单分子突变频率与组织特异性基因组特征的相关性
从UCSC基因组浏览器(UCSC Genome Browser)下载来自IMR90、NHEK和GM12878细胞系的由UW ENCODE组生成的复制时序轨迹,所述复制时轨迹通过对代表1 kb箱在复制期间的不同时间点的六个部分谱的小波平滑变换求平均值来计算。在每个2.5 Mb箱中计算加权平均值,其中较高的值指示较早的复制时序。基因表达值使用recount346作为原始计数获得,并且将其转换为通过癌症基因组谱(The Cancer Genome Atl as)(TCGA)生成的来自肺腺癌(n=542)、肺鳞状细胞癌(n=504)、黑色素瘤(n=472)和N细胞非霍奇金淋巴瘤(n=48)的每百万转录本数(TPM)。对于每种癌症类型,首先对于跨越样品的每个基因的TPM值求平均值。每种癌症类型中的每个2.5Mb箱中的基因表达计算为通过转录物的长度加权的每个箱重叠的TPM总和。这些值然后在肺腺癌和肺鳞状细胞癌之间求平均值,以获得每个箱中的单个肺癌基因表达估计值。通过对12种癌症类型的450K甲基化阵列数据的特征向量分析以及通过对于GM12878细胞的Hi-C数据的特征向量分析,获得在100kb分辨率下生成的A/B区室化数据33。对于每个2.5Mb箱,计算100kb箱中的特征向量的加权平均值。来自肺腺癌和肺鳞状细胞癌的这些值的平均值用于肺癌分析,GM12878用于BNHL分析,并且跨越所有12种癌症类型的平均值在不存在皮肤A/B区室化数据的情况下用于黑色素瘤分析。从EN CODE门户(登录:ENCFF425LVX、ENCFF098PML和ENCFF574RYG)下载关于A549细胞(3个合并的重复)、GM23248细胞和Karpas 422细胞(两个合并的复制)的H3K9me3的ChIP-seq数据,其表示为富集样品中的覆盖率关于对照样品的倍数变化。对于每种细胞类型,在每个2.5Mb箱中计算倍数变化的加权平均值。从hg19参考基因组中获得每个2.5Mb箱中的GC含量。下载了(hgdownload.cse.ucsc.edu/goldenpath/hg19/encodeDCC/wgEncodeMapability/wgEncodeCrgMapabilityAlign100mer.big Wig)反映100聚体序列如何唯一地与基因组的区域比对的可映射性,并且作为与每个箱重叠的可映射性评分的加权平均值聚集到2.5Mb箱中。使用ichorCNA对于每个样品估计全基因组拷贝数。每个基因组箱的平均拷贝数计算为与每个箱重叠的区段中拷贝数的加权平均值。
GEMINI评分的生成
为了提供捕获单分子C>A频率中的区域差异与高危LUCAS队列中个体患有肺癌的概率之间关系的校准评分,使用单分子C>A频率中的区域差异作为协变量,对于癌症状态拟合逻辑回归模型(肺GEMINI模型),并且提取关于每个个体的癌症拟合概率(肺GEMINI评分)。肺GEMINI评分>0.55反映了在80%特异性下用于肺癌检测的阳性测试。另外,使用固定箱集合和肺GEMINI模型来为验证队列、以后发展肺癌的具有基线阴性测试的患者队列、在治疗期间监测的肺癌患者队列、以及LUCAS队列中的剩余样品生成肺GEMINI评分。对于肝癌队列,通过使用单分子T>C频率中的区域差异作为协变量来拟合癌症状态的逻辑回归模型(肝GEMINI模型),并且提取每个个体的癌症的拟合概率(肝GEMINI评分),来生成GEMINI评分。肝GEMINI评分>0.86反映了在80%特异性下用于肝癌检测的阳性测试(参见补充表1-8)。
DELFI和组合的GEMINI/DELFI评分的生成
为了评估片段特征是否可以进一步改善GEMINI对癌症状态的预测,在用于生成交叉验证的GEMINI评分的相同训练集中使用先前描述的方法18。简言之,将hg19参考基因组平铺到非重叠的5Mb箱内。排除平均GC含量<0.3且平均可映射性<0.9的箱,留下跨越大约2.4GB基因组的473个箱。对MAPQ至少为30的片段进行片段大小分析。如先前所述的18,跨越473个箱的短片段(100–150bp)/长片段(151–220bp)的数目比率对于GC含量和文库大小进行标准化。对于每个训练集,对片段谱进行主成分分析,并且保留解释参与者之间90%差异所需的最小数目的主成分。通过使用由54个非癌症对照的外部参考集(github.com/cancer-genomics/PlasmaToolsHiseq.hg19)计算的预计覆盖率和标准差计算关于每个臂的z评分,来概括染色体臂拷贝数。将39个z评分和主成分作为协变量整合到具有LASSO惩罚的逻辑回归模型中。为了在验证队列中生成DELFI评分,我们使用先前描述的模型18,所述模型针对158名非癌症患者和129名癌症患者进行了训练。通过对每个患者的个体GEMINI和DELFI评分求平均值来计算组合的GEMINI/DELFI评分。
GEMINI评分与血浆中的肿瘤DNA分数的相关性
使用ichorCNA35对LUCAS和肝癌队列中的样品估计血浆中的肿瘤DNA的百分比。
SCLC和NSCLC之间的单分子C>A频率中的区域差异的生成
如先前所述的计算单分子C>A频率中的区域差异,其中将患有SCLC的个体与患有NSCLC的个体进行比较。为了最大限度地增加用于鉴定箱集合A和B的样品数目,我们将来自高危LUCAS队列(n=10个SCLC,n=75个NSCLC)的样品与来自验证队列(n=3个SCLC,n=24个NSCLC)的50-80岁的吸烟者个体相组合。
不同肿瘤类型的分析
通过迭代地筛选患有NSCLC、SCLC或HCC的每个个体(n=159)并且使用所有其它个体鉴定箱集合A和B,如先前所述的计算单分子突变频率中的区域差异。对于每种突变类型(C>A、C>G、C>T、T>A、T>C和T>G),将患有NSCLC的个体与患有SCLC的那些个体进行比较,将患有NSCLC的个体与患有HCC的那些个体进行比较,并且将患有SCLC的个体与患有HCC的那些个体进行比较,获得每个个体的突变频率中的18个区域差异。使用突变频率中的这18个区域差异,对由成对样品之间的欧几里德距离产生的相似性矩阵进行主坐标分析。对突变频率中的18个区域差异矩阵进行K-均值聚类,其中聚类(k)数目设定为3。作为阴性对照,在排除肺癌和肝癌中最频繁观察到的C>A和T>C突变后,还对由成对样品之间的欧几里德距离生成的相似性矩阵进行主坐标分析,使得每个个体的突变频率中存在12个区域差异。
统计学
威尔科克森秩和检验用于生成用于两组比较的p值。使用皮尔森积矩相关系数或斯皮尔曼等级相关系数进行连续变量的相关。所有p值都基于双侧假设检验。ROC曲线使用DeLong氏检验进行比较。关于ROC曲线下面积的所有置信区间均表明置信水平为95%,并且基于DeLong的方法。逻辑回归模型中系数的置信区间假定为正态性,并且以95%的置信水平指示。进行方差分析(ANOVA),并且使用F检验来评价C>A频率或区域C>A的测序泳道变异之间是否具有统计学意义。使用R≥3.6.1和Python 3.8.2进行分析。所有盒须图都表示四分位距,其中须画到上下围栏内的最高值(上围栏=0.75分位数+1.5×四分位距;下围栏=0.25分位数–1.5×四分位距)。盒须图中的中间实线对应于中值。
数据可用性
用于重现来自本研究的结果的计算机代码、软件版本和计算环境将作为GitHub储库(github.com/cancer-genomics/gemini_wflow)提供。来自LUCAS研究的序列数据和临床变量可从欧洲基因组表型档案馆(European Genome-Phenome Archive)(EGA)以登录代码EGAS00001005340获得。
表1.GEMINI和DELFI随后为LDCT对于肺癌检测的灵敏度*
*灵敏度在对于GEMINI或GEMINI、DELFI的特异性为80%下进行确定;或者在对于GEMINI、DELFI、LDCT的组合特异性为85%下进行确定,其中GEMINI、DELFI预筛特异性为62%。DELFI在80%的特异性下具有80%的总体灵敏度。基于从LUCAS队列分析的高危患者子集18,这一设置下的LDCT具有66%的特异性和95%的假定灵敏度。共混总体灵敏度反映了在早期通过NLST群体中检测到的肺癌比例加权的筛查群体中预计的灵敏度5
其它实施方案
根据前述说明书,明显的是,可以对本文描述的公开内容进行变化和修改,以使其应用于各种用途和条件。此类实施方案也在下述权利要求的范围内。
本说明书中对序列、专利和出版物的所有引用都通过引用并入本文,其程度如同各独立的专利和出版物被具体且单独地指明以引用的方法并入本文。
参考文献
1.Sung,H.et al.Global Cancer Statistics 2020:GLOBOCAN Estimates ofIncidence and Mortality Worldwide for 36Cancers in 185Countries.Ca Cancer JClin 71,209–249(2021).
2.World Health Organization.Guide to Cancer Early Diagnosis.(2017).
3.Moyer,V.A.U.S.Preventive Services Task Force.Screening for lungcancer:U.S.Preventive Services Task Force recommendation statement.Annals ofInternal Medicine 160,330–8(2014).
4.Koning,H.J.de et al.Reduced Lung-Cancer Mortality with Volume CTScreening in a Randomized Trial.New Engl J Med 382,503–513(2020).
5.National Lung Screening Trial Research Team.Reduced Lung-CancerMortality with Low-Dose Computed Tomographic Screening.New Engl JMedicine365,395–409(2011).
6.Centers for Disease Control and Prevention,National Center forHealth Statistics.Lung Cancer National Health Interview Survey.https:// progressreport.cancer.gov/detection/lung_cancer(2021).
7.American Cancer Society.American Cancer Society Guidelines for theEarly Detection of Cancer.(2022).
8.Phallen,J.et al.Direct detection of early-stage cancers usingcirculating tumor DNA.Sci Transl Med 9,eaan2415(2017).
9.Bettegowda,C.et al.Detection of Circulating Tumor DNA in Early-andLate-Stage Human Malignancies.Sci Transl Med 6,224ra24-224ra24(2014).
10.Cohen,J.D.et al.Detection and localization of surgicallyresectable cancers with a multi-analyte blood test.Science 359,926–930(2018).
11.Phallen,J.et al.Early Noninvasive Detection of Response toTargetedTherapy in Non–Small Cell Lung Cancer.Cancer Res 79,1204–1213(2019).
12.Newman,A.M.et al.Integrated digital error suppression forimproveddetection of circulating tumor DNA.Nat Biotechnol 34,547–555(2016).
13.Cristiano,S.et al.Genome-wide cell-free DNA fragmentationinpatients with cancer.Nature 570,385–389(2019).
14.Shen,S.Y.et al.Sensitive tumour detection and classificationusingplasma cell-free DNA methylomes.Nature 563,579–583(2018).
15.Chabon,J.J.et al.Integrating genomic features for non-invasiveearly lung cancer detection.Nature 580,245–251(2020).
16.Leal,A.et al.White blood cell and cell-free DNA analysesfordetection of residual disease in gastric cancer.Nat Commun 11,525(2019).
17.Razavi,P.et al.High-intensity sequencing reveals the sourcesofplasma circulating cell-free DNA variants.Nat Med 25,1928–1937(2019).
18.Mathios,D.et al.Detection and characterization of lung cancerusingcell-free DNA fragmentomes.Nat Commun 12,5060(2021).
19.Siejka-Zielińska,P.et al.Cell-free DNA TAPS providesmultimodalinformation for early cancer detection.Sci Adv 7,eabh0534(2021).
20.Wang,T.-L.et al.Prevalence of somatic alterations in thecolorectalcancer cell genome.Proc National Acad Sci 99,3076–3080(2002).
21.T.et al.The Consensus Coding Sequences of HumanBreast andColorectal Cancers.Science 314,268–274(2006).
22.Zviran,A.et al.Genome-wide cell-free DNA mutationalintegrationenables ultra-sensitive cancer monitoring.Nat Med 26,1114–1124(2020).
23.Leary,R.J.et al.Development of Personalized Tumor BiomarkersUsingMassively Parallel Sequencing.Sci Transl Med 2,20ra14-20ra14(2010).
24.Wan,J.C.M.et al.Genome-wide mutational signatures inlow-coveragewhole genome sequencing of cell-free DNA.Nat Commun 13,4953(2022).
25.The ICGC/TCGA Pan-Cancer Analysis of Whole GenomesConsortium.Pan-cancer analysis of whole genomes.Nature 578,82–93(2020).
26.Alexandrov,L.B.et al.The repertoire of mutational signaturesinhuman cancer.Nature 578,94–101(2020).
27.Chen,L.,Liu,P.,EvansJr.,T.C.&Ettwiller,L.M.DNA damage isapervasive cause of sequencing errors,directly confoundingvariantidentification.Science 355,752–756(2017).
28.Moss,J.et al.Comprehensive human cell-type methylationatlasreveals origins of circulating cell-free DNA in health anddisease.NatCommun 9,5068(2018).
29.Alexandrov,L.B.et al.Mutational signatures associated withtobaccosmoking in human cancer.Science 354,618–622(2016).
30.Lawrence,M.S.et al.Mutational heterogeneity in cancer andthesearch for new cancer genes.Nature 499,214–218(2013).
31.Gonzalez-Perez,A.,Sabarinathan,R.&Lopez-Bigas,N.LocalDeterminantsof the Mutational Landscape of the Human Genome.Cell 177,101–114(2019).
32.Mouliere,F.et al.Enhanced detection of circulating tumor DNAbyfragment size analysis.Sci Transl Med 10,eaat4921(2018).
33.Fortin,J.-P.&Hansen,K.D.Reconstructing A/B compartments asrevealedby Hi-C using long-range correlations in epigenetic data.GenomeBiol 16,180(2015).
34.Barski,A.et al.High-Resolution Profiling of Histone Methylationsinthe Human Genome.Cell 129,823–837(2007).
35.Adalsteinsson,V.A.et al.Scalable whole-exome sequencing ofcell-free DNA reveals high concordance with metastatic tumors.Nat Commun8,1324(2017).
36.Almodovar,K.et al.Longitudinal Cell-Free DNA Analysis inPatientswith Small Cell Lung Cancer Reveals Dynamic Insights intoTreatment Efficacyand Disease Relapse.J Thorac Oncol 13,112–123(2018).
37.Phillips,D.H.&Venitt,S.DNA and protein adducts in humantissuesresulting from exposure to tobacco smoke.Int J Cancer 131,2733–2753(2012).
38.Supek,F.&Lehner,B.Differential DNA mismatch repairunderliesmutation rate variation across the human genome.Nature 521,81–84(2015).
39.Consortium,T.I.P.-C.A.of W.G.Pan-cancer analysis ofwholegenomes.Nature 578,82–93(2020).
40.Billatos,E.et al.Detection of early lung cancer amongmilitarypersonnel(DECAMP)consortium:study protocols.Bmc Pulm Med 19,59(2019).
41.Li,H.et al.The Sequence Alignment/Map format andSAMtools.Bioinformatics 25,2078–2079(2009).
42.Chen,S.,Zhou,Y.,Chen,Y.&Gu,J.fastp:an ultra-fast all-in-oneFASTQpreprocessor.Bioinformatics 34,i884–i890(2018).
43.Langmead,B.&Salzberg,S.L.Fast gapped-read alignment withBowtie2.Nat Methods 9,357–359(2012).
44.Tarasov,A.,Vilella,A.J.,Cuppen,E.,Nijman,I.J.&Prins,P.Sambamba:fast processing of NGS alignment formats.Bioinformatics 31,2032–2034(2015).
45.Karczewski,K.J.et al.The mutational constraint spectrum quantifiedfrom variation in 141,456humans.Nature 581,434–443(2020).
46.Wilks,C.et al.recount3:summaries and queries for large-scale RNA-seq expression and splicing.Biorxiv 2021.05.21.445138(2021)doi:10.1101/2021.05.21.445138.
47.Thurman,R.E.,Day,N.,Noble,W.S.&Stamatoyannopoulos,J.A.Identification of higher-order functional domains in the human ENCODEregions.Genome Res 17,917–927(2007).
48.The ENCODE Project Consortium.An Integrated Encyclopedia of DNAElements in the Human Genome.Nature 489,57–74(2012).
49.Hansen,R.S.et al.Sequencing newly replicated DNA revealswidespread plasticity in human replication timing.Proc National Acad Sci107,139–144(2010).
其它实施方案
根据前述说明书,明显的是,可以对本文描述的公开内容进行变化和修改,以使其应用于各种用途和条件。此类实施方案也在下述权利要求的范围内。
本说明书中对序列、专利和出版物的所有引用都通过引用并入本文,其程度如同各独立的专利和出版物被具体且单独地指明以引用的方法并入本文。
补充表7.SCLC相对于NSCLC分析的概括
补充表7.SCLC相对于NSCLC分析的概括
补充表7.SCLC相对于NSCLC分析的概括
补充表7.SCLC相对于NSCLC分析的概括
补充表8.肝队列和基因组分析的概括
补充表8.肝队列和基因组分析的概括

Claims (32)

1.一种确定受试者中的体细胞突变频率的方法,包括:
从受试者的生物样品中提取细胞游离DNA(cfDNA);
由所提取的cfDNA生成基因组文库;
对各个cfDNA分子进行测序,以获得突变谱;
确定突变谱中的多区域差异;和
确定所述受试者中的体细胞突变频率。
2.权利要求1所述的方法,其中确定全基因组突变谱和片段谱包括:鉴定各个cfDNA分子的序列中的突变和片段长度的变化。
3.权利要求1或2所述的方法,其中所述突变谱包括所述受试者的基因组中的突变频率和突变类型。
4.权利要求3所述的方法,其中使用大小范围从至少约1000个碱基到至少约2000万个碱基的非重叠箱来确定所述受试者的基因组中的突变谱。
5.权利要求3所述的方法,其中使用大小范围从至少约1000个碱基到至少约1000万个碱基的非重叠箱来确定所述受试者的基因组中的突变谱。
6.权利要求3所述的方法,其中使用大小范围从至少约1000个碱基到至少约500万个碱基的非重叠箱来确定所述受试者的基因组中的突变谱。
7.权利要求3所述的方法,其中在去除常见种系变体和不能评价的区域后,确定每个经测序的分子的突变。
8.权利要求1至7中任一项所述的方法,其中与正常受试者的基因组中的单分子体细胞突变频率和突变类型相比,所述受试者的基因组中的单分子体细胞突变频率和突变类型是癌症的诊断。
9.权利要求1至8中任一项所述的方法,其中,在无法获得肿瘤组织的受试者中执行此类分析。
10.一种治疗受试者中的癌症的方法,所述方法包括:
从受试者的生物样品中提取细胞游离DNA(cfDNA);
由所提取的cfDNA生成基因组文库;
对各个cfDNA分子进行测序,以获得突变谱;
确定突变谱中的多区域差异,并确定所述受试者中的体细胞突变频率;并且在此基础上,
向所述受试者施加癌症治疗。
11.权利要求10所述的方法,其中所述癌症治疗包括:手术、辅助化疗、新辅助化疗、放射疗法、激素疗法、细胞毒性疗法、免疫疗法、过继性T细胞疗法、靶向疗法及它们的组合。
12.权利要求10或11所述的方法,其中所述癌症包括结肠直肠癌、肺癌、乳腺癌、胃癌、胰腺癌、胆管癌、脑癌或卵巢癌。
13.权利要求12所述的方法,其中所述肺癌是小细胞肺癌(SCLC)。
14.权利要求12所述的方法,其中所述肺癌是非小细胞肺癌(NSCLC)。
15.权利要求10至14中任一项所述的方法,其中与健康个体相比,患有癌症的受试者包含与染色质组织相关的改变的突变谱。
16.权利要求10至15中任一项所述的方法,其中,全基因组突变谱和片段谱包括:鉴定各个cfDNA分子序列中的突变和片段长度的变化。
17.权利要求10所述的方法,其中所述突变谱包括所述受试者的基因组中的突变频率和突变类型。
18.权利要求17所述的方法,其中使用大小范围从至少约1000个碱基到至少约2000万个碱基的非重叠箱来确定所述受试者的基因组中的突变谱。
19.权利要求17所述的方法,其中,使用大小范围从至少约1000个碱基到至少约1000万个碱基的非重叠箱来确定所述受试者的基因组中的突变谱。
20.权利要求17所述的方法,其中,使用大小范围从至少约1000个碱基到至少约500万个碱基的非重叠箱来确定所述受试者的基因组中的突变谱。
21.权利要求16所述的方法,其中,在去除常见种系变体和不能评价的区域后,确定每个经测序的分子的全基因组突变。
22.一种确定基因组中的突变的区域频率的方法,包括:
对从受试者中分离的各个cfDNA分子进行测序;
估算所述基因组中的突变频率和突变类型;
确定癌症中改变的基因组区域中的突变类型和频率与正常cfDNA中的突变谱和突变的区域,以确定突变谱中的多区域差异;从而,
确定基因组中的突变的区域频率。
23.权利要求22所述的方法,其中估算基因组的突变频率和突变类型包括:使用大小范围从数千个碱基到数百万个碱基的非重叠箱。
24.权利要求22或23所述的方法,其中,通过一种或更多种测定来定量肿瘤特异性变化。
25.权利要求24所述的方法,其中,所述一种或更多种测定包括计算机稀释测定和/或降采样测定。
26.权利要求22至25中任一项所述的方法,其中,在去除常见种系变体和/或不能评价的区域后,针对单核苷酸变化扫描每个经测序的分子。
27.权利要求22至26中任一项所述的方法,其中,所述基因组区域的特征在于晚复制时序、低基因表达、B区室化、高H3K9me3丰度、低GC含量,或它们的组合。
28.权利要求21至26中任一项所述的方法,其中,推定突变的频率定义为所有测序的DNA分子中每百万个评估位置的变体数目。
29.权利要求21至28中任一项所述的方法,进一步包括组合突变谱和全基因组片段谱。
30.权利要求21至29中任一项所述的方法,进一步包括:执行用于确定全基因组突变谱中的变化的机器学习模型,所述机器学习模型基于对所述受试者鉴定的全基因组突变谱,将所述受试者分类为患有癌症或处于患有癌症的风险中或者排除所述受试者患有癌症或处于患有癌症的风险中。
31.一种基于执行权利要求1至30中任一项所述的方法或其组合的结果,来确定受试者是否是治疗的响应者的方法。
32.权利要求31所述的方法,其中,所述治疗选自手术、辅助化疗、新辅助化疗、放射疗法、激素疗法、细胞毒性疗法、免疫疗法、过继性T细胞疗法、靶向疗法,及它们的组合。
CN202280091205.8A 2021-12-15 2022-12-15 细胞游离dna的单分子全基因组突变谱和片段谱 Pending CN118660974A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163290017P 2021-12-15 2021-12-15
US63/290,017 2021-12-15
PCT/US2022/053052 WO2023114426A1 (en) 2021-12-15 2022-12-15 Single molecule genome- wide mutation and fragmentation profiles of cell-free dna

Publications (1)

Publication Number Publication Date
CN118660974A true CN118660974A (zh) 2024-09-17

Family

ID=86773474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280091205.8A Pending CN118660974A (zh) 2021-12-15 2022-12-15 细胞游离dna的单分子全基因组突变谱和片段谱

Country Status (6)

Country Link
CN (1) CN118660974A (zh)
AU (1) AU2022410636A1 (zh)
CA (1) CA3238944A1 (zh)
CO (1) CO2024007641A2 (zh)
IL (1) IL313476A (zh)
WO (1) WO2023114426A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201818159D0 (en) * 2018-11-07 2018-12-19 Cancer Research Tech Ltd Enhanced detection of target dna by fragment size analysis
EP4055187A4 (en) * 2019-11-06 2023-11-01 The Board of Trustees of the Leland Stanford Junior University METHOD AND SYSTEMS FOR ANALYZING NUCLEIC ACID MOLECULES

Also Published As

Publication number Publication date
IL313476A (en) 2024-08-01
AU2022410636A1 (en) 2024-06-06
WO2023114426A1 (en) 2023-06-22
CA3238944A1 (en) 2023-06-22
CO2024007641A2 (es) 2024-09-09

Similar Documents

Publication Publication Date Title
Sammut et al. Multi-omic machine learning predictor of breast cancer therapy response
EP3240911B1 (en) Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
Baker et al. Tumour gene expression predicts response to cetuximab in patients with KRAS wild-type metastatic colorectal cancer
US11415571B2 (en) Large scale organoid analysis
JP7340021B2 (ja) 予測腫瘍遺伝子変異量に基づいた腫瘍分類
Hofman et al. Pathologists and liquid biopsies: to be or not to be?
Schoppmann et al. Novel clinically relevant genes in gastrointestinal stromal tumors identified by exome sequencing
CN114556480A (zh) 肿瘤微环境的分类
Bueno et al. Multi-institutional prospective validation of prognostic mRNA signatures in early stage squamous lung cancer (alliance)
Pulitzer et al. T‐cell receptor‐δ expression and γδ+ T‐cell infiltrates in primary cutaneous γδ T‐cell lymphoma and other cutaneous T‐cell lymphoproliferative disorders
Lin et al. Evolutionary route of nasopharyngeal carcinoma metastasis and its clinical significance
Vibert et al. Identification of tissue of origin and guided therapeutic applications in cancers of unknown primary using deep learning and RNA sequencing (TransCUPtomics)
US20240060141A1 (en) Detection of lung cancer using cell-free dna fragmentation
Xu et al. Immunotherapy for bilateral multiple ground glass opacities: An exploratory study for synchronous multiple primary lung cancer
EP3347492B1 (en) Methods for diagnosis of cancer
CN118660974A (zh) 细胞游离dna的单分子全基因组突变谱和片段谱
KR20240132282A (ko) 단일 분자 게놈-와이드 돌연변이 및 무세포 dna의 단편화 프로파일
CN111919257B (zh) 降低测序数据中的噪声的方法和系统及其实施和应用
WO2024098073A1 (en) Detecting liver cancer using cell-free dna fragmentation
US20220415434A1 (en) Methods for cancer cell stratification
Diaz Epigenetic Modifications of Cytosines in Clear Cell Kidney Carcinogenesis and Survival
Weber Applications of ctDNA Genomic Profiling to Metastatic Triple Negative Breast Cancer
Stucky et al. Single-Cell Molecular Profiling of Head and Neck Squamous Cell Carcinoma Reveals Five Dysregulated Signaling Pathways Associated With Circulating Tumor Cells
Kwak et al. Distinctive Phenotypic and Microenvironmental Characteristics of Neuroendocrine Carcinoma and Adenocarcinoma Components in Gastric Mixed Adenoneuroendocrine Carcinoma
Bátai et al. Profiling of Copy Number Alterations Using Low-Coverage Whole-Genome Sequencing Informs Differential Diagnosis and Prognosis in Primary Cutaneous Follicle Center Lymphoma

Legal Events

Date Code Title Description
PB01 Publication