CN110168099A - 用于疾病和病症分析的无细胞dna甲基化模式 - Google Patents

用于疾病和病症分析的无细胞dna甲基化模式 Download PDF

Info

Publication number
CN110168099A
CN110168099A CN201780047763.3A CN201780047763A CN110168099A CN 110168099 A CN110168099 A CN 110168099A CN 201780047763 A CN201780047763 A CN 201780047763A CN 110168099 A CN110168099 A CN 110168099A
Authority
CN
China
Prior art keywords
methylation
cpg
cfdna
cancer
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780047763.3A
Other languages
English (en)
Inventor
向红·婕思敏·周
康舒里
李文渊
史蒂文·杜比尼特
李青娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
University of Southern California USC
Original Assignee
University of California
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California, University of Southern California USC filed Critical University of California
Publication of CN110168099A publication Critical patent/CN110168099A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本文公开了利用测序读取来检测并定量由血液样品制备的无细胞DNA中组织类型或癌症类型的存在的方法和系统。

Description

用于疾病和病症分析的无细胞DNA甲基化模式
关于联邦政府资助研究的声明
本发明是在美国国家卫生研究院(NIH)美国国家心脏、肺和血液研究所(NHLBI)授予的批准号MAPGEN U01HL108634的政府支持下完成的。政府拥有本发明的一定权利。
优先权
本申请要求于2016年6月7日提交的美国临时专利申请62/347010、2017年3月20日提交的美国临时专利申请62/473829和2017年4月28日提交的美国临时专利申请62/491560的优先权,其全部通过引入整体并入本文。
技术领域
本文公开的发明总体上涉及分析核酸样品(例如,无细胞DNA样品)的测序数据的方法。其还涉及癌症诊断和预后的方法,包括癌症的鉴别、起源和定位。
背景
与涉及侵入式手术的传统活组织检查不同,液体活组织检查仅利用以最小侵入性获得的血液样品。血液是唯一通过人体循环系统与几乎所有人体器官(包括肿瘤和炎症组织)接触的生物材料。因此,血液携带涉及许多器官的状态的大量有价值的信息和疾病迹象。例如,在血浆中,无细胞循环DNA(缩写为cfDNA)(从许多器官中凋亡或坏死的细胞释放的经降解的DNA片段)被认为是来自许多正常组织细胞和患病细胞(例如,癌性肿瘤细胞)的DNA的混合物。因此,它们是基于血液的癌症诊断的最佳来源之一,并且最近成为基于血液的癌症诊断的主要目标。
然而,来自患病细胞的DNA片段通常仅构成cfDNA样品的一小部分,特别是在疾病的早期阶段。因此,表示患病DNA的测序信息通常被表示正常DNA的测序信息所淹没。所需的是用于选择性地和灵敏地破译与患病DNA相关的测序信息的方法和/或系统。
非常需要癌症的早期检测和鉴别。传统上,癌症的鉴别涉及侵入性组织活检程序。当癌症处于早期阶段时,不存在用非侵入性方法提供癌症组织来源的精确筛选和鉴别的方法或设备。
在癌症有机会转移之前进行癌症的早期检测提供了提高癌症存活率的最佳策略。最近,使用来自血液的无细胞DNA(cfDNA)的癌症检测由于其非侵入性而引起了极大的兴趣。然而,在大多数早期和许多晚期癌症患者中,肿瘤cfDNA水平非常低(Bettegowda等人,2014;Newman等人,2014)。因此,基于cfDNA的早期癌症诊断的主要挑战是如何从血液中的总cfDNA中鉴别出微量的肿瘤cfDNA。解决这一挑战的主流方法是基于突变的方法,即使用结合错误抑制技术的靶向深度测序(>5000X覆盖率),以在小的基因面板(gene panel)中鉴别cfDNA突变(Bettegowda等人,2014;Newman等人,2014;Newman等人,2016)。虽然这种方法提供了一种在突变是已知的情况下监测癌症复发的灵敏方法,但是小的基因面板不能用于诊断目的,因为突变可以广泛传播并且是相当异质性的,即使在相同类型的癌症中也是如此(Burrell等人,2013;Tumer等人,2012;Greenman等人,2007;Schmitt等人,2012)。然而,扩大基因面板(同时保持测序深度)是成本高昂的。因此,仍存在使用不同的方法,即使用cfDNA甲基化模式来检测痕量肿瘤cfDNA的挑战。
本公开内容公开了在癌症处于早期阶段时使用从患者抽取的血液样品来筛查癌症和鉴别癌细胞组织来源的机器、设备、计算机产品和方法的不同实施方案。
发明内容
在一个方面,本文提供了表征来自对象的无细胞DNA(cfDNA)样品的方法。在一些实施方案中,该方法包括以下步骤:接收来自对象的cfDNA样品的多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;基于多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和基因组区域中一个或多于一个基序的甲基化状态;将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;并且,如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成。
在一些实施方案中,该方法还包括针对多个测序读取的每一个重复比较和表征步骤的步骤。
在一些实施方案中,该方法还包括基于现有甲基化测序数据(例如,基于阵列和测序数据)建立一个或多于一个预先建立的甲基化特征的步骤。
在一些实施方案中,该方法还包括基于多个测序读取中含有生物组成的测序读取的数目来确定cfDNA样品中生物组成的水平的步骤。
在一些实施方案中,现有的甲基化测序数据选自组织特异性测序数据、疾病特异性测序数据、个体测序数据、群体测序数据及其组合。
在一些实施方案中,cfDNA样品由来自对象的血浆或血液样品制备。生物样品可以是任何生物液体,例如唾液、羊水、囊液、脊髓液或脑液、尿液、汗液或泪液。其可以含有污染量的细胞,例如每微升液体的细胞的量为至多或小于约1个、10个、100个、1000个或10000个完整细胞(平均值)(或其中可衍生的任何范围)。
在一些实施方案中,生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。本文描述的方法、计算机程序和装置可以应用于任何疾病或病症,在所述疾病或病症中,来自受影响个体与未受影响个体或者处于疾病或病症的不同阶段或具有不同预后的个体的无细胞DNA的甲基化模式存在差异。例如,可以基于用来获得疾病的甲基化特征的数据,鉴别来自少突胶质细胞的无细胞DNA的异常甲基化模式以诊断多发性硬化、鉴别来自胰腺β细胞的无细胞DNA的异常甲基化模式以诊断I型糖尿病、鉴别来自胰腺细胞的无细胞DNA的异常甲基化模式以诊断胰腺炎。因此,在一些实施方案中,包括从患有疾病的生物样品中获得或产生无细胞DNA的甲基化谱。在其他实施方案中,包括从未患病或被认为无疾病的生物样品中获得或产生无细胞DNA的甲基化谱。
在一些实施方案中,癌组织选自肝癌组织、肺癌组织、肾癌组织、结肠癌组织、脑癌组织、胰腺癌组织、脑癌组织、胃肠癌组织、头颈癌组织、骨癌组织、舌癌组织、牙龈癌组织及其组合。在其他实施方案中,组织选自肝组织、脑组织、肺组织、肾组织、结肠组织、胰腺组织、脑组织、胃肠组织、头颈组织、骨组织、舌组织、牙龈组织及其组合。
在一些实施方案中,在箱(bin)水平确定甲基化状态和预先确定的甲基化状态。
在一些实施方案中,在CpG位点水平确定甲基化状态和预先确定的甲基化状态。
在一些实施方案中,一个或多于一个基序是CpG位点。
在一些实施方案中,其中该方法还包括将对象的cfDNA中的生物组成的水平与正常对象或已知癌症患者、或已知受特定疾病或病症影响或患有特定疾病或病症的患者中的生物组成的水平进行比较。
在一些实施方案中,使用相同方法或不同方法预先确定正常对象或已知癌症或其他疾病患者中的生物组成的水平。
在一个方面,本文提供了用于将来自正常对象的生物组成的水平与来自潜在患者的相同生物组成的水平进行比较的方法。此处,本文公开的方法可用于使用来自正常对象和潜在患者的cfDNA样品确定生物组成的水平。
在一个方面,本文提供了用于将来自已知癌症患者的生物组成的水平与来自潜在患者的相同生物组成的水平进行比较的方法。另一方面,本文提供了用于将来自患有已知疾病或病症的患者的生物组成的水平与来自潜在患者的相同生物组成的水平进行比较的方法。这里,本文公开的方法可用于使用来自正常对象和潜在患者的cfDNA样品确定生物组成的水平。
应当理解,来自任何疾病的已知患者的cfDNA可以用作疾病诊断的标准。预期,本文讨论的关于癌症的任何实施方案可以对任何其他疾病或病症进行实施的原因是cfDNA的甲基化谱在正常或非患病个体与患病个体之间存在差异。
在一个方面,本文提供了将来自未知对象的无细胞(cfDNA)样品的生物组成的水平与来自正常对象或已知癌症患者的相同生物组成的水平进行比较的方法。该方法包括以下步骤:接收来自未知对象的cfDNA样品的第一多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;i)基于第一多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和基因组区域中一个或多于一个基序的甲基化状态;ii)将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;iii)如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成;iv)针对第一多个测序读取的每一个重复计算、比较和表征步骤;v)基于第一多个测序读取中含有生物组成的测序读取的数目,确定来自未知对象的cfDNA样品中生物组成的第一水平;接收来自正常对象或已知癌症患者的cfDNA样品的第二多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;通过对来自正常对象或已知癌症患者的cfDNA样品进行步骤i)至步骤v),确定来自患者的cfDNA样品中的生物组成的第二水平;并且比较生物组成的第一水平和第二水平。
在一个方面,本文提供了检测来自患者的无细胞DNA(cfDNA)样品中的组成变化的方法。该方法包括以下步骤:在第一时间点,接收来自患者的第一cfDNA样品的第一多个测序读取,其中第一多个测序读取的每一个包括从50个或多于50个核酸的第一连续核酸序列获得的甲基化测序数据;i)基于第一多个测序读取计算第一甲基化模式,其中第一甲基化模式包括对应于第一连续核酸序列的第一基因组区域和第一基因组区域中一个或多于一个基序的甲基化状态;ii)将第一甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个第一似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;iii)如果一个或多于一个第一似然得分中的至少一个超过阈值,则将cfDNA表征为包含生物组成;iv)针对第一多个测序读取中的每个测序读取重复步骤i)至步骤iii),以对在第一时间点cfDNA样品中存在的生物组成进行定量;在第二时间点,接收来自同一患者的第二cfDNA样品的第二多个测序读取,其中第二多个测序读取的每一个包括从50个或多于50个核酸的第二连续核酸序列获得的甲基化测序数据;针对第二多个测序读取中的每个测序读取重复步骤i)至步骤iv),以对在第二时间点cfDNA样品中存在的生物组成进行;并且检测第一时间点和第二时间点之间的生物组成的变化。
在一些实施方案中,生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。在一些实施方案中,可以确定患者患有疾病或病症或者特别确定患者不患有该疾病或病症。
特别地,癌细胞通常显示出异常的DNA甲基化模式,例如肿瘤抑制基因的启动子区域的过度甲基化和基因间区域的普遍低甲基化。因此,患者的DNA甲基化谱可以作为临床实践中癌症评估的靶标。过度甲基化/低甲基化的肿瘤DNA片段可通过细胞凋亡或坏死而释放到血流中,在血流中,这些循环的肿瘤DNA(ctDNA)成为血浆中的循环无细胞DNA(cfDNA)的一部分。非侵入性的cfDNA甲基化谱分析可能是一般癌症筛查的有效策略。
在开发用于非侵入性癌症筛查和鉴别肿瘤组织来源的实施方案中,血浆中无细胞DNA的检测和表征是有效的方法。与传统的组织活检不同,液体活检,例如抽血具有诊断各种不同恶性肿瘤的潜力。
在一些实施方案中,本公开提供了使用无细胞DNA(cfDNA)评估患者的癌症的概率方法,该方法包括鉴别癌症和/或肿瘤的位置。该实施方案使用全基因组DNA甲基化数据同时确定血液样品中肿瘤衍生的无细胞DNA的比例和组织来源。本公开全面公开了采用模拟数据和实际数据的实施方案,并比较了这些实施方案的表现。本公开内容显示,预测的肿瘤负荷与真实值高度一致。值得注意的是,尽管来自这些样品的DNA甲基化数据具有非常低的测序覆盖率,本文公开的实施方案还是针对患者血浆样品获得了准确的结果。在癌症治疗中非常需要这种准确鉴别肿瘤的存在以及位置的能力。
根据一个实施方案,一种计算机程序产品包括非暂时性计算机可读介质,该非暂时性计算机可读介质具有被配置用于癌症检测和组织来源鉴别的指令,当该指令由计算系统的处理器执行时,使得处理器执行以下步骤:接收访问存储在非暂时性计算机可读介质中的患者无细胞DNA(cfDNA)甲基化谱的数据的指令;鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0其θ≤1;确定潜在的癌症类型t;估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;使用θ、t和xk计算预测得分λ;如果λ大于预先确定的阈值,则确定患者患有潜在癌症类型t的癌症;并且如果λ小于预先确定的阈值,则确定患者未患癌症。
根据另一实施方案,一种被配置用于癌症检测和组织来源鉴别的装置包括非暂时性存储器和耦合到非暂时性存储器的处理器,该处理器被配置用于执行以下步骤:访问存储在非暂时性存储器中的患者无细胞DNA(cfDNA)甲基化谱的数据;鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;确定潜在的癌症类型t;估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;使用θ、t和xk计算预测得分λ;如果λ大于预先确定的阈值,则确定患者患有潜在癌症类型t的癌症;并且如果λ小于预先确定的阈值,则确定患者未患癌症。如上所述,本文讨论的该实施方案和其他实施方案可以应用于除癌症之外的疾病。
根据又一个实施方案,由计算机系统执行的癌症检测和组织来源鉴别的方法包括:由计算机系统的处理器接收访问存储在非暂时性计算机可读介质中的患者无细胞DNA(cfDNA)甲基化谱的数据的指令,非暂时性计算机可读介质与处理器通信;通过处理器鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;通过处理器确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;通过处理器确定潜在的癌症类型t;通过处理器估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;通过处理器,使用θ、t和xk计算预测得分λ;如果λ大于预先确定的阈值,则通过处理器确定患者患有潜在癌症类型t的癌症;并且如果λ小于预先确定的阈值,则通过处理器确定患者未患癌症。
在一些实施方案中,通过网格搜索找到负荷θ对于的最优解。在一些实施方案中,还可以使用更高分辨率(0.01%)的步骤进行网格搜索,该更高分辨率例如为0.010%、0.020%、0.025%、0.030%、0.040%、0.050%、0.060%、0.070%、0.080%、0.090%、0.100%、0.125%、0.150%、0.175%、0.200%、0.225%、0.250%、0.275%、0.300%、0.325%、0.350%、0.375%、0.400%、0.425%、0.450%、0.475%、0.500%、0.525%、0.055%、0.575%、0.600%、0.625%、0.650%、0.675%、0.700%、0.725%、0.750%、0.775%、0.800%、0.825%、0.850%、0.875%、0.900%、0.925%、0.950%、0.975%、1.0%、1.1%、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、1.8%、1.9%、2.0%、2.1%、2.2%、2.3%、2.4%、2.5%、2.6%、2.7%、2.8%、2.9%、3.0%、3.1%、3.2%、3.3%、3.4%、3.5%、3.6%、3.7%、3.8%、3.9%、4.0%、4.1%、4.2%、4.3%、4.4%、4.5%、4.6%、4.7%、4.8%、4.9%、5.0%、5.1%、5.2%、5.3%、5.4%、5.5%、5.6%、5.7%、5.8%、5.9%、6.0%、6.1%、6.2%、6.3%、6.4%、6.5%、6.6%、6.7%、6.8%、6.9%、7.0%、7.1%、7.2%、7.3%、7.4%、7.5%、7.6%、7.7%、7.8%、7.9%、8.0%、8.1%、8.2%、8.3%、8.4%、8.5%、8.6%、8.7%、8.8%、8.9%、9.0%、9.1%、9.2%、9.3%、9.4%、9.5%、9.6%、9.7%、9.8%、9.9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、35%、40%、45%、50%、60%、65%、70%、75%、80%、85%、90%、95%、999%、和/或100%、或其中可衍生的任何范围。在一些实施方案中,可以使用更高分辨率(0.001%)的步骤进行网格搜索,该更高分辨率例如为0.001%、0.002%、0.003%、0.004%、0.005%、0.006%、0.007%、0.008%、0.009%、0.010%、0.020%、0.025%、0.030%、0.040%、0.050%、0.060%、0.070%、0.080%、0.090%、0.100%、0.125%、0.150%、0.175%、0.200%、0.225%、0.250%、0.275%、0.300%、0.325%、0.350%、0.375%、0.400%、0.425%、0.450%、0.475%、0.500%、0.525%、0.055%、0.575%、0.600%、0.625%、0.650%、0.675%、0.700%、0.725%、0.750%、0.775%、0.800%、0.825%、0.850%、0.875%、0.900%、0.925%、0.950%、0.975%、1.0%、1.1%、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、1.8%、1.9%、2.0%、2.1%、2.2%、2.3%、2.4%、2.5%、2.6%、2.7%、2.8%、2.9%、3.0%、3.1%、3.2%、3.3%、3.4%、3.5%、3.6%、3.7%、3.8%、3.9%、4.0%、4.1%、4.2%、4.3%、4.4%、4.5%、4.6%、4.7%、4.8%、4.9%、5.0%、5.1%、5.2%、5.3%、5.4%、5.5%、5.6%、5.7%、5.8%、5.9%、6.0%、6.1%、6.2%、6.3%、6.4%、6.5%、6.6%、6.7%、6.8%、6.9%、7.0%、7.1%、7.2%、7.3%、7.4%、7.5%、7.6%、7.7%、7.8%、7.9%、8.0%、8.1%、8.2%、8.3%、8.4%、8.5%、8.6%、8.7%、8.8%、8.9%、9.0%、9.1%、9.2%、9.3%、9.4%、9.5%、9.6%、9.7%、9.8%、9.9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、35%、40%、45%、50%、60%、65%、70%、75%、80%、85%、90%、95%、999%、和/或100%、或其中可衍生的任何范围。
实施方案涉及具有癌症症状、患有无症状性癌症、具有癌症的家族病史或患病史、具有癌症风险或已被诊断为患有癌症的患者。患者可以是哺乳动物患者,但在大多数实施方案中,患者是人。癌症可以是恶性的、良性的、转移性的或初癌。癌症可以是I期、II期、III期、或IV期。癌症可以复发和/或具有化疗抗性或放疗抗性。在更进一步的实施方案中,癌症是黑色素瘤、非小细胞肺癌、小细胞肺癌、肺癌、肝癌、视网膜母细胞瘤、星形细胞瘤、胶质母细胞瘤、牙龈癌、舌癌、白血病、神经母细胞瘤、头癌、颈癌、乳腺癌、胰腺癌、前列腺癌、肾癌、骨癌、睾丸癌、卵巢癌、间皮瘤、宫颈癌、胃肠癌、淋巴瘤、脑癌、结肠癌、肉瘤或膀胱癌。癌症可包括由肿瘤细胞构成的肿瘤。实施方案涉及具有特定疾病或病症的症状、患有无症状性特定疾病或病症、具有疾病或病症的家族病史或患病史、具有患有疾病或病症的风险、或已被诊断为患有疾病或病症的患者。
在一些实施方案中,存在用于治疗癌症患者的癌症的方法,该方法包括在基于本文公开的方法确定患者患有癌症之后向患者施用有效量的化学疗法、放射疗法或免疫疗法(或其组合)。在可以确定癌症来源点的情况下,调整治疗以适合于该来源的癌症。在一些实施方案中,肿瘤切除术作为治疗方案或可以作为治疗方案的一部分与其他疗法之一联合使用。化学疗法的实例包括但不限于以下:烷化剂,例如双官能烷化剂(例如,环磷酰胺、氮芥、苯丁酸氮芥、美法仑)或单官能烷化剂(例如,达卡巴嗪(DTIC)、亚硝基脲、替莫唑胺(口服达卡巴嗪));蒽环类药物(例如,柔红霉素、多柔比星、表柔比星、伊达比星、米托蒽醌、戊柔比星);破坏细胞骨架的紫杉烷类(例如紫杉醇、多烯紫杉醇、白蛋白结合型紫杉醇(abraxane)、泰索帝);埃博霉素;组蛋白去乙酰化酶抑制剂(例如,伏立诺他、罗米地辛);拓扑异构酶I抑制剂(例如,伊立替康、拓扑替康);拓扑异构酶II抑制剂(例如,依托泊苷、替尼泊苷、他氟泊苷(tafluposide));激酶抑制剂(例如,硼替佐米、厄洛替尼、吉非替尼、伊马替尼、维罗非尼、维莫德吉);核苷酸类似物和核苷酸前体类似物(例如,阿扎胞苷、硫唑嘌呤、卡培他滨、阿糖胞苷、去氧氟尿苷、氟尿嘧啶、吉西他滨、羟基脲、巯嘌呤、氨甲蝶呤、硫鸟嘌呤;肽抗生素(例如,博来霉素、放线菌素);基于铂的抗肿瘤药(例如,卡铂、顺铂、奥沙利铂);类视黄醇(例如,维A酸、阿利维A酸、贝沙罗汀);以及长春花生物碱(例如,长春碱、长春新碱、长春地辛、长春瑞滨)。免疫疗法包括但不限于细胞疗法,例如树突细胞疗法(例如,涉及嵌合抗原受体);抗体疗法(例如,阿仑单抗、阿特珠单抗、伊匹单抗、纳武单抗、奥法木单抗、派姆单抗、利妥昔单抗、或与这些抗体之一具有相同靶标的其他抗体,例如CTLA-4、PD-1、PD-L1、或其他检查点抑制剂);以及细胞因子疗法(例如,干扰素或白细胞介素)。
在一些实施方案中,存在基于确定患者是否具有指示患有癌症或另一种疾病或病症的甲基化谱来诊断患者的方法。在一些实施方案中,该方法涉及产生指示患者是否患有癌症或其他疾病或病症,并且如果患病,指示癌症或其他疾病或病症来自哪个器官的甲基化谱。在一些实施方案中,这是使用来自患者的包含无细胞DNA的生物样品完成的。
该方法还可以涉及在确定患者的甲基化谱之后进行活组织检查、进行CAT扫描、进行X线乳腺摄影检查、进行超声检查或以其他方式评估疑似癌变的组织。在一些实施方案中,将所发现的癌症按照癌症分类进行分类。
血浆中的无细胞DNA(cfDNA)是检测癌症的良好靶标,但不限于检测癌症。血浆cfDNA包括来自健康细胞和肿瘤细胞的DNA。通常,在血浆cfDNA中,衍生自肿瘤细胞的cfDNA占比远小于健康细胞。因此,使用血浆cfDNA检测癌症的挑战是如何准确检测衍生自肿瘤细胞的极低量的cfDNA。
传统的DNA甲基化分析侧重于细胞群体中单个CpG位点的甲基化率。该甲基化率通常称为β值,是其中CpG位点被甲基化的细胞的比例。然而,这种群体平均测量值不足以灵敏地用来自肿瘤细胞的少量cfDNA捕获异常的甲基化信号。图1是说明该观点的血浆cfDNA的实例100。
实例100包括β正常=1的正常血浆cfDNA。实例100包括肝肿瘤衍生的cfDNA,其中β肿瘤=0。实例100包括血浆cfDNA,其是99%正常血浆cfDNA和1%肝肿瘤衍生的cfDNA的混合物。因此,血浆cfDNA具有β混合=0.99。目前的技术无法可靠地区分β混合=0.99和β正常=1。
以下装置和方法的实施方案旨在提供可靠地检测少量的肿瘤衍生的cfDNA,例如图1中的实例100的解决方案。
在一个实施方案中,一种计算机程序产品包括非暂时性计算机可读介质,该非暂时性计算机可读介质具有被配置用于以单个读取的分辨率检测患者的癌症的指令,当该指令由计算系统的处理器执行时,使得处理器执行包括以下的步骤:检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;检索癌症的DNA甲基化标志物的数目K,K是正整数;确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于癌症的DNA甲基化标志物的CpG簇;检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自癌症肿瘤细胞的cfDNA的甲基化模式;检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;并且基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。
在另一个实施方案中,提供了一种被配置用于检测患者的癌症的装置,该装置包括:非暂时性存储器;和耦合到非暂时性存储器的处理器,该处理器被配置用于执行以下步骤:检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;检索癌症的DNA甲基化标志物的数目K,K是正整数;确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于癌症的DNA甲基化标志物的CpG簇;检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自癌症肿瘤细胞的cfDNA的甲基化模式;检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;并且基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。在一些实施方案中,该装置是便携式的。
在另一个实施方案中,在基于包括以下步骤的方法确定患者患有癌症之后向患者施用有效量的化学疗法、放射疗法或免疫疗法,所述步骤为:检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;检索癌症的DNA甲基化标志物的数目K,K是正整数;确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于癌症的DNA甲基化标志物的CpG簇;检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自癌症肿瘤细胞的cfDNA的甲基化模式;检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;并且基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。
在另一个实施方案中,提供了基于来自患者的生物样品检测患者癌症的方法。在一些实施方案中,该方法包括使用实施以下步骤中的1个、2个、3个、4个、5个、6个或多于6个的计算机程序产品:检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;检索癌症的DNA甲基化标志物的数目K,K是正整数;确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于癌症的DNA甲基化标志物的CpG簇;检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自癌症肿瘤细胞的cfDNA的甲基化模式;检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;并且基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。
前面已经相当广泛地概述了本发明的特征和技术优点,以便可以更好地理解随后的本发明的详细描述。在下文中将描述本发明的附加特征和优点,其形成本发明权利要求的主题。本领域技术人员应该理解,所公开的构思和具体实施方案可以容易地用作修改或设计用于实现本发明的相同目的的其他结构的基础。本领域技术人员还应该认识到,这种等同结构不脱离所附权利要求中阐述的本发明的精神和范围。关于本发明的组织和操作方法,当结合附图考虑时,根据以下描述将更好地理解被认为是本发明特征所在的新特征,以及进一步的目的和优点。然而,应该清楚地理解,提供的每个附图仅用于说明和描述的目的,而不是作为对本发明的限制的定义。
在更进一步的实施方案中,癌症是黑色素瘤或癌细胞,该癌细胞是或来自非小细胞肺癌、小细胞肺癌、肺癌、肝癌、视网膜母细胞瘤、星形细胞瘤、胶质母细胞瘤、牙龈癌、舌癌、白血病、神经母细胞瘤、头癌、颈癌、乳腺癌、胰腺癌、前列腺癌、肾癌、骨癌、睾丸癌、卵巢癌、间皮瘤、宫颈癌、胃肠道癌、淋巴瘤、脑癌、结肠癌、肉瘤或膀胱癌。癌症可包括由肿瘤细胞构成的肿瘤。
在一些实施方案中,存在用于治疗癌症患者的癌症的方法,其包括在基于本文公开的方法确定患者患有癌症之后向患者施用有效量的化学疗法、放射疗法或免疫疗法(或其组合)。在可以确定癌症的来源点的情况下,调整治疗以适合于该来源的癌症。在一些实施方案中,肿瘤切除术作为治疗方案或可以作为治疗方案的一部分与其他疗法之一联合使用。
在一些实施方案中,存在基于确定患者是否具有指示患有癌症的甲基化谱来诊断患者的方法。在一些实施方案中,该方法涉及产生指示患者是否患有癌症,并且如果患有癌症,癌症来自哪个器官的甲基化谱。在一些实施方案中,这是使用来自患者的包含无细胞DNA的生物样品完成的。
该方法可以进一步涉及在确定患者的甲基化谱之后进行活组织检查、进行CAT扫描、进行X线乳腺摄影检查、进行超声检查或以其他方式评估疑似癌变的组织。在一些实施方案中,将所发现的癌症按照癌症分类进行分类。癌症分类可以被认定为I期、II期、III期、或IV期中的任何阶段。
在一些实施方案中,该方法还可以涉及将测量值与指示相关非癌组织或相关癌组织的对照进行比较。在一些实施方案中,将测量值与预先确定的阈值进行比较。在一些实施方案中,该特定水平或预先确定的阈值为、低于、或高于1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%,或其中可衍生的任何范围。此外,该值或对照可以基于至少或至多10例、20例、30例、40例、50例、60例、70例、80例、90例、100例、150例、200例、300例、400例、500例或多于500例患者(或其中可衍生的任何范围)。
在一个方面,本文提供了一种计算机程序产品,其包括计算机可读介质,该计算机可读介质具有记录在其上的被设置用于实施本发明公开的实施方案的方法的计算机程序逻辑。
预期可以通过本发明的任何方法、系统、套件、计算机可读介质或装置来实现本说明书中讨论的任何实施方案,反之亦然。此外,本发明的装置可用于实现本发明的方法。此外,特别考虑,本文讨论的任何实施方案可以被特别地排除。
本领域技术人员将理解,本文公开的实施方案可以任何组合方式进行组合。
附图说明
本领域技术人员将理解,下面描述的附图仅用于说明目的。附图不旨在以任何方式限制本教导的范围。
图1描绘了示例性实施方案,其说明(A)基于“定相的”甲基化模式的分析如何比基于单独CpG位点的平均甲基化率的分析对检测肿瘤衍生的cfDNA更灵敏的基本原理;(B)“定相的”甲基化分析如何可以自然地用于推断cfDNA组成的基本原理。实心圆圈表示甲基化位点,空心圆圈表示未甲基化位点。
图2描绘了示例性实施方案,其说明鉴别cfDNA测序读取的组织来源的似然率及其用于推断血浆cfDNA的正常组织组成。
图3描绘了说明“定相的”cfDNA甲基化的综合分析的示例性实施方案。带有白色文本的黑框是方法的组成部分,灰框是数据。
图4描绘了说明如何基于组织样品群体的平均值建立甲基化特征的示例性实施方案。两种模型用于表征不同分辨率下的甲基化特征:箱(模型1)和CpG位点(模型2)。
图5描绘了说明获得血浆cfDNA甲基化测序数据的方法的示例性实施方案。
图6描绘了说明EM算法的流程图的示例性实施方案。对于新的未知组织,其所估计的甲基化特征根据所使用的甲基化特征模型选择f(q,R)是方程(9)或方程(10)。
图7描绘了说明如何将患者的血浆cfDNA的癌症和组织组成用于癌症诊断的示例性实施方案。(A)计算Z得分以评估t类的占比与正常血浆样品的差距;(B)将每个类的占比的Z得分整合成预测得分。
图8描绘了说明血浆cfDNA中具有不同肿瘤负荷的模拟数据对健康或癌症的预测表现(曲线下面积:AUC)的示例性实施方案。
图9描绘了说明针对两种类型的分类任务使用仅一个维度和两个维度的预测表现的示例性实施方案:(i)二元分类-新患者健康或患癌症;(ii)多级分类-新患者被分类为正常、肝癌或肺癌。我们报告了对不同随机测试集(即AUC和混淆矩阵)取平均的预测表现。在混淆矩阵中,将真实类(t)和预测类p中的每一项的值以占比计算:
图10描绘了说明在手术切除之前和之后的多个时间点对两例肝癌患者进行分析的示例性实例说明。两例癌症患者的每个时间点的饼图是14个组织的组成:A是患者1,B是患者2。C列出了患者1和患者2的Z得分值。
图11描绘了说明基于组织样品的单个值表征DNA甲基化模式的三种模型的示例性实施方案。三种模型可用于表征不同分辨率(从高到低)的甲基化特征:(模型1)表观等位基因、(模型2)CpG位点和(模型3)箱。
图12是根据一个实施方案的用于筛查癌症和鉴别肿瘤组织来源的方法的流程图。
图13是根据一个实施方案的针对来自肿瘤类型t的ctDNA的不同负荷,患者血浆cfDNA中甲基化水平(x)的混合模型。
图14A至图14B:A是根据一个实施方案的正常样品的预测的ctDNA负荷的直方图。B是根据一个实施方案的癌症样品的预测和真实的ctDNA负荷的比较。
图15是示出本公开的实施方案的预测表现的条形图。
图16是根据本公开的一个实施方案的针对真实数据预测每个血浆的ctDNA负荷和肿瘤组织之间的关系。
图17说明了根据本公开的一个实施方案的在模拟实验和真实数据实验中用于学习区分特征的数据分区。
图18说明了根据本公开的一个实施方案的用于获得对用于检测癌症和鉴别组织来源的数据库文件的访问的计算机系统。
图19说明了根据本公开的一个实施方案的被配置用于癌症检测和组织来源鉴别的计算机系统。
图20说明了为何在检测肿瘤衍生的cfDNA时测序读取中所有CpG位点的平均甲基化值(α值)比传统的对所有读取平均的CpG位点的甲基化水平(β值)更灵敏的基本原理。每行代表测序读取,每个点代表CpG位点。
图21是癌症检测器方法概览。cfDNA测序读取的颜色代表它们的来源:红色(绿色)读取是来自肿瘤(正常血浆)的cfDNA片段。
图22说明了根据正常类别和肿瘤类别的甲基化模式计算标志物中cfDNA测序读取的似然率。
图23是通过二次采集并混合来自真实健康的cfDNA样品(N1L或N2L)和实体肝肿瘤样品(HCC1或HCC2)的测序读取,以8种不同的肿瘤负荷:0、0.1%、0.3%、0.5%、0.8%、1%、3%、5%,以及3种不同的测序覆盖率(2X、5X和10X)模拟的肝癌cfDNA样品的预测的血液肿瘤负荷(超过10次运行的平均)。在每个对数-对数图中,蓝点表示具有误差线(预测的肿瘤负荷的标准偏差)的模拟样品,x轴是真实的肿瘤负荷,y轴是预测的肿瘤负荷。当所预测的肿瘤负荷超出范围(>5%)时,我们在框上方绘制点。
图24在所有10次运行中针对真实数据预测的血液肿瘤负荷:(A)针对癌症检测器的具有标准偏差线的平均ROC曲线,(B)针对我们先前的癌症定位器方法的具有标准偏差线的平均ROC曲线,和(C)癌症检测器预测的肿瘤尺寸和平均血液肿瘤负荷之间的关系。
图25所有10次运行两例肝癌患者肿瘤切除之前和之后的纵向数据的平均预测血液肿瘤负荷。第二例患者在手术后去世。
具体实施方式
定义
除非另有说明,否则术语应根据相关领域普通技术人员的常规用法来理解。
在一个方面,本文公开了基于来自血液样品的测序数据(例如,核酸)进行疾病诊断的方法。如本文所公开的,测序数据包括关于cfDNA、无细胞微小RNA(microRNA)和免疫组库测序的信息。cfDNA在整个申请中用作主要实例,但它不应以任何方式限制本发明的范围。
在一个方面,本文公开了基于现有测序甲基化数据(例如,基于阵列的测序数据和传统的基于非阵列的测序数据)来建立测序特征(例如,甲基化特征)文库的方法和系统。这里可以使用所有合适的现有测序甲基化数据,包括例如cfDNA、无细胞微小RNA和免疫组库测序数据。在一些实施方案中,测序数据可以是疾病特异性的(例如,癌症特异性的)和/或组织特异性的。
在一个方面,所提供的方法还可用于鉴别组织类型并预测癌症预后和患者存活。这里,通过微创程序从血液样品中获得cfDNA。在一些实施方案中,来自cfDNA样品的测序数据包括测序读取,每个测序读取包括连续的核酸序列。在一些实施方案中,来自cfDNA样品的测序数据还包括连续序列内所选序列的甲基化状态。如本文所公开的,甲基化状态包括在核酸位点存在和不存在甲基化修饰。
在一个方面,本文公开的方法还可用于监测癌症治疗以鉴别驱动克隆、驱动基因和驱动调节途径。
在一个方面,所提供的方法还可用于鉴别血浆cfDNA组织类型的组成,预测癌症诊断和预后,并鉴别患者可能患有的肿瘤类型。
在所有基于血浆cfDNA的癌症诊断方法中,cfDNA甲基化改变引起了许多研究兴趣,因为(i)文献中猜想甲基化改变是早期癌发生机制,因此能够作为潜在的早期癌症的指标,和(ii)在最近的研究中,在血浆cfDNA中观察到大量异常的全基因组DNA甲基化模式。几乎所有现有的基于cfDNA的甲基化分析方法都基于对各个CpG位点或基因组区域的平均甲基化率的测量。CpG位点或CG位点是在碱基的线性序列中沿着5'至3'方向鸟嘌呤核苷酸跟在胞嘧啶核苷酸之后的DNA区域。CpG是5'-C-磷酸-G-3'的简写,即仅由一个磷酸分开的胞嘧啶和鸟嘌呤;在DNA中磷酸将任何两个核苷连接在一起。然而,如图1A(以肝肿瘤为例)的示意实例中所示,平均甲基化率忽略了cfDNA的混合性质,真正的癌症信号(肿瘤衍生的cfDNA或ctDNA)被正常的血浆cfDNA淹没。因此,对于具有小比例ctDNA的早期癌症阶段,混合的cfDNA中各个CpG位点的平均甲基化率(例如图1A中的m混合=0.99)与正常血浆cfDNA的差异可以忽略不计,m正常=1。考虑到测量误差和偏差,这一事实常常使现有方法无法灵敏地检测早期癌症患者的肿瘤信号。然而,当我们研究每个单独的cfDNA片段(可以通过甲基化测序读取来捕获)时,肿瘤衍生的cfDNA片段可以容易地与正常血浆cfDNA片段区分开,尽管血浆中的ctDNA占比仅为1%。基本原理如图1A和图1B所示。
多个相邻CpG位点的甲基化状态与单个cfDNA片段的符合实际上是文献中的单个cfDNA片段或“表观等位基因”的所谓“定相的”甲基化模式。在本研究中,我们假设各个cfDNA片段的“定相的”甲基化模式比单个CpG位点或基因组箱(genomic bin)的平均甲基化率更灵敏。最近有几项研究意识到实体瘤样品中“定相的”甲基化模式对克隆进化和肿瘤内系统发育和纯化的敏感性。到目前为止,没有研究将“定相的”甲基化模式应用于基于cfDNA的癌症诊断。因此,我们首次提出了“定相的”cfDNA甲基化分析用于癌症诊断。cfDNA的全基因组甲基化测序(例如全基因组亚硫酸氢盐测序(WGBS)或简化代表性亚硫酸氢盐测序(RRBS))提供了丰富的“定相的”甲基化数据以用于为我们的“定相的”分析方法提供动力。也就是说,覆盖至少3个CpG位点的WGBS或RRBS的测序读取是“定相的”甲基化数据。图1A实际上揭示了一种直观的“定相的”甲基化分析方法:我们可以为每个cfDNA读取标记它可能的来源(正常血浆或肝肿瘤),然后在所有cfDNA读取中推断出最可能来自肝肿瘤的那些读取的占比。这确实是cfDNA读取分类和两类组成的推断过程,如图1B中正式说明的那样。结果,肝肿瘤衍生的cfDNA读取的占比升高可能意味着患者具有患肝癌的风险。如果我们对其他癌症类型重复此过程,我们不仅可以确定患者是否患有癌症,还可以预测患者可能患有的癌症类型。可以通过选择血浆cfDNA中具有最异常升高的占比的癌症类型来进行后一种预测。
除了将cfDNA反卷积为两类(正常血浆和特定肿瘤类型)之外,血浆cfDNA是从各种器官的正常组织释放的DNA的混合物这一事实提醒我们另一个不同的过程:将cfDNA反卷积成多种正常组织类型的组成。这是组织来源鉴别和组织组成推断的过程。甲基化数据对于该过程是理想的,因为先前的研究提供了丰富的证据,即甲基化模式具有丰富的组织特异性生物标志物4。如图2所示,我们遵循与上述相同的程序:首先鉴别每个cfDNA读取的组织来源可能性,然后推断血浆cfDNA的组织组成。Sun等人(2015)已经证明血浆cfDNA中最异常升高的组织占比可以用作癌症类型预测的证据,但是他们的方法是基于基因组区域的平均甲基化率,而非基于“定相的”甲基化数据。
上述两种基于不同的“定相的”甲基化模式的cfDNA分析探索了淹没在来自不同生物学维度的大量肿瘤无关cfDNA中的有限肿瘤信号并基于不同的基因组区域。我们的结果显示,癌症特异性和组织特异性甲基化模式的基因组区域之间几乎没有重叠(8%)。因此,该观察结果使得将这两个非重叠分析相结合共同做出癌症诊断决定。在这项工作中,我们建议用“定相的”cfDNA甲基化的综合分析进行非侵入性癌症诊断。
整体过程
图3中说明了“定相的”cfDNA甲基化的综合分析的示例性概述。此方法有三个部分:(i)由公共甲基化数据建立甲基化特征,(ii)推断cfDNA组成的概率框架,和(iii)癌症诊断的整合方法。可以建立用于确定cfDNA样品中的组织组成和肿瘤组成的方法。
在第一个部分中,从公共数据中,例如癌症基因组图谱(TCGA)、基因表达综合(GEO)库、表观基因组学路线图和科学文献中的其他文章中收集尽可能多的甲基化数据。基于现有的甲基化数据建立癌症特异性或正常组织特异性甲基化特征,以构建甲基化特征文库,其中每个特征对应于一种癌症类型或组织类型。
在第二部分中,例如使用来自Illumina的全基因组亚硫酸氢盐测序(WGBS)方法或简化代表性亚硫酸氢盐测序(RRBS)方法,对患者的血浆cfDNA进行测序并获得他/她的“定相的”甲基化数据。然后,应用基于“定相的”甲基化的概率方法来推断关于两类的血浆cfDNA组成。
使用癌症患者的测序数据,可以建立癌症特异性甲基化特征。癌症特异性甲基化特征可用于检测特定癌症类型的存在并且确定特定cfDNA样品内正常血浆和特定癌症类型的相对组成。
使用正常或非癌症患者的测序数据,可以建立组织特异性甲基化特征。组织特异性甲基化特征可用于检测特定组织类型的存在并且确定特定cfDNA样品内不同组织类型的相对组成。
在第三部分中,整合前一步骤中推断的不同血浆cfDNA组成以回答两个问题:(i)该例患者是健康的还是患有癌症的?(ii)如果他/她患有癌症,肿瘤在哪里?
以下和实例中包括每个部分的另外的描述和示例性实施方案。
甲基化特征
包括WGBS、RRBS和基于阵列的数据在内的大量公众可获得的甲基化数据,可用于建立癌症特异性和组织特异性甲基化特征。甲基化特征包括至少两种类型的信息:其指示基因组区域,并且其代表基因组区域的甲基化状态。在一些实施方案中,甲基化特征还描述了组织群体(图2)或肿瘤类型(图1B)中甲基化水平的个体间差异。
例如,采用两步法建立甲基化特征:
步骤1:将鉴别可以区分癌症类型(或正常组织类型)的基因组区域,即所谓的“癌症特异性”甲基化区域(或“组织特异性”甲基化区域)。在一些实施方案中,基因组区域可以表示为特定染色体上的区段;例如,染色体11,nt 2000至nt 3000。我们可以使用现有的“差异甲基化区域”(DMR)检测方法,或设计简单的评分函数,该评分函数描述每个区域的差异权重,例如在Sun等人(2015)的工作中所描述的。
步骤2:在步骤1中鉴别的每个区域中,以不同的基因组分辨率(CpG位点或基因组箱)对每个类(即,癌症类型、或组织类型、或正常血浆)使用该类样品的群体来表征甲基化特征。根据公共甲基化数据可提供的信息选择甲基化特征的基因组分辨率。
如上所述,甲基化特征包含至少两种类型的信息:基因组区域或位置以及基因组区域或位置内的甲基化状态。甲基化特征可以以多种方式表示。可以在群体和个体水平上建立甲基化特征。例如,对于群体水平,可以在箱水平(模型1)或个体CpG位点水平(模型2)上确定一组个体的特定基因组区域的β分布模拟的甲基化率;参见图4。对于个体水平,可以在个体位点水平(模型2)和箱水平(模型3)上根据原始亚硫酸氢盐测序数据(模型1)确定甲基化率;参见图11。
应理解,特定疾病可对应于多个甲基化特征。在一些实施方案中,疾病对应于两个甲基化特征;五个或少于五个的甲基化特征;10个或少于10个的甲基化特征;15个或少于15个的甲基化特征;20个或少于20个的甲基化特征;50个或少于50个的甲基化特征;100个或少于100个的甲基化特征;150个或少于150个的甲基化特征;200个或少于200个的甲基化特征;250个或少于250个的甲基化特征;500个或少于500个的甲基化特征;750个或少于750个的甲基化特征;1000个或少于1000个的甲基化特征;1500个或少于1500个的甲基化特征;2000个或少于2000个的甲基化特征;3000个或少于3000个的甲基化特征;4000个或少于4000个的甲基化特征;5000个或少于5000个的甲基化特征;7500个或少于7500个的甲基化特征;10000个或少于10000个的甲基化特征;15000个或少于15000个的甲基化特征;或20000个或少于20000个的甲基化特征。在一些实施方案中,疾病对应于20000个或多于20000个甲基化特征。
在一些实施方案中,甲基化特征是疾病特异性的。在一些实施方案中,甲基化特征不是疾病特异性的。然而,甲基化特征在疾病之间变化显著,使得可用所述差异来检测特定疾病类型的存在。
在一些实施方案中,可以在箱水平建立甲基化数据。参见,例如,图11模型3。箱的大小是预定长度的核酸序列。例如,箱可以包含10000nt或少于10000nt;5000nt或少于5000nt;2500nt或少于2500nt;1500nt或少于1500nt;1000nt或少于1000nt;800nt或少于800nt;600nt或少于600nt;500nt或少于500nt;400nt或少于400nt;300nt或少于300nt;200nt或少于200nt;100nt或少于100nt;50nt或少于50nt;40nt或少于40nt;20nt或少于20nt;或10nt或少于10nt。在一些实施方案中,箱可以包含10000nt或多于10000nt;
例如,对于样品的类t,每个样品在相同的箱中具有范围是[0,1]的甲基化率mt。这通常通过β分布mt~β(αtt)来模拟。
在一些实施方案中,可以在CpG位点水平建立甲基化数据。参见,例如,图11模型2。对于类t的CpG位点j,每个样品具有甲基化率这通常通过β分布来模拟。在这些实施方案中,提供给定的核酸序列区段的每个CpG位点的甲基化状态。
如本文所公开的,符号Ωt用于表示类t的所有甲基化特征。在这里,每个类可以是疾病类型、癌症类型、组织类型等。
或者,可以基于原始亚硫酸氢盐测序数据和频率直方图来定义DNA甲基化模式。参见,例如图11模型1。
类似的方法和系统可用于计算组织类型和疾病类型未知的样品的甲基化模式。例如,可以从患者获取血液样品,并且可以获得源自血液样品的cfDNA样品的测序数据。此处,从未知样品获得的甲基化模式还包括两种类型的信息:核酸序列和与其相关的甲基化状态。
然而,如本文所公开的,测序数据包括测序读取。测序读取是源自连续核酸区段的原始序列。因此,任何测序读取的甲基化状态是“定相的”,即它代表来自二倍体染色体DNA的仅一个等位基因的甲基化状态。当甲基化状态基于多次读取取平均值时,其变为等位基因非特异性的,也可称为“非定相的”。
如本文所公开的,测序读取可以包含1000nt或少于1000nt;800nt或少于800nt;600nt或少于600nt;500nt或少于500nt;400nt或少于400nt;300nt或少于300nt;200nt或少于200nt;100nt或少于100nt;50nt或少于50nt;40nt或少于40nt;20nt或少于20nt;或10nt或少于10nt。在一些实施方案中,测序读数可包含1000nt或多于1000nt(或其中可得出的任何范围)。
分析框架
如上所述,基于来自特定组织类型或疾病类型(例如,癌症类型)的现有测序数据建立甲基化特征,形成甲基化特征文库。每个文库与特定组织类型或疾病类型(例如,特定癌症类型)相关。这些文库可用作后续分析的标准。
例如,可以将测序读取的甲基化模式与一个或多于一个已建立文库中的甲基化特征进行比较。与已建立的甲基化特征类似的甲基化模式表明cfDNA样品包括来自特定组织类型的核酸片段,因此确定血浆cfDNA的组成。另外,与已建立的甲基化特征类似的甲基化模式也可以表明cfDNA样品包括与特定疾病例如肝癌或肺癌相关的核酸片段。
在一些实施方案中,可以在一段时间内从同一患者采集多个血液样品。源自这些血液样品的甲基化模式可用于监测高风险群体的疾病发作。或者,源自这些血液样品的甲基化模式可用于监测疾病进展;例如,癌症预后。
在一些实施方案中,概率框架可用于确定未知样品的甲基化模式与已建立的甲基化特征之间的关系。在该框架内,要么应用所有可能解的穷举搜索(称为网格搜索算法),要么应用期望最大化(EM)算法。EM算法是用于在统计模型中找出参数的最大似然估计或最大后验(MAP)估计的迭代方法,其中模型取决于未观察到的潜在变量。
概率分析的示例性实施方案在实施例2中给出。这种概率框架和EM算法是灵活的,因为我们可以(i)根据它们添加或移除新的未知组织类型;和(ii)根据我们可以从公共数据库收集的甲基化数据的分辨率来考虑组织特异性甲基化特征的不同模型。
在一些实施方案中,可以使用相同患者的血沉棕黄层样品进行血浆cfDNA的个性化反卷积。我们假设患者血沉棕黄层样品的白细胞释放其DNA到血浆中。因此,在正常组织组成推断步骤中,我们可以使用患者自己的白细胞的甲基化特征,而不是使用其他人的白细胞的甲基化特征。预计这可能会消除一些个体间差异或种系差异。
在一些实施方案中,本文公开的方法可用于分析cfDNA的组成和组织来源。在一些实施方案中,这种组成的变化可用于监测个体的健康状况。例如,癌性核酸材料的检测是一种明显的警告信号,其需要进一步的测试和检查。例如,健康个体的cfDNA中肝脏DNA组分可以在一定范围内。cfDNA样品中肝脏DNA组分的突然上升可能表明健康状况发生了改变。类似地,个体的cfDNA样品中特定DNA组分的突然减少也可能表明健康状况改变。
在一些实施方案中,本文公开的方法可用于分析血液细胞例如白细胞的组成。最近的研究报道,患者的血沉棕黄层样品中不同白细胞类型的异常组成也是疾病指标。特别地,据报道,外周血免疫细胞甲基化谱与非造血系统癌症有关。因此,我们可以将我们的方法应用于该问题,并将其整合为癌症诊断的第三维度。
cfDNA组成与疾病诊断和预后
在确定cfDNA的组成和组织来源之后,可以整合这些信息以用于疾病诊断和预后。例如,可以整合血浆cfDNA癌症组成和组织组成以用于癌症诊断。这两种组成可用作为任何患者的两种特征。理想情况下,假设我们从大量健康个体和患有T癌症类型的患者中收集血浆cfDNA样品,然后可以使用朴素贝叶斯分类器(Bayes classifier)并通过这些2种特征的数据来训练朴素贝叶斯分类器,用以诊断新出现的患者是否患有癌症和他/她所患的癌症类型。
然而,由于血浆样品的数量有限,不可能用实际数据训练用于预测的朴素贝叶斯方法。因此,我们设计了一种小样品量的基于Z得分的简单诊断方法。直观的感受是,与正常人相比,新患者的类t的占比越高,患者患癌症并且癌症类型为占比最高的类t的可能性就越大。如图7所示,我们假设我们已经获得了正常血浆样品群体中每种组织(或肿瘤)占比如何的经验分布。因此,对于新患者,我们可以首先进行步骤2以获得他/她的组织(或肿瘤)t的占比(表示为x),然后计算Z得分Zt(或Z′t)以评估x与正常血浆群体的差距:其中是正常血浆群体中组织(或肿瘤)t的平均占比(标准偏差)。然后预测得分是对于所有组织t=1,…,T,Zt+Z′t的最大值。这个得分是直观的,因为他/她的血浆cfDNA中组织和肿瘤t的两个占比与正常人群差异最大的患者最有可能患有癌症类型t。如果maxt(Zt+Z′t)在正常范围,那么患者可能是健康的。
计算机系统和程序产品
本文公开的方法可以以计算机系统和/或计算机程序产品来实现,该计算机系统和/或计算机程序产品包括嵌入在计算机可读存储介质中的计算机程序机制。此外,本发明的任何方法可以在一个或多于一个计算机或计算机系统中实现。此外,本发明的任何方法可以在一个或多于一个计算机程序产品中实现。本发明的一些实施方案提供了计算机系统或计算机程序产品,其编码或具有用于执行本文公开的任何或所有方法的指令。这些方法/指令可以存储在CD-ROM、DVD、磁盘存储产品或任何其他计算机可读数据或程序存储产品上。这些方法也可以嵌入永久存储器中,例如ROM、一个或多于一个可编程芯片、或一个或多于一个专用集成电路(ASIC)。这种永久存储器可以位于服务器、802.11接入点、802.11无线网桥/基站、中继器、路由器、移动电话、或其他电子设备中。被编码在计算机程序产品中的这些方法也可以通过数字或载波传输计算机数据信号(其中嵌入了软件模块)经由因特网或其他方式以电子方式散布。
本发明的一些实施方案提供了一种计算机系统或计算机程序产品,其包含本文公开的任何或全部程序模块。这些程序模块可以存储在CD-ROM、DVD、磁盘存储产品或任何其他计算机可读数据或程序存储产品上。这些程序模块也可以嵌入永久存储器中,例如ROM、一个或多于一个可编程芯片、或一个或多于一个专用集成电路(ASIC)。这种永久存储器可以位于服务器、802.11接入点、802.11无线网桥/基站、中继器、路由器、移动电话、或其他电子设备中。计算机程序产品中的软件模块也可以通过数字或载波传输计算机数据信号(其中嵌入了软件模块)经由因特网或其他方式以电子方式散布。
在一些实施方案中,本文所公开的方法可以在联网设备中实现,该联网设备选自台式电脑、手提电脑、手机、个人数字助理(PDA)、iPod、平板电脑、配备网络设备的移动设备、智能手机、寻呼机、电视、媒体播放器、数字视频录像机(DVR)以及任何其他联网设备。
与癌症定位器(CancerLocator)相关的其他实施方案
癌细胞通常显示出异常的DNA甲基化模式,例如肿瘤抑制基因的启动子区域的过度甲基化和基因间区域的普遍低甲基化。因此,DNA甲基化可以作为临床实践中癌症诊断的靶标。过度甲基化/低甲基化肿瘤DNA片段可通过细胞凋亡或坏死释放到血流中,变成血浆中循环无细胞DNA(cfDNA)的一部分。cfDNA甲基化谱分析的非侵入性可能是一般癌症筛查的有效策略。
一些实施方案可包括针对各种特定癌症的血浆甲基化生物标志物。可以通过将来自具有某种癌症类型的患者的甲基化谱数据与健康对照的甲基化谱数据进行比较来鉴别差异甲基化的标志物基因。通过鉴别对不同癌症特异的多种甲基化谱,本文公开的实施方案可以基于简单的非侵入性液体活组织检查检测许多类型的癌症并提供用于进一步特定临床研究的肿瘤位置信息。
图12是根据一个实施方案的用于筛查癌症和鉴别肿瘤组织来源的方法100的流程图。
如图12所示,方法100由大量癌症基因组(TCGA)DNA甲基化数据110学习不同癌症类型的有效特征。然后该方法将癌症患者中的血浆cfDNA 125模拟为正常cfDNA 130和ctDNA 120的混合物。最后,考虑到源自未知患者的cfDNA样品130的全基因组甲基化谱,本文公开的实施方案使用有效特征115来估计血浆125中ctDNA的占比和检测到的ctDNA来自各个肿瘤类型的似然率135。基于这些似然率,本文公开的实施方案做出关于患者是否具有肿瘤,以及如果具有肿瘤,原发肿瘤的位置在哪的最终决定135。
方法100的第一步是根据大规模TCGA数据库110鉴别正常血浆105和多种肿瘤类型的有效特征。方法100聚焦于来自五个器官例如胸腺、结肠、肾、肝和肺的七种癌症类型,这五个器官通常被认为具有高水平的血液循环。第二步,考虑到患者的血浆cfDNA甲基化谱,方法100使用那些有效特征来同时检测癌症并定位其组织来源。
在第一步中,如果CpG簇的甲基化范围(MR)足够大,则该方法选择CpG簇作为特征115。“CpG”位点是在碱基的线性序列中沿着其5'→3'方向鸟嘌呤核苷酸跟在胞嘧啶核苷酸之后的DNA区域。将CpG位点被分为CpG簇。MR定义为在健康血浆和不同实体瘤组织中观察到的平均甲基化水平的范围。
本文公开的实施方案将各个CpG位点分为CpG簇,以便使用更多可映射的读取。对于在测序过程中被探针覆盖的CpG位点,该实施方案可以将区域上游和下游100bp(碱基对)定义为其侧翼区域,并假设位于该区域内的所有CpG位点具有与该被探针覆盖的CpG位点相同的平均甲基化水平。如果两个相邻的CpG位点的侧翼区域重叠,则将它们分为一个CpG簇。最后,在实施方案中仅使用含有至少3个被微阵列探针覆盖的CpG位点的那些CpG簇。
在其他情况下,本文公开的实施方案通常根据以下三个标准选择侧翼区域的大小和簇中CpG的数量:(i)包含至少三个CpG位点(在微阵列数据中)以获得实体瘤样品中甲基化值的稳健测量;(ii)簇具有合理的大小,以使得即使使用低覆盖测序数据,也有足够的CpG位点用于计算甲基化值;(iii)保持尽可能多的跨越一种基因组区域(CpG岛或岸)的簇。
在一些实施方案中,该程序产生42374个CpG簇,这些簇同时包括了InfiniumHumanMethylation450微阵列数据上所有CpG位点的约一半。对于这些簇的大多数,每个簇仅与一个基因相关联。这些CpG簇用于后续特征选择。在其他实施方案中,该程序可以产生40000或约40000个至50000或约50000个CpG簇。在其他实施方案中,该程序可以产生30000或约30000个至60000或约60000个CpG簇。在其他实施方案中,该程序可以产生20000或约20000至70000或约70000个CpG簇。在其他实施方案中,该程序可以产生10000或约10000个至90000或约90000个CpG簇。在其他实施方案中,该程序可以产生5000或约5000个至100000或约100000个CpG簇。
方法100选择CpG簇(特征)平均总数K=14429,其MR不小于0.25的阈值。
在其他实施方案中,特征CpG簇的总数K为14000至15000。在其他实施方案中,特征CpG簇的总数K为13000至16000。在其他实施方案中,特征CpG簇的总数K为12000至17000。在其他实施方案中,特征CpG簇的总数K为10000至18000。在其他实施方案中,特征CpG簇的总数K为8000至20000。在其他实施方案中,特征CpG簇的总数K为6000到22000。在其他实施方案中,特征CpG簇的总数K为5000至30000。
在其他实施方案中,MR阈值可以为0.2或约0.2至0.3或约0.3。在其他实施方案中,MR阈值可以为0.1或约0.1至0.5或约0.5。在其他实施方案中,MR阈值可以为0.05或约0.05至0.7或约0.7。在其他实施方案中,MR阈值可以为0.01或约0.01至0.9或约0.9。在另外的实施方案中,MR阈值为至少或至多1、2、3、4、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、300、400、500、600、700、800、900或1000,或者其中可得出的任何范围。
对于每个CpG簇,该方法通过将相同肿瘤类型(或正常血浆)的甲基化水平的分布建模为β分布β(αt,βt)来考虑其个体间的差异,如120所示。指数t=0表示正常血浆,而t=1,...,T表示肿瘤类型。
在第二步骤中,方法100使用所选择的特征(所选择的CpG簇)和它们的β分布在135处将患者的血浆cfDNA甲基化谱130反卷积成正常的血浆cfDNA分布,以及如果适用的话,反卷积成实体瘤DNA分布。方法100可以包括概率方法,其可以同时推断ctDNA的负荷和组织来源。在135处,如果任何肿瘤类型存在的似然率没有显著高于在正常背景中观察到的分布的似然率,则预测患者是未患癌症。否则,如果任何肿瘤类型存在的似然率显著高于在正常背景中观察到的分布的似然率,则预测患者具有与最高似然率相关的肿瘤类型。
在一个实施方案中,根据患者的cfDNA甲基化谱X来确定ctDNA负荷θ和肿瘤类型t的问题可以表示为最大似然估计函数L(θ,t|X),其中似然函数表示为每个所选的CpG簇的似然率的乘积,假设所有K个所选的CpG簇是互相独立的。这表示为其中xk表示癌症患者的cfDNA甲基化谱X中所选的CpG簇k的甲基化水平。原则上,xk可以是正常血浆的DNA甲基化水平与占比为θ的实体瘤类型t的DNA甲基化水平的线性组合。正常和肿瘤组分的甲基化用vk和uk表示,如图13所示。即,x=(1-θ)v+θu(简便起见,省略这些符号的下标k)。如前所述,由于v和u分别符合β分布β(α00)和β(αtt),其中t表示肿瘤类型,t=0表示无癌症谱。因此,x符合分布ψ(θ,t),该分布被计算为两个β分布β(α00)和β(αtt)的卷积。
在一些实施方案中,因为患者的血浆可以提供低数量的cfDNA,所以通常通过基于测序的方法测量患者血浆的甲基化谱。因此,CpG簇k的甲基化水平xk可以来自两个数字,nk和mk,其中nk表示CpG簇k中存在的胞嘧啶总数,mk表示CpG簇k中甲基化胞嘧啶的数量。这些实施方案可以将mk和nk一起建模成二项分布mk~二项分布(nk,xk),并且似然函数可以改写为 该方法的详细描述在以下项目中进行了扩展。
在一些实施方案中,可以使用血浆cfDNA的甲基化水平的混合模型。例如,可以认为癌症患者血浆中的cfDNA是正常背景DNA和肿瘤释放的DNA的混合物。形式上,对于每个CpG簇k∈{1,2,…,K},来自给定患者的血浆cfDNA的甲基化水平xk可以近似为vk和uk的混合,其中vk表示正常血浆样品的甲基化水平,且uk表示实体瘤组织的甲基化水平。设θ∈(0,1),其中θ表示血浆cfDNA中肿瘤衍生的DNA的比例。那么xk可以表示为vk和uk的加权和,即xk=(1-θ)vk+θuk
这些实施方案可以假设个体携带T种可能的肿瘤类型中至多一种类型的肿瘤。t∈{0,1,2,...,T}是表示正常血浆(t=0)或肿瘤类型(1≤t≤T)的变量。对于每个CpG簇k,这些实施方案可以将类型t的样品中的甲基化水平建模为β分布:对于正常血浆样品(t=0),vk~β(αk0k0),对于类型t∈{1,...,T}的实体瘤样品,uk~β(αktkt),其中αk0和βk0(或αkt和βkt)是正常血浆(实体瘤)样品中CpG簇k甲基化水平的β模型的参数。如图12的步骤1所示,使用大量公共肿瘤数据和正常血浆数据,通过矩量法估计这些β分布的参数。
在一些实施方案中,通过将两个β分布(vk和uk)积分,如图13所示,可以通过采用给定ctDNA负荷θ和源肿瘤类型t的推导分布对xk建模。该模型表示为概率密度函数ψ(xk|θ,t),其通过β(αk0k0)和β(αktkt)的卷积进行计算。其正式表示如下:
其中fβ是β分布的概率质量函数。
一些实施方案将血浆cfDNA测序数据的甲基化胞嘧啶计数建模。在这些实施方案中,由于其在血浆中的丰度低,cfDNA的甲基化谱通常通过基于测序的方法测量,并且CpG簇k的甲基化水平(xk)可以通过测序读取的甲基化和未甲基化的胞嘧啶的数量进行表征。设M=(m1,m2,…,mK)是甲基化胞嘧啶的数量,且N=(n1,n2,…,nK)是映射到所有CpG位点的胞嘧啶总数,其中对所有K个CpG簇运行该指数。对于每个CpG簇k,mk可以通过二项分布建模:mk~二项分布(nk,xk)。通过对方程(1)中xk混合模型进行积分,这些实施方案具有针对每个CpG簇k的似然函数,其具有来自模型参数(θ,t,αk0和βk0kt和βkt)和血浆样品的序列测量(mk,nk)的输入:
其中f二项分布是二项分布的概率密度函数。
一些实施方案使用最大似然函数L来估计血液肿瘤负荷和类型,例如图12所示的步骤135和步骤140。在这些实施方案中,考虑到可以推导出前述公开的向量M和向量N的患者血浆cfDNA样品的甲基化测序谱,这些实施方案旨在找到以下两个模型参数的最大似然估计:(1)该特定样品的cfDNA的肿瘤负荷θ和(2)其源肿瘤类型t。为了将多个标志物的混合模型整合到公式中,这些实施方案采用了一个假设:所有特征或标志物彼此独立。该假设在多个细胞类型反卷积研究中被广泛采用。在此假设下,对数似然函数可以写成:
因为不能简单地分析解出程(1)至方程(2)中的积分,因此实施方案中使用辛普森法则计算对数似然函数logL(θ,t|M,N)。也就是说,使用一组J预先确定的θ值,即进行最佳估计的网格搜索(即,全局优化最优解)。分辨率(J)越高,估计越精确。在获得方程(3)的最大解(即,优化和优化)之后,本文公开的实施方案使用估计的参数来计算简单但有效的预测得分,其回答两个问题:“患者是否患有癌症?”以及“如果患者患有癌症,那么肿瘤是哪种类型?”。该预测得分定义如下:
其中分母K用于归一化对数似然函数,以使得当使用不同数量的特征时,λ是可比较的。变量t不包括在L(θ=0|M,N)中,因为θ=0表示正常的血浆样品。预测得分λ越大,患者患有类型的癌症肿瘤的可能性越高。具体而言,如果λ>阈值,则预测患者患有ctDNA负荷和肿瘤类型的癌症;否则,他/她被归类为未患癌症。
在一些实施方案中,在建立预测模型时,在各种ctDNA负荷(θ值)下,通过以计算的方式混合正常血浆cfDNA样品和实体瘤样品(例如,乳腺、结肠、肾、肝脏或肺肿瘤)的全部甲基化谱,产生模拟血浆cfDNA样品的甲基化数据。该策略可以使模拟的甲基化数据反映真实数据中CpG簇之间甲基化值的潜在相关性。在一些实施方案中,当建立预测模型时,以预先确定的概率(在所有CpG簇中为10%、30%和50%)添加肿瘤拷贝数变异(CNA)事件。
在一些实施方案中,使用具有已知的ctDNA占比的模拟数据评估预测模型。结果表明,预测模型可以使ctDNA的预测比例和真实比例之间的皮尔森相关系数(PCC)达到0.975,并且非癌症类型和肿瘤类型分类的错误率为0.074。此外,当肿瘤衍生的DNA在cfDNA中的比例低于50%时,这通常实际上代表低CNA,则预测模型很好地运行。本公开的实施方案根据患者血浆样品,包括从早期癌症患者收集的癌症样品,获得了有希望的预测结果。
如图14A所示,正常样品的估计的ctDNA负荷的大部分(87.9%)不大于0.02,并且它们都不大于0.05。请注意,样品是否来自癌症患者取决于预测模型中计算的最佳似然率,而不是取决于预测的ctDNA负荷。模拟的癌症患者血浆样品的预测结果显示在图14B中。
如图14A和图3B所示,结果显示预测的ctDNA负荷(θ)的变化随着真实θ的增加而增加,这意味着当患者处于癌症中期或晚期时,负荷的估计会变得不那么精确。该结果可部分通过晚期肿瘤样品中可能存在较高的肿瘤异质性,从而增加ctDNA负荷预测的复杂性这一事实得到解释。然而,这种增加的变化不会降低癌症检测的效果,因为预测的θ仍然远高于正常背景。实际上,如图14B所示,尽管ctDNA预测的变化增加,但ctDNA的癌症组织来源的预测因为高ctDNA负荷而变得更加可区分。注意,在图14B中,青色和红色圆圈表示正确和不正确的预测。
在图15中,进一步评估预测模型的实施方案。为了系统比较,实施方案将模拟数据分成10个不同癌症阶段的子集,每个子集包含200例正常血浆样品和200例每种肿瘤类型的癌症血浆样品。不同的癌症阶段(从早期、中期到晚期)由一组ctDNA负荷范围(θ,θ+10%]表示为x轴,其中θ=0、10%、20%、15%、30%、40%、50%、60%、70%、80%、90%。对于6类(t=0,2,...5)癌症分类问题(正常、乳腺、结肠、肾、肝和肺),图15中的实施方案采用误差率测量来评估分类效果。如图15所示,对于ctDNA负荷在θ∈(0,10%]范围内的早期癌症患者,预测模型具有0.240的误差率。对于第二低的ctDNA负荷θ∈(10%,20%],预测模型达到误差率为0.067这一非常好的预测效果。结果是值得注意的,因为预测模型的实施方案在低数量的ctDNA占比时表现良好,这突出了实施方案在筛查早期癌症中的有用性。
如图17所示,实施方案随机选择75%的实体瘤样品605和75%的健康血浆cfDNA样品615进入训练组以建立模型参数。剩余的25%的健康血浆样品620和25%的肿瘤ctDNA样品610形成模拟数据集。这剩余的25%的健康血浆样品620和从癌症患者收集的所有肿瘤ctDNA样品625形成测试组。
表1示出了图17中描述的模型预测结果。在执行该程序(包括随机数据分区和预测)十次之后,将实施方案的预测概括为混淆矩阵,如表1所示。对于新患者的血浆样品625,预测模型假设没有关于癌症类型的先前信息。因此,模型认为结肠肿瘤和肾肿瘤是可能的结果,即使表1中的真实血浆数据不包括结肠肿瘤或肾肿瘤。表1中的结果表明该模型表现良好。具体而言,癌症检测模型可准确预测大部分乳腺癌、肝癌和肺癌样品。癌症检测模型对于6类预测问题具有0.265的低误差率。表1中的结果与图14A和图14B中所示的低于50%的ctDNA负荷的模拟实验一致。
为了进一步探索估计的ctDNA负荷与真实数据中的肿瘤类型之间的关系,发明人通过总结所有十次运行中每例血浆样品的预测,在图16中绘制了它们的关系:每例样品的十次运行中的平均预测的ctDNA负荷(y轴值)和最频繁预测的肿瘤类型。可以观察到,估计的ctDNA负荷越高,肿瘤类型的预测越准确。这与图14A和图14B中所示的模拟数据的结果高度一致。如图16所示,对于乳腺癌样品,五例样品中的三例具有≤2.2%的ctDNA负荷,并且它们被预测为非癌症。两例正确预测的样品的预测ctDNA负荷分别为5.0%和18.0%,后者是转移性样品。对于肝癌样品,所有样品中有至少25例来自早期(巴塞罗那临床肝癌A期)患者。其中大多数(80%)被预测模型正确分类为肝癌,并且所有这些都被检测为癌症样品。与乳腺癌样品相比,大多数肝样品,即使在早期阶段,也可能具有中到高的肿瘤负荷(平均预测肿瘤负荷为14.9%,最高达到59.0%),因为肝脏通常具有强烈的血液循环,但我们也正确地将预测ctDNA负荷仅为2.0%的样品归为肝癌。在十二例肺癌样品中(两个样品没有癌症阶段信息),其中至少五例从早期患者收集。这些早期样品的预测ctDNA负荷的范围为2.0%至4.0%。在这五例早期肺癌样品中,有四例被正确预测为肺癌,而剩余一例被预测为非癌症。
该模型将8例慢性乙型肝炎病毒(HBV)样品中的7例正确预测为非癌症样品。此外,我们的方法在所有十次运行中成功地将单一肺良性肿瘤样品预测为非癌症,预测的ctDNA负荷为0.0%。这些结果表明,本文公开的癌症检测模型不但可以区分健康样品与癌症样品,还可以处理更复杂的情况,例如将乙型肝炎病毒携带者或良性肿瘤患者与癌症患者区分开。
与基于组织活检的传统诊断不同,除了非侵入性之外,基于血液的癌症诊断还具有诊断来自许多器官的肿瘤的潜力。本文公开的预测模型旨在通过不仅诊断肿瘤的存在还检测组织来源,来利用cfDNA的这种潜力。本文公开的实施方案为基于cfDNA的癌症类型推断提供了系统预测方法,全面评估其在模拟数据和真实数据上的表现。当肿瘤衍生的DNA的比例低于50%时,所公开的实施方案显示出准确和有用的预测,尤其是在早期癌症中。另外,实施方案显示,对CNA事件的预测是稳健的,因为全基因组特征可能比局部变异更有价值。
在一些实施方案中,由于公共领域中全基因组亚硫酸氢盐测序数据的稀缺性,使用实体瘤组织的DNA甲基化微阵列来获得训练模型的数据。使用DNA甲基化微阵列数据是合理的,因为其聚焦于启动子区域上的甲基化。因此,预期全基因组亚硫酸氢盐测序数据量的增长将显著有利于本文公开的实施方案,因为其可能提供更高分辨率的数据。
在一些实施方案中,以下列方式收集和处理甲基化数据。实施方案收集了来自健康人和癌症患者的实体瘤和血浆cfDNA样品的大量公共甲基化数据。使用DNA微阵列,例如,Infinium Human Methylation450微阵列来测定TCGA(癌症基因组图谱)中的大多数肿瘤甲基化谱。实施方案收集来自五个不同器官的>100个样品的实体瘤的数据:681份乳腺样品(BRCA)、290份结肠样品(COAD)、522份肾脏样品(包括300/156份KIRC/KIRP样品)、169份肝脏样品(LIHC)和809份肺样品(包括450/359份LUAD/LUSC的样品)。在本段中,缩写具有以下含义:BRCA:乳腺浸润性癌;COAD:结肠腺癌;KIRC:肾透明细胞癌;KIRP:肾乳头状细胞癌;LIHC:肝细胞癌;LUAD:肺腺癌;LUSC:肺鳞状细胞癌。
在一些实施方案中,血浆样品的全基因组亚硫酸氢盐测序(WGBS)数据的两个数据集取自32例正常人、8例感染HBV的患者、29例肝癌患者、4例肺癌患者、5例乳腺癌患者和一些在没有大血流量的器官中具有肿瘤的患者。实施方案还产生了血浆样品的WGBS数据,该血浆样品从8例癌症患者(5例早期肺癌患者、1例晚期肺癌患者、2例未知阶段信息的肺癌患者)和1例良性肺肿瘤患者收集。在我们的研究中,实施方案仅使用正常人、HBV患者和乳腺癌/肝癌/肺癌患者的总共87例血浆样品。注意到这些公共WGBS数据具有非常低的测序覆盖率(平均约4X),而我们新生成的所有9例样品数据的覆盖率为约10X。
在一些实施方案中,使用人类对象的血液样品。实施方案包括八例肺癌患者和一例良性肺肿瘤患者的血液样品。
无细胞DNA(cfDNA)分离和全基因组亚硫酸氢盐测序(WGBS)包括在本文公开的实施方案中。在一些实施方案中,cfDNA分离和WGBS以下列方式处理:血液样品首先以1600×g离心10分钟,然后将血浆转移到新的微型管中并以16000×g再离心10分钟。收集血浆,并储存在-80℃。使用例如Qiagen QIAamp Circulating Nucleic Acids Kit的试剂盒从5ml血浆中提取cfDNA,并通过荧光计,例如Qubit 3.0荧光计(Thermo Fisher Scientific)进行定量。通过使用试剂盒,例如EZ-DNA-Methylation-GOLD试剂盒(Zymo Research)来进行cfDNA的亚硫酸氢盐转化。之后,使用另一种试剂盒,例如Accel-NGS Methy-Seq DNA文库试剂盒(Swift Bioscience)来制备测序文库。然后用150bp双末端序列读取对DNA文库进行测序。
实施方案构建识别的所选CpG特征,即CpG簇。在一些实施方案中,通过以下方式构建CpG特征。收集适当的微阵列数据,例如测量实体瘤样品的约450000个CpG的来自TCGA的Infinium HumanMethylation450微阵列数据。由于实施方案的测试样品可以是具有非常低测序覆盖率的WGBS数据,因此实施方案将CpG位点分组为CpG簇以便使用更多可映射的读取。对于被微阵列上的探针覆盖的CpG位点,该实施方案可以将区域上游和下游100bp(碱基对)定义为其侧翼区域,并假设位于该区域内的所有CpG位点具有与该被探针覆盖的CpG位点相同的平均甲基化水平。如果两个相邻的CpG位点的侧翼区域重叠,则它们被分组为一个CpG簇。最后,在实施方案中仅使用含有至少3个被微阵列探针覆盖的CpG位点的那些CpG簇。实施方案根据以下三个标准选择侧翼区域的大小和簇中CpG的数量:(i)包含至少三个CpG位点(在微阵列数据中)以获得实体瘤样品中甲基化值的稳健测量;(ii)该簇具有合理的大小,以使得即使使用低覆盖测序数据,也有足够的CpG位点用来计算甲基化值;(iii)保持尽可能多的跨越一种基因组区域(CpG岛或岸)的簇。在一些实施方案中,该程序产生42374个CpG簇,其同时包括了Infinium HumanMethylation450微阵列数据上所有CpG位点的约一半。对于这些簇中的大多数,每个簇仅与一个基因相关联。这些CpG簇用于后续特征选择。
在一些实施方案中,对甲基化微阵列数据进行处理。可以通过下列方式处理甲基化微阵列数据。微阵列数据(TCGA数据库中的3级)提供各个CpG位点的甲基化水平。实施方案将CpG簇的甲基化水平定义为簇中所有CpG位点的平均甲基化水平。如果簇中超过一半的CpG位点没有甲基化测量,则簇的甲基化水平被标记为不可用(NA)。
在一些实施方案中,对WGBS数据进行处理。可以通过下列方式处理WGBS数据。可以使用DNA序列比对工具,例如Bismark来比对序列读取与参考基因组HG19并鉴别甲基化胞嘧啶。除去PCR重复后,对每个CpG位点的甲基化和未甲基化胞嘧啶的数量进行计数。将特定CpG簇(k)的甲基化水平(xk)计算为簇内甲基化胞嘧啶数(mk)与胞嘧啶总数(nk)之间的比率。然而,如果与CpG簇比对的读取中的胞嘧啶总数(nk)小于30,则该簇的甲基化水平被视为“NA”。
在一些实施方案中,进一步筛选CpG簇。可以以下面的方式完成特征筛选。对于每个CpG簇,实施方案可以使用甲基化范围(MR)来表明类别之间的特征差异权重。实施方案首先获得来自每个类别(即,健康血浆或每种肿瘤类型)的所有样品的平均甲基化水平,然后将MR定义为该组平均值的范围(即,最大和最小平均值之间的差)。簇的MR越高,其差异权重就越大。最后,选择其MR不小于阈值的那些CpG簇。
一些实施方案生成模拟数据,例如,图17中所示的610和620的组合。模拟数据从正常血浆和肿瘤血浆计算产生,以用于验证预测模型L的准确性。实施方案使用先前描述的概率模型模拟患者血浆cfDNA的甲基化测序数据:(i)将cfDNA视为正常血浆cfDNA与从原发肿瘤部位释放的DNA的混合物的混合模型,和(ii)血浆cfDNA测序数据的甲基化胞嘧啶计数的二项分布模型。另外,为了使模拟数据更接近真实情况,实施方案包括拷贝数变化和读取深度偏差。产生模拟血浆cfDNA甲基化测序数据的程序详述如下。
可能需要以下输入生成模拟数据:(i)所有K个CpG簇的基因组区域、(ii)与任何CpG簇比对的测序读取的胞嘧啶总数(Z)、(iii)θ的范围:(θLU)、(iv)正常血浆样品(表示为POOL正常)和实体瘤样品(表示为POOL肿瘤)的集合、和(v)bk,即与CpG簇k比对的CpG二核苷酸的背景概率,满足最后一个输入反映了在测序过程和读取比对期间引入的读取深度偏差、以及簇中CpG位点的密度。
生成血浆样品的模拟甲基化测序谱,其由整数向量M=(m1,m2,...,mK)和N=(n1,n2,...,nK)表示。元素mk和nk分别是映射到CpG簇k的读取中甲基化胞嘧啶的数量和胞嘧啶的总数。
在一个实施方案中,通过以下程序生成血浆样品的模拟甲基化测序谱。该程序包括六个步骤。步骤1:根据分布θ~均匀分布(θLU)生成随机ctDNA占比θ。
步骤2:根据分类分布ck~Cat(6,p0,p1,p2,p3,p4,p5)为每个CpG簇k生成一个随机整数拷贝数ck,其中Cat指的是分类分布。这里pc表示在测序数据中观察拷贝数c∈{0,1,2,3,4,5}的概率。概率pc满足三个标准:(i)他们的和等于1,(ii)平均拷贝数等于2,和(iii)不太可能发生极端拷贝数改变。在一些情况下,实施方案可以预先定义p0=0.005、p1=0.16、p2=0.7、p3=0.105、p4=0.025、p5=0.005。注意,除了p2(在这种情况下为30%)之外的所有这些概率的总和是任何给定CpG簇具有CNA事件的概率。实施方案可以包括其他具有更多(50%)或更少(10%)CNA事件的用于模拟的概率配置,并且获得类似的结果。当模拟正常血浆样品时,不考虑CNA事件(即,ck固定为二)。
步骤3:从POOL正常中随机选择正常血浆样品,其甲基化谱由(v1,v2,…,vK)表示,并从POOL肿瘤中随机选择实体瘤,其甲基化水平谱用(u1,u2,…,uK)表示。注意,一些实施方案还可以从POOL正常中随机选择两例正常血浆样品,以模拟新的正常血浆样品。
步骤4:计算CpG簇k的血浆cfDNA的甲基化水平xk。这是在合并步骤2中生成的拷贝数ck之后所调整的vk和uk的线性组合。即,xk=(1-θ′k)vk+θ′kuk,其中θ′k是由给出的θ的调整值,θ′k描述了考虑ctDNA的拷贝数ck后的实际ctDNA占比。
步骤5:根据泊松分布nk~泊松分布(ZBk)生成随机数nk,nk表示CpG簇k中胞嘧啶的总数。通过给出的Bk是经过步骤2中生成的拷贝数ck缩放后调整的CpG二核苷酸偏差bk
步骤6:根据二项分布mk~二项分布(nk,xk)生成随机数mk
一些实施方案还通过以不同的混合比混合两种正常血浆样品来模拟新的正常血浆样品。由于在正常血浆样品中没有CNA事件,因此除了通过将所有拷贝数固定为二来省略步骤2之外,该过程与上述相同。
一些实施方案使用以下数据分区方法以学习标记特征、进行模拟实验和真实数据实验。所有TCGA实体瘤组织和血浆样品分为非重叠组用于以下三个任务:(i)学习区别特征、(ii)模拟实验、以及(iii)对真实数据进行测试。具体而言,如图17所示,实施方案将每种组织类型的TCGA实体瘤分成两个分区:用于学习标记特征的75%605和用于生成模拟数据的25%610。实施方案还将所有正常血浆样品分成两个分区:用于学习标记特征的75%615和用于生成模拟数据或用于真实数据实验的25%620。癌症患者的所有血浆样品625用于在真实数据实验中形成测试集。注意,这些血浆样品未用于学习特征,而是只有从公共甲基化数据库收集的实体瘤样品以及未用于测试的正常血浆样品的子集用于学习特征。所有数据按照上述比例随机分区,并且对一个这样的分区应用方法被视为“一次运行”。为了产生稳健的结果,实施方案重复运行实验十次,并将在十次运行中获得的所有预测汇总成单个混淆矩阵作为最终结果。因为实施方案具有用于测试的有限数量的真实癌症血浆样品(分别来自乳腺癌、肺癌和肝癌患者的仅5个、12个和29个cfDNA样品),所以不能进行该方法的超参数估计的典型交叉验证。
本文公开的用于癌症检测和组织来源鉴别的参数的各种方法、步骤、计算可以在如图18中所示的计算机系统700和/或图19中所示的计算机系统800中实现。例如,图12中所示的方法100的流程图可以在计算机系统700和/或计算机系统800中实现。在另一个实例中,如图13所示,方程ψ(xk|θ,t)和涉及的参数x、θ、u、v、k和t可以以计算机系统700和/或计算机系统800上的计算机可读指令来实现。在另一个实例中,图14A至图16中所示的癌症检测结果可以通过计算机系统700和/或计算机系统800执行。在又一个实例中,用于学习标记特征、进行模拟实验、和进行真实数据实验的数据分区可以通过计算机系统700和/或计算机系统800执行。在又一个实例中,表1中所示的混淆矩阵可以通过计算机系统700和/或计算机系统800执行。
图18示出了根据本公开一个实施方案的用于获得访问用来检测癌症和鉴别组织来源的数据库文件的计算机系统700。计算机系统700可以包括服务器702、数据存储设备706、网络708和用户界面设备710。服务器702还可以是基于管理程序的系统,该系统执行一种或多于一种客分区,该客分区以具有服务器配置信息的模块托管操作系统。在另一实施方案中,系统700可以包括存储控制器704、或存储服务器,该存储控制器704、或存储服务器被配置用于管理数据存储设备706与服务器602或与网络708通信的其他组件之间的数据通信。在其他实施方案中,存储控制器604可以耦合到网络708。
在一个实施方案中,用户界面设备710广泛地涉及并且旨在包含合适的基于处理器的设备,例如台式电脑、手提电脑、个人数字助理(PDA)或平板电脑、智能手机或可以访问网络708的其他移动通信设备。在另一实施方案中,用户界面设备710可以访问因特网或其他广域网或局域网以访问由服务器702托管的网络应用或网络服务,并且可以提供用户界面以使得用户能够输入或接收信息。
网络708可以方便服务器702和用户界面设备710之间的数据通信。网络708可以包括任何类型的通信网络,包括但不限于直接的PC到PC连接、局域网(LAN)、广域网(WAN)、调制解调器到调制解调器连接、互联网、上述的组合、或现在已知或以后在网络技术中开发的任何其他允许两台或更多台计算机进行通信的通信网络。
图19示出了根据本公开一个实施方案的被配置用于癌症检测和组织来源鉴别的计算机系统800。图19还示出了与服务器702和/或用户界面设备710的一些实施方案适配的计算机系统800。中央处理器(“CPU”)802耦合到系统总线804。CPU 802可以是通用CPU或微处理器、图形处理器(“GPU”)和/或微控制器。本实施方案不受CPU 802的架构的限制,只要CPU 802直接或间接地支持如本文所述的操作即可。CPU 802可以执行根据本实施方案的各种逻辑指令。
计算机系统800还可以包括随机存取存储器(RAM)808,该随机存取存储器(RAM)808可以是同步RAM(SRAM)、动态RAM(DRAM)、同步动态RAM(SDRAM)等。计算机系统800可以利用RAM 808来存储软件应用程序所使用的各种数据结构。计算机系统800还可以包括只读存储器(ROM)806,该只读存储器(ROM)806可以是PROM、EPROM、EEPROM、光存储器等。ROM可以存储用于启动计算机系统800的配置信息。RAM 808和ROM 806保存用户和系统数据,RAM 808和ROM 806都可以被随机访问。
计算机系统800还可以包括I/O适配器810、通信适配器814、用户界面适配器816和显示适配器822。在某些实施方案中,I/O适配器810和/或用户界面适配器816使用户能够与计算机系统800交互。在另一实施方案中,显示适配器822可在显示设备824,例如显示器或触摸屏上显示与软件或基于网络的应用程序相关联的图形用户界面(GUI)。
I/O适配器810可以将一种或多于一种存储设备812,例如硬盘驱动器、固态存储设备、闪存驱动器、光盘(CD)驱动器、软盘驱动器和磁带驱动器中的一种或多于一种耦合到计算机系统800。根据一个实施方案,数据存储器812可以是通过I/O适配器810的网络连接耦合到计算机系统800的单独服务器。通信适配器814可以适于将计算机系统800耦合到网络708,网络708可以是LAN、WAN和/或因特网中的一种或多于一种。用户界面适配器816将用户输入设备,例如键盘820、定点设备818和/或触摸屏(未示出)耦合到计算机系统800。显示适配器822可以由CPU 802驱动以控制显示设备824上的显示。设备802至设备822中的任何设备可以是物理的和/或逻辑的。
本公开的癌症检测模型不限于计算机系统800的架构。计算机系统800作为一种类型的计算设备的实例提供,其可以适于执行服务器702和/或用户界面设备710的功能。例如,可以使用任何合适的基于处理器的设备,包括但不限于个人数字助理(PDA)、平板电脑、智能手机、计算机游戏控制台和多处理器服务器,以实现本文公开的癌症检测模型的各种实施方案和/或步骤。此外,本公开的癌症检测方法的各种实施方案可以在专用集成电路(ASIC)、超大规模集成(VLSI)电路或其他电路上实现。实际上,本领域普通技术人员可以根据所描述的实施方案使用能够执行逻辑操作的任何数量的合适结构。例如,计算机系统700和计算机系统800可以被虚拟化用于被多个用户和/或应用程序访问。
如果在固件和/或软件中实现本文公开的参数的各种方法、步骤、计算,上述各种函数可以作为一种或多于一种指令或代码存储在计算机可读介质上。实例包括用数据结构编码的非暂时性计算机可读介质和用计算机程序编码的计算机可读介质。计算机可读介质包括物理的计算机存储介质。存储介质可以是可由计算机访问的任何可用介质。作为实例而非限制,这种计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或可用于以指令或数据结构形式存储所需程序代码并且可由计算机访问的任何其他介质。磁盘和光盘包括压缩光盘(CD)、激光光盘、光碟、数字多功能光盘(DVD)、软盘和蓝光光盘。通常,磁盘以磁性方式再现数据,光盘以光学方式再现数据。以上的组合也应该被包括在计算机可读介质的范围内。
除了存储在计算机可读介质上之外,还可以将指令和/或数据作为信号提供于包含在通讯设备中的传输介质上。例如,通讯设备可以包括具有指示指令和数据的信号的收发器。指令和数据被配置为使一个或多于一个处理器实现权利要求中所概述的功能。
与癌症检测器(CancerDetector)相关的其他实施方案
促使进行基于甲基化的肿瘤cfDNA检测的几点原因:(i)DNA甲基化模式是普遍存在的,这意味着相同的甲基化模式(甲基化或未甲基化)往往分布在整个基因组区域中。一个研究小组已经使用该特征来评估跨越巨大基因组区域的DNA低甲基化,用于癌症诊断(Chan等人(2013))。如本文所公开的,该特征用于放大异常的但是在单个测序读取分辨率下的cfDNA信号,因此即使在低测序覆盖率下也提供微量肿瘤cfDNA的超灵敏检测。(ii)异常DNA甲基化模式发生在癌症发病机制的早期(Baylin等人(2001)),因此有利于早期癌症检测。事实上,DNA甲基化异常是癌症的标志之一,并且与从肿瘤起始到癌症进展和转移的癌症所有方面相关(Cheishvili等人(2015),Roy等人(2014),Plass等人(2013)),且已成为癌症表观遗传治疗的有吸引力的靶标(Smith等人(2007),Sigalotti等人(2007))。
一个关键方面涉及关注单个cfDNA测序读取上多个相邻CpG位点的联合甲基化模式,以利用DNA甲基化普遍存在的性质进行信号放大。传统的DNA甲基化分析侧重于细胞群体中单个CpG位点的甲基化率。该甲基化率通常称为β值,是CpG位点被甲基化的细胞的比例(参见图1中的实例)。然而,这种群体平均测量值不足以灵敏地捕获影响仅一小部分cfDNA的异常甲基化信号。图20说明了这一点:各个CpG位点的平均甲基化率对于正常血浆cfDNA为β正常=1,对于肿瘤cfDNA为β肿瘤=0;假设存在1%的肿瘤cfDNA,传统的测量结果为β混合=0.99,这很难与β正常=1区分。然而,基于DNA甲基化普遍存在的性质,研究了一种区分疾病特异性cfDNA读取与正常cfDNA读取的新方法。当对给定读取中所有CpG位点的甲基化值(表示为α值)取平均时,异常甲基化cfDNA与正常cfDNA(α肿瘤=0%和α正常=100%)之间存在显著差异(0和1)。换句话说,考虑到DNA甲基化普遍存在的性质,多个相邻CpG位点的联合甲基化模式可以很容易地区分癌症特异性cfDNA读取和正常的cfDNA读取。受到该α值的启发,意识到利用普遍甲基化的关键是估计读取中所有CpG位点的联合概率是否遵循疾病的DNA甲基化特征。这种基于读取的概率方法被称为“癌症检测器”;它可以灵敏地从血浆中的所有cfDNA中鉴别出痕量的肿瘤cfDNA。
针对模拟的血浆样品评估一些癌症检测器实施方案,该模拟的血浆样品以已知的混合率(或肿瘤负荷)对正常血浆cfDNA样品和实体瘤样品的测序读取进行二次取样和组合。结果显示,在中等测序覆盖率(10X)下,癌症检测器可以在肿瘤cfDNA的预测比例和真实比例之间达到0.9974的皮尔森相关系数(PCC)(P值9.8E-8)。并且预测效果随着测序覆盖率的增加而增加,即测序覆盖率越高,预测的肿瘤负荷越接近真实值。此外,癌症检测器在预测效果和稳健性方面优于我们先前的cfDNA肿瘤负荷预测方法,即“癌症定位器”(Kang等人(2017))。然后,我们就真实血浆cfDNA样品测试了癌症检测器,并证明了其在10次实验运行中表现优秀,即对早期癌症患者的灵敏度为94.4%±3.7%(特异性为100%时);而癌症定位器的灵敏度为74.4%±10.0%(特异性为100%时)。此外,癌症检测器预测的肿瘤负荷与纵向样品的临床信息(例如肿瘤大小和存活结果)显示出极大的一致性。注意,我们基于具有低测序覆盖率(1X至3X,对所有基因组位置取平均)的真实样品达到了这些结果。
图21是根据一个实施方案的用于检测癌症的方法200。方法200包括鉴别DNA甲基化标志物的步骤110。方法200包括对患者的cfDNA甲基化谱进行测序的步骤120。该方法包括使用基于读取的概率模型推断cfDNA组成的步骤130。
在步骤110中,鉴别DNA甲基化标志物,例如标志物-1 112、标志物-2 114、标志物-3 116、......和标志物-K 118。甲基化标志物112、114、116、118是对特定类型癌症如肝癌特异的甲基化模式。
为了鉴别DNA甲基化标志物,在cfDNA甲基化谱中鉴别CpG簇的数目J。以肝癌为例,在所有J个CpG簇中,选择一组CpG簇作为标志物,该CpG簇的甲基化水平可以区分大多数肝肿瘤与正常肝细胞以及正常血浆。该任务还可以包括两个步骤:(1)选择那些“频繁差异甲基化区域(FDMR)”,在这些区域中,甲基化在匹配的肝肿瘤和正常肝组织之间的差异(大于临界值)超过匹配配对的一半。该步骤可以去除对健康肝组织特异的标志物并保留对肝癌特异的标志物。(2)选择能够区分肿瘤样品和正常血浆样品的FDMR。这可以通过选择如下FDMR来完成:正常类别(N类)和肿瘤类别(T类)中甲基化模式的中位数之间的该FDMR差异大于预定阈值。该步骤确保可以鉴别出血液中的肿瘤甲基化信号。考虑到固定的cfDNA测序覆盖率,使用的标志物越多,这些标志物可能具有的质量越低,但可以鉴别出更多的肿瘤衍生的cfDNA读取。因此,在标志物的质量和可以使用的肿瘤cfDNA信号的数量之间存在折衷。
在一个实施方案中,前一段落中提到的两个步骤的上述预定阈值可以是0.1至0.9,例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8和0.9。在一个实施方案中,预定阈值可以是0.1至0.3。在又一个实施方案中,阈值是0.2。
每种标志物112、114、116、118对应于患者的cfDNA甲基化谱中的标志物区域122、124、126和128。每个标志物区域122、124、126和128具有两种甲基化模式:一种正常类别(N类)模式和一种肿瘤类别(T类)模式。可以将任何类别中的甲基化模式建模为β函数β(η,ρ)。具体而言,标志物k与两种甲基化模式有关,即T类为N类为注意,是β分布的两个形状参数(通常表示为α和β),但是在这里我们使用符号η和ρ以避免与介绍部分中定义的α-值和β-值混淆。可以使用矩量法或最大似然法从类的样品群体中容易地获知β分布的参数。为了简化表示,我们将T类的标志物k的甲基化模式表示为并将N类的标志物k的甲基化模式表示为
方法200还包括计算每个cfDNA测序读取的类特异性似然率142。目标是根据读取上多个CpG位点的联合甲基化状态,将每个cfDNA读取分类为T类或N类。将cfDNA读取132中的联合甲基化状态134表示为r=(r1,r2,…),其中二进制值rj=1或0表示读取r中CpG位点j的甲基化或未甲基化状态。将该二进制向量r建模为β-伯努利分布。
如图22所示,具体而言,根据读取r所落入的标志物的甲基化模式m≡β(η,ρ),将读取中的每个CpG位点j的甲基化状态rj分布为rj~伯努利(p),其中p是标志物内CpG位点的先验平均甲基化率并且遵循β先验分布p~β(η,ρ)。使用该统计模型,考虑到甲基化模式m310或320,读取r=(r1,r2,…)330中的联合甲基化状态的似然率可以如下计算:
其中B(x,y)是β函数。因此,对于T类的标志物k的甲基化模式和N类的标志物k的甲基化模式我们可以使用上述公式来计算读取r的类特异性似然率,即322和312。注意,该似然率计算实现了针对单个读取的α值的概率版本。
方法200包括预测肿瘤衍生的cfDNA负荷的步骤130。如图20所示,开发了概率框架来推断肿瘤衍生的cfDNA占比(即肿瘤负荷),表示为0≤θ<1,基于一组与两类甲基化模式相关的标志物,将cfDNA读取分为两类(T类,针对肿瘤衍生的DNA;N类,针对正常血浆cfDNA)。将所有K个标志物的甲基化模式表示为还将患者的cfDNA的甲基化测序数据表示为一组N个读取R={r(1),…,r(N)},其在整体上覆盖M个CpG位点。对于与标志物k的区域比对的读取,我们假设它可以来自具有类特异性似然率的两个类之一,其中是类c的甲基化模式。设θ为肿瘤衍生的cfDNA负荷,因此正常cfDNA的占比是1-θ。期望通过求对数似然率的最大值来估计θ。这是最大似然估计问题。假定每次读取具有独立性,则将读取r(i)的似然率扩展如下:
因为仅具有一个待估计的参数θ,所以可以应用网格搜索来详尽地列举均匀分布在0%至100%的所有1000个占比值,即0%、0.1%、......、0.99%和100%。这种方法可以在0.1%的精度下进行全局优化,我们认为这足以捕获微量的肿瘤衍生的cfDNA。因为网格搜索的计算快速,所以可以容易地改进以更高分辨率确定θ的步骤。
已经详细描述了本发明,显而易见的是,在不脱离所附权利要求限定的本发明的范围的情况下,可以获得修改、变化和等同的实施方案。此外,应了解本发明中的所有实例均作为非限制性实例提供。
实施例
提供以下非限制性实施例以进一步说明本文公开的本发明的实施方案。本领域技术人员应该理解,以下实施例中公开的技术代表已经被发现在本发明的实践中很好地起作用的方法,因此可被视为构成用于实践的模式的实施例。然而,本领域技术人员应理解,根据本公开,在不脱离本发明的精神和范围的情况下,在所公开的具体实施方案中可以进行许多改变,并仍获得类似或相似的结果。
实施例1
甲基化特征
由于GEO和TCGA的大多数公共甲基化数据是微阵列数据,即可以在箱水平上进行最佳建模的一种汇总数据。因此,在本工作中,使用箱水平的甲基化数据,即图4的模型1,来表征每个“癌症特异性”或“组织特异性”区域的甲基化特征。
应注意,该方法是灵活的,可以允许在该方法中使用两种不同水平的甲基化数据。
实施例2
用“定相的”甲基化数据推断血浆cfDNA组成的概率框架
第二步是推断T≥2类的血浆cfDNA组成。如图3所示,对于“癌症组成”,T=2类是指正常血浆cfDNA和特定肿瘤类型;而对于“组织组成”,T>2类是指T正常组织类型。
由于血浆中cfDNA的丰度很小并且利用了“定相的”数据的优点,如图2所示,我们总是对患者的血浆cfDNA进行甲基化测序。因此,我们获得了N个cfDNA测序读取的集合,从而覆盖了在该方法的部分1中鉴别的所有甲基化特征中的M个CpG位点。如图5所示,这些片段的甲基化数据可以用三元矩阵R=(rij)×M表示,其中每一行(或列)对应一个区段(或CpG位点),每个条目rij∈{0,1,-}。rij=0(或1)表示第j个CpG位点被第i个片段覆盖并且是未甲基化的(或甲基化的),而rij=-表示位点j未被片段i覆盖。
我们假设患者的血浆cfDNA由T个已知的类构成,其中甲基化特征Ωt(1≤t≤T)在该方法的部分1中学习,并且新的未知组织类型由所有不可能属于任何已知类的cfDNA组成(为了便于理解,我们在本节的其余部分使用“组织”而不是“类”),因为在真实数据中确实并非所有cfDNA都从T个已知组织中释放出来。因此,将一组甲基化特征定义为Ω={Ω12...,ΩTT+1},其中Ωt(1≤t≤T)是已知的,ΩT+1是未知的并且将用我们的方法进行估计。根据来自患者血浆cfDNA的甲基化测序数据的输入矩阵R,我们进行两个假设:
假设1:每个cfDNA片段从组织细胞亚群中释放,并且将贡献血浆cfDNA的T个组织的组成表示为组成向量Θ=(θ12,...,θTT+1),其中θt(1≤t≤T+1)是血浆cfDNA中组织t的cfDNA比例,并且
假设2:来自输入矩阵R中的组织t的cfDNA片段的比例可以揭示血浆中组织t的cfDNA占比θt
基于这些假设、输入片段矩阵R和组织特异性特征Ω,我们的目标是求用于估计血浆cfDNA中组织组成Θ的似然率(R|Θ,Ω)的最大值。将其正式表示如下:
其中Θ和ΩT+1(在Ω中)是待估计的参数。这是典型的最大似然估计(MLE)问题。对数似然率可以扩展为每个cfDNA测序读取的对数似然率的总和
我们通过期望最大化(EM)算法来优化方程(1),并为每个cfDNA测序读取Ri(矩阵R的第i行)引入潜在随机变量zi从而指示此读取是从哪个组织t释放的,即zi=t并且t=1,2,…,T,T+1。我们按照分类分布对zi建模:zi~Ca(T,Θ),因此我们得到P(zi=t|Θ)=θt。然后我们在方程(2)中将cfDNA片段Ri的似然率改写为
其中P(Rit)是组织t的cfDNA读取Ri的组织来源似然率。设q(t)为zi=t的后验概率。然后我们得到以下Jensen不等式,并且方程(1)中的对数似然率的下限可以是下面定义的新函数F(q,Θ)。
其中我们将ΩT+1表示为Ω来强调它是一个参数,q是覆盖全部i=1,…,N的全部qi(t)和覆盖全部t=1,…,T,T+1的全部t的集合。根据EM算法,我们进行以下替代步骤以通过坐标上升进行优化(q,Θ)。
E-步骤:
M-步骤:
Ω可以是箱水平或CpG位点水平的甲基化率,对于箱j(或CpG位点j),其表示为在E-步骤中,q的每个qi(t)可以通过由Ri、Ωt和预定义的参数设置Θ(k)所给出的zi的后验概率进行估计,即
在M-步骤中,我们得到
当通过每个CpG位点j对甲基化特征建模(模型2)时:
当通过每个箱j对甲基化特征建模(模型1)时:
对于每个t=1,…,T+1。因此,方程(7)、方程(8)、方程(9)或方程(10)分别是E-步骤和M步骤的解。根据EM算法,从随机Θ(0)和Ω新(0)开始,然后迭代地执行方程(7)、方程(8)、方程(9)或方程(10)可以收敛到对数似然函数的局部最大值。因此,我们需要以不同初始值多次运行EM算法,并选择具有最大对数似然率的解。该过程的图示在图6中示出。
在上述方程(7)的EM算法的E-步骤中,关键计算是P(Rit),其为组织t的cfDNA读取Ri的组织来源似然率。根据甲基化特征Ωt的不同模型(如图4中所列),我们得到计算P(Rit)的以下方法。
不考虑Ωt的个体间差异的表观等位基因模型:我们可以简单地使用甲基化状态的频率直方图中的相对频率作为P(Rit)。这在图11的模型1中示出。
不考虑Ωt的个体间差异的CpG位点模型:设表示组织t的各组织特异性CpG位点j(1≤j≤M)的平均甲基化率如果我们对第j个CpG位点中cfDNA读取Ri的甲基化状态(表示为rij=0或1)的建模符合伯努利分布rij~伯努利如图11的模型2所示,则P(Rit)可以计算为
其中rij是行向量Ri的第j个元素。
存在Ωt的个体间差异的CpG位点模型:如果我们考虑第j个CpG位点的组织特异性甲基化率的个体间差异,我们可以使用β先验对伯努利随机变量rij建模,其中每个的个体间差异由具有参数的β分布表征。然后P(Rit)可以计算为(如图4的模型2所示)
不考虑Ωt的个体间差异的箱模型:设甲基化率mt表示箱水平的Ωt。P(Rit)是方程(11)的简化版本,并且可以计算为(如图11的模型3所示)
存在Ωt的个体间差异的箱模型:如果我们考虑各个箱的组织特异性甲基化率mt的个体间差异,我们可以使用β先验mt~β(αtt)对伯努利随机变量rij建模,其中每个mt的个体间差异由具有参数αt和βt的β分布表征。然后P(Rit)可以计算为(如图4的模型1所示)
实施例3
样品收集和分析
从公共肿瘤组织样品中收集DNA甲基化数据以表征甲基化特征:我们收集正常人和癌症患者的实体瘤和血浆cfDNA样品的所有公开可用的甲基化数据。由于TCGA(癌症基因组图谱)数据库的大多数肿瘤甲基化谱由Infinium HumanMethylation450微阵列测定,我们仅收集实体瘤的甲基化微阵列数据,该实体瘤涵盖2种组织类型:肝(LIHC)和肺(癌症类型包括LUAD和LUSC)。截至2013年12月,我们收集了169例LIHC肿瘤和450/359例LUAD/LUSC肿瘤。注意,我们使用的正常组织样品仅来自RoadMap项目。将来,我们将使用来自GEO和TCGA的实体正常组织样品的微阵列甲基化数据。
在这里,LIHC代表肝细胞癌;LUAD代表肺腺癌;和LUSC代表肺鳞状细胞癌。
构建CpG簇(特征):大多数公共甲基化数据(TCGA和GEO)是InfiniumHumanMethylation450微阵列数据。在该研究中,我们使用CpG位点的聚类(由探针覆盖),即可变大小的基因组区域作为特征。这是由于患者血浆cfDNA数据的低测序覆盖率(平均约4X),其来自唯一来源:Chan等人(2013)。CpG簇可以覆盖更多的测序读取,因此可以产生比使用单个CpG位点更可靠的甲基化测量。详细地说,每个CpG簇是一个基因组箱,将所有单独的相邻CpG探针(位点)分到该箱内,其必须满足两个标准:(i)簇中两个相邻CpG探针之间的基因组距离小于700bp、和(ii)每个簇具有至少10个CpG探针。仔细选择这两个数字以使尽可能多的(微阵列数据的)CpG探针聚类,以充分覆盖WGBS读取,同时保持簇的基因组大小尽可能小。据观察,根据探针的特性,大多数簇仅与一个基因相关联。这产生11572个CpG簇,其包含InfiniumHumanMethylation450微阵列上所有CpG探针的约1/3。使用这些CpG簇来选择图12所示方法的部分1中的标记特征。
收集公共血浆cfDNA样品的DNA甲基化数据:我们可以找到的血浆cfDNA样品甲基化数据的唯一主要公共数据来源来自最近对血浆cfDNA甲基化分析的研究3。在这项研究中,Chan等人(2013)已经储存了一组血浆样品的全基因组亚硫酸氢盐测序(WGBS)数据,其包括32例正常人、8例感染慢性乙型肝炎病毒(HBV)的患者、26例肝癌患者和4例肺癌患者,共有70例血浆样品。注意,这些WGBS数据的测序覆盖率较低(平均约4X)。使用Bismark将读取与参考基因组HG19比对,并鉴别甲基化胞嘧啶4。除去PCR重复后,对每个CpG位点的甲基化和未甲基化胞嘧啶的数量进行计数。然后将CpG簇的甲基化水平计算为簇内甲基化胞嘧啶的总数和所有胞嘧啶总数之间的比。
甲基化癌症特异性和组织特异性特征:我们使用了16例正常人的血浆cfDNA WGBS数据(来自Chan等人(2013)数据)和实体瘤(来自TCGA数据)来获得1452个癌症特异性甲基化特征,这些甲基化特征以可变大小的箱(上面定义的CpG簇和图4的模型1)进行建模。对于组织特异性甲基化特征,我们使用从Sun等人(2015)的RoadMap数据中学习的5820种生物标志物,RoadMap数据包括14种组织并以500bp的箱进行建模。这些生物标志物仅从RoadMap数据中的一个进行学习,而不是从群体进行学习。
注意,在该初步结果中,我们未将新的未知组织类型包括在步骤3的cfDNA组成推断算法中。在以后的工作中,我们将使用它们。
实施例4
预测效果
cfDNA癌症患者的模拟的甲基化数据的结果
通过混合来自健康血浆样品的WGBS数据和来自实体瘤样品的WGBS数据的比对读取,我们模拟了患者血浆cfDNA样品的WGBS数据,其中将测序覆盖率预定义为约2X,并将8种不同的肿瘤DNA负荷预定义为:0.5%、0.8%、1%、3%、5%、10%、15%和20%。我们使用4例正常血浆样品(来自Chan等人(2013))、1例实体肺肿瘤样品(来自TCGA)和1例实体肝肿瘤样品(来自Chan等人(2013))。总共有4x(1+1)x8=64例模拟的癌症患者的血浆样品。
通过包括12例正常血浆样品的其余部分(即32例样品中,使用16例样品来学习特征并使用4例样品来生成模拟数据),我们使用我们的方法得出每个模拟样品或12例正常血浆样品的预测得分。然后,我们通过受试者工作特性(ROC)的曲线下方的面积(AUC)来评估健康或癌症预测效果。在图8中,我们绘制了具有不同肿瘤DNA占比的模拟数据的AUC。为了简化表示,癌症组成被称为“癌症维度”,而正常组织组成被称为“组织维度”。可以观察到,在所有肿瘤负荷下,使用双维度(灰线)优于使用癌症维度(蓝线)或组织维度(橙线)。此外,我们的双维度方法可以在血浆cfDNA为5%的肿瘤负荷下达到约75%的AUC。
真实的癌症患者cfDNA结果
如上所述,我们使用16例正常血浆样品(在Chan等人(2013)数据中的所有32例正常样品中)来获得癌症特异性甲基化特征。因此,在该实验中,我们随机选择其余16例正常血浆样品中的8例用于构建用于基于Z得分的积分方法的正常血浆群体的组织和肿瘤组成的经验分布。然后我们在测试集中使用最后8例正常样品。该测试集还包括8例被慢性乙型肝炎病毒感染的血浆样品(我们将其视为非癌症或正常样品)、26例肝癌患者和4例肺癌患者。由于正常血浆样品的随机分区,每个随机分区的测试集是不同的。因此,我们针对不同的测试集评估该方法,并使用平均表现得分(AUC或混淆矩阵)作为最终结果。
我们评估两个预测任务:(i)二元分类-新患者健康或患癌症;(ii)多级分类-新患者被分类为正常、肝癌或肺癌。结果如图9所示。我们观察到以下结论:
组织维度在多级分类任务中比肿瘤维度表现更好,但在二元分类任务中比肿瘤维度表现更差。这并不奇怪,因为(i)癌症发生机制对许多癌症类型而言是常见的,这使得癌症甲基化特征在癌症类型之间差异并不如此明显;相反,(ii)如文献所证明的,许多甲基化模式是组织特异性的并且有助于组织来源预测。
整合两个维度可以进一步增加多级分类任务。该观察结果突出了在血浆cfDNA中整合尽可能多的肿瘤相关线索的重要性。
实施例5
监测癌症患者
除癌症诊断外,我们的方法还可通过预测得分来有效监测患者的癌症进展。预测得分直观地描述了患者血浆cfDNA的肿瘤和组织组成与正常人的差距。因此,预测得分越大,患者的癌症阶段约接近晚期(或更严重)。
使用具有纵向血浆cfDNAWGBS数据(来自Chan等人(2013)数据)的两例肝病患者。在肿瘤切除之前,患者1(样品ID:TBR36)的预测得分为34.2,远高于正常人的平均得分(即,零)。手术后3天、3个月/6个月/12个月后,预测得分立即恢复到正常范围(大约为零)。如图10所示,也可观察到该患者的血浆cfDNA样品中14种组织的组成。然而,患者2(样品ID:TBR34)在术后3天和2个月仍然保持高预测得分,分别为10.8和12.9。这例病人后来去世。
实施例6:
实施例7-9的材料和方法
概述
该方法的目的是将每个读取(在甲基化标志物区域中)分类为肿瘤衍生的cfDNA类别(缩写为T类)或正常血浆衍生的cfDNA类别(缩写为N类)。在这里,关注一种类型的癌症,肝癌,但该方法可以推广到任何癌症类型。这种方法包括三个主要步骤:(i)鉴别肝癌的DNA甲基化特征。基于肝肿瘤及其匹配的正常组织以及正常血浆cfDNA样品的DNA甲基化数据得到肝癌的甲基化标志物。从公共数据库TCGA(癌症基因组图谱(Weinstein等人(2013))和最近的文献Chan等人(2013)收集了大量的甲基化数据。(ii)计算读取含有甲基化特征的似然率。对新患者的血浆cfDNA样品进行甲基化测序。获得落入所选标志物的基因组区域的那些cfDNA片段的测序读取。为了解决标志物中的数据不确定性和个体间甲基化差异,计算来自每个类的每个读取的似然率。(iii)推断cfDNA组成。可以使用来自每个类的每个读取的似然率导出cfDNA的肿瘤负荷。图21给出了我们的方法的总体情况,并在以下部分中详细介绍了各个步骤。
鉴别和表征对肝癌特异的甲基化标志物
甲基化标志物包括两种信息:其基因组区域和实体瘤样品(T类)和正常血浆cfDNA样品(N类)中的甲基化模式。为了利用来自主要由微阵列平台产生的TCGA的大量公共甲基化数据,开发了以下两步法以获得肝癌特异性甲基化标志物。
鉴别肝癌的基因组标志物
只有被足够的微阵列探针覆盖的基因组区域才有资格作为潜在标志物。因此,将我们最近的工作中的CpG簇的定义(Kang等人(2017),其通过引用并入本文)用于鉴别所有潜在的基因组区域。有关详细信息参阅以下实施例。在所有潜在区域中,选择其甲基化水平不仅可以将大多数肝肿瘤样品与其匹配的正常肝组织区分开,而且可以将大多数肝肿瘤样品与正常血浆样品区分开的那些区域。此任务本质地包括两个步骤:(i)选择那些“频繁差异甲基化区域(FDMR)”,在这些区域中,甲基化在匹配的肿瘤和正常组织之间的差异(大于临界值)超过匹配配对的一半。该步骤可以去除对肝组织特异的标志物但保留对肝癌特异的标志物。(ii)选择能够将肿瘤样品与正常血浆样品区分开的那些FDMR,即两种类别的甲基化水平的中位数之间的差异大于临界值。该步骤确保可以鉴别血液中的肿瘤甲基化信号。考虑到固定的cfDNA测序覆盖率,使用的标志物越多(即,面板大小越大),这些标志物可能具有的质量越低,但可以鉴别出的肿瘤衍生的cfDNA读取越多。因此,在标志物的质量和可以使用的肿瘤cfDNA信号的数量之间存在折衷。在这项工作中,因为所有公共血浆cfDNA样品都具有低测序覆盖率(1X至3X),所以将两个步骤中甲基化差异的临界值选择为0.2以保持相对良好的标志物质量,并保持足够大的甲基化标志物面板大小以在这种低测序覆盖率下捕获足够的肿瘤cfDNA。
表征甲基化模式
在步骤1中鉴别的每个标志物区域中,考虑每个类(T和N)中甲基化水平的个体间差异。给定区域,将类中所有样品的甲基化水平建模为遵循已被广泛用于甲基化数据分析的β分布β(η,ρ)。具体而言,标志物k与两种甲基化模式有关,即T类为N类为注意,是β分布的两个形状参数(通常表示为α和β),但是在这里我们使用符号η和ρ以避免与介绍部分中定义的α-值和β-值混淆。可以使用矩量法或最大似然法从类的样品群体中容易地获知β分布的参数(Bowman等人(2007)。为了简化表示,我们将T类的标志物k的甲基化模式表示为并且将N类的标志物k的甲基化模式表示为
计算每个cfDNA测序读取的类特异性似然率
目标是根据读取上多个CpG位点的联合甲基化状态,将每个cfDNA读取分类为T类或N类。将cfDNA读取中的联合甲基化状态表示为r=(r1,r2,…),其中二进制值rj=1或0表示读取r中CpG位点j的甲基化或未甲基化状态。将该二进制向量r建模为β-伯努利分布(Shah等人(2015))。具体而言,根据读取r所落入的标志物的甲基化模式m≡β(η,ρ),将读取中的每个CpG位点j的甲基化状态rj分布为rj~伯努利(p),其中p是标志物内CpG位点的先验平均甲基化率,而且遵循β先验分布p~β(η,ρ)。使用该统计模型,给定甲基化模式m,读取r=(r1,r2,…)中联合甲基化状态的似然率可以如下计算:
其中B(x,y)是β函数。因此,对于T类的标志物k的甲基化模式和N类的标志物k的甲基化模式我们可以使用上述公式来计算读取r的类特异性似然率,即注意,该似然率计算实现了针对单个读取α值的概率版本。在图22中说明了这样的实施例。
预测肿瘤衍生的cfDNA负荷
如图21所示,开发了概率框架来推断肿瘤衍生的cfDNA占比(即肿瘤负荷),表示为0≤θ<1,基于一组与两类甲基化模式相关的标志物,将cfDNA读取分为两类(T类,针对肿瘤衍生的DNA;N类,针对正常血浆cfDNA)。将所有K个标志物的甲基化模式表示为我们还将患者的cfDNA的甲基化测序数据表示为一组N个读取R={r(1),…,r(N)},其在整体上覆盖M个CpG位点。对于与标志物k的区域比对的读取,我们假设它可以来自具有类特异性似然率的两个类之一,其中是类c的甲基化模式。设θ为肿瘤衍生的cfDNA负荷,因此正常cfDNA的占比是1-θ。期望通过求对数似然率的最大值来估计θ。这是最大似然估计问题。假设各个读取互相独立(在文献(Yuan等人(2015),Landau等人(2014)中被广泛采纳),则将读取r(i)的似然率扩展如下:
因为仅具有一个待估计的参数θ,所以可以应用网格搜索来详尽地列举均匀分布在0%至100%的所有1000个占比值,即0%、0.1%、......、0.99%和100%。这种方法可以在0.1%的精度下进行全局优化,我们认为这足以捕获微量的肿瘤衍生的cfDNA。因为网格搜索在计算上是快速的,所以可以容易地改进以更高分辨率确定θ的步骤。
“种系”标志物的去除:以上,估计了所有癌症特异性标志物的总肿瘤负荷(θ)。也可以仅针对单个标志物估计肿瘤负荷(θ)。理想地,对于早期癌症患者,对所有标志物或单独的标志物,经估计的θ应该是较小的数字(例如,<20%)。然而,在真实癌症患者数据中,我们观察到许多标志物的单独估计的肿瘤负荷远远大于总肿瘤负荷。因此,在这些“离群”标志物中携带异常甲基化的cfDNA片段显然不是来自癌细胞,而是由于个体间差异(例如年龄、环境暴露或个体可能患有的其他疾病)因而可能来自正常细胞(例如白细胞)。这种甲基化异常在概念上类似于“种系”突变。因此,包括这些“种系”标志物会削弱肿瘤负荷估计的准确性。设计迭代算法以在鉴别和去除“种系”标志物后调整总肿瘤负荷。θk表示为标志物k的肿瘤负荷,以区别于使用所有标志物获得的总负荷θ。该算法的流程如下:
初始化-设表示用于θ估计的一组标志物。最初,将所有标志物放入
去除“种系”标志物-在中估计每种标志物k的θk并计算所有θk的标准偏差,表示为std(θk)。从中去除那些θk>θ+λstd(θk)的标志物,其中λ是输入的固定参数。
更新θ-使用步骤1中更新的的所有标志物估计总负荷θ。
迭代步骤1和步骤2,直到θ收敛。
去除“种系”标志物后,输出θ是调整后的总肿瘤负荷。该算法的参数λ控制那些“种系”标志物的θk偏离平均θ的程度。可以使用正常血浆cfDNA样品估计该参数,因为可以预期的是最佳λ应该能够将正常样品的总θ调整为接近于零。
甲基化数据采集、生成和处理
数据采集:我们采集了来自TCGA数据库的49例实体肝肿瘤样品及与其匹配的相邻实体肝组织样品的甲基化谱。使用Infinium HumanMethylation450微阵列测定所有这些样品。对于血浆cfDNA样品,使用来自Chan等人(2013)和Sun等人(2015)的甲基化测序数据。它们包括取自32例健康人、8例感染慢性乙型肝炎病毒(HBV)的患者和29例肝癌患者的血浆样品的全基因组亚硫酸氢盐测序(WGBS)数据。
数据生成:由于血浆cfDNA样品的公共WGBS数据具有非常低的测序覆盖率(1X至3X),因此生成了来自两例健康人的更高覆盖率(平均约10X)的血浆cfDNA样品的WGBS数据;并且生成了来自两例癌症患者的实体瘤样品的WGBS数据,以便模拟来自癌症患者的更高覆盖率的cfDNA WGBS数据。将血液样品以1600×g离心10分钟,然后将血浆转移到新的微型管中,并以16000×g再离心10分钟。收集血浆并储存在-80℃。使用Qiagen QIAampCirculating Nucleic Acids试剂盒从5ml血浆中提取cfDNA,并使用Qubit 3.0Fluoromter(Thermo Fisher Scientific)进行定量。使用EZ-DNA-Methylation-GOLD试剂盒(ZymoResearch)进行cfDNA的亚硫酸氢盐转化。之后,使用Accel-NGS Methy-Seq DNA文库试剂盒(Swift Bioscience)来制备测序文库。然后用150bp末端配对的读取对DNA文库进行测序。对于实体瘤样品,用EZ-DNA-Methylation-GOLD试剂盒(Zymo Research)进行亚硫酸氢盐转化,并使用TruSeq DNA甲基化试剂盒制备测序文库。然后使用HiSeq X(Illumina)以150bp末端配对的读取对DNA文库进行测序。
甲基化微阵列数据的处理:微阵列数据(TCGA数据库中的3级)提供各个CpG位点的甲基化水平。将CpG簇的甲基化水平定义为簇中所有CpG位点的平均甲基化水平。如果超过一半的CpG位点没有甲基化测量,则将簇的甲基化水平被标记为“不可用”(NA)。
WGBS数据的处理:使用Bismark(Krueger等人(2011))将读取与参考基因组hg19进行比对,并鉴别甲基化胞嘧啶。去除PCR重复后,对每个CpG位点的甲基化和未甲基化胞嘧啶的数量进行计数。CpG簇的甲基化水平被计算为簇内的甲基化胞嘧啶数与胞嘧啶总数之间的比率。然而,如果与CpG簇比对的读取中胞嘧啶的总数小于30,则该簇的甲基化水平被视为“NA”(不可用)。该WGBS数据处理程序用于计算用来鉴别甲基化标志物的正常血浆样品中CpG簇的平均甲基化水平。当使用血浆cfDNA样品作为测试数据时,提取与来自Bismark输出的标志物面板区域比对的各个测序读取的所有CpG位点的联合甲基化状态,然后将该信息作为输入数据提供给癌症检测器。由于真实数据的测序覆盖率较低,因此在这项工作中,我们使用了覆盖至少一个CpG位点的所有读取。对于具有高覆盖率的cfDNA甲基化数据,我们可以筛选出覆盖<3个CpG位点的读取,以提高输入数据质量。
实施例7:
鉴别对肝癌特异的甲基化标志物
确定所有有资格作为甲基化标志物的基因组区域:我们的训练数据来自TCGA的实体组织,通过Infinium HumanMethylation450微阵列测量具有约450000个CpG。但是,我们的测试数据(Chan等人(2013),Sun等人(2015))是测序覆盖率非常低的WGBS数据。因此,将CpG位点分组为CpG簇,以便使用来自测试数据的更多可映射读取。对于被微阵列上的探针覆盖的CpG位点,将上游和下游100bp区域定义为其侧翼区域,并假设位于该区域内的所有CpG位点具有与该被探针覆盖的CpG位点相同的平均甲基化水平。如果两个相邻的CpG位点的侧翼区域重叠,则它们被分组为一个CpG簇。最后,仅使用含有至少3个被微阵列探针覆盖的CpG位点的那些CpG簇。该程序产生42374个CpG簇,其总共包括InfiniumHumanMethylation450微阵列上所有CpG位点的约一半。这些簇的大多数中的每个仅与一个基因相关联。这些CpG簇用于后续特征选择。
选择肝癌特异性标志物并表征其在正常类别和肿瘤类别中的模式:已知42374个CpG簇,通过使用实施例6中描述的训练数据的方法选择癌症特异性标志物:(i)49对实体肝肿瘤及其匹配的正常肝组织和(ii)32例健康血浆样品中的75%。注意,使用剩余的25%健康血浆样品作为测试数据,以75/25的比例将健康血浆样品随机分区为训练/测试数据,进行10次。这表示有10组不同的训练/测试数据,并且每组可以产生不同的选择的标志物和肿瘤负荷估计值。将每组训练/测试数据及其结果称为实验运行。在10次运行的每次运行中,鉴别3214个肝癌特异性标志物(CpG簇)的平均,并且这些标志物的大多数共享所有运行。将正常类别和肿瘤类别中每种标志物的甲基化模式分类为两种β分布,其中学习的形状参数可以捕获类别内的甲基化水平的个体间差异。
实施例8:
模拟实验证明了癌症检测器对检测肿瘤cfDNA的超灵敏度
通过采集并混合两种真实样品、正常血浆cfDNA样品和实体瘤样品的甲基化测序读取,在各种肿瘤负荷(θ)和不同的测序覆盖率(c)下模拟血浆cfDNA样品的甲基化数据。该策略可以使我们模拟真实数据并精确控制混合物样品中的肿瘤负荷和测序覆盖率,以便测试癌症检测器方法的功效和要求,例如,怎样的肿瘤负荷和测序覆盖率可以检测肿瘤衍生的cfDNA。将癌症检测器与另一种概率性cfDNA反卷积方法“癌症定位器”(Kang等人(2017)和USN62/473829,其通过引用并入本文)进行比较,该方法是发明人最近开发的,并且是目前唯一的旨在从cfDNA甲基化数据中反卷积癌症信号的方法。癌症检测器是一种基于读取的方法,而癌症定位器则基于传统的β值,其将cfDNA中标志物的β值反卷积为两类(肿瘤cfDNA或正常cfDNA)β值的线性组合。
为了比较两种方法鉴别痕量肿瘤cfDNA(即,θ≤5%)的灵敏度,模拟在8种不同的肿瘤负荷(θ=0、0.1%、0.3%、0.5%、0.8%、1%、3%和5%)和3种不同的测序覆盖率(c=2、5、10)下的血浆cfDNA样品。模拟程序中使用的真实样品是两例正常血浆样品(N1L和N2L)和两例实体肝肿瘤样品(HCC1和HCC2)的WGBS数据。该实验设置产生了8×3×2×2=96例混合样品。图23显示了两种方法在检测肿瘤cfDNA方面的灵敏度,其中散点图示出了在三种给定的测序覆盖率(2X、5X和10X)下、具有8种给定的肿瘤负荷的模拟样品的10次实验运行中平均的预测肿瘤负荷。如图23清楚地显示,癌症检测器410预测的血液肿瘤负荷与真实值高度一致并且具有非常低的预测方差:例如,当使用最高测序覆盖率10X时,癌症检测器410达到了0.9974±0.0012(P值=7.2E-8±9.8E-8)的皮尔森相关系数(PCC),取10次运行的平均值。一致性随着测序覆盖率的增加而增加,即,当测序覆盖率分别为2X、5X、10X时,平均PCC=0.9811、0.9959、0.9974及其相关的P值为2.5E-5、6.0E-6、9.8E-8。更重要的是,可以观察到癌症检测期410可以(i)在低测序覆盖率(2X)下检测具有低肿瘤负荷(θ=1%)的肿瘤cfDNA,和(ii)当增加测序覆盖率时(5X和10X),检测限从1%提高至0.3%。另一方面,基于β值的方法,即癌症定位器420在肿瘤负荷θ<5%且测序覆盖率为2X时或者在θ<3%且测序覆盖率为5X时,不能检测出任何肿瘤DNA。即使采用10X的测序覆盖率,其预测也不稳定(预测方差很大),并且与真实的肿瘤负荷有很大差异。总之,该结果表明即使在低测序覆盖率下,基于读取的癌症检测器410也可以灵敏地检测少量的肿瘤cfDNA,并且预测准确度和稳定性随着测序覆盖率的增加而增加。
实施例9:
对真实数据的测试证实了癌症检测器在反卷积肿瘤cfDNA方面的高灵敏度
从Chan等人(2013)和Sun等人(2015)收集了一组公共血浆样品(32例健康人、8例HBV携带者和29例肝癌患者)。这些数据具有低测序覆盖率(1X至3X)。将32例健康血浆样品随机分成训练集(75%)和测试集(25%),共10次(运行)。在每次运行中,使用实体肝肿瘤和匹配的正常组织的组合训练集和TCGA微阵列数据,来鉴别肝癌特异性甲基化标志物,然后在以下测试集中预测肿瘤负荷:来自8例HBV携带者、29例肝癌患者、其余25%的健康对象的血浆样品。可以通过受试者工作特征(ROC)曲线来衡量预测肿瘤负荷的表现,其中通过使用不同的肿瘤负荷临界值来计算并绘制分离癌症和非癌症样品的灵敏度和特异性。如图24A和图24B所示,在预测表现和稳健性(即,低得多的标准偏差)方面,癌症检测器510的平均ROC曲线优于癌症定位器520的平均ROC曲线。例如,当我们选择ROC曲线中左上角的点来确定肿瘤负荷阈值时,癌症检测器510可以于100%的特异性下在10次运行中达到95.2%的平均灵敏度,其中标准偏差为3.2%;而基于β值的癌症定位器520方法在100%的特异性下达到74.1%的平均灵敏度,其中标准偏差为10.7%。注意,29例肝癌患者中至少有25例早期(巴塞罗那临床肝癌A期)患者。仅对25例早期癌症患者和健康/HBV样品进行检测,我们的方法也可以在100%的特异性下达到94.4%的平均灵敏度,其中标准偏差为3.7%;而癌症定位器520获得的灵敏度为74.4%,其中标准偏差为10.0%。总结使用曲线下面积(AUC)的效果比较,我们的方法对于所有真实样品,可以在10次运行中达到0.988的平均AUC,其中标准偏差为0.004,对于早期癌症患者达到0.987的平均AUC,其中标准偏差为0.005;而癌症定位器520对于真实样品获得0.975这一较低的平均AUC,其中标准偏差为0.014,对于早期癌症患者获得0.975的平均AUC,其中标准偏差为0.0143。癌症检测器510正确地预测所有八种慢性乙型肝炎病毒(HBV)样品的cfDNA肿瘤负荷存在与正常样品相同的范围(即接近于零),该范围与癌症样品完全不同。这些结果表明,癌症检测器510不仅可以区分健康样品与癌症样品,而且还可以处理更复杂的情况,例如区分HBV携带者与癌症患者。因此,使用真实血浆样品,我们还证明了基于读取的癌症检测器可以更灵敏地检测肿瘤cfDNA。
通常,预测的肿瘤负荷与肿瘤大小非常相关。如图24C所示,在具有肿瘤大小信息的26例肝癌患者中,预测的肿瘤负荷与肿瘤大小之间的PCC为0.87(P值=7.37e-09)。即使在去除了具有最大肿瘤(大小>6cm)的三例患者之后,我们仍然获得0.42这一相对良好的PCC(P值=4.61e-02)。
癌症检测器也可用于监测癌症进展和治疗。我们使用Chan等人(2013)的两例肝癌患者的在手术切除肿瘤之前和手术后的多个时间点获得的血浆样品。第一例患者存活超过12个月,而第二例患者在手术后死于转移性疾病(Chan等人(2013))。如图25所示,预测的血液肿瘤负荷与治疗效果一致:第一例患者的肿瘤负荷迅速降至正常范围;而第二例患者在手术后保留相对较高的肿瘤负荷值。
早期癌症检测的成功在很大程度上取决于(i)高质量的癌症特异性甲基化标志物、以及(ii)超灵敏检测微量(通常<5%,在早期癌症患者中甚至<0.5%)的肿瘤cfDNA的计算方法。在一些实施方案中,存在一种在各个读取的分辨率下从总cfDNA中反卷积出肿瘤cfDNA的方法。与传统的癌症检测方法相比,我们的方法在鉴别细微肿瘤信号方面具有两个优势:(i)利用DNA甲基化普遍存在的性质,显著扩大异常的cfDNA信号:如图1和图20中所示,在我们的实验结果中,读取中的多个CpG位点的联合甲基化状态(α-值)携带比单个CpG位点的平均甲基化率(β-值)更灵敏的肿瘤信号。当肿瘤负荷和测序覆盖率低时,我们基于α值的概率方法特别有利。(ii)对所有标志物联合反卷积肿瘤负荷。现有方法通常关注检测单独肿瘤标志物中的肿瘤信号,而不是聚集来自所有标志物的信号(Sharma(2009),Sturgeon等人(2009))。或者,我们的方法认为微弱的肿瘤信号在基因组的多个位置出现。尽管我们的方法可以在读取水平检测肿瘤cfDNA,但将所有可能的信号组合起来,以提供对肿瘤负荷的稳健且灵敏的估计。所述的(i)和(ii)的关键考虑因素表明,我们的方法可以很好地应对低或中等测序覆盖率(5X和10X)下极低肿瘤负荷(<1%)的情况。因此,该方法具有大幅降低癌症检测成本的潜力。
此外,技术人员将认识到来自不同实施方案的各种特征的适用性。类似地,本领域普通技术人员可以混合和匹配上面讨论的各种元素、特征和步骤、以及每个这样的元素、特征或步骤的其他已知等同物,以执行与本文描述的原理一致的方法。各种元素、特征和步骤中的一些将被特别地包括在不同的实施方案中,而其他元素、特征和步骤将被特别地排除在外。
尽管已经在某些实施方案和实施例的上下文中公开了本发明,但是本领域技术人员将理解,本发明的实施方案不仅包括具体公开的实施方案,还延伸到其他替代实施方案和/或其用途和修改及其等同物。
在本发明的实施方案中已经公开了许多变化和替代元素。更进一步的变化和替代元素对于本领域技术人员来说是显而易见的。
在一些实施方案中,用于描述并请求保护本发明一些实施方案的表示成分、性质的量如分子量、反应条件等的数字应理解为在一些情况下被术语“约”修饰。因此,在一些实施方案中,书面描述和所附权利要求中列出的数值参数是近似值,其可以根据特定实施方案旨在获得的所需性质而变化。在一些实施方案中,数值参数应根据报告的有效数字的数值并通过应用普通的舍入技术来解释。尽管本阐述发明一些实施方案的宽范围的数值范围和参数是近似值,但尽可能精确地报告了具体实施例中列出的数值。在本发明的一些实施方案中呈现的数值可能包含必然由于在其各自的测试测量中存在的标准偏差引起的某些误差。
在一些实施方案中,在描述本发明的特定实施方案的上下文中(特别是在以下某些权利要求的上下文中)使用的术语“该”或不使用数量词可以解释为涵盖单数和复数两者。本文中对数值范围的描述仅旨在用作单独提及落入该范围内的每个单独值的简写方法。除非本文另有说明,否则将各个单独的值并入本说明书中,如同其在本文中单独地描述一样。除非本文另有说明或上下文明显矛盾,否则本文所述的所有方法均可以以任何合适的顺序进行。就本文的某些实施方案提供的任何和所有实施例或示例性描述(如“例如”)的使用仅旨在更好地说明本发明,而不是对要求保护的本发明的范围构成限制。说明书中的任何描述不应被解释为表示对本发明实践的必不可少的任何未要求保护的要素。
本文公开的本发明的其他元素或实施方案的分组不应解释为限制。每个组成员可以单独地或与该组中的其他成员或本文存在的其他元素任意组合地提及和要求保护。出于方便和/或可专利性的原因,可以将组的一个或多于一个成员包括在组中或从组中删除。当发生任何这样的包括或删除时,在此认为本说明书包含经修改的组,从而实现所附权利要求中使用的所有马库什组的书面描述。
此外,在整个说明书中参考了许多专利和印刷出版物。上文引用的每篇参考文献和印刷出版物均通过引用整体并入本文。
最后,应该理解,本文公开的本发明的实施方案是对本发明原理的说明。可以在本发明的范围内进行可采用的其他修改。因此,作为实例而非限制,可以根据本文的教导利用本发明的其他配置。因此,本发明的实施方案不限于精确地如所示和所述的那些。
参考文献
Li,S.等人Dynamic evolution of clonal epialleles revealed bymethclone.Genome Biol.15,472(2014)
Yuan,K.等人BitPhylogeny:a probabilistic framework for reconstructingintra-tumor phylogenies.Genome Biol.16,36(2015).
Zheng,X.等人MethylPurify:tumor purity deconvolution and differentialmethylation detection from single tumor DNA methylomes.Genome Biol.15,419(2014).
Sun,K.等人Plasma DNA tissue mapping by genome-wide methylationsequencing for noninvasive prenatal,cancer,and transplantation assessments.Proc.Natl.Acad.Sci.U.S.A.112,E5503–12(2015).
Houseman,E.A.等人DNA methylation arrays as surrogate measures of cellmixture distribution.BMC Bioinformatics 13,86(2012).
Koestler,D.C.等人Blood-based profiles of DNA methylation predict theunderlying distribution of cell types:a validation analysis.Epigenetics 8,816–26(2013).
Koestler,D.C.等人Peripheral blood immune cell methylation profilesare associated with nonhematopoietic cancers.Cancer Epidemiol.BiomarkersPrev.21,1293–302(2012).
Chan,K.C.A.等人Noninvasive detection of cancer-associated genome-widehypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc.Natl.Acad.Sci.U.S.A.110,18761–8(2013).
Bettegowda,C.等人(2014)Detection of circulating tumor DNA in early-and late-stage human malignancies.Sci.Transl.Med.,6,224ra24.
Newman,A.M.等人(2014)An ultrasensitive method for quantitatingcirculating tumor DNA with broad patient coverage.Nat.Med.,20,548–54.
Newman,A.M.等人(2016)Integrated digital error suppression forimproved detection of circulating tumor DNA.Nat.Biotechnol.,34,547–55.
Burrell,R.A.等人(2013)The causes and consequences of geneticheterogeneity in cancer evolution.Nature,501,338–345.
Turner,N.C.等人(2012)Genetic heterogeneity and cancer drugresistance.Lancet Oncol.,13,e178–e185.
Greenman,C.等人(2007)Patterns of somatic mutation in human cancergenomes.Nature,446,153–158.
Schmitt,M.W.等人(2012)Implications of genetic heterogeneity incancer.Ann.N.Y.Acad.Sci.,1267,110–116.
Baylin,S.B.等人(2001)Aberrant patterns of DNA methylation,chromatinformation and gene expression in cancer.Hum.Mol.Genet.,10,687–92.
Cheishvili,D.等人(2015)DNA demethylation and invasive cancer:implications for therapeutics.Br.J.Pharmacol.,172,2705–15.
Roy,D.M.等人(2014)Driver mutations of cancer epigenomes.Protein Cell,5,265–96.
Plass,C.等人(2013)Mutations in regulators of the epigenome and theirconnections to global chromatin patterns in cancer.Nat.Rev.Genet.,14,765–80.
Smith,L.T.等人(2007)Unraveling the epigenetic code of cancer fortherapy.Trends Genet.,23,449–56.
Sigalotti,L.等人(2007)Epigenetic drugs as pleiotropic agents incancer treatment:biomolecular aspects and clinicalapplications.J.Cell.Physiol.,212,330–44.
Kang,S.等人(2017)CancerLocator:non-invasive cancer diagnosis andtissue-of-origin prediction using methylation profiles of cell-freeDNA.Genome Biol.,18,53.
Cancer Genome Atlas Research Network,Weinstein,J.N.等人(2013)TheCancer Genome Atlas Pan-Cancer analysis project.Nat.Genet.,45,1113–20.
Bowman,K.O.等人(2007)The beta distribution,moment method,Karl Pearsonand RA Fisher.Far East J.Theor.Stat.,23,133–164.
Shah,A.等人(2015)An empirical study of stochastic variationalalgorithms for the Beta Bernoulli process.In International Conference onMachine Learning (ICML).
Landau,D.A.等人(2014)Locally Disordered Methylation Forms the Basisof Intratumor Methylome Variation in Chronic Lymphocytic Leukemia.CancerCell,26,813–825.
Krueger,F.等人(2011)Bismark:a flexible aligner and methylation callerfor Bisulfite-Seq applications.Bioinformatics,27,1571–2.
Sharma,S.(2009)Tumor markers in clinical practice:General principlesand guidelines.Indian J.Med.Paediatr.Oncol.,30,1.
Sturgeon,C.M.等人(2009)Use of tumor markers in clinical practice:quality requirements American Association for Clinical Chemistry.
Landan,G.等人(2012)Epigenetic polymorphism and the stochasticformation of differentially methylated regions in normal and canceroustissues.Nat.Genet.,44,1207–14.
Li,S.等人(2016)Distinct evolution and dynamics of epigenetic andgenetic heterogeneity in acute myeloid leukemia.Nat.Med.,22,792–9.
Swanton,C.等人(2014)Epigenetic noise fuels cancer evolution.CancerCell,26,775–6.
Guo,S.等人(2017)Identification of methylation haplotype blocks aidsin deconvolution of heterogeneous tissue samples and tumor tissue-of-originmapping from plasma DNA.Nat.Genet.,49,635–642.

Claims (155)

1.一种表征来自对象的无细胞DNA(cfDNA)样品的方法,其包括:
接收来自对象的cfDNA样品的多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;
基于多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态;
将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;和
如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成。
2.根据权利要求1所述的方法,其还包括:
针对多个测序读取的每一个,重复计算、比较和表征步骤。
3.根据权利要求1所述的方法,其还包括:
基于现有的甲基化测序数据,建立所述一个或多于一个预先建立的甲基化特征。
4.根据权利要求2所述的方法,其中还包括:
基于多个测序读取中含有生物组成的测序读取的数目,确定cfDNA样品中的生物组成的水平。
5.根据权利要求3所述的方法,其中现有的甲基化测序数据选自组织特异性测序数据、疾病特异性测序数据、个体测序数据、群体测序数据及其组合。
6.根据权利要求1所述的方法,其中cfDNA样品由来自对象的血浆或血液样品制备。
7.根据权利要求1所述的方法,其中生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。
8.根据权利要求7所述的方法,其中癌组织选自肝癌组织、肺癌组织、肾癌组织、结肠癌组织、胰腺癌组织、脑癌组织及其组合。
9.根据权利要求1所述的方法,其中在箱水平确定甲基化状态和预先确定的甲基化状态。
10.根据权利要求1所述的方法,其中在CpG位点水平确定甲基化状态和预先确定的甲基化状态。
11.根据权利要求1所述的方法,其中一个或多于一个基序是CpG位点。
12.根据权利要求4所述的方法,其还包括:
将对象的cfDNA的生物组成水平与已知癌症患者中cfDNA的生物组成水平进行比较。
13.根据权利要求4所述的方法,其还包括:
将对象的cfDNA的生物组成水平与正常对象中cfDNA的生物组成水平进行比较。
14.根据权利要求13所述的方法,其还包括:
根据以下步骤确定正常对象中的生物组成水平:
接收来自正常对象的cfDNA样品的多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;
基于多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态;
将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;
如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成;
针对多个测序读取的每一个,重复计算、比较和表征步骤;和
基于多个测序读取中含有生物组成的测序读取的数目,确定来正常对象的cfDNA样品中的生物组成的水平。
15.一种将来自未知对象的无细胞(cfDNA)样品中生物组成的水平与来自正常对象或已知癌症患者的相同生物组成的水平进行比较的方法,该方法包括:
接收来自未知对象的cfDNA样品的第一多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;
i)基于第一多个测序读取计算甲基化模式,其中甲基化模式包括对应于连续核酸序列的基因组区域和所述基因组区域中一个或多于一个基序的甲基化状态;
ii)将甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;
iii)如果一个或多于一个似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成;
iv)针对第一多个测序读取的每一个,重复计算、比较和表征步骤;
v)基于第一多个测序读取中含有生物组成的测序读取的数目,确定来自未知对象的cfDNA样品中生物组成的第一水平;
接收来自正常对象或已知癌症患者的cfDNA样品的第二多个测序读取,其中每个测序读取包括从50个或多于50个核酸的连续核酸序列获得的甲基化测序数据;
通过对来自正常对象或已知癌症患者的cfDNA样品执行步骤i)至步骤v),确定来自患者的cfDNA样品中生物组成的第二水平;和
比较生物组成的第一水平和第二水平。
16.一种检测来自患者的无细胞DNA(cfDNA)样品的组成变化的方法,其包括:
在第一时间点,接收来自患者的第一cfDNA样品的第一多个测序读取,其中第一多个测序读取中的每一个包括从50个或多于50个核酸的第一连续核酸序列获得的甲基化测序数据;
i)基于第一多个测序读取计算第一甲基化模式,其中第一甲基化模式包括对应于第一连续核酸序列的第一基因组区域和所述第一基因组区域中一个或多于一个基序的甲基化状态;
ii)将第一甲基化模式与一个或多于一个预先建立的甲基化特征中的每一个进行比较以计算一个或多于一个第一似然得分,其中一个或多于一个预先建立的甲基化特征中的每一个与生物组成相关,并且其中每个预先建立的甲基化特征包括至少一个预先确定的特征区域以及与其相关的预先确定的甲基化率;
iii)如果一个或多于一个第一似然得分中的至少一个超过阈值,则将测序读取表征为包含生物组成;
iv)针对第一多个测序读取中的每个测序读取重复步骤i)至步骤iii),以确定在第一时间点cfDNA样品中生物组成的存在;
v)基于第一多个测序读取中含有生物组成的测序读取的数目,确定第一cfDNA样品中生物组成的第一水平;
在第二时间点,接收来自同一患者的第二cfDNA样品的第二多个测序读取,其中第二多个测序读取的每一个包括从50个或多于50个核酸的第二连续核酸序列获得的甲基化测序数据;
针对第二多个测序读取中的每个测序读取重复步骤i)至步骤v),以确定在第二时间点第二cfDNA样品中生物组成的第二水平;和
检测第一时间点和第二时间点之间的生物组成的变化。
17.根据权利要求16所述的方法,其中生物组成选自患病组织、癌组织、来自特定器官的组织、肝组织、肺组织、肾组织、结肠组织、T细胞、B细胞、嗜中性粒细胞、小肠组织、胰腺组织、肾上腺组织、食管组织、脂肪组织、心脏组织、脑组织、胎盘组织及其组合。
18.一种计算机程序产品,其包括计算机可读介质,所述计算机可读介质具有记录在其上的被设置用于实施权利要求1至17中任一项所述的方法的计算机程序逻辑。
19.一种计算机程序产品,其包括非暂时性计算机可读介质,所述非暂时性计算机可读介质具有被配置用于癌症检测和组织来源鉴别的指令,当所述指令被计算系统的处理器执行时,使得处理器执行以下步骤:
接收访问存储在非暂时性计算机可读介质中的患者的无细胞DNA(cfDNA)甲基化谱的数据的指令;
鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;
确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;
确定潜在的癌症类型t;
估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;
使用θ、t和xk计算预测得分λ;
如果λ大于预先确定的阈值,则确定患者患有潜在癌症类型t的癌症;和
如果λ小于预先确定的阈值,则确定患者未患癌症。
20.根据权利要求19所述的计算机程序产品,其中K为14000至15000。
21.根据权利要求19至20所述的计算机程序产品,其中鉴别多个CpG簇特征的步骤还包括以下步骤:
在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;
在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;
使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和
如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。
22.根据权利要求19至21所述的计算机程序产品,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。
23.根据权利要求19至22所述的计算机程序产品,其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。
24.根据权利要求19至23所述的计算机程序产品,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk
25.根据权利要求19至24所述的计算机程序产品,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。
26.根据权利要求19至25所述的计算机程序产品,其中使用全局优化估计法确定ctDNA负荷系数θ。
27.根据权利要求19至26所述的计算机程序产品,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。
28.根据权利要求19至27所述的计算机产品,其中将预定义θ值表示为
其中J是正整数。
29.根据权利要求19至28所述的计算机程序产品,其中使用全局优化估计法确定潜在癌症类型t。
30.根据权利要求19至29所述的计算机程序产品,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。
31.根据权利要求29至30所述的计算机程序产品,其中预定义t值为0、1、2、3、4、5、或6。
32.根据权利要求19至31所述的计算机程序产品,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk
33.根据权利要求19至32所述的计算机程序产品,其中使用以下方程计算预测得分λ:
其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。
34.一种被配置用于癌症检测和组织来源鉴别的装置,其包括:
非暂时性存储器;和
耦合到非暂时性存储器的处理器,所述处理器被配置用于执行以下步骤:
访问存储在非暂时性存储器中的患者的无细胞DNA(cfDNA)甲基化谱的数据;
鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;
确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;
确定潜在的癌症类型t;
估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;
使用θ、t和xk计算预测得分λ;
如果λ大于预先确定的阈值,则确定患者患有潜在癌症类型t的癌症;和
如果λ小于预先确定的阈值,则确定患者未患癌症。
35.根据权利要求34所述的装置,其中K为14000至15000。
36.根据权利要求34至35所述的装置,其中鉴别多个CpG簇特征的步骤还包括以下步骤:
在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;
在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;
使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和
如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。
37.根据权利要求34至36所述的装置,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。
38.根据权利要求34至37所述的装置,其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。
39.根据权利要求34至38所述的装置,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk
40.根据权利要求34至39所述的装置,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。
41.根据权利要求34至40所述的装置,其中使用全局优化估计法确定ctDNA负荷系数θ。
42.根据权利要求34至41所述的装置,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。
43.根据权利要求34至42所述的装置,其中将预定义θ值表示为
其中J是正整数。
44.根据权利要求34至43所述的装置,其中使用全局优化估计法确定潜在癌症类型t。
45.根据权利要求34至44所述的装置,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。
46.根据权利要求34至45所述的装置,其中预定义t值为0、1、2、3、4、5、或6。
47.根据权利要求34至46所述的装置,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk
48.根据权利要求34至47所述的装置,其中使用以下方程计算预测得分λ:
其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。
49.一种通过计算机系统执行癌症检测和组织来源鉴别的方法,其包括
由计算机系统的处理器接收访问存储在非暂时性计算机可读介质中的患者的无细胞DNA(cfDNA)甲基化谱的数据的指令,所述非暂时性计算机可读介质与处理器通信;
通过处理器鉴别cfDNA甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;
通过处理器确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;
通过处理器确定潜在的癌症类型t;
通过处理器估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;
使用θ、t和xk通过处理器计算预测得分λ;
如果λ大于预先确定的阈值,则通过处理器确定患者患有潜在癌症类型t的癌症;和
如果λ小于预先确定的阈值,则通过处理器确定患者未患癌症。
50.根据权利要求49所述的方法,其中K为14000至15000。
51.根据权利要求49至50所述的方法,其中鉴别多个CpG簇特征的步骤还包括以下步骤:
在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;
在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;
使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和
如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。
52.根据权利要求49至51所述的方法,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。
53.根据权利要求49至52所述的方法,其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。
54.根据权利要求49至53所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk
55.根据权利要求49至54所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。
56.根据权利要求49至55所述的方法,其中使用全局优化估计法确定ctDNA负荷系数θ。
57.根据权利要求49至56所述的方法,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。
58.根据权利要求49至57所述的方法,其中将预定义θ值表示为
其中J是正整数。
59.根据权利要求49至58所述的方法,其中使用全局优化估计法确定潜在癌症类型t。
60.根据权利要求49至59所述的方法,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。
61.根据权利要求49至60所述的方法,其中预定义t值为0、1、2、3、4、5、或6。
62.根据权利要求49至61所述的方法,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk
63.根据权利要求49至62所述的方法,其中使用以下方程计算预测得分λ:
其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。
64.一种方法,其包括:
对从患者获得的cfDNA进行亚硫酸氢盐测序以获得甲基化谱;
鉴别甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;
确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;
确定潜在的癌症类型t;
估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;和
使用θ、t和xk计算预测得分λ。
65.根据权利要求64所述的方法,其中K为14000至15000。
66.根据权利要求64至65所述的方法,其中鉴别多个CpG簇特征的步骤还包括以下步骤:
在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;
在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;
使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和
如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。
67.根据权利要求64至66所述的方法,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。
68.根据权利要求64至67所述的方法,其中MR的预先确定的阈值为0.1或约0.1至0.5或约0.5。
69.根据权利要求64至68所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk
70.根据权利要求64至69所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。
71.根据权利要求64至70所述的方法,其中使用全局优化估计法确定ctDNA负荷系数θ。
72.根据权利要求64至71所述的方法,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。
73.根据权利要求64至72所述的方法,其中将预定义θ值表示为
其中J是正整数。
74.根据权利要求64至73所述的方法,其中使用全局优化估计法确定潜在癌症类型t。
75.根据权利要求64至74所述的方法,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。
76.根据权利要求64至75所述的方法,其中预定义t值为0、1、2、3、4、5、或6。
77.根据权利要求64至76所述的方法,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk
78.根据权利要求64至77所述的方法,其中使用以下方程计算预测得分λ:
其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。
79.根据权利要求64至78所述的方法,其还包括:
如果λ大于预先确定的阈值,则确定患者患有潜在癌症类型t的癌症。
80.根据权利要求64至79所述的方法,其还包括:
如果λ小于预先确定的阈值,则通过处理器确定患者未患癌症。
81.一种用于治疗癌症患者的癌症的方法,其包括:
在基于包括以下步骤的方法确定患者患有癌症之后,向患者施用有效量的化学疗法、放射疗法或免疫疗法,所述步骤为:对从患者获得的cfDNA进行亚硫酸氢盐测序以获得甲基化谱;鉴别甲基化谱中的多个CpG簇特征,其中多个CpG簇特征的总数是K,K是正整数;确定循环肿瘤DNA(ctDNA)负荷系数θ,其中0≤θ≤1;确定潜在的癌症类型t;估计每个CpG簇特征的甲基化水平xk,其中k=1,2,...K;和使用θ、t、和xk计算预测得分λ,其中预测得分λ大于预先确定的阈值。
82.根据权利要求81所述方法,其中确定癌症的来源点,并基于该确定对患者进行治疗。
83.根据权利要求81或82所述方法,其中在治疗之前对患者进行活组织检查。
84.根据权利要求81至83中任一项所述的方法,其中K为14000至15000。
85.根据权利要求81至84中任一项所述的方法,其中鉴别多个CpG簇特征的步骤还包括以下步骤:
在第一非癌甲基化谱中确定CpG簇的第一甲基化水平;
在第二癌性甲基化谱中确定CpG簇的第二甲基化水平;
使用第一甲基化水平和第二甲基化水平之间的差来确定甲基化范围系数MR;和
如果MR大于预先确定的阈值,则将该CpG簇鉴别为具有CpG簇特征。
86.根据权利要求81至85中任一项所述的方法,其中CpG簇是在测序过程中鉴别的CpG位点的上游和下游的100个碱基对。
87.根据权利要求85所述的方法,其中MR的预先确定的阈值为0.2或约0.2至0.3或约0.3。
88.根据权利要求81至87中任一项所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
使用特定CpG簇中甲基化胞嘧啶的数目mk和胞嘧啶的总数nk来估计特定CpG簇的甲基化水平xk
89.根据权利要求81至88中任一项所述的方法,其中估计每个CpG簇特征的甲基化水平xk的步骤还包括以下步骤:
通过卷积正常甲基化谱的第一β分布函数和癌性甲基化谱的第二β分布函数,得出描述甲基化水平xk的概率密度函数。
90.根据权利要求81至89中任一项所述的方法,其中使用全局优化估计法确定ctDNA负荷系数θ。
91.根据权利要求90所述的方法,其中全局优化估计法包括通过尝试不同的预定义θ值根据误差函数来计算最小误差值。
92.根据权利要求91所述的方法,其中将预定义θ值表示为
其中J是正整数。
93.根据权利要求81至92中任一项所述的方法,其中使用全局优化估计法确定潜在癌症类型t。
94.根据权利要求90所述的方法,其中全局优化估计法包括通过尝试不同的预定义t值根据误差函数来计算最小误差值。
95.根据权利要求81至94中任一项所述的方法,其中预定义t值为0、1、2、3、4、5、或6。
96.根据权利要求81至95中任一项所述的方法,其中使用最大似然估计法确定预测得分λ,其中最大似然估计法使用的变量包括θ、t、和xk
97.根据权利要求81至96中任一项所述的方法,其中使用以下方程计算预测得分λ:
其中,K是多个CpG簇特征的总数,L是最大似然函数,是经优化的θ,是经优化的t,M是xk的函数,N是xk的函数。
98.一种计算机程序产品,其包括非暂时性计算机可读介质,所述非暂时性计算机可读介质具有被配置用于以单个读取的分辨率检测患者的癌症类型的指令,当所述指令由计算系统的处理器执行时,使得处理器执行包括以下的步骤:
检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;
鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;
鉴别cfDNA甲基化谱中的CpG位点的数目L,L是正整数;
检索癌症类型的DNA甲基化标志物的数目K,K是正整数;
确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于所述癌症类型的DNA甲基化标志物的CpG簇;
检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自所述癌症类型的肿瘤细胞的cfDNA的甲基化模式;
检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;和
基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。
99.根据权利要求98所述的计算机程序产品,其中0≤θ≤1。
100.根据权利要求98至99中任一项所述的计算机程序产品,其还包括
如果θ大于预先确定的阈值,则确定患者具有所述癌症类型;和
如果θ小于预先确定的阈值,则确定患者不具有所述癌症类型。
101.根据权利要求98至100中任一项的计算机程序产品,其中CpG簇包括CpG位点上游和下游的X个碱基对,X为25至300,其中如果两个CpG簇互相重叠,则将这两个CpG簇合并成一个CpG簇。
102.根据权利要求98至101中任一项所述的计算机程序产品,其还包括
确定读取中的联合甲基化状态,将所述读取的联合甲基化状态表示为r=(r1,r2,…,rj,…,rL),其中j=1,2,…L,rj是二进制的,rj=1表示在位点j的CpG被甲基化,rj=0表示在位点j的CpG未被甲基化,rj=NA表示在位点j的CpG未被读取所覆盖。
103.根据权利要求98至102中任一项所述的计算机程序产品,其中数目为N的cfDNA甲基化谱的读取之一rj遵循伯努利分布,表示为rj~伯努利(p),其中p是在位点j的CpG的平均甲基化率。
104.根据权利要求98至103中任一项所述的计算机程序产品,其还包括
已知甲基化模式m,计算读取r=(r1,r2,…)中联合甲基化状态的似然率P(r|m)为
伯努利(rj|p)β(p|η,ρ)dp,其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
105.根据权利要求98至104中任一项所述的计算机程序产品,其中将P(r|m)计算为
其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
106.根据权利要求98至105中任一项所述的计算机程序产品,其还包括
计算对T类具有特异性的标志物区域的甲基化状态的似然率
计算对N类具有特异性的标志物区域的甲基化状态的似然率
107.根据权利要求98至106中任一项所述的计算机程序产品,其中使用最大似然估计计算负荷θ,其中
R表示数目为N的cfDNA甲基化谱的读取,表示为R={r(1),…,r(N)},和
表示数目为K的cfDNA甲基化谱中标志物区域的甲基化模式,表示为
108.根据权利要求98至107中任一项所述的计算机程序产品,其中
109.根据权利要求98至108中任一项所述的计算机程序产品,其中
110.根据权利要求98至109中任一项所述的计算机程序产品,其中通过网格搜索获得的负荷θ的最优解。
111.根据权利要求98至110中任一项所述的计算机程序产品,其中网格搜索计算负荷θ的值为0%、0.1%、…、0.99%、和/或100%的
112.一种被配置用于检测患者的癌症类型的装置,其包括:
(1)非暂时性存储器;和
(2)耦合到非暂时性存储器的处理器,所述处理器被配置用于执行以下步骤:
(3)检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;
(4)鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;
(5)鉴别cfDNA甲基化谱中的CpG位点的数目L,L是正整数;
(6)检索所述癌症类型的DNA甲基化标志物的数目K,K是正整数;
(7)确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于所述癌症类型的DNA甲基化标志物的CpG簇;
(8)检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自所述癌症类型的肿瘤细胞的cfDNA的甲基化模式;
(9)检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;和
(10)基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。
113.根据权利要求112所述的装置,其中0≤θ≤1。
114.根据权利要求112至113中任一项所述的装置,其还包括
如果θ大于预先确定的阈值,则确定患者具有所述癌症类型;和
如果θ小于预先确定的阈值,则确定患者不具有所述癌症类型。
115.根据权利要求112至114中任一项所述的装置,其中CpG簇包括CpG位点上游和下游的X个碱基对,X为25至300,其中如果两个CpG簇互相重叠,则将这两个CpG簇合并成一个CpG簇。
116.根据权利要求112至115中任一项所述的装置,其还包括
确定读取中的联合甲基化状态,将所述读取的联合甲基化状态表示为r=(r1,r2,…,rj,…,rL),其中j=1,2,…L,rj是二进制的,rj=1表示在位点j的CpG被甲基化,rj=0表示在位点j的CpG未被甲基化,rj=NA表示在位点j的CpG未被读取覆盖。
117.根据权利要求112至116中任一项所述的装置,其中数目为N的cfDNA甲基化谱的读取中的rj遵循伯努利分布,表示为rj~伯努利(p),其中p是在位点j的CpG的平均甲基化率。
118.根据权利要求112至117中任一项所述的装置,其还包括
已知甲基化模式m,计算读取r=(r1,r2,…)中联合甲基化状态的似然率P(r|m)为
伯努利(rj|p)β(p|η,ρ)dp,其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
119.根据权利要求112至118中任一项所述的装置,其中将P(r|m)计算为其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
120.根据权利要求112至119中任一项所述的装置,其还包括
计算对T类具有特异性的标志物区域的甲基化状态的似然率
计算对N类具有特异性的标志物区域的甲基化状态的似然率
121.根据权利要求112至120中任一项所述的装置,其中使用最大似然估计计算负荷θ,其中
R表示数目为N的cfDNA甲基化谱的读取,表示为R={r(1),…,r(N)},和
表示数目为K的cfDNA甲基化谱中的标志物区域的甲基化模式,表示为
122.根据权利要求112至121中任一项所述的装置,其中
123.根据权利要求112至122中任一项所述的装置,其中
124.根据权利要求112至123中任一项所述的装置,其中通过网格搜索获得的负荷θ的最优解。
125.根据权利要求112至124中任一项所述的装置,其中网格搜索计算负荷θ的值为0%、0.1%、…、0.99%、和/或100%的
126.一种用于治疗具有癌症类型的患者的癌症的方法,其包括:
在基于包括以下步骤的方法确定患者具有所述癌症类型之后,向患者施用有效量的化学疗法、放射疗法或免疫疗法,所述步骤为:检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;鉴别cfDNA甲基化谱中的CpG位点的数目L,L是正整数;检索所述癌症类型的DNA甲基化标志物的数目K,K是正整数;确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于所述癌症类型的DNA甲基化标志物的CpG簇;检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自所述癌症类型的肿瘤细胞的cfDNA的甲基化模式;检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;和基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。
127.根据权利要求126所述的方法,其中0≤θ≤1。
128.根据权利要求126至127中任一项所述的方法,其还包括
如果θ大于预先确定的阈值,则确定患者具有所述癌症类型;和
如果θ小于预先确定的阈值,则确定患者不具有所述癌症类型。
129.根据权利要求126至128中任一项所述的方法,其中CpG簇包括CpG位点上游和下游的X个碱基对,X为25至300,其中如果两个CpG簇互相重叠,则将这两个CpG簇合并成一个CpG簇。
130.根据权利要求126至129中任一项所述的方法,其还包括
确定读取中的联合甲基化状态,将所述读取的联合甲基化状态表示为r=(r1,r2,…,rj,…,rL),其中j=1,2,…L,rj是二进制的,rj=1表示在位点j的CpG被甲基化,rj=0表示在位点j的CpG未被甲基化,rj=NA表示在位点j的CpG未被读取覆盖。
131.根据权利要求126至130中任一项所述的方法,其中数目为N的cfDNA甲基化谱的读取中的rj遵循伯努利分布,表示为rj~伯努利(p),其中p是在位点j的CpG的平均甲基化率。
132.根据权利要求126至131中任一项所述的方法,其还包括
已知甲基化模式m,计算读取r=(r1,r2,…)中联合甲基化状态的似然率P(r|m)为
伯努利(rj|p)β(p|η,ρ)dp,其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
133.根据权利要求126至132中任一项所述的方法,其中将P(r|m)计算为
其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
134.根据权利要求126至133中任一项所述的方法,其还包括
计算对T类具有特异性的标志物区域的甲基化状态的似然率
计算对N类具有特异性的标志物区域的甲基化状态的似然率
135.根据权利要求126至134中任一项所述的方法,其中使用最大似然估计计算负荷θ,其中
R表示数目为N的cfDNA甲基化谱的读取,表示为R={r(1),…,r(N)},和
表示数目为K的cfDNA甲基化谱中的标志物区域的甲基化模式,表示为
136.根据权利要求126至135中任一项所述的方法,其中
137.根据权利要求126至136中任一项所述的方法,其中
138.根据权利要求126至137中任一项所述的方法,其中通过网格搜索获得的负荷θ的最优解。
139.根据权利要求126至138中任一项所述的方法,其中网格搜索计算负荷θ的值为0%、0.1%、…、0.99%、和/或100%的
140.一种用于检测患者的癌症类型的方法,其包括:
检索患者无细胞DNA(cfDNA)甲基化谱的读取的数目N,N为正整数;
鉴别cfDNA甲基化谱中的CpG簇的数目J,J是正整数;
鉴别cfDNA甲基化谱中的CpG位点的数目L,L是正整数;
检索所述癌症类型的DNA甲基化标志物的数目K,K是正整数;
确定cfDNA甲基化谱中的标志物区域的数目K,其中标志物区域是对应于所述癌症类型的DNA甲基化标志物的CpG簇;
检索每个标志物区域的T类甲基化模式,表示为其中m表示标志物区域,T表示T类,k=1,2,…K,T类甲基化模式是衍生自所述癌症类型的肿瘤细胞的cfDNA的甲基化模式;
检索每个标志物区域的N类甲基化模式,表示为其中m表示标志物区域,N表示N类,k=1,2,…K,其中N类甲基化模式是衍生自正常细胞的cfDNA的甲基化模式;和
基于cfDNA甲基化谱的读取的数目N、的数目K和的数目K计算负荷θ。
141.根据权利要求140所述的方法,其中0≤θ≤1。
142.根据权利要求140至141中任一项所述的方法,其还包括
如果θ大于预先确定的阈值,则确定患者具有所述癌症类型;和
如果θ小于预先确定的阈值,则确定患者不具有所述癌症类型。
143.根据权利要求140至142中任一项所述的方法,其中CpG簇包括CpG位点上游和下游的X个碱基对,X为25至300,其中如果两个CpG簇互相重叠,则将这两个CpG簇合并成一个CpG簇。
144.根据权利要求140至143中任一项所述的方法,其还包括
确定读取中的联合甲基化状态,将所述读取的联合甲基化状态表示为r=(r1,r2,…,rj,…,rL),其中j=1,2,…L,rj是二进制的,rj=1表示在位点j的CpG被甲基化,rj=0表示在位点j的CpG未被甲基化,rj=NA表示在位点j的CpG未被读取覆盖。
145.根据权利要求140至144中任一项所述的方法,其中数目为N的cfDNA甲基化谱的读取中的rj遵循伯努利分布,表示为rj~伯努利(p),其中p是在位点j的CpG的平均甲基化率。
146.根据权利要求140至145中任一项所述的方法,其还包括
已知甲基化模式m,计算读取r=(r1,r2,…)中联合甲基化状态的似然率P(r|m)为
伯努利(rj|p)β(p|η,ρ)dp,其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
147.根据权利要求140至146中任一项所述的方法,其中将P(r|m)计算为其中β(η,ρ)是β函数,p是在位点j的CpG的平均甲基化率。
148.根据权利要求140至147中任一项所述的方法,其还包括
计算对T类具有特异性的标志物区域的甲基化状态的似然率和计算对N类具有特异性的标志物区域的甲基化状态的似然率
149.根据权利要求140至148中任一项所述的方法,其中使用最大似然估计计算负荷θ,其中
R表示数目为N的cfDNA甲基化谱的读取,表示为R={r(1),…,r(N)},和
表示数目为K的cfDNA甲基化谱中的标志物区域的甲基化模式,表示为
150.根据权利要求140至149中任一项所述的方法,其中
151.根据权利要求140至150中任一项所述的方法,其中
152.根据权利要求140至151中任一项所述的方法,其中通过网格搜索获得的负荷θ的最优解。
153.根据权利要求140至152中任一项所述的方法,其中网格搜索计算负荷θ的值为0%、0.1%、…、0.99%、和/或100%的
154.根据权利要求140至152中任一项所述的方法,其中网格搜索计算负荷θ的值为0%、0.01%、…、0.99%、和/或100%的
155.根据权利要求140至152中任一项所述的方法,其中网格搜索计算负荷θ的值为0%、0.001%、…、0.99%、和/或100%的
CN201780047763.3A 2016-06-07 2017-06-07 用于疾病和病症分析的无细胞dna甲基化模式 Pending CN110168099A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662347010P 2016-06-07 2016-06-07
US62/347,010 2016-06-07
US201762473829P 2017-03-20 2017-03-20
US62/473,829 2017-03-20
US201762491560P 2017-04-28 2017-04-28
US62/491,560 2017-04-28
PCT/IB2017/053378 WO2017212428A1 (en) 2016-06-07 2017-06-07 Cell-free dna methylation patterns for disease and condition analysis

Publications (1)

Publication Number Publication Date
CN110168099A true CN110168099A (zh) 2019-08-23

Family

ID=60578477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780047763.3A Pending CN110168099A (zh) 2016-06-07 2017-06-07 用于疾病和病症分析的无细胞dna甲基化模式

Country Status (5)

Country Link
US (2) US11499196B2 (zh)
EP (1) EP3464644A4 (zh)
JP (1) JP2019521673A (zh)
CN (1) CN110168099A (zh)
WO (1) WO2017212428A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112662761A (zh) * 2020-03-05 2021-04-16 博尔诚(北京)科技有限公司 一种检测3种实质性器官肿瘤的探针组合物
CN112662759A (zh) * 2020-02-25 2021-04-16 博尔诚(北京)科技有限公司 一种检测3种管腔性器官肿瘤的探针组合物
WO2022156089A1 (en) * 2021-01-20 2022-07-28 Genecast Biotechnology Co., Ltd Dna methylation sequencing analysis methods
CN115651973A (zh) * 2022-09-08 2023-01-31 苏州京脉生物科技有限公司 一种可传代细胞的高保真甲基化位点的分离与分析方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017062867A1 (en) * 2015-10-09 2017-04-13 Helmy Eltoukhy Population based treatment recommender using cell free dna
WO2019006269A1 (en) * 2017-06-30 2019-01-03 The Regents Of The University Of California METHODS AND SYSTEMS FOR ASSESSING METHYLATION OF DNA IN ACELLULAR DNA
CN112534506A (zh) 2018-03-15 2021-03-19 格瑞尔公司 组织特异性的甲基化标志物
SG11202009696WA (en) 2018-04-13 2020-10-29 Freenome Holdings Inc Machine learning implementation for multi-analyte assay of biological samples
WO2019200404A2 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-assay prediction model for cancer detection
AU2019261597A1 (en) * 2018-04-24 2020-11-19 Grail, Llc Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
CA3098321A1 (en) 2018-06-01 2019-12-05 Grail, Inc. Convolutional neural network systems and methods for data classification
EP3841583A4 (en) * 2018-08-22 2022-05-18 The Regents of the University of California SENSITIVE DETECTION OF COPY NUMBER VARIATIONS (CNVS) FROM CIRCULATION-FREE NUCLEIC ACID
AU2019351130A1 (en) 2018-09-27 2021-04-08 Grail, Llc Methylation markers and targeted methylation probe panel
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
WO2020132148A1 (en) * 2018-12-18 2020-06-25 Grail, Inc. Systems and methods for estimating cell source fractions using methylation information
US20200203016A1 (en) * 2018-12-19 2020-06-25 Grail, Inc. Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
KR102381252B1 (ko) * 2019-02-19 2022-04-01 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
US20220262462A1 (en) * 2019-04-10 2022-08-18 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Computational filtering of methylated sequence data for predictive modeling
US11001898B2 (en) 2019-05-31 2021-05-11 Universal Diagnostics, S.L. Detection of colorectal cancer
US11396679B2 (en) 2019-05-31 2022-07-26 Universal Diagnostics, S.L. Detection of colorectal cancer
WO2021016441A1 (en) * 2019-07-23 2021-01-28 Grail, Inc. Systems and methods for determining tumor fraction
GB201915469D0 (en) 2019-10-24 2019-12-11 Univ London Cancer detection methods
US11898199B2 (en) 2019-11-11 2024-02-13 Universal Diagnostics, S.A. Detection of colorectal cancer and/or advanced adenomas
JP2023507549A (ja) * 2019-12-18 2023-02-24 グレイル エルエルシー メチル化情報を用いた細胞源分画を推定するシステムおよび方法
CN115087749A (zh) * 2019-12-24 2022-09-20 莱森特生物公司 用于通过分析循环肿瘤dna进行分子疾病评定的方法和系统
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
KR102599833B1 (ko) * 2020-04-28 2023-11-08 성균관대학교 산학협력단 SARS-CoV-2-유도성 패혈증의 진단 또는 예후 예측용 바이오마커
CN111378757B (zh) * 2020-05-11 2022-10-11 中国科学院北京基因组研究所(国家生物信息中心) Hbv整合位点附近区域甲基化状态在癌症检测中的应用
EP4150121A1 (en) 2020-06-30 2023-03-22 Universal Diagnostics, S.A. Systems and methods for detection of multiple cancer types
CN112037854B (zh) * 2020-10-15 2024-04-09 深圳市龙岗中心医院 一种基于甲基化芯片数据获取肿瘤甲基化标记物的方法及系统
CA3205667A1 (en) * 2020-12-17 2022-06-23 President And Fellows Of Harvard College Methods of cancer detection using extraembryonically methylated cpg islands
CN112820407B (zh) * 2021-01-08 2022-06-17 清华大学 利用血浆游离核酸检测癌症的深度学习方法和系统
CN117957331A (zh) 2021-10-15 2024-04-30 富士胶片株式会社 用于癌检测的生物标志物组的制作方法
KR20230059423A (ko) 2021-10-26 2023-05-03 주식회사 지씨지놈 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
US20230279498A1 (en) * 2021-11-24 2023-09-07 Centre For Novostics Limited Molecular analyses using long cell-free dna molecules for disease classification
CN114703284A (zh) * 2022-04-15 2022-07-05 北京莱盟君泰国际医疗技术开发有限公司 一种血液游离dna甲基化定量检测方法及其应用
US20240055073A1 (en) * 2022-07-25 2024-02-15 Grail, Llc Sample contamination detection of contaminated fragments with cpg-snp contamination markers
CN115376616B (zh) * 2022-10-24 2023-04-28 臻和(北京)生物科技有限公司 一种基于cfDNA多组学的多分类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090277267A1 (en) * 2008-05-09 2009-11-12 Pixart Imaging Incorporation In-plane sensor and method for making same
US20100024549A1 (en) * 2008-07-29 2010-02-04 PixArt Imaging Incorporation, R.O.C. In-Plane Sensor, Out-of-Plane Sensor, and Method for Making Same
WO2010065916A1 (en) * 2008-12-04 2010-06-10 Rush University Medical Center Dna methylation based test for monitoring efficacy of treatment
WO2014039556A1 (en) * 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2015159293A2 (en) * 2014-04-14 2015-10-22 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. A method and kit for determining the tissue or cell origin of dna
WO2016008451A1 (en) * 2014-07-18 2016-01-21 The Chinese University Of Hong Kong Methylation pattern analysis of tissues in dna mixture

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001519525A (ja) * 1997-10-07 2001-10-23 メルク エンド カムパニー インコーポレーテッド Fretを用いる核内受容体リガンドに関するアッセイ
CA2691360A1 (en) * 2007-06-22 2008-12-31 Stephen A. Brown Specific amplification of tumor specific dna sequences
US9367663B2 (en) * 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
EP3841583A4 (en) 2018-08-22 2022-05-18 The Regents of the University of California SENSITIVE DETECTION OF COPY NUMBER VARIATIONS (CNVS) FROM CIRCULATION-FREE NUCLEIC ACID

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090277267A1 (en) * 2008-05-09 2009-11-12 Pixart Imaging Incorporation In-plane sensor and method for making same
US20100024549A1 (en) * 2008-07-29 2010-02-04 PixArt Imaging Incorporation, R.O.C. In-Plane Sensor, Out-of-Plane Sensor, and Method for Making Same
WO2010065916A1 (en) * 2008-12-04 2010-06-10 Rush University Medical Center Dna methylation based test for monitoring efficacy of treatment
WO2014039556A1 (en) * 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2015159293A2 (en) * 2014-04-14 2015-10-22 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. A method and kit for determining the tissue or cell origin of dna
WO2015159292A2 (en) * 2014-04-14 2015-10-22 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. A method and kit for determining the tissue or cell origin of dna
WO2016008451A1 (en) * 2014-07-18 2016-01-21 The Chinese University Of Hong Kong Methylation pattern analysis of tissues in dna mixture

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MOHAMED I HUSSEINY等: "Development of a quantitative methylation specific polymerase chain reaction method for monitoring beta cell death in type 1 diabetes.", 《PLOS ONE》 *
MOHAMED I HUSSEINY等: "Tissue specific methylation of human insulin gene and PCR Assay for monitoring beta cell death", 《PLOS ONE》 *
TANIA MADI等: "The determination of tissue-specific DNA methylation patterns in forensic biofluids using bisulfite modification and pyrosequencing", 《ELECTROPHORESIS》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112662759A (zh) * 2020-02-25 2021-04-16 博尔诚(北京)科技有限公司 一种检测3种管腔性器官肿瘤的探针组合物
CN112662761A (zh) * 2020-03-05 2021-04-16 博尔诚(北京)科技有限公司 一种检测3种实质性器官肿瘤的探针组合物
WO2022156089A1 (en) * 2021-01-20 2022-07-28 Genecast Biotechnology Co., Ltd Dna methylation sequencing analysis methods
CN115651973A (zh) * 2022-09-08 2023-01-31 苏州京脉生物科技有限公司 一种可传代细胞的高保真甲基化位点的分离与分析方法
CN115651973B (zh) * 2022-09-08 2023-09-29 苏州京脉生物科技有限公司 一种可传代细胞的高保真甲基化位点的分离与分析方法

Also Published As

Publication number Publication date
EP3464644A1 (en) 2019-04-10
EP3464644A4 (en) 2020-07-15
US20230167507A1 (en) 2023-06-01
US11499196B2 (en) 2022-11-15
US20200131582A1 (en) 2020-04-30
JP2019521673A (ja) 2019-08-08
WO2017212428A1 (en) 2017-12-14

Similar Documents

Publication Publication Date Title
CN110168099A (zh) 用于疾病和病症分析的无细胞dna甲基化模式
TWI822789B (zh) 用於資料分類之卷積神經網路系統及方法
CN109689891A (zh) 用于无细胞核酸的片段组谱分析的方法
CN111278993A (zh) 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测
US20200219587A1 (en) Systems and methods for using fragment lengths as a predictor of cancer
US20210065842A1 (en) Systems and methods for determining tumor fraction
KR20220133868A (ko) 패치 컨볼루션 신경망을 사용한 암 분류
JP2021503922A (ja) ターゲットシーケンシングのためのモデル
JP2021505977A (ja) 体細胞突然変異のクローン性を決定するための方法及びシステム
CN108138233A (zh) Dna混合物中组织的单倍型的甲基化模式分析
CN112218957A (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
CN113661542A (zh) 使用甲基化信息估计细胞来源部分的系统和方法
EP4035161A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
EP4048809A1 (en) Systems and methods for predicting therapeutic sensitivity
Kothen-Hill et al. Deep learning mutation prediction enables early stage lung cancer detection in liquid biopsy
Reggiardo et al. LncRNA biomarkers of inflammation and cancer
US20220228221A1 (en) Diagnostics and Treatments Based Upon Molecular Characterization of Colorectal Cancer
US20210292845A1 (en) Identifying methylation patterns that discriminate or indicate a cancer condition
EP4222751A1 (en) Systems and methods for using a convolutional neural network to detect contamination
JP2023507549A (ja) メチル化情報を用いた細胞源分画を推定するシステムおよび方法
Holsbø Small data: practical modeling issues in human-model-omic data
Grewal Utility of machine learning approaches for cancer diagnosis and analysis from RNA sequencing
Naxerova et al. Quantifying cell divisions along evolutionary lineages in cancer
Luong Predicting Formalin-fixed Paraffin-embedded (FFPE) Sequencing Artefacts from Breast Cancer Exome Sequencing Data Using Machine Learning
Zhao Semi-Parametric Mixture Gaussian Model to Detect Breast Cancer Intra-Tumor Heterogeneity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination