CN112236520A - 甲基化标记和标靶甲基化探针板 - Google Patents

甲基化标记和标靶甲基化探针板 Download PDF

Info

Publication number
CN112236520A
CN112236520A CN201980037495.6A CN201980037495A CN112236520A CN 112236520 A CN112236520 A CN 112236520A CN 201980037495 A CN201980037495 A CN 201980037495A CN 112236520 A CN112236520 A CN 112236520A
Authority
CN
China
Prior art keywords
cancer
probes
training
assay plate
genomic regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980037495.6A
Other languages
English (en)
Inventor
塞缪尔·S·格罗斯
哈米德·阿米尼
阿拉什·詹姆席狄
塞德梅迪·肖吉
斯林卡·戈什
祁容素
M·赛勒斯·马厄
亚历山大·P·菲尔兹
奥利弗·克劳德·维恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SDG Ops LLC
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of CN112236520A publication Critical patent/CN112236520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/159Reduction of complexity, e.g. amplification of subsets, removing duplicated genomic regions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Virology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种用于多个癌症特异性甲基化模式的标靶检测的癌症化验板。本发明还提供了设计、制造和使用供诊断癌症的所述癌症化验板的多种方法。

Description

甲基化标记和标靶甲基化探针板
相关申请的交叉引用
本申请要求2018年4月2日提交的美国临时专利申请案第62/651,643号及2018年9月28日提交的美国临时专利申请案第62/738,271号的权益,在此通过引用将其全部内容合并于本文。
背景技术
脱氧核糖核酸(DNA)甲基化在调节基因表达中起重要作用。异常的DNA甲基化与许多疾病过程有关,包含癌症。使用甲基化测序(例如,全基因组亚硫酸氢盐测序(WGBS))的DNA甲基化分析越来越被认为是用于检测、诊断和/或监测癌症的有价值的诊断工具。例如,不同的甲基化区域的特定模式可用作各种疾病的分子标记。
然而,WGBS不是理想地适合于产品化验。原因是绝大多数的基因组在癌症中没有差异甲基化,或局部CpG密度太低而无法提供可靠的信号。仅百分之几的基因组可能对分类有用。
此外,在识别各种疾病中的多个差异甲基化区域方面存在各种挑战。首先,确定一疾病群组中的差异甲基化区域,只有与一群组的多个对照组对象比较才有分量,因此,如果对照组的人数较少,则所述确定将对较小对照组失去信心。另外,在一群组的多个对照组对象中,甲基化状态可以变化,这在当确定一疾病组中所述多个区域是否存在差异甲基化时很难解释。另一方面,在一CpG位点的胞嘧啶甲基化与在一随后的CpG位点的甲基化强烈相关。概括这种依赖性本身就是一个挑战。
因此,还没有能够通过检测多个差异甲基化区域来准确诊断疾病的经济有效的方法。
发明内容
在多个对象中及早检测到癌症是很重要的,因为它可以及早治疗,从而获得更大的生存机会。利用无细胞DNA(cell-free DNA,cfDNA)片段,标靶检测特定于癌症或起源组织(即癌症发生或起源的器官、器官群组、身体区域或细胞类型)的甲基化模式,可以通过提供一种成本效益高、非侵入性的方法用于分析相关于癌症分类的信息,使癌症的早期检测成为可能。与全基因组测序(whole genome sequencing,WGS)或全基因组亚硫酸氢盐测序(whole genome bisulfite sequencing,WGBS)相比,通过使用一标靶基因组区域化验板而非在一测试样本中的所有核酸进行测序(也称为“全基因组测序”),该方法可以增加标靶区域的测序深度,并降低成本。
为此,本说明书提供了多种癌症化验板(assay panel)(例如,多种诱饵组(baitset)),用于通过检测多个标靶基因组区域域的甲基化模式来检测癌症和各种组织或来源。所述癌症化验板可以检测和差异化一般癌症或不同癌症类型的甲基化模式,例如,(1)血癌、(2)乳腺癌、(3)结直肠癌、(4)食管癌、(5)头颈癌、(6)肝胆癌、(7)肺癌、(8)卵巢癌、和(9)胰腺癌。
多种癌症化验板可以进一步提供关于每种癌症类型的一癌症阶段的信息。本说明还提供了一种使用多种癌症化验板来诊断癌症的方法,其中所述诊断癌症还包含一癌症类型和/或一癌症阶段。本文进一步提供了多种识别具有特定于癌症或各种癌症类型的甲基化模式的多个基因组位点,以及可用于癌症和/或癌症起源组织的诊断的多个基因组位点的一列表的方法。本文所述的多种方法还包含设计多个探针以有效地扩增源自所选的多个基因组区域的核酸而不去除过量的非期望或非标靶的核酸的方法,以及用所述多个探针制作癌症化验板的方法。还描述了通过杂交捕获以外的方法扩增源自所选的多个基因组区域的核酸的方法。
本发明公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:
至少不同的500对的多核苷酸探针,其中所述至少500对的探针中的每一对:(i)包含两个不同的探针,配置为通过30个或更多个核苷酸的一重叠序列彼此相重叠,及(ii)被配置为与从所述多个cfDNA分子的处理中获得的一修饰的片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述重叠序列包含至少40、50、75或100个核苷酸。
在一些实施例中,所述多种化验板包含至少50、60、70、80、90、100、120、150、200、300或400对的探针。
在一些实施例中,所述多种化验板包含至少1000、2000、2500、5000、6000、7500、10000、15000、20000或25000对探针。
本发明还公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:
至少1000个多核苷酸探针,其中所述至少1000个探针中的每一个被配置成与一修饰的多核苷酸杂交,所述修饰的多核苷酸杂交从所述多个cfDNA分子的处理中获得,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述多个cfDNA分子的处理包含:将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。
在一些实施例中,所述化验板中的所述多个多核苷酸探针中的每一个与一亲和部分接合。
在一些实施例中,所述亲和部分为一生物素部分。
在一些实施例中,所述多个训练样本是源自被确定具有癌症的多个对象的多个样本。
在一些实施例中,当所述多个癌性训练样本中代表所述基因组区域的一甲基化状态向量在多个参考样本中出现的频率低于一阈值时,在多个癌性训练样本中的一基因组区域中具有一异常甲基化模式。
在一些实施例中,所述阈值为0.1、0.01、0.001或0.0001。
在一些实施例中,所述一个或多个基因组区域中的每一个在所述多个癌性训练样本中是高甲基化或低甲基化。
在一些实施例中,所述至少5个甲基化位点的至少80%、85%、90%、92%、95%或98%在所述多个癌性训练样本中是甲基化或未甲基化。
在一些实施例中,所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。
在一些实施例中,所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%、98%在多个CpG检测位点上仅具有CpG或仅具有CpA。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于20、15、10、8或6个CpG检测位点。
在一些实施例中,所述化验板上的所述多个探针中的每一个被设计为与少于20、15、10或8个脱靶基因组区域具有序列同源性或序列互补性。
在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略来识别。
在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略结合在多个接种位置处的局部比对来识别。
在一些实施例中,所述多种化验板包含至少1,000、2,000、2,500、5,000、10,000、12,000、15,000、20,000或25,000个探针。
在一些实施例中,所述至少1,000对或500对探针或所述至少1,000个探针同时包含至少20万、40万、60万、80万、100万、200万或400万个核苷酸。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含至少50、75、100或120个核苷酸。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于300、250、200或150个核苷酸。
在一些实施例中,所述化验板上的所述多个探针中的每一个包含100至150个核苷酸。
在一些实施例中,所述多个基因组区域的至少30%是外显子或内含子。
在一些实施例中,所述多个基因组区域的至少15%是外显子。
在一些实施例中,所述多个基因组区域的至少20%是外显子。
在一些实施例中,少于10%的所述多个基因组区域是多个基因间区域。
在一些实施例中,所述多种癌症化验板还包含:多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置为与来自cfDNA的一病毒基因组片段杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述多种癌症化验板包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。
在一些实施例中,所述一个或多个基因组区域中的每一个选自表1或表11至15(或其组合)中的一个。在一些实施例中,所述一个或多个基因组区域中的每一个选自表13。在一些实施例中,所述一个或多个基因组区域的每一个选自表14。在一些实施例中,所述一个或多个基因组区域的每一个选自表15。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1、表11至15的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1、11至15中的一个或多个中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体部一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。
本发明还公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与从所述多个cfDNA分子的处理而获得的一修饰的片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1至24中的任何一个的一个或多个基因组区域。
在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表2至10或表16至24中的任何一个(或其结合)的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表13、14或15中的任何一个的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表13的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表14的一个或多个基因组区域。在一些实施例中,所述多个cfDNA分子中的每一个对应于或衍生自选自表15的一个或多个基因组区域。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的任何一个中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24的任何一个(或其组合)中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的任何一个中的至少50、60、70、80、90、100、120、150、200、500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24的任何一个中的至少50、60、70、80、90、100、120、150或200个基因的所述多个cfDNA分子获得。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1,000、5000、10,000或15,000个基因的所述多个cfDNA分子获得。
在一些实施例中,所述多个cfDNA分子的处理包含将所述多个cfDNA分子中未甲基化的C(胞嘧啶)转化为U(尿嘧啶)。在一些实施例中,所述化验板上的多个探针的每一个都与一亲和部分接合,其中所述亲和部分不是一核酸亲和部分。在一些实施例中,所述亲和部分为一生物素部分。在一些实施例中,所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。在一些实施例中,所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%或98%在多个CpG检测位点上仅具有CpG或仅具有CpA。
本发明更公开多种提供癌症存在或不存在的信息的序列信息的方法,所述方法包含以下步骤:获取一测试样本,所述测试样本包含多个cfDNA测试分子;处理所述多个cfDNA测试分子,从而获得多个亚硫酸氢盐转化的测试片段;将所述多个亚硫酸氢盐转化的测试片段与一化验板相接触,从而通过杂交捕获来扩增所述多个亚硫酸氢盐转化的测试片段的一子集;及对所述多个亚硫酸氢盐转化的测试片段的所述子集进行测序,从而获得多个序列读数的一集合。在一些实施例中,所述化验板选自如上所述的多种化验板。
在一些实施例中,所述多种方法还包含以下步骤:通过评估所述多个序列读数的所述集合确定一癌症分类,其中所述癌症分类为:癌症存在或不存在;癌症的一阶段;一种类型的癌症存在或不存在;或至少1、2、3、4或5种不同类型的癌症存在或不存在。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1、12、13、14和15中的一个中的一个或多个基因组区域,其中所述癌症分类是癌症存在或不存在,或癌症的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表1、12、13、14和15中的一个中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表2的一个或多个基因组区域,其中所述癌症分类是血癌的存在或不存在或血癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表2中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表3的一个或多个基因组区域,其中所述癌症分类是乳腺癌的存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表3中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表4的一个或多个基因组区域,其中所述癌症分类是结直肠癌的存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表4中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表5的一个或多个基因组区域,其中所述癌症分类是食管癌的存在或不存在或食管癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表5中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表6的一个或多个基因组区域,其中所述癌症分类是头颈癌的存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表6中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表7的一个或多个基因组区域,其中所述癌症分类是肝胆癌的存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表7中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表8的一个或多个基因组区域,其中所述癌症分类是肺癌的存在或不存在或肺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表8中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表9的一个或多个基因组区域,其中所述癌症分类是卵巢癌的存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表9中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表10的一个或多个基因组区域,其中所述癌症分类是胰腺癌的存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表10中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表16的一个或多个基因组区域,其中所述癌症分类是血癌的存在或不存在或血癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表16中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表17的一个或多个基因组区域,其中所述癌症分类是乳腺癌的存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表17中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表18的一个或多个基因组区域,其中所述癌症分类是结直肠癌的存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表18中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表19的一个或多个基因组区域,其中所述癌症分类是食管癌的存在或不存在或食管癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表19中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表20的一个或多个基因组区域,其中所述癌症分类是头颈癌的存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表20中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表21的一个或多个基因组区域,其中所述癌症分类是肝胆癌的存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表21中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表22的一个或多个基因组区域,其中所述癌症分类是肺癌的存在或不存在或肺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表22中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表23的一个或多个基因组区域,其中所述癌症分类是卵巢癌的存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表23中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表24的一个或多个基因组区域,其中所述癌症分类是胰腺癌的存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表24中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
在一些实施例中,所述确定一癌症分类的步骤由包含以下步骤的方法执行:基于所述多个序列读数的所述集合生成一测试特征向量;以及将所述测试特征向量应用于通过一训练程序获得一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化,对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化,对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及利用所述不具有癌症的一个或多个训练对象的所述多个特征向量及具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。在一些实施例中,所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。在一些实施例中,所述方法进一步包含:基于所述模型获得测试样本的一癌症概率;以及将所述癌症概率与一阈值概率进行比较,以确定所述测试样本是否来自具有癌症的一患者或不具有癌症的一患者。在一些实施例中,所述方法进一步包含:对所述对象施用一抗癌剂。在一些实施例中,所述多种方法包含:向通过如本文所公开的多种方法向已经被识别为一癌症对象的一对象施用一抗癌剂。在一些实施例中,所述抗癌剂是选自以下群组组成的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物。
本发明更公开多种方法,所述方法包含步骤:获得多个修饰的测试片段的多个序列读数的一集合,其中所述多个修饰的测试片段是或已经通过处理来自一测试对象的一组的多个核酸片段而获得,其中所述多个核酸片段中的每一个对应于或衍生自选自表1至24中的一个或多个中的多个基因组区域;以及将所述多个序列读数的所述集合或基于所述多个序列读数的所述集合获得的一测试特征向量应用于通过一训练程序获得的一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合及所述多个片段的所述非癌症集合包含多个训练片段。
在一些实施例中,所述多种方法进一步包含:获得所述测试特征向量的步骤,所述步骤包含:对于所述多个核酸片段中的每一个,确定所述核酸片段是低甲基化或高甲基化,其中低甲基化和高甲基化的所述多个核酸片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的低甲基化的多个核酸片段的一数量和与所述CpG位点重叠的高甲基化的多个核酸片段的一数量;及基于低甲基化的多个核酸片段和高甲基化的多个核酸片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个核酸片段,基于所述核酸片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分和基于所述核酸片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;基于总合的低甲基化得分对所述多个核酸片段进行排名,及基于总合的高甲基化得分对所述多个核酸片段进行排名;以及基于所述多个核酸片段的所述排名生成所述测试特征向量。
在一些实施例中,所述训练程序包含步骤:对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。
在一些实施例中,所述训练程序包含步骤:对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化,对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及利用所述不具有癌症的一个或多个训练对象的所述多个特征向量及具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。
在一些实施例中,对于一参考基因组中的每一个CpG位点,所述多种方法包含步骤:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量以及与所述CpG位点重叠的多个高甲基化的训练片段的一数量进一步包含步骤:量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一非癌症数量;以及量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一非癌症数量。
在一些实施例中,对于一参考基因组中的每一个CpG位点,所述多种方法包含步骤:基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量来生成一低甲基化得分和一高甲基化得分还包含步骤:对于生成所述低甲基化得分,计算多个低甲基化的训练片段的所述癌症数量与多个低甲基化的训练片段的所述癌症数量及多个低甲基化的训练片段的所述非癌症数量的一低甲基化总合的一低甲基化比率;以及对于生成所述高甲基化得分,计算多个高甲基化的训练片段的所述癌症数量与多个高甲基化的训练片段的所述癌症数量及多个高甲基化的训练片段的所述非癌症数量的一高甲基化总合的一高甲基化比率。
在一些实施例中,所述模型包含所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。在一些实施例中,所述多个序列读数的所述集合是通过使用如上所述的多种化验板中的任何一种获得。
本发明还公开多种设计用于癌症诊断的化验板的方法,所述方法包含以下步骤:识别多个基因组区域,其中所述多个基因组区域中的每一个:(i)包含至少30个核苷酸,及(ii)包含至少5个甲基化位点;选择所述多个基因组区域的一子集,其中所述选择是当对应于或衍生自多个癌症训练样本中的所述多个基因组区域的每一个的多个cfDNA分子具有一异常甲基化模式时实行,其中所述异常甲基化模式包含至少5个甲基化位点已知为或被识别为的低甲基化或高甲基化;以及设计所述化验板,所述化验板包含多个探针,其中所述多个探针中的每一个被配置成与从处理对应于或衍生自所述多个基因组区域的所述子集的一个或多个的多个cfDNA分子而获得的一修饰的片段杂交。在一些实施例中,所述多个cfDNA分子的处理包含将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。
本发明还公开多种用于杂交捕获的诱饵组,所述诱饵组包含至少50个不同的含有多核苷酸的探针,其中所述多个含有多核苷酸的探针中的每一个具有一核酸序列,所述核酸序列为:(1)在序列上与选自表1至24中任一个表所列的任何基因组区域的一基因组区域中的一序列相同,或(2)相对于所述基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个相应的转换发生在对应于所述基因组区域中的一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个在长度上具有至少45个碱基对的一核酸序列。在一些实施例中,所述多个含有多核苷酸的探针在长度上具有不超过200个碱基对的一核酸序列。在一些实施例中,所述至少50个不同的含有多核苷酸的探针被组织成至少25对含有多核苷酸的探针,其中所述多个探针中的每一对包含一第一探针和一第二探针,所述第二探针与第一探针不同,其中所述第一探针通过至少30个核苷酸在序列上与所述第二探针重叠。在一些实施例中,所述第一探针在序列上与所述第二探针通过至少40、50、75或100个核苷酸重叠。
在一些实施例中,所述多个含有多核苷酸的探针被组织成至少50、60、70、80、90、100、120、150或200对含有多核苷酸的探针。在一些实施例中,所述多个含有多核苷酸的探针被组织成至少1000、2000、2500、5000、6000、7500、10000、15000、20000或25000对含有多核苷酸的探针。在一些实施例中,一尿嘧啶或一胸腺嘧啶位于所述转换处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个与一亲和部分结合,其中所述亲和部分不是一核酸亲和部分。在一些实施例中,所述亲和部分包含生物素。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个包含少于20、15、10、8或6个CpG检测位点。在一些实施例中,所述诱饵组不具有在序列上与超过8个、10个、15个或20个的脱靶基因组区域同源或互补的探针。
在一些实施例中,所述诱饵组具有至少50、60、70、80、90、100、120、150或200个含有探针的多核苷酸。在一些实施例中,所述诱饵组具有至少1000、2000、2500、5000、10000、12000、15000、20000或25000个含有探针的多核苷酸。在一些实施例中,所述诱饵组中所有的所述多个含有多核苷酸的探针的至少3%、5%、10%、15%、20%、30%或40%缺少G(鸟嘌呤)。在一些实施例中,所述多个含有多核苷酸的探针共同包含至少1万、2万、5万、20万、40万、60万、80万、100万、200万或400万个核苷酸。在一些实施例中,所述多个多核苷酸探针中的每一个包含至少50、75、100或120个核苷酸。在一些实施例中,所述多个多核苷酸探针中的每一个具有少于300、250、200或150个核苷酸。在一些实施例中,所述多个多核苷酸探针中的每一个具有100到150个核苷酸。
在一些实施例中,所述多个含有多核苷酸的探针的至少80%、85%、90%、92%、95%或98%仅在多个CpG检测位点上具有CpG或CpA。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于从表1至24中的任一个表的所述多个基因组区域中选择的一总数量的基因组区域,其中所述多个基因组区域的至少30%是外显子或内含子。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于一总数量的基因组区域,其中所述多个基因组区域的至少15%是外显子。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于一总数量的基因组区域,其中所述多个基因组区域的至少20%是外显子。在一些实施例中,所述诱饵组的所述多个含有多核苷酸的探针对应于一总数量的基因组区域,其中少于10%的所述多个基因组区域是多个基因间区域。
在一些实施例中,所述诱饵组进一步包含:多个病毒特异性探针,所述多个病毒特异性探针中的每一个被配置成与一病毒基因组片段杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述多个病毒特异性探针包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表2的一基因组区域中的一序列相同,或(2)相对于选自表2的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表3的一基因组区域中的一序列相同,或(2)相对于选自表3的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表4的一基因组区域中的一序列相同,或(2)相对于选自表4的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表5的一基因组区域中的一序列相同,或(2)相对于选自表5的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表6的一基因组区域中的一序列相同,或(2)相对于选自表6的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表7的一基因组区域中的一序列相同,或(2)相对于选自表7的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表8的一基因组区域中的一序列相同,或(2)相对于选自表8的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表9的一基因组区域中的一序列相同,或(2)相对于选自表9的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表10的一基因组区域中的一序列相同,或(2)相对于选自表10的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表2至10的任一个表的一基因组区域中的一序列相同,或(2)相对于选自表2至10的任一个表的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表11的一基因组区域中的一序列相同,或(2)相对于选自表11的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表12的一基因组区域中的一序列相同,或(2)相对于选自表12的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表13的一基因组区域中的一序列相同,或(2)相对于选自表13的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表14的一基因组区域中的一序列相同,或(2)相对于选自表14的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表15的一基因组区域中的一序列相同,或(2)相对于选自表15的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表16的一基因组区域中的一序列相同,或(2)相对于选自表16的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表17的一基因组区域中的一序列相同,或(2)相对于选自表17的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表18的一基因组区域中的一序列相同,或(2)相对于选自表18的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表19的一基因组区域中的一序列相同,或(2)相对于选自表19的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表20的一基因组区域中的一序列相同,或(2)相对于选自表20的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表21的一基因组区域中的一序列相同,或(2)相对于选自表21的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表22的一基因组区域中的一序列相同,或(2)相对于选自表22的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表23的一基因组区域中的一序列相同,或(2)相对于选自表23的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。在一些实施例中,所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表24的一基因组区域中的一序列相同,或(2)相对于选自表24的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
在一些实施例中,所述诱饵组中的所述多个多核苷酸探针的一整体被配置成与多个片段杂交,所述多个片段从选自表1至24的任一个表中对应于所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的的多个cfDNA分子获得。在一些实施例中,所述诱饵组中的多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表2至10或16至24的任一个中对应于所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的多个cfDNA分子获得。在一些实施例中,所述诱饵组中多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表1至24中的任一个中对应于至少500、1000、5000、10000或15000个基因组区域的多个cfDNA分子获得。在一些实施例中,所述诱饵组中多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表2至10或16至24中的任一个中对应于至少50、60、70、80、90、100、120、150或200个基因组区域的cfDNA分子获得。在一些实施例中,所述多个含有多核苷酸的探针中的每一个的所述核酸序列相对于所述基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换的每一个对应的转换发生在所述基因组区域中一CpG位点的一核苷酸处。
本发明还公开多种混合物,所述混合物包含:亚硫酸氢盐转化的无细胞DNA;以及如上所述的多种诱饵集。
再者,本发明公开多种用于扩增一亚硫酸氢盐转化的无细胞DNA样本的方法,所述方法包含步骤:使所述亚硫酸氢盐转化的无细胞DNA样本与如权利要求122至177任一项所述的诱饵组相接触以形成一混合物;以及通过杂交捕获来扩增所述样本的一第一组的多个基因组区域。
本发明还公开多种用于提供一癌症存在或不存在、癌症的一阶段或癌症的一类型的信息的序列信息的方法,所述方法包含步骤:用一脱氨基剂处理来自一生物样本的无细胞DNA,以产生一无细胞DNA样本,所述无细胞DNA样本包含多个脱氨基核苷酸;扩增所述无细胞DNA样本,以用于获取多个无细胞DNA分子的信息,其中扩增所述无细胞DNA样本以获取所述多个无细胞DNA分子的信息包含:将所述无细胞DNA与多个探针相接触,所述多个探针被配置成杂交到对应于表1至24的任一个中所识别的多个区域的多个无细胞DNA分子;以及对扩增后的所述多个无细胞DNA分子进行测序,从而获得多个序列读数的一集合,以提供一癌症存在或不存在、癌症的一阶段或癌症的一类型的信息。
在一些实施例中,所述多个探针包含多个引物,及扩增所述无细胞DNA包含:使用所述多个引物扩增(例如,通过聚合酶链式反应(PCR))所述多个无细胞DNA片段(可选地,在没有杂交捕获的情况下)。在一些实施例中,所述无细胞DNA样本通过如本文所述的任何适合方法进行扩增,及所述多个探针包含所述多个含有多核苷酸的探针。
在一些实施例中,所述多种方法进一步包含以下步骤:通过评估所述多个序列读数的所述集合来确定一癌症分类,其中所述癌症分类为:癌症存在或不存在;癌症的一阶段;一类型的癌症的存在或不存在;或至少有1种、2种、3种、4种或5种不同类型的癌症的存在或不存在。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1、11、12、13、14或15的一个中的一个或多个基因组区域,其中所述癌症分类是癌症存在或不存在,或癌症的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表1、11、12、13、14或15的一个中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表2中的一个或多个基因组区域,其中所述癌症分类是血癌存在或不存在或血癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表2中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表3中的一个或多个基因组区域,其中所述癌症分类是乳腺癌存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表3中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表4中的一个或多个基因组区域,其中所述癌症分类是结直肠癌存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表4的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表5中的一个或多个基因组区域,其中所述癌症分类是食管癌存在或不存在或食管癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表5中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表6中的一个或多个基因组区域,其中所述癌症分类是头颈癌存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表6中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表7中的一个或多个基因组区域,其中所述癌症分类是肝胆癌存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表7中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表8中的一个或多个基因组区域,其中所述癌症分类是肺癌存在或不存在或肺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表8中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表9中的一个或多个基因组区域,其中所述癌症分类是卵巢癌存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表9中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表10中的一个或多个基因组区域,其中所述癌症分类是胰腺癌存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表10中一个中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表16中的一个或多个基因组区域,其中所述癌症分类是血癌存在或不存在或血癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表16中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表17中的一个或多个基因组区域,其中所述癌症分类是乳腺癌存在或不存在或乳腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表17中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表18中的一个或多个基因组区域,其中所述癌症分类是结直肠癌存在或不存在或结直肠癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表18中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表19中的一个或多个基因组区域,其中所述癌症分类是食管癌存在或不存在或食管癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表19中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表20中的一个或多个基因组区域,其中所述癌症分类是头颈癌存在或不存在或头颈癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表20中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表21中的一个或多个基因组区域,其中所述癌症分类是肝胆癌存在或不存在或肝胆癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表21中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表22中的一个或多个基因组区域,其中所述癌症分类是肺癌存在或不存在或肺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表22中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表23中的一个或多个基因组区域,其中所述癌症分类是卵巢癌存在或不存在或卵巢癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表23中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表24中的一个或多个基因组区域,其中所述癌症分类是胰腺癌存在或不存在或胰腺癌的一阶段。在一些实施例中,所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表24中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
在一些实施例中,所述确定一癌症分类的步骤包含:基于所述多个序列读数的所述集合生成一测试特征向量;以及将所述测试特征向量应用于通过一训练程序获得一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于每一个训练对象,基于所述多个低甲基化的训练片段及所述多个高甲基化的训练片段产生一训练特征向量;及利用来自不具有癌症的所述一个或多个训练对象的所述多个训练特征向量和来自具有癌症的所述一个或多个训练对象的所述多个训练特征向量训练所述模型。
在一些实施例中,所述训练程序包含:从多个训练对象中获取多个训练片段的序列信息;对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及利用不具有癌症的所述一个或多个训练对象的所述多个特征向量及具有癌症的所述一个或多个训练对象的所述多个特征向量训练所述模型。
在一些实施例中,所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。在一些实施例中,所述方法进一步包含:基于所述模型获得测试样本的一癌症概率;以及将所述癌症概率与一阈值概率进行比较,以确定所述测试样本是否来自具有癌症的一患者或不具有癌症的一患者。在一些实施例中,所述方法进一步包含:对所述对象施用一抗癌剂。
本发明还公开多种治疗癌症患者的方法,所述方法包含:向通过如本文所述的多种方法向已经被识别为一癌症对象的一对象施用一抗癌剂。在一些实施例中,所述抗癌剂是选自以下群组组成的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物。
再者,本发明公开多种用于提供癌症存在或不存在的信息的序列信息的方法,所述方法包含步骤:将来自一生物样本的无细胞DNA与一脱氨基剂相接触,以生成一无细胞DNA样本,所述无细胞DNA样本包含多个多个脱氨基核苷酸;扩增无细胞DNA以获取多个DNA片段,所述多个DNA片段共同对应于选自在表1至24的任一个中所识别的多个基因组区域的至少100、200、500或1000个基因组区域;以及对扩增后的无细胞DNA分子进行测序,从而获得多个序列读数的一集合。
在一些实施例中,扩增所述无细胞DNA不涉及杂交捕获。在一些实施例中,扩增所述无细胞DNA包含:放大(amplifying)所述多个DNA片段。在一些实施例中,放大所述无细胞DNA分子包含:将所述无细胞DNA与多组引物相接触,及通过聚合酶链式反应放大所述多个无细胞DNA分子,其中每一个引物组包含一前向引物和一反向引物。
本发明更公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:至少不同的50对的多核苷酸探针,其中所述至少50对探针中的每一对:(i)包含两个不同的探针,被配置成通过30个或更多个的核苷酸的一重叠序列彼此相重叠,及(ii)被配置成与一修饰的片段杂交,所述修饰的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,及其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述重叠序列包含至少40、50、75或100个核苷酸。在一些实施例中,本文所公开的所述多种化验板包含至少50、60、70、80、90、100、120、150或200对探针。
本发明还公开多种用于扩增供癌症诊断的多个cfDNA分子的化验板,所述化验板包含:至少100个多核苷酸探针,其中所述至少100个探针中的每一个被配置成与一修饰的多核苷酸杂交,所述修饰的多核苷酸杂交从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子对应于或衍生自一个或多个基因组区域,及其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
在一些实施例中,所述多个cfDNA分子的处理包含将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。在一些实施例中,所述化验板上的所述多个探针中的每一个与一生物素部分接合。在一些实施例中,所述多个训练样本是从被确定具有癌症的多个对象的多个样本。在一些实施例中,当所述多个癌性训练样本中代表所述基因组区域的一甲基化状态向量在多个参考样本中出现的频率低于一阈值时,在多个癌性训练样本中一基因组区域中具有一异常甲基化模式。在一些实施例中,所述阈值为0.1、0.01、0.001或0.0001。
在一些实施例中,所述一个或多个基因组区域中的每一个在所述多个癌性训练样本中是高甲基化或低甲基化。在一些实施例中,所述至少5个甲基化位点的至少80%、85%、90%、92%、95%或98%在所述多个癌性训练样本中甲基化或未甲基化。在一些实施例中,所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。在一些实施例中,所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%、98%在多个CpG检测位点上仅具有CpG或仅具有CpA。在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于20、15、10、8或6个CpG检测位点。
在一些实施例中,所述化验板上的所述多个探针中的每一个被设计为与少于20、15、10或8个脱靶基因组区域具有序列同源性或序列互补性。在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略识别。在一些实施例中,所述少于20个脱靶基因组区域使用k-mer接种策略结合在多个接种位置处的局部比对来识别。
在一些实施例中,所述化验板包含至少100、200、300或400个探针。在一些实施例中,所述至少500对探针或所述至少100个探针同时包含至少1万、2万或5万个核苷酸。在一些实施例中,所述化验板上的所述多个探针中的每一个包含至少50、75、100或120个核苷酸。在一些实施例中,所述化验板上的所述多个探针中的每一个包含少于300、250、200或150个核苷酸。在一些实施例中,所述化验板上的所述多个探针中的每一个包含100至150个核苷酸。
在一些实施例中,所述化验板还包含:多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置为与来自cfDNA的一病毒基因组片段杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述化验板包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。
在一些实施例中,所述一个或多个基因组区域中的每一个选自表2至10或表16至24中的所述多个基因组区域中的一个或多个。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或表16至24的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24中的一个或多个中的至少50、60、70、80、90、100、120、150或200个基因组区域的所述多个cfDNA分子获得。
附图说明
图1A示出了根据一个实施例,2×个平铺探针的设计,在一标靶区域(框在虚线矩形内)中的每个基部正好被两个探针覆盖。
图1B示出了根据一个实施例,在多个基因组区域中标靶低甲基化(hypomethylated)和/或高甲基化(hypermethylated)的多个片段的探针设计。
图2是根据一个实施例,描述生成癌症化验板的一程序的示意图。
图3A是根据一个实施例,描述为一对照组创建一数据结构的一程序的流程图。
图3B是根据一个实施例,描述验证图3A的所述对照组的所述数据结构的一附加步骤的流程图。
图4是根据一个实施例,描述用于选择多个基因组区域以用于设计多个探针从而用于一癌症化验板的一程序的流程图。
图5是根据一个实施例,示例p值得分计算的图示。
图6A是根据一个实施例,描述基于表示癌症的低甲基化和高甲基化的多个片段的训练一分类器的一程序的流程图。
图6B是根据一个实施例,描述由多个概率模型确定来识别表示癌症的多个片段的一程序的流程图。
图7A是根据一个实施例,描述对无细胞DNA(cfDNA)的一片段进行测序的一程序的流程图。
图7B是根据一个实施例,图7A对无细胞DNA(cfDNA)的一片段进行测序以获得一甲基化状态向量的一程序的图示。
图8A是根据一个实施例,用于多个核酸样本测序的多个装置的流程图。
图8B是根据一个实施例,提供分析cfDNA的甲基化状态的一分析系统。
图9是根据取决于多个DNA片段和多个探针之间重叠的大小,所述多个DNA片段杂交到所述多个探针上的数量的一图表。
图10比较了标靶高甲基化的多个片段(高(Hyper))或低甲基化的多个片段(低(Hypo))的探针中高质量(高Q(high Q))、低质量(低Q(low Q))和劣质(差Q(poor Q))的探针的数量。
图11A、11B和11C包含显示针对不同癌症阶段和癌症类型的各种癌症确定的癌症对数概率比(log-odds ratio)的图表。
图12总结了多个标靶基因组区域(黑色)和多个随机选择区域(灰色)的多个基因组注释(genomic annotation)的频率。
图13A和13B示出了验证从一对照组测序的一致性来数据验证的三张图表。
图14A示出了适用于三种不同来源的数据-M得分.测试V1(Mscore.testV1)、M得分.测试V1.cv(Mscore.testV1.cv)和M得分.测试V1.cv.平板(Mscore.testV1.cv.panel)的癌症分类在95%特异性的敏感度。
图14B显示了三个不同数据集上用于癌症分类器性能分析的接收者操作特性(ROC)曲线。
图中描述了本说明书的各种实施例仅用于说明。本领域技术人员将容易地从下面的讨论中认识到,在不脱离本文所描述的原理的情况下,可以使用本文所示的结构和方法的替代实施例。
具体实施方式
定义
除非另有定义,否则本文使用的所有技术和科学术语具有本说明书所属领域的技术人员通常理解的含义。如本文所用,以下术语具有如下所述含义。
本文中使用的术语“甲基化(methylation)”是指将甲基添加到DNA分子中的程序。DNA的四个碱基中的两个,胞嘧啶(“C”)和腺嘌呤(“A”)可以被甲基化。例如,胞嘧啶碱基的嘧啶环上的一氢原子可以转化为一甲基,以形成5-甲基胞嘧啶。甲基化倾向于发生在本文中称为“CpG位点”的胞嘧啶和鸟嘌呤的二核苷酸处。在其他情况下,甲基化可能发生在胞嘧啶不属CpG位点处或者在不是胞嘧啶的另一个核苷酸处;然而,这些情况较为少见。在本发明公开中,为了清楚起见,甲基化关于多个CpG位点进行讨论。然而,本文描述的原理同样适用于检测非CpG背景下的甲基化,包含非胞嘧啶甲基化。例如,腺嘌呤甲基化已经在细菌、植物和哺乳动物的DNA中被观察到,尽管它受到的关注要少得多。
在这些实施例中,用于检测甲基化的湿实验室(wet laboratory)化验可不同于如本文所述本领域公知的那些。此外,甲基化状态向量可包含多个元素,所述多个元素通常是甲基化已发生或未发生的多个位点的向量(即使这些位点不是特定的CpG位点)。使用所述取代,本文所述的其余程序是相同的,因此本文所述的创造性概念适用于那些其它形式的甲基化。
本文中使用的术语“甲基化位点(methylation site)”是指DNA分子上可以添加甲基的位点。“CpG”位点是最常见的甲基化位点,但甲基化位点并不局限于CpG位点。
例如,DNA甲基化可能发生在CHG和CHH的胞嘧啶中,其中H为腺嘌呤、胞嘧啶或胸腺嘧啶。也可使用本文公开的方法和程序来评估5-羟甲基胞嘧啶形式的胞嘧啶甲基化(例如,参见通过引用并入本文中的PCT专利申请案公开第WO 2010/037001号和第WO 2011/127136号)及其特征。
本文中使用的术语“CpG位点(CpG site)”是指DNA分子中的一个区域,其中胞嘧啶核苷酸在碱基的线性序列沿其5’至3’方向排列后接鸟嘌呤核苷酸。“CpG”是5’-C-磷酸盐-G-3’(5’-C-phosphate-G-3’)的简写,它是由仅有一个磷酸基分开的胞嘧啶和鸟嘌呤;磷酸盐将DNA中的任何两个核苷酸连接在一起。CpG二核苷酸中的多个胞嘧啶可以被甲基化形成5-甲基胞嘧啶。
本文中使用的术语“CpG检测位点(CpG detection site)”是指一个探针中被配置成与一个标靶DNA分子的一个CpG位点杂交的一个区域。在所述标靶DNA分子上的所述CpG位点可以包含由一个磷酸基分离的胞嘧啶和鸟嘌呤,其中胞嘧啶被甲基化(methylated)或未甲基化(unmethylated)。在标靶DNA分子上的CpG位点可包含通过一个磷酸基分离的尿嘧啶和鸟嘌呤,其中尿嘧啶是通过未甲基化的胞嘧啶的转化生成。
术语“UpG”是5’-U-磷酸盐-G-3’(5’-U-phosphate-G-3’)的简写,即尿嘧啶和鸟嘌呤仅由一个磷酸基分开。UpG可由一个DNA通过一亚硫酸氢盐处理产生,将未甲基化的胞嘧啶转化为尿嘧啶。胞嘧啶可通过本领域已知的其他方法转化为尿嘧啶,例如化学修饰或合成。
本文中使用的术语“低甲基化(hypomethylated)”或“高甲基化(hypermethylated)”是指含有多个CpG位点(例如超过3、4、5、6、7、8、9、10个等)的一个DNA分子的甲基化状态,其中所述多个CpG位点的高百分比(例如,超过80%、85%、90%或95%,或在50%至100%范围内的任何其他百分比)分别为未甲基化或甲基化。
本文中使用的术语“甲基化状态向量(methylation state vector或methylationstatus vector)”是指包含多个元素的一向量,其中每个元素表示由包含多个甲基化位点的一个DNA分子中一个甲基化位点的甲基化状态,其顺序是在DNA分子中出现从5’到3’。例如,<Mx,Mx+1,Mx+2>、<Mx,Mx+1,Ux+2>、...、<Ux,Ux+1,Ux+2>可以是包含三个甲基化位点的多个DNA分子的多个甲基化向量,其中M代表甲基化位点,U代表未甲基化位点。
本文中使用的术语“异常甲基化模式(abnormal methylation pattern或anomalous methylation pattern)”是指一甲基化状态向量或具有所述甲基化状态向量的一DNA分子的一甲基化状态,其期望在一样本中发现的频率低于一阈值。在本文提供的特定实施例中,在包含多个健康个体的一健康对照组中找到一特定甲基化状态向量的期望值由p值(p-value)表示。因此,低p值得分通常对应于与健康对照组中来自多个健康个体的多个样本中的其他甲基化状态向量相比相对意外的甲基化状态向量。高p值得分通常对应于与健康对照组中的多个健康个体的多个样本中发现的其他甲基化状态向量相比相对更期望的甲基化状态向量。一甲基化状态向量具有一p值低于一阈值(例如,0.1、0.01、0.001、0.0001等),则可以将其定义为一异常甲基化模式。本领域已知的各种方法可用于计算甲基化模式或甲基化状态向量的p值或期望值。本文提供的示例性方法涉及使用马尔可夫链概率(Markov chain probability),其假设多个CpG位点的多个甲基化状态依赖于相邻的多个CpG位点的多个甲基化状态。本文提供的替代方法通过使用包含多个混合组分的一混合模型来计算观察在多个健康个体中一特定甲基化状态向量的期望值,其中每个混合组分都是一个独立位点模型,其中假设每个CpG位点处的甲基化与其他CpG位点处的甲基化状态相独立。
本文提供的方法使用具有一异常甲基化模式的多个基因组区域。当与一基因组区域相对应或起源于所述基因组区域的多个cfDNA片段具有多个甲基化状态向量,其出现频率低于多个参考样本中的一阈值时,可确定所述基因组区域具有一异常甲基化模式。所述多个参考样本可为来自多个对照组对象或多个健康对象的样本。在所述多个参考样本中一甲基化状态向量出现的频率可以用一p值得分来表示。当对应于或起源于所述基因组区域的多个cfDNA片段不具有单一的、一致的甲基化状态向量时,所述基因组区域可具有多个甲基化状态向量的多个p值得分。在这种情况下,在与所述阈值进行比较之前,可以对所述多个p值得分进行加总或求平均。可以采用本领域已知的各种方法来比较对应于所述基因组区域和所述阈值的多个p值得分,包含但不限于算术平均值、几何平均值、调和平均值、中位数、众数等。
本文中使用的术语“癌性样本(cancerous sample)”是指包含来自被诊断为具有癌症的一个体的多个基因组DNA的样本。所述多个基因组DNA可以是但不限于多个cfDNA片段或来自具有癌症的一对象的多个染色体DNA。所述多个基因组DNA可被测序并且其甲基化状态可通过本领域已知的方法(例如亚硫酸氢盐测序)来评估。当多个基因组序列是从公共数据库(例如,癌症基因组图谱(The Cancer Genome Atlas,TCGA))中获得的,或通过对被诊断为具有癌症的一个体的一基因组进行测序实验而获得,癌性样本可以指具有所述多个基因组序列的多个基因组DNA或多个cfDNA片段。术语“多个癌性样本”作为复数是指包含来自多个个体的多个基因组DNA的多个样本,每个个体被诊断为具有癌症。在各种实施例中,使用来自100、300、500、1000、10000、20000、40000、50000个或更多个诊断为具有癌症的个体的多个癌性样本。
本文中使用的术语“非癌性样本(non-cancerous sample)”是指包含来自没被诊断为具有癌症的一个体的多个基因组DNA的一样本。所述多个基因组DNA可以是,但不限于来自不具有癌症的一对象的多个cfDNA片段或多个染色体DNA。所述多个基因组DNA可被测序并且其甲基化状态可通过本领域已知的方法(例如亚硫酸氢盐测序)来评估。当多个基因组序列是从公共数据库(例如,癌症基因组图谱(TCGA))中获得的,或通过对不具有癌症的一个体的一基因组进行测序实验而获得,非癌性样本可以指具有所述多个基因组序列的多个基因组DNA或多个cfDNA片段。术语“多个非癌性样本”作为复数是指包含来自多个个体的多个基因组DNA的多个样本,每个个体没被诊断为具有癌症。在各种实施例中,使用来自100、300、500、1000、10000、20000、40000、50000个或更多个不具有癌症的个体的癌性样本。
本文中使用的术语“训练样本(training sample)”是指用于训练本文所述的一分类器和/或以选择用于癌症诊断的一个或多个基因组区域的样本。所述多个训练样本可包含来自一个或多个健康对象以及具有用于诊断(例如,癌症、癌症的特定类型、癌症的特定阶段等)的一疾病状况的一个或多个对象。所述多个基因组DNA可以是但不限于多个cfDNA片段或多个染色体DNA。所述多个基因组DNA可被测序并且其甲基化状态可通过本领域已知的方法(例如亚硫酸氢盐测序)来评估。当多个基因组序列是从公共数据库(例如,癌症基因组图谱(TCGA))获得,或通过对一个体的一基因组进行测序实验而获得,一训练样本可以指具有所述多个基因组序列的多个基因组DNA或多个cfDNA片段。
本文中所述的“测试样本(test sample)”是指来自一对象的一样本,其健康状况已经、已被或将要使用本文所述的一分类器和/或一化验板进行测试。所述测试样本可以包含多个基因组DNA或其修饰。所述多个基因组DNA可以是但不限于多个cfDNA片段或多个染色体DNA。
本文中使用的术语“标靶基因组区域(target genomic region)”是指在一基因组中选择用于设计要包含在一化验板中的一探针的一区域。所述探针可被设计成与对应于或衍生自所述标靶基因组区域或其一片段的一核酸片段相杂交(并可选地下拉(pulldown))。对应于或衍生自所述标靶基因组区域的一核酸片段是指通过所述标靶基因组区域的降解、裂解或其他生物处理而产生的一核酸片段,或具有与所述标靶基因组区域同源或互补的一序列的一核酸片段。
本文所用的术语“脱靶基因组区域(off-target genomic region)”是指在一基因组中未曾被选择以用于设计要包含在一化验板中的一探针的一区域,但与一标靶基因组区域具有足够的同源性,而可通过设计用于标靶所述标靶基因组区域的一探针被绑定和下拉。在一个实施例中,所述脱靶基因组区域是一基因组区域,所述基因组区域与一探针沿着至少45碱基对(bp)具有至少匹配率为90%对准。
术语“无细胞核酸(cell free nucleic acid)”、“无细胞DNA(cell free DNA)”或“cfDNA”指的是在个体身体(例如血流)中循环并源自于一个或多个健康细胞和/或一个或多个癌细胞的多个核酸片段。此外,cfDNA可能来自其他来源,如病毒、胎儿等。
术语“转化DNA分子(converted DNA molecules)”、“转换cfDNA分子(convertedcfDNA molecules)”,或“从多个cfDNA分子的处理中获得的修饰片段”是指在一化学反应中通过处理样本中的多个DNA或cfDNA分子获得多个DNA分子,以区分所述多个DNA或cfDNA分子中的一甲基化核苷酸和一未甲基化核苷酸。例如,在一个实施例中,可以使用本领域已知的亚硫酸氢钠离子(例如,使用亚硫酸氢钠)处理样本,将未甲基化胞嘧啶(“C”)转化为尿嘧啶(“U”)。在另一实施例中,使用酶转化反应,例如使用胞苷脱氨酶(例如APOBEC)来完成未甲基化胞嘧啶到尿嘧啶的转换。处理后,转化的DNA分子或cfDNA分子包含原始cfDNA样本中不存在的额外尿嘧啶。
术语“循环肿瘤DNA(circulating tumor DNA)”或“ctDNA”是指源于肿瘤细胞或其他类型细胞的核酸片段,这些片段可能由于生物学过程(例如死亡细胞凋亡或坏死或活的肿瘤细胞主动释放)而释放到个体血液中。
术语“个体(individual)”是指人的个体。术语“健康个体”是指没有癌症或疾病的个体。
术语“对象(subject)”是指正在分析DNA的个体。一对象可以是一个测试对象,其DNA可以使用本文所述的标靶化验板(panel)进行评估,以评估那个人是否患有癌症或其他疾病。一对象也可能是已知没有癌症或其他疾病的一对照组的一部分。一对象也可能是已知具有癌症或另一种疾病的一癌症或其他疾病组的一部分。对照组和癌症/疾病组可用于协助设计或验证标靶化验板。
本文所用的术语“多个序列读数(sequence reads)”是指从一样本中读取的多个核苷酸序列。可以通过本文提供的各种方法或本领域已知的方法来获得多个序列读数。
本文所使用的术语“测序深度(sequencing depth)”是指在一样本中已被测序的一给定标靶核酸的计数的次数(例如,在一给定标靶区域读取的序列计数)。增加测序深度可以减少评估一疾病状态(例如癌症或起源组织)所需的标靶核酸的数量。
本文所使用的术语“起源组织(tissue of origin)”或“TOO”是指癌症产生或来源的器官、器官群组、身体区域或细胞类型。起源组织或癌细胞类型的识别通常允许识别癌症连续护理中最合适的下一步步骤,以进一步诊断、分期和决定治疗。
一化验板或诱饵组的“多个探针的一整体”或一化验板或诱饵组的“多个含有多核苷酸的探针的一整体”通常是指与特定化验板或诱饵组一起提供的所有探针。例如,在一些实施例中,一化验板或诱饵集可以同时包含:(1)多个探针,具有本文特定的多个特征(例如,用于与对应于或源自于本文阐述的一个或多个表中多个基因组区域的多个无细胞DNA片段结合的多个探针);及(2)不包含这样(多个)特征的另外的多个探针。一化验板的多个探针的整体通常是指与所述化验板或诱饵组一起提供的所有探针,包含不含有特定的(多个)特征的探针。
其他解释惯例
本文所叙述的范围应理解为该范围内所有数值的简写形式,包含所叙述的端点。例如,范围1到50应该理解为包含从1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30、31、32、33、34、35、36、37、38、39、40、41、43、44、45、46、47、48、49和50组成的群组中的任何数字、多个数字的组合或其子范围。
癌症化验板
在第一方面,本说明书提供一种癌症化验板(例如,一诱饵组),包含多个探针或多个探针对。所述多个探针可以是多个含有多核苷酸的探针,所述多个含有多核苷酸的探针特定地设计用于标靶一个或多个核酸分子,所述一个或多个核酸分子对应于或源自于在癌症和非癌性样本之间、不同类型癌症起源组织之间、不同类型癌细胞之间或不同癌症阶段的样本之间的差异甲基化的多个基因组区域,如本文提供的方法所识别。在一些实施例中,多个探针标靶具有特定于一癌症类型的多个甲基化模式的多个基因组区域(或由此衍生的多个核酸分子),例如,(1)血癌、(2)乳腺癌、(3)结直肠癌、(4)食管癌、(5)头颈癌、(6)肝胆癌、(7)肺癌、(8)卵巢癌、或(9)胰腺癌。在一些实施例中,所述化验板包含标靶特定于单一癌症类型的多个基因组区域的多个探针。在一些实施例中,所述化验板包含特定于2、3、4、5、6、7、8或9种或更多种癌症类型的多个探针。在一些实施例中,选择多个标靶基因组区域以使分类准确度最大化,受到尺寸限制(可由测序预算和所需测序深度确定)。
示例性癌症化验板的设计特征和潜在效用如图2所示。为了设计所述癌症化验板,一分析系统可以收集与正在考虑的各种结果相对应的多个样本,例如已知患有癌症的多个样本,被认为是健康的多个样本,来自已知起源组织的多个样本等。这些样本可以用全基因组亚硫酸氢盐测序(WGBS)处理或从公共数据库(如TCGA)中获得。所述分析系统可以是具有一计算机处理器和一计算机可读存储介质的任何通用计算系统,具有用于执行所述计算机处理器以执行本公开所述的任何或所有操作的多个指令。关于所述多个样本,所述分析系统确定所述样本中每个核酸片段的一个或多个CpG位点处的甲基化状态。然后,所述分析系统可以基于多个核酸片段的多个甲基化模式选择多个标靶基因组区域。一种方法考虑多个区域或更具体地一个或多个CpG位点的成对结果之间的成对分辨率。另一种方法在考虑每个结果相对于其余结果时,考虑多个区域或更具体地一个或多个CpG位点的分辨率。从所选择的具有高分辨率能力的多个标靶基因组区域,所述分析系统可以设计多个探针以标靶包含所选的多个基因组区域的多个核酸片段。所述分析系统可以生成不同尺寸的癌症化验板,例如,一小型尺寸癌症化验板包含标靶信息最丰富的基因组区域的多个探针,一中型尺寸癌症化验板包含来自所述小型尺寸癌症化验板的多个探针和标靶第二级信息的基因组区域的多个附加探针,以及一大型癌症化验板包含来自所述小型尺寸和所述中型尺寸癌症化验板的多个探针,以及更多标靶第三级信息的基因组区域的多个探针。利用这种癌症化验板,所述分析系统可以训练具有各种分类技术的多个分类器,以预测一样本具有一特定结果(例如癌症、特定癌症类型、其他疾病等)的可能性。
具体而言,在一些实施例中,所述癌症化验板包含至少50对探针,其中所述至少50对探针中的每一对包含两个探针,被配置为通过一重叠序列彼此相互重叠,其中所述重叠序列包含30个核苷酸的一序列,被配置成与从对应于一个或多个基因组区域的处理的多个cfDNA分子获得的一修饰片段杂交,其中所述多个基因组区域中的每一个包含至少5个甲基化位点,其中所述至少5个甲基化位点在多个训练样本中具有一异常甲基化模式。换句话说,当分析与所述基因组区域相对应的多个训练样本中的多个cfDNA分子时,它们具有多个甲基化状态向量出现的频率低于多个参考样本中的一阈值。
在其他实施例中,所述癌症化验板包含至少500对探针,其中所述至少500对探针中的每一对包含两个探针,被配置为通过一重叠序列彼此相互重叠,其中所述重叠序列包含30个核苷酸的一序列,被配置成与从对应于一个或多个基因组区域的处理的多个cfDNA分子获得的一修饰片段杂交,其中所述多个基因组区域中的每一个包含至少5个甲基化位点,其中所述至少5个甲基化位点在多个训练样本中具有一异常甲基化模式。同样,当分析与所述基因组区域相对应的多个训练样本中的多个cfDNA分子时,它们具有多个甲基化状态向量出现的频率低于多个参考样本中的一阈值。
在优选实施例中,所述至少5个甲基化位点在癌性和非癌性样本之间或在来自不同癌症类型的一对或多对样本之间为差异甲基化。在一些实施例中,转化的多个cfDNA分子包含多个cfDNA分子被处理(例如,通过亚硫酸氢盐处理)以将未甲基化的C(胞嘧啶)转化为U(尿嘧啶)。在某些情况下,尿嘧啶进一步转化为胸腺嘧啶(例如,通过PCR扩增)。
由于所述多个探针被配置成与对应于或衍生自一个或多个基因组区域的一转化的DNA或cfDNA分子杂交,因此所述多个探针可以具有不同于所述标靶基因组区域的一序列。例如,含有未甲基化的CpG位点的一DNA分子将转换后为包含UpG,因为未甲基化的多个胞嘧啶通过一转化反应(例如亚硫酸氢盐处理)转化为多个尿嘧啶。结果,一探针被配置成杂交到包含UpG的一序列,而不是自然存在的未甲基化的CpG。因此,所述探针中与所述未甲基化位点的一互补位点可以包含CpA而不是CpG,及标靶所有甲基化位点都未甲基化的一低甲基化位点的一些探针可以没有鸟嘌呤(G)碱基。在一些实施例中,所述多个探针的至少3%、5%、10%、15%、20%、30%或40%缺少G(鸟嘌呤)。在一些实施例中,所述化验板上所述多个探针的至少80、85、90、92、95、98%在多个CpG检测位置上仅具有CpG或仅具有CpA。因此,在一些实施例中,多个含有多核苷酸的探针具有一核酸序列(1)与一标靶基因组区域(例如,表1至24中所列的多个标靶基因组区域)中的一序列在序列上相同,或者(2)相对于所述基因组区域中的一序列仅一个或多个转换(transition)(例如,由于亚硫酸氢盐转化或其他转化技术而在一位点处碱基组成的改变)变化,其中,一个或多个转换中的每一个相应的转换发生在与所述基因组区域中一CpG位点相对应的一核苷酸处。
在一些实施例中,所述化验板上的多个探针包含少于20、15、10、8或6个CpG检测位置。在一些实施例中,所述化验板上的多个探针包含5、6、7、8、9或10个以上的CpG检测位置。
在一些实施例中,多个探针接合到一标记(tag)(例如,一非核酸亲和部分),例如一生物素部分。
所述癌症化验板可用于通常检测癌症的存在或不存在,和/或提供一癌症分类(例如癌症类型、或癌症阶段(如I、II、III或IV)、或癌症的起源处。所述化验板可以包含多个探针,所述多个探针标靶从衍生自多个一般癌性(泛癌)样本和多个非癌性样本,或仅具有特定癌症类型(例如多个肺癌特定标靶)的多个癌性样本之间的差异甲基化的多个基因组区域的多个核酸。例如,在一些实施例中,一癌症化验板被设计用于在基于从癌症和非癌症个体的cfDNA生成的亚硫酸氢盐测序数据识别的多个癌性样本中扩增(enrich)衍生自差异甲基化的多个基因组区域的多个核酸。
所述多个探针(或探针对)中的每一个都可以设计成标靶衍生自一个或多个标靶基因组区域的多个核酸。所述多个标靶基因组区域基于几个标准被选择,这些标准旨在增加信息的多个cfDNA片段的选择性扩增,同时减少噪声和非特异性结合。
在一个示例中,一化验板可以包含多个探针,所述多个探针能够选择性地杂交(即,结合)和扩增多个癌性样本中差异甲基化的多个cfDNA片段。在这种情况下,对扩增的多个片段进行测序可以提供与癌症诊断相关的信息。此外,所述多个探针被设计成标靶在多个癌性样本中,或者在某些类型组织或细胞类型的多个样本中被确定具有一异常甲基化模式的多个基因组区域。在一个实施例中,多个探针被设计用于标靶在某些癌症或癌症起源组织中被确定为高甲基化或低甲基化的多个基因组区域,以提供检测的额外选择性和特异性。在一些实施例中,一化验板包含标靶多个低甲基化片段的多个探针。在一些实施例中,一化验板包含标靶多个高甲基化片段的多个探针。在一些实施例中,一化验板包含标靶多个高甲基化片段的一第一组的多个探针和标靶多个低甲基化片段的一第二组的多个探针(图1B)。在一些实施例中,标靶所述多个高甲基化片段的所述第一组的所述多个探针与标靶所述多个低甲基化片段的所述第二组的所述多个探针之间的比率(高∶低比率(Hyper∶Hyporatio))范围为0.4和2之间、0.5和1.8之间、0.5和1.6之间、1.4和1.6之间、1.2和1.4之间、1和1.2之间、0.8和1之间、0.6和0.8之间或0.4到0.6之间。
多种识别产生异常甲基化DNA分子或差异甲基化DNA分子的多个基因组区域(即在癌症和非癌性样本之间、在不同类型的癌症起源组织之间、在不同类型的癌细胞之间、或在不同癌症阶段的多个样本之间)的方法在标题为“选择标靶的基因组区域的方法”一节中详细提供,及识别异常甲基化的多个DNA分子或多个片段的方法,所述异常甲基化的多个DNA分子或多个片段被识别为表示癌症,其在标题为“异常甲基化片段”的一节中及标题为“异常甲基化片段的过滤”的一节中详细提供。
在第二个示例中,当多个基因组区域在多个癌症样本或已知一类型的癌症的多个样本中产生异常甲基化的多个DNA分子时,所述多个基因组区域可以被选择。例如,如本文所述,一马尔可夫(Markov)模型在一组的多个参考样本(例如,来自健康对象的多个样本)上训练可用于识别多个基因组区域,所述多个基因组区域产生异常甲基化的多个DNA分子(即具有低于p值阈值的一甲基化模式的多个DNA分子)。
所述多个探针中的每一个可标靶一基因组区域,所述基因组区域包含至少30bp、35bp、40bp、45bp、50bp、60bp、70bp、80bp、90bp、100bp或更多。在一些实施例中,所述多个基因组区域可以被选择以具有少于30、25、20、15、12、10、8或6个甲基化位点。
当所述区域内所述至少5个甲基化(例如,CpG)位点的至少80%、85%、90%、92%、95%或98%在非癌性或癌性的多个样本、一特定癌症类型的多个癌症样本中是甲基化或未甲基化时,所述多个基因组区域可以被选择。
多个基因组区域可进一步被过滤(filtered),以基于其甲基化模式仅选择可能提供信息的那些,例如,癌性和非癌性的多个样本之间(例如,癌症与非癌症中异常甲基化或未甲基化)、一起源组织的多个癌性样本和不同的一起源组织的多个癌性样本之间的差异化甲基化的多个CpG位点,或仅在一特定类型的多个癌性样本中差异甲基化的多个CpG位点。对于选择,可以相对于每个CpG位点或多个CpG位点执行计算。例如,一第一计数可以被确定为含有癌症的多个样本的数量(癌症计数(cancer_count)),其包含与该CpG重叠的一片段,及一第二计数被确定为含有与该CpG位点重叠的多个片段的总样本的数量(总计(total))。多个基因组区域可以基于与含有癌症的多个样本的数量(癌症计数)(其包含表示癌症的一片段,所述片段与该CpG位点相重叠)成正相关,及与含有表示癌症的多个片段(与该CpG位点相重叠)的总样本的数量(总计(total))成反相关的标准进行选择。在一个实施例中,非癌性样本的数量(nnon-cancer)和具有与一CpG位点相重叠的一片段的癌性样本的数量(ncancer)被计数。然后估计一样本是癌症的概率,例如如同(ncancer+1)/(ncancer+nnon-cancer+2)。
按此衡量(metric)计算的多个CpG位点可以进行排名并贪婪地(greedily)添加到一化验板中,直到所述化验板尺寸的预算(budget)用尽。选择表示癌症的多个基因组区域的程序在标题为“表示癌症的多个基因组区域和分类器”的一节中进一步详细说明。
在挑选哪些CpG位点构成所述化验板时,取决于所述化验是打算进行泛癌化验(pan-cancer assay)还是单个癌症化验,或取决于需要何种灵活性。用于诊断一特定癌症类型的一化验板可以用类似的程序设计。在本实施例中,对于每种癌症类型和对于每个CpG位点,计算信息增益(gain)以确定是否包含标靶该CpG位点的一探针。信息增益可以对具有一给定癌症类型的起源组织的多个样本与所有其他样本相比来计算。例如,两个随机变量“AF”及“CT”。“AF”是一个二进制变量,它表示在一特定样本中是否存在与一特定的CpG位点重叠的一异常片段(是或否)。“CT”是一个二进制随机变量,表于癌症是否属一特定类型(例如肺癌或肺癌以外的癌症)。在给定“AF”的情况下,可以计算关于“CT”的相互信息。也就是说,如果知道是否有一异常片段与一特定的CpG位点相重叠,就可以得到多少关于癌症类型(示例中是肺癌与非肺癌)的信息。这可以用来基于肺特异性对CpG进行排名。这个过程是对于多种癌症类型重复的。如果一特定区域通常仅在肺癌(而不是其他癌症类型或非癌症)中差异甲基化,那么该区域的CpG对于肺癌会倾向具有高信息增益。对于每一种癌症类型,通过此信息增益衡量对多个CpG位点排名,然后贪婪地添加到一化验板中,直到该癌症类型的尺寸预算耗尽。
可以执行进一步的过滤,以选择具有高特异性的多个探针以用于从标靶的多个基因组区域衍生的多个核酸的扩增(即高结合效率)。多个探针可以被过滤以减少从非标靶的多个基因组区域衍生的多个核酸的非特异性结合(或脱靶(off-target)结合)。例如,可以对多个探针进行过滤,以仅选择具有小于多个脱靶结合事件的一设定阈值的那些探针。在一个实施例中,多个探针可以与一参考基因组(例如,一人类参考基因组)相对准,以选择与所述基因组中小于一设定阈值的多个区域的探针相对准的多个探针。例如,可以选择与所述参考基因组中少于25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9或8个脱标靶区域域相对准的多个探针。在其他情况下,当所述多个标靶基因组区域的一序列在一基因组中出现多于5、10、15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35次时,执行过滤以移除多个基因组区域。当一序列或一组的多个序列与所述多个标靶基因组区域的同源性为90%、91%、92%、93%、94%、95%、96%、97%、98%或99%时,在一参考基因组中出现少于25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9或8次,可以执行进一步过滤以选择多个标靶基因组区域,或当所述序列或一组的多个序列与所述多个标靶基因组区域的同源性为90%、91%、92%、93%、94%、95%、96%、97%、98%或99%时,在一参考基因组中出现多于5、10、15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35次,可以执行进一步过滤以移除多个标靶基因组区域。这是为了排除可能下拉多个脱靶片段的多个探针,其是不需要且会影响化验效率。
如实施例1所示,至少45bp的一片段-探针重叠可产生不可忽略的下拉数量(尽管此数字可能因化验细节而异)。因此,在一些实施例中,多个探针的长度至少为45个碱基对。在一些实施例中,重叠区域中所述探针和多个片段序列之间超过10%的不匹配率足以极大地破坏结合,从而拉低效率。因此,可以沿着至少45bp且匹配率至少为90%与探针对准的序列是对于脱靶下拉的理想对象。因此,在一个实施例中,对这些区域的数量进行评分。最佳的探针得分为1,这意味着它们只在一个地方(预期的标靶区域)匹配。得分较低(例如,小于5或10)的探针被接受,但任何高于该得分的探针都将被丢弃。其他截止值可用于特定样本。
一旦所述多个探针与对应于或衍生自一标靶基因组区域的多个DNA片段杂交并捕获,杂交的探针-DNA片段的中间产物被下拉(或分离),并对所述标靶DNA进行扩增和测序。序列读数提供了与癌症诊断相关的信息。为此,一化验板被设计以包含多个探针,所述多个探针可以捕获多个片段,所述多个片段可以共同提供与癌症诊断相关的信息。在一些实施例中,一化验板包含至少50、60、70、80、90、100、120、150或200对不同的探针。在其他实施例中,一化验板包含至少500、1000、2000、2500、5000、6000、7500、10000、15000、20000、25000或50000对不同的探针。在一些实施例中,一化验板包含至少100、120、140、160、180、200、240、300或400个不同的探针。在其他实施例中,一化验板包含至少1000、2000、5000、10000、12000、15000、20000、30000、40000、50000或100000个不同的探针。多个探针加在一起可以包含至少1万、2万、3万、4万、5万、10万、20万、40万、60万、80万、100万、200万、300万、400万、500万、600万、700万、800万、900万或1000万个核苷酸。
所选的多个标靶基因组区域可位于一基因组的不同位置,包含但不限于外显子、内含子、基因间区域和其他部分。在一些实施例中,可以添加标靶多个非人类基因组区域(例如标靶病毒基因组区域)的多个探针。
探针
本文提供的多种癌症化验板(例如,多种诱饵组)可以包含一组的多个杂交探针(在本文中也称为“多个探针”),其设计用于在扩增(enrichment)、标靶(target)及下拉(pull down)(例如,通过杂交捕获)用于化验的感兴趣多个核酸片段。在一些实施例中,所述多个探针被设计用于与从具有癌症的一对象或具有一特定癌症类型的一对象的多个样本中的DNA或cfDNA的多个分子的处理中获得的一修饰片段相杂交和扩增。所述处理步骤可将未甲基化胞嘧啶(C)转化为尿嘧啶(U)。所述多个探针可以被设计与所述修饰片段(例如DNA或RNA)的一标靶(互补)链(strand)进行退火(anneal)(或杂交)。所述标靶链可以是“正(positive)”链(例如,转录成mRNA的链,随后转化为蛋白质)或互补的“负(negative)”链。在一个特定实施例中,一癌症化验板包含两个探针组,一个探针标靶正链,另一个探针标靶一标靶基因组区域的负链。
对于每个标靶基因组区域,可以设计四个可能的探针序列。对应于或衍生自每个标靶区域的多个DNA分子是双链的,因此,一探针或探针组可以标靶“正(positive)链”或正链(forward strand)或其互补的反(reverse)链(“负(negative)”链)。此外,在一些实施例中,所述多个探针或多个探针组被设计用于扩增经处理的多个DNA分子或多个片段以将未甲基化的胞嘧啶(C)转化为尿嘧啶(U)。因为所述多个探针或多个探针组设计以扩增对应于或衍生自所述多个标靶区域转换后的多个DNA分子,所述探针的序列可以设计成扩增多个片段的多个DNA分子,其中未甲基化的C已经转换后为U(通过在对应于或衍生自所述多个标靶区域的多个DNA分子或多个片段中未甲基化的胞嘧啶的位点利用A来代替G)。在一个实施例中,多个探针设计为与已知的多个含有癌症特异性甲基化模式(例如,高甲基化或低甲基化的多个DNA分子)的多个基因组区域的多个DNA分子或多个片段结合或杂交,从而扩增癌症特异性的多个DNA分子或多个片段。标靶多个基因组区域,或癌症特异性的多个甲基化模式,可以是有利的,允许特异性地扩增被识别为癌症或癌症起源组织信息的多个DNA分子或多个片段,从而降低测序需求和测序成本。在其它实施例中,可针对每个标靶基因组区域设计两个探针序列(一个用于每个DNA链)。在其他情况下,多个探针被设计用于扩增对应于或衍生自一标靶区域的所有DNA分子或片段(即,无论链或甲基化状态如何)。这可能是因为所述癌症甲基化状态不是高度甲基化或未甲基化,或者是因为所述多个探针被设计标靶小突变或其他变异,而不是甲基化变化,这些其他变化类似地表示一癌症的存在或不存在,或一癌症的一个或多个起源组织的存在或不存在。在这种情况下,所有四个可能的探针序列可以被包含在每一个标靶基因组区域。
例如,用于杂交捕获的多种癌症化验板(例如多种诱饵组)可以包含多个含有多核苷酸的探针,所述多个含有多核苷酸的探针中的每个探针包含一核酸序列,所述核酸序列为(1)与一基因组区域内的一序列在序列上相同(例如,表1至24中的任何一个所列的一基因组区域)或(2)所述基因组区域中相对于一序列仅通过一个或多个转换(transition)而变化,其中所述一个或多个转换中的每个相应的转换发生在对应于一基因组区域中的一CpG位点的一核苷酸处。在序列上与一基因组区域内的一序列相同的多个探针可用于与“完全甲基化”的无细胞DNA分子结合,其中没有任何胞嘧啶碱基转化为尿嘧啶。相反地,具有与相对于所述基因组区域中的一序列仅通过一个或多个转换(例如,在多个CpG位点处)而变化的一核酸序列的多个探针可用于与部分或完全的多个甲基化探针结合,其中一个或多个(例如,所有的)胞嘧啶为未甲基化,且随后通过一脱氨剂(例如亚硫酸氢钠)转化为尿嘧啶。
所述多个探针的长度范围为10s、100s、200s或300s碱基对。所述多个探针可包含至少45、50、75、100或120个核苷酸。所述多个探针可包含少于300、250、200或150个核苷酸。在一个实施例中,所述多个探针包含45至200或100至150个核苷酸。在一个特定实施例中,所述多个探针包含120个核苷酸。
所述多个探针被设计用于分析多个标靶基因组区域(例如,人类或其他有机体的)的甲基化状态,所述多个标靶基因组区域被怀疑与癌症的存在或不存在、某些类型的癌症的存在或不存在、癌症的阶段或其他类型的疾病的存在或不存在相关。
此外,所述多个探针可以被设计以有效地杂交到(或结合到)并下拉含有一标靶基因组区域的多个cfDNA片段。在一些实施例中,所述多个探针被设计成覆盖一标靶基因组区域的多个重叠部分,使得每个探针“平铺(tiled)”在覆盖范围中,使得每个探针在覆盖范围中至少部分地与文库(library)中的另一个探针相重叠(图1A)。在这些实施例中,所述化验板包含多对探针,其中每对包含至少两个彼此相重叠的探针,所述至少两个彼此相重叠的探针通过至少25、30、35、40、45、50、60、70、75或100个核苷酸的一重叠序列彼此相重叠。在一些实施例中,所述重叠序列可被设计成与一标靶基因组区域(或所述标靶基因组区域的一转换版本)具有同源性或互补性,因此,与对应于或衍生自所述标靶基因组区域或含有所述标靶基因组区域的一核苷酸片段可以通过所述多个探针中的至少一个绑定和下拉。
在一个实施例中,如图1A所示使用了2×平铺设计,其中一标靶区域(图1A中的虚线矩形)中的每个基部(base)由两个探针重叠。例如,每对的多个探针可以包含一第一探针和一第二探针,不同于所述第一探针并且与所述第一探针在序列上重叠(例如,通过至少30个核苷酸重叠)。这样做是为了确保即使是对应于或衍生自一标靶区域的相对较短的DNA片段(例如,100bp)也保证与至少一个探针具有一实质性重叠(或序列互补性),从而能够有效地捕获所述相对较短的DNA片段。例如,一个100bp的DNA片段与一个30bp的标靶区域相的重叠为所述两个探针中的至少一个以至少一个75bp相重叠。也可以使用其他水平的平铺。例如,为了增加标靶尺寸和捕获效率,可以在一给定的标靶区域上平铺(tilted)更多的探针。为了增加对与所述标靶区域重叠的任何DNA片段的捕获,可以设计所述多个探针,使其在一侧或两侧都延伸超过所述标靶区域的端部。例如,多个探针可以被设计成通过至少50bp、60bp、70bp、80bp、90bp或100bp延伸超过一30bp的标靶区域的端部。
在一个实施例中,最小的标靶基因组区域为30bp。当一新标靶区域被添加到所述化验板时(基于上述的贪婪选择),30bp的所述新标靶区域可以集中在感兴趣的一特定的CpG位置上。然后,检查这个新标靶的每一边缘是否足够靠近其他标靶,以便它们可以合并。这是基于一“合并距离(merge distance)”参数,默认情况下可以是200bp,但可以进行调整。这使得靠近但不同的多个标靶区域可以用重叠的多个探针进行扩增。取决于所述新标靶的左边或右边是否存在足够靠近的多个标靶,所述新标靶可以不与任何东西合并(化验板标靶数量增加一个),左边或右边仅合并一个标靶(不改变化验板标靶的数量),或左右两边与现有标靶合并(将化验板标靶的数量减少一个)。
本文提供的一化验板包含多个多核苷酸探针,配置为与从多个cfDNA分子的处理中获得的一修饰片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域。换句话说,一诱饵组的多个含有多核苷酸的探针可以(作为一群组)对应于多个基因组区域的一数量。在一些实施例中,所述多个基因组区域的至少15%、20%、30%或40%是外显子或内含子。在一些实施例中,所述多个基因组区域的至少5%、10%、15%、20%、30%或40%是外显子。在一些实施例中,所述多个基因组区域的少于5%、10%、15%、20%、25%或30%是基因间区域。
在一些实施例中,所述一个或多个基因组区域中的每一个选自表1至24中的一个或多个。在一些实施例中,所述一个或多个基因组区域中的每一个选自表2至10或16至24中的一个或多个。在一些实施例中,所述一个或多个基因组区域中的每一个选自表1。在一些实施例中,所述一个或多个基因组区域中的每一个选自表2。在一些实施例中,所述一个或多个基因组区域中的每一个选自表3。在一些实施例中,所述一个或多个基因组区域中的每一个选自表4。在一些实施例中,所述一个或多个基因组区域中的每一个选自表5。在一些实施例中,所述一个或多个基因组区域中的每一个选自表6。在一些实施例中,所述一个或多个基因组区域中的每一个选自表7。在一些实施例中,所述一个或多个基因组区域中的每一个选自表8。在一些实施例中,所述一个或多个基因组区域中的每一个选自表9。在一些实施例中,所述一个或多个基因组区域中的每一个选自表10。在一些实施例中,所述一个或多个基因组区域中的每一个选自表11。在一些实施例中,所述一个或多个基因组区域中的每一个选自表12。在一些实施例中,所述一个或多个基因组区域中的每一个选自表13。在一些实施例中,所述一个或多个基因组区域中的每一个选自表14。在一些实施例中,所述一个或多个基因组区域中的每一个选自表15。在一些实施例中,所述一个或多个基因组区域中的每一个选自表16。在一些实施例中,所述一个或多个基因组区域中的每一个选自表17。在一些实施例中,所述一个或多个基因组区域中的每一个选自表18。在一些实施例中,所述一个或多个基因组区域中的每一个选自表19。在一些实施例中,所述一个或多个基因组区域中的每一个选自表20。在一些实施例中,所述一个或多个基因组区域中的每一个选自表21。在一些实施例中,所述一个或多个基因组区域中的每一个选自表22。在一些实施例中,所述一个或多个基因组区域中的每一个选自表23。在一些实施例中,所述一个或多个基因组区域中的每一个选自表24。
在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24中的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表3中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表4中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表5中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表6中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表7中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表8中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表9中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表10中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表11中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表12中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表16中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表17中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表18中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表19中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表20中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表21中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表22中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表23中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。在一些实施例中,所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表24中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1或表11至15中的一个或多个中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或表16至24中的一个或多个中的至少50、60、70、80、90、100、120、150或200个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。在一些实施例中,将所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1000、5000、10000或15000个基因组区域的cfDNA分子获得。
在一些实施例中,一化验板还包含多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置成与一病毒基因组片段相杂交。所述多个探针可以被配置成与来自与癌症相关联的一病毒株的一病毒基因组片段相杂交。在一些实施例中,所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。在一些实施例中,所述化验板包含至少50、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500或3000个病毒特异性探针。
选择标靶基因组区域的方法
在另一方面,提供了多种用于诊断癌症和/或起源组织的选择多个标靶基因组区域的方法。所述多个标靶基因组区域可用于设计和制造用于一癌症化验板的多个探针。对应于或来源自所述多个标靶基因组区域的DNA或cfDNA分子的甲基化状态可以通过使用所述癌症化验板的标靶测序进行筛选。多个替代方法,例如通过WGBS或本领域已知的其它方法,也可以被实施以检测对应于或来源自所述多个标靶基因组区域的多个DNA分子或片段的甲基化状态。
样本处理
对于多个标靶基因组区域的选择,使用从一个或多个对象中提取的一核酸样本(DNA或RNA)。在本发明的公开中,除非另有说明,否则DNA和RNA可以互换使用。也就是说,本文所描述的实施例可以同时适用于DNA和RNA类型的核酸序列。然而,为了清楚和解释的目的,本文描述的示例可以集中于DNA。所述样本包含人类基因组的任何子集,所述人类基因组的任何子集包含整个基因组。所述样本可包含血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中,用于提取一血液样本的方法(例如,注射器或手指刺)可能比用于获取组织活检的程序(可能需要手术)具有更小的侵入性。提取的样本可以包含cfDNA和/或ctDNA。对于健康的多个个体,人体可能会自然清除cfDNA和其他细胞碎片。如果一对象具有一癌症或疾病,提取样本中的ctDNA可能在可检测水平上以用于诊断。
多个cfDNA片段被进行处理以将未甲基化胞嘧啶转化为尿嘧啶。在一个实施例中,所述方法使用DNA的亚硫酸氢盐处理,将未甲基化胞嘧啶转化为尿嘧啶,而不转化甲基化胞嘧啶。例如,用于亚硫酸氢盐转化的商用试剂盒,如EZ-DNA MethylationTM-Gold、EZ-DNAMethylationTM-Direct或EZ-DNA MethylationTM-Lightning试剂盒(可从Zymo Research公司(加利福尼亚州尔湾市))获得。在另一实施例中,利用一酶反应来完成未甲基化的胞嘧啶到尿嘧啶的转化。例如,所述转化可以使用商业上可买到的试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs公司,马萨诸塞州伊普斯威奇市)。
利用转化后的多个cfDNA片段,制备一测序文库。在一第一步骤中,使用一ssDNA连接反应(ligation reaction)将一ssDNA适配器(adapter)添加到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一个实施例中,所述ssDNA连接反应使用环化连接酶(CircLigase)II(Epicentre公司)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端,其中所述适配器的5′-端被磷酸化并且所述亚硫酸氢盐转化的ssDNA已经被脱磷(即,3′端具有一羟基)。在另一实施例中,所述ssDNA连接反应使用热稳定5′AppDNA/RNA连接酶(Thermostable 5′AppDNA/RNA ligase)(可从New England BioLabs公司(马萨诸塞州伊普斯威奇市)获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在本示例中,第一UMI适配器在5′端被腺苷酸化(adenylated)并且在3′端被阻断(blocked)。在另一实施例中,所述ssDNA连接反应使用T4 RNA连接酶(T4 RNA ligase)(可从NewEngland BioLabs公司获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一第二步骤中,在一延伸反应(extension reaction)中合成一第二链DNA。例如,在一引物延伸反应中使用与ssDNA适配器中包含的一引物序列杂交的一延伸引物,以形成一双链亚硫酸氢盐转化的DNA分子。可选地,在一个实施例中,所述延伸反应使用能够读取亚硫酸氢盐转化模板链中的多个尿嘧啶残基(residues)的酶。可选地,在一第三步骤中,将一dsDNA适配器添加到所述双链亚硫酸氢盐转化的DNA分子中。最后,所述双链亚硫酸氢盐转化的DNA被扩增(amplified)以添加多个测序适配器。例如,使用包含一P5序列的一正向引物和包含一P7序列的一反向引物的PCR扩增用于将P5和P7序列添加到所述亚硫酸氢盐转化的DNA中。可选地,在文库制备期间,多个唯一分子标识符(UMI)可通过适配器连接添加到多个核酸分子(例如多个DNA分子)中。所述多个唯一分子标识符(UMIs)是多个短的核酸序列(例如,4-10个碱基对),在适配器连接期间添加到多个DNA片段的末端。在一些实施例中,UMIs是多个简并(degenerate)碱基对,其作为一唯一标记以可用于识别源自一特定DNA片段的多个序列读数。在PCR扩增过程后适配器连接期间,所述多个唯一分子标识符与附加的多个DNA片段一起复制,以在下游分析中提供了一种方法以识别来自相同原始片段的多个序列读数。
多个序列读数由DNA序列生成。所述方法可包含下一代测序(NGS)技术,包含合成技术(Illumina公司)、焦磷酸测序(454 Life Sciences公司)、离子半导体技术(IonTorrent测序)、单分子实时测序(Pacific Biosciences公司)、边连接边测序(SOLiD测序),纳米孔测序(Oxford Nanopore Technologies公司),或双端测序(paired-endsequencing)。在一些实施例中,通过使用具有多个可逆染料终止子(reversible dyeterminators)的边合成边测序(sequencing-by-synthesis)来执行大规模平行测序。
然后从所述多个序列读数生成多个甲基化状态向量。为了做到这一点,一序列读数与一参考基因组相对准。所述参考基因组有助于提供cfDNA片段源自一人类基因组中的位置。在一个简化的示例中,所述序列读数被对准,使得三个CpG位点与CpG位点23、24和25(为了便于描述而使用的任意参考标识符)相关。在对准后,具有有关于cfDNA片段上所有CpG位点的甲基化状态和所述多个CpG位点在人类基因组中的位置的信息。根据所述甲基化状态和位置,可以生成所述cfDNA片段的一甲基化状态向量。
数据结构的生成
图3A是根据一个实施例描述对于一健康的对照组(例如多个参考样本)生成一数据结构的程序300的流程图。为了创建一健康的对照组的数据结构,分析系统在从多个健康对象的多个DNA分子或片段中衍生的多个序列读数上获取与多个CpG位点的甲基化状态相关的信息。本文提供的用于创建一健康对照组数据结构的方法可以对于有癌症的多个对象、具有癌症的一来源组织的多个对象、具有一已知癌症类型的多个对象或具有另一种已知疾病状态的多个对象类似地执行。对于每个DNA分子或片段生成一甲基化状态向量(例如,通过程序100)。
利用每个片段的甲基化状态向量,分析系统细分310所述甲基化状态向量为多个字符串(strings)的多个CpG位点。在一个实施例中,分析系统细分310所述甲基化状态向量,使得所产生的多个字符串都小于一给定长度。例如,长度11的一甲基化状态向量可细分为长度小于或等于3的多个字符串,从而导致长度3的9个字符串、长度2的10个字符串和长度1的11个字符串。在另一个示例中,长度7的一甲基化状态向量细分为长度小于或等于4的多个字符串,从而导致长度4的4个字符串、长度3的5个字符串、长度2的6个字符串和长度1的7个字符串。如果一甲基化状态向量小于或与指定字符串长度相同,则所述甲基化状态向量可以转换为单个字符串,所述单个字符串包含所述向量的所有CpG位点。
分析系统通过计算运算(tallies)320所述多个字符串,对于每个可能的CpG位点和在向量中多个甲基化状态的可能性,在对照组中具有特定CpG位点作为字符串中第一个CpG位点并具有甲基化状态可能性的字符串数量。例如,在一给定的CpG位点处,考虑到字符串长度为3,有2^3或8个可能的字符串配置。在那个给定的CpG位点处,对于所述8个可能的字符串配置中的每一个,分析系统运算320在对照组中出现的每一个甲基化状态向量可能性的发生次数。继续此示例,这可能涉及运算以下数量:<Mx、Mx+1、Mx+2>、<Mx、Mx+1、Ux+2>、...、<Ux、Ux+1、Ux+2>(对于在参考基因组中每个起始CpG位点x)。分析系统创建330数据结构,存储每个起始CpG位点和字符串可能性的运算计数。
设置字符串长度的一上限具有几个好处。首先,取决于一字符串的最大长度,通过分析系统创建的数据结构的大小可以在大小上急遽地增加。例如,最大字符串长度为4意味着,每个CpG位点最起码有24个数字用于运算长度为4的字符串。将最大字符串长度增加到5意味着每个CpG位点都有另外的24或16个数字要运算,与之前的字符串长度相比,要运算的数字(以及所需的计算机内存)多了一倍。在计算和存储方面,减小字符串大小有助于保持合理的数据结构的创建和性能(例如,用于如下所述的以后访问)。其次,限制最大字符串长度的统计考虑是避免过度拟合使用字符串计数的下游模型。如果长字符串的多个CpG位点(在生物学上)对结果(例如,预测癌症的存在的预测异常)没有很强的影响,基于大字符串的多个CpG位点的概率可能会有问题,因为它需要大量的数据,而这些数据可能不可用,因此,对于一个模型适当地执行来说过于稀疏。例如,计算以前100个CpG位点为条件的异常/癌症的一概率将需要长度100的数据结构中的多个字符串计数,理想情况下,某些与前面100个甲基化状态完全匹配。如果只有长度100的字符串的稀疏计数可用,则没有足够的数据来确定测试样本中给定的长度为100的字符串是否异常。
数据结构的验证
一旦创建了数据结构,分析系统可能会试图验证340所述数据结构和/或使用所述数据结构的任何下游模型。一种类型的验证检查对照组的数据结构内的一致性。例如,如果在一个对照组中有任何离群值(outlier)的多个对象、多个样本和/或多个片段,然后所述分析系统可以执行各种计算,以确定是否从这些类别中排除任何片段。在一个代表的示例中,健康对照组可能含有一个未被诊断出但有癌性的一样本,使得所述样本中含有异常甲基化的多个片段。此第一类型的验证确保从健康对照组中移除潜在的癌性样本,从而不会影响对照组的纯正(purity)。
一第二类型的验证检查用于使用数据结构本身(即来自健康对照组)的计数来计算多个p值的概率模型。下面结合图5描述p值计算的一程序。一旦所述分析系统针对验证组中的多个甲基化状态向量生成一p值,所述分析系统使用多个p值构建一累积密度函数(cumulative density function,CDF)。使用所述CDF,所述分析系统可以对所述CDF执行各种计算,以验证对照组的数据结构。一个测试使用了所述CDF在理想情况下应为或低于一恒等函数(identity function)的事实,使得CDF(x)≤x。相反的,高于所述恒等函数则表明用于对照组数据结构的概率模型中存在一些缺陷。例如,如果1/100的片段具有一p值得分为1/1000,意味着CDF(1/1000)=1/100>1/1000,则所述第二类型的验证失败,表明概率模型存在问题。
一第三类型的验证使用了从用于构建所述数据结构的那些分离的多个验证样本的一健康集合,用于测试所述数据结构是否构建正确,所述模型是否有效。下面结合图3B描述了执行此类型的验证的示例程序。所述第三类型的验证可以量化所述健康对照组对多个健康样本分布的概括(generalizes)程度。如果所述第三类型的验证失败,则所述健康对照组就不能很好地概括健康分布。
一第四类型的验证测试,多个样本来自一非健康验证组。所述分析系统计算多个p值并对所述非健康验证组构建CDF。对于一非健康验证组,所述分析系统预计看到至少一些样本的CDF(x)>x,或者,换句话说,在所述健康对照组和所述健康验证组的所述第二类型的验证和所述第三类型的验证中预期的结果相反。如果所述第四种类型的验证失败,则这表示模型没有适当地识别设计用来识别的异常。
图3B是根据一个实施例描述验证图3A的对照组的数据结构的附加步骤340的流程图。在验证所述数据结构的步骤340的这个实施例中,所述分析系统执行如上所述的第四类型的验证测试,其利用一验证组,所述验证组具有假设与对照组相似组合的多个对象、多个样本和/或多个片段。例如,如果所述分析系统为对照组选择不具有癌症的多个健康对象,则所述分析系统也使用所述验证组中不具有癌症的多个健康对象。
所述分析系统采用所述验证组并生成100多个甲基化状态向量的一集合,如图3A所示。所述分析系统对来自所述验证组的每个甲基化状态向量执行一p值计算。所述p值计算程序将结合图4和图5进一步描述。对于每个甲基化状态向量的可能性,所述分析系统从对照组的数据结构计算一概率。一旦对于甲基化状态向量的多个可能性被计算出概率,所述分析系统基于计算出的多个概率计算350该甲基化状态向量的一p值得分。所述p值得分代表了发现特定甲基化状态向量和其他可能甲基化状态向量在对照组中具有更低概率的期望值。因此,一低的p值得分通常对应于一甲基化状态向量,所述甲基化状态向量与对照组内其他甲基化状态向量相比相对非期望的,其中一高p值得分通常对应于一甲基化状态向量,所述甲基化状态向量与在对照组中发现的其他甲基化状态向量相比相对更期望。一旦所述分析系统对所述验证组中的多个甲基化状态向量生成一p值得分,所述分析系统将使用来自所述验证组的所述p值得分构建360一累积密度函数(CDF)。所述分析系统验证370上述第四类型的验证测试中CDF的一致性。
异常甲基化片段
图4是根据一个实施例描述用于识别来自一对象的多个异常甲基化片段的程序400的流程图。程序400的一个示例在图5中直观地示出,并且在图4的描述在下面进一步描述。在程序400中,所述分析系统从所述对象的多个cfDNA片段生成100多个甲基化状态向量。所述分析系统如下处理每个甲基化状态向量。
在一些实施例中,所述分析系统在一个或多个CpG位点处过滤具有不确定状态的多个片段。在这些实施例中,所述分析系统执行一预测模型以识别不太可能具有一异常甲基化模式的多个片段以用于过滤。对于一样本片段,所述预测模型计算与健康对照组的数据结构相比样本片段的甲基化状态向量发生的一样本概率。所述预测模型随机抽样多个可能甲基化状态向量的一子集,所述多个可能甲基化状态向量的所述子集包含所述样本片段的甲基化状态向量中的多个CpG位点。所述预测模型计算对应于多个抽样的可能甲基化状态向量中的每一个的一概率。对于所述片段的甲基化状态向量和所述多个抽样的可能甲基化状态向量的多个概率计算可以根据一马尔可夫链(Markov chain)模型计算,如下小节“P值得分计算”中所述。所述预测模型计算所述多个抽样的可能甲基化状态向量对应于小于或等于样本概率的多个概率的一比例。所述预测模型基于计算出的比例为所述片段生成一估计的p值得分。所述预测模型可以过滤对应于高于一阈值的多个p值得分的多个片段,及保留对应于低于所述阈值的多个p值得分的多个片段。
在其他实施例中,所述预测模型可以计算一置信概率,所述置信概率是所述预测模型用于确定何时继续或何时终止采样。所述置信概率描述了片段的真实p值得分(将在下面标题为“P值得分计算”小节中进一步描述的真实p值得分的计算)低于基于估计的p值得分和多个抽样的可能甲基化状态向量的概率的一阈值的可能性。所述预测模型可以在迭代计算所述估计的p值得分和所述置信概率的同时,对另外一个或多个可能的甲基化状态向量进行抽样。当所述置信概率高于一置信阈值时,所述预测模型可以终止抽样。
对于一给定的甲基化状态向量,所述分析系统列举410在所述甲基化状态向量中具有相同的起始CpG位点和相同的长度(即,多个CpG位点的一集合)的多个甲基化状态向量的所有可能性。由于每个观察到的甲基化状态可能是甲基化或未甲基化,每个CpG位点只有两个可能的状态,因此甲基化状态向量的不同可能性的计数取决于2的幂次,因此长度为n的一甲基化状态向量将与甲基化状态向量的2n个可能性相关联。利用多个甲基化状态向量包含一个或多个CpG位点的多个不确定状态,所述分析系统可以列举410仅考虑具有多个观察状态的多个CpG位点的多个甲基化状态向量的可能性。
所述分析系统通过访问健康对照组数据结构,计算420观察已识别起始CpG位点/甲基化状态向量长度的甲基化状态向量的每个可能性的概率。在一个实施例中,计算观察一给定的可能性的概率使用马尔可夫链概率来建模联合概率计算,下面将关于图5更详细地描述所述联合概率计算。在其它实施例中,使用马尔可夫链概率以外的计算方法来确定观察甲基化状态向量的每个可能性的概率。
所述分析系统使用计算出的对于每种可能性的多个概率计算430对于甲基化状态向量的一p值得分。在一个实施例中,这包含识别与匹配所讨论的所述甲基化状态向量的可能性相对应的计算概率。具体地说,这是具有多个CpG位点的相同集合,或类似地具有相同的起始CpG位点和长度作为甲基化状态向量的可能性。所述分析系统将具有概率小于或等于识别概率的任何可能性的计算概率相加,以生成p值得分。
此p值代表观察片段的甲基化状态向量,或者其他甲基化状态向量在健康对照组中甚至更低的可能性的概率。因此,一低的p值得分通常对应于在一健康对象中是罕见的一甲基化状态向量,并且相对于健康对照组,这会导致片段被标记为异常甲基化。一高的p值得分通常与在一个健康的对象中预期存在(在相对意义上)的一甲基化状态向量有关。如果健康对照组是非癌症组,例如,一低的p值表示所述片段相对于所述非癌症组是异常甲基化,因此可能表示测试对象中存在癌症。
如上所述,所述分析系统计算多个甲基化状态向量中的每一个的p值得分,每个代表测试样本中的一cfDNA片段。为了辨识哪些片段是异常甲基化,所述分析系统可以基于它们的p值得分过滤440所述多个甲基化状态向量的所述集合。在一个实施例中,通过将所述多个p值得分与一阈值进行比较并仅保留在所述阈值以下的那些片段来执行滤波。此阈值p值得分可以是0.1、0.01、0.001、0.0001或类似的值。
根据程序400的示例结果,所述分析系统可以为训练中不具有癌症的参与者生成中位数(范围)为2800(1500-12000)的具有异常甲基化模式的片段,以及在训练中具有癌症的参与者生成中位数(范围)为3000(1200-220000)的具有异常甲基化模式的片段。这些具有多个异常甲基化模式的过滤的多个片段的多个集合可用于下文标题为“异常甲基化片段的过滤”的小节中所述的下游分析。
P值得分计算
图5是根据一个实施例的示例p值得分计算的图示500。为了计算给定的一测试甲基化状态向量505的一p值得分,所述分析系统采用该测试甲基化状态向量505并列举410多个甲基化状态向量的多个可能性。在这个说明性示例中,所述测试甲基化状态向量505是<M23,M24,M25,U26>。由于所述测试甲基化状态向量505的长度是4,包含CpG位点23-26的多个甲基化状态向量的多个可能性有24种。在一般示例中,多个甲基化状态向量的多个可能性的数量是2n,其中n是所述测试甲基化状态向量的长度,或者替代地是滑动窗口的长度(下文进一步描述)。
分析系统计算420多个甲基化状态向量列举的多个可能性的概率515。由于甲基化是有条件地取决于邻近的多个CpG位点的甲基化状态,计算观察一给定的甲基化状态向量的可能性的概率的一种方法是使用马尔可夫链模型。通常,一甲基化状态向量,例如<S1,S2,...,Sn>,其中S表示甲基化状态,是否是甲基化(表示为M)、未甲基化(表示为U)或不确定(表示为I),具有一联合概率(joint probability),可以使用概率的连锁法(chain rule)展开为:
P(<S1,S2,...,Sn>)=P(Sn|S1,...,Sn-1)*P(Sn-1|S1,...,Sn-2)*...*P(S2|S1)*P(S1)(1)
马尔可夫链模型可以被用于使每种可能性的条件概率计算更加有效。在一个实施例中,所述分析系统选择一马尔可夫链阶(Markov chain order)k,所述马尔可夫链阶k对应于在条件概率(conditional probability)计算中需考虑在向量(或窗口)中先前的CpG位点数量,使得条件概率被建模为P(Sn|S1,...,Sn-1)~P(Sn|Sn-k-2,...,Sn-1)。
为了计算甲基化状态向量的可能性的每个马尔可夫建模的概率,所述分析系统访问对照组的数据结构,特别是不同字符串的CpG位点和状态的计数。为了计算P(Mn|Sn-k-2,...,Sn-1),所述分析系统将来自数据结构匹配<Sn-k-2,...,Sn-1,Mn>的字符串的数量的存储计数除以来自数据结构匹配<Sn-k-2,...,Sn-1,Mn>及<Sn-k-2,...,Sn-1,Un>的字符串的数量的存储计数之和。因此,P(Mn|Sn-k-2,...,Sn-1)是计算得出的比率,其公式如下:
Figure BDA0002812886910000761
所述计算还可以另外通过应用一先验分布来实现计数的平滑。在一个实施例中,所述先验分布是一均匀的先验,例如拉普拉斯平滑(Laplace smoothing)。例如,在上述方程式的分子上加一常数,在上述方程的分母上加上另一个常数(例如分子中常数的两倍)。在其它实施例中,使用例如Knesser-Ney平滑的算法技术。
在图示中,上述表示的公式应用于覆盖位点23-26的测试甲基化状态向量505。一旦计算的概率515完成,所述分析系统计算430一p值得分525,其加总小于或等于甲基化状态向量与测试甲基化状态向量505匹配的可能性的概率。
在具有多个不确定状态的多个实施例中,所述分析系统可计算出在一片段的甲基化状态向量中具有多个不确定状态的多个CpG位点的一p值得分。所述分析系统识别具有和甲基化状态向量的所有甲基化状态一致的所有的可能性,不包含不确定状态。所述分析系统可以将概率分配给甲基化状态向量,作为多个已识别的可能性的概率的一总和。作为一示例,所述分析系统计算一甲基化状态向量<M1,I2,U3>的一概率,作为甲基化状态向量<M1,M2,U3>和<M1,U2,U3>的可能性的一总和,因为CpG位点1和3的甲基化状态被观察到,并且与CpG位点1和3处的片段的甲基化状态一致。这种总和求出具有不确定状态的CpG位点的方法使用了高达2i的可能性概率的计算,其中i表示甲基化状态向量中不确定状态的数目。在另外的实施例中,动态规划算法可以被执行来计算具有一个或多个不确定状态的一甲基化状态向量的概率。有利的是,所述动态规划算法在线性计算时间内操作。
在一个实施例中,计算多个概率和/或多个p值得分的运算负担可以通过缓存至少一些计算来进一步降低。例如,所述分析系统可以在临时或持久内存中缓存针对多个甲基化状态向量(或其窗口)的多个可能性的概率计算。如果其他片段具有相同的多个CpG位点,则缓存多个可能性概率可以有效率的计算p值得分,而无需重新计算潜在的可能性概率。同样,所述分析系统可以从向量(或其窗口)与多个CpG位点的一集合相关联的多个甲基化状态向量的多个可能性中的每一个计算多个p值得分。所述分析系统可以缓存所述多个p值得分,以用于确定包含相同CpG位点的其他片段的p值得分。通常,具有相同CpG位点的多个甲基化状态向量的可能性的p值得分可用于确定来自同一集合的多个CpG位点的不同CpG位点的可能性的p值得分。
滑动窗口
在一个实施例中,所述分析系统使用435一滑动窗口来确定多个甲基化状态向量的可能性并计算p值。不是针对整个甲基化状态向量列举可能性和计算p值,所述分析系统而是仅针对连续的(sequential)多个CpG位点的一窗口列举可能性并计算p值,其中所述窗口的长度(CpG位点的长度)比至少一些片段的长度短(否则,窗口毫无意义)。窗口长度可以是静态的、用户确定的、动态的或以其他方式选择的。
在计算大于所述窗口的一甲基化状态向量的p值时,所述窗口从向量中的第一个CpG位点开始,在窗口内从向量识别多个CpG位点的序列集合。所述分析系统计算对于所述窗口(包含第一个CpG位点)的一p值得分。然后,所述分析系统将所述窗口“滑动(slides)”到向量中的第二个CpG位点,并计算第二个窗口的另一个p值得分。因此,对于一窗口大小l和甲基化向量长度m,每个甲基化状态向量将生成m-l+1个p值得分。在完成对于向量的每个部分的p值计算后,所有滑动窗口中的最低p值得分被作为甲基化状态向量的整体的p值得分。在另一实施例中,所述分析系统总合多个甲基化状态向量的多个p值得分以生成一整体的p值得分。
使用所述滑动窗口有助于减少甲基化状态向量列举的可能性的数量及其相对应的概率计算,否则将需要执行这些操作。示例概率计算如图5所示,但通常甲基化状态向量的可能性的数量随着甲基化状态向量的大小成指数地增加2倍。在一个现实的示例,对于多个片段有可能有54个以上的CpG位点。作为对2^54(~1.8×10^16)种可能性计算概率来生成单个p值得分的替代,所述分析系统可以改为使用大小为5的一窗口(例如),从而对该片段的甲基化状态向量的50个窗口中的每个窗口进行50个p值计算。50个计算中的每一个都列举了甲基化状态向量的2^5(32)个可能性,总的结果是50×2^5(1.6×10^3)个概率计算。这导致要执行的计算大大减少,而对异常片段的准确识别没有任何意义。当用验证组的甲基化状态向量验证240对照组时,此附加步骤也可应用。
异常甲基化片段的过滤
在一些实施例中,执行附加过滤步骤以识别可用于癌症或癌症的一类型或阶段诊断的多个基因组区域。
低甲基化和高甲基化片段
一个附加的分析从经过滤的集合中识别450多个低甲基化片段或多个高甲基化片段。低甲基化或高甲基化的多个片段可被定义为一定长度的多个CpG位点(例如,超过3、4、5、6、7、8、9、10个等)的多个片段,分别具有一高百分比的甲基化的多个CpG位点(例如,超过80%、85%、90%或95%,或50%至100%范围内的任何其他百分比)或一高百分比的未甲基化的多个CpG位点(例如超过80%、85%、90%或95%或50%至100%范围内的任何其他百分比)。下文描述图6A至图6B示出了基于异常甲基化的多个片段的一集合来识别一基因组的这些低甲基化或高甲基化部分的示例程序。
概率模型
根据第二种方法,利用适合于癌症类型或非癌症类型的多个甲基化模式的多个概率模型进一步过滤异常的多个片段。它计算从一对象的多个异常片段通常表示癌症或特定类型的癌症的对数概率比(log-odds ratio)。所述对数概率比可以通过采用为癌性的一概率与为非癌性的一概率(即1减去为癌性的概率)之比的对数来计算,两者均由所应用的460分类模型确定。
在划分基因组的一个实施例中,所述分析系统将所述基因组划分为多个阶段的多个区域。在一第一阶段,所述分析系统将所述基因组分成多个CpG位点的多个区块。当两个相邻的CpG位点之间的一间隔超过某些阈值时(例如大于200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1000bp)则每个区块被定义。从每个区块,所述分析系统在一第二阶段将每个区块细分为一定长度的多个区域,例如500bp、600bp、700bp、800bp、900bp、1000bp、1100bp、1200bp、1300bp、1400bp或1500bp。所述分析系统可能进一步以长度的一百分比重叠相邻的多个区域,例如10%、20%、30%、40%、50%或60%。
所述分析系统分析对于每个区域衍生自多个DNA片段的多个序列读数。所述分析系统可以处理来自组织和/或高信号cfDNA的多个样本。高信号cfDNA样本可以通过一二元分类模型、通过癌症阶段或通过其他指标来确定。
对于每一种癌症类型和非癌症,所述分析系统会对于多个片段采用适合的一单独的概率模型。在一个示例中,每个概率模型是一混合模型,所述混合模型包含多个混合组分的一组合,每个混合组分是一独立位点模型,其中在每个CpG位点处的甲基化被假定独立于其它CpG位点处的甲基化状态。
在替代的实施例中,计算关于每个CpG位点被进行。具体地说,一第一次计数确定为包含与该CpG重叠的一异常甲基化DNA片段的癌性样本的数量(癌症_计数(cancer_count)),及一第二次计数确定集合中含有与该CpG(总计)重叠的多个片段的样本总数。基因组区域可以基于数量来选择,例如,基于与癌性样本的数量(癌症_计数)正相关的标准,其包含与该CpG重叠的一DNA片段,及集合中含有与该CpG(总计)重叠的多个片段的样本总数成反相关。
所述分析系统可以进一步计算对于一片段的对数似然比(log-likelihoodratios)(“R”),所述片段表示片段似然性,所述片段似然性表示癌症考虑到各种癌症类型,以及多种癌症类型的每一种、非癌症类型、或一癌症起源组织的适合的概率模型。这两种概率可以从适合于多种癌症类型的每一种和非癌症类型的概率模型中获取,所述概率模型定义以计算在给定的多种癌症类型的每一种和非癌症类型的一片段上观察一甲基化模式的似然性。例如,所述概率模型可以适合于多种癌症类型的每一种和非癌症类型。
图11A-11C示出了不同阶段的各种对象的各种癌症的图表,绘制了根据对上面图4描述的程序识别出的多个异常片段的对数概率比。这些基础数据是通过对CCGA对象(Clinical Trial.gov识别符:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978;参见示例3)的全基因组亚硫酸氢盐测序获得。简单地说,数据从多于1700个临床可评估的对象获得,其中多于1400个对象被筛选,包含近600个不具有癌症的对象和刚刚超过800个具有癌症的对象。图11A中的第一图示1100示出了三个不同水平的所有癌症案例-非癌症;第I/II/II阶段;和第IV阶段。对于第IV阶段的癌症对数概率比显着大于第I/II/II阶段和非癌症的那些。图11A中的第二图示1110示出了癌症的所有阶段和非癌症中的乳腺癌案例,在癌症的进展阶段,对数概率比也有类似的增加。图11B中的第三图示1120示出了乳腺癌的多个亚型。值得注意的是,F1ER2+和TNBC亚型分布更广,而F1R+/F1ER2-集中在~1附近。图11C中的第四图示1130示出了癌症的所有阶段和非癌症中的肺癌案例,在肺癌的进展阶段有稳定的进展。第五图示1140示出了在癌症的所有阶段和非癌症中的结直肠癌案例,再一次示出了结直肠癌进展阶段的稳定进展。图11C中的第六图示1150示出了在癌症的所有阶段和非癌症中的前列腺癌案例。此示例与先前示出的大多数不同,只有第IV阶段与其他第I/II/II阶段和非癌症相比有显着的不同。
表示癌症的基因组区域和分类器
所述分析系统识别460表示癌症的多个基因组区域。为了识别这些信息区域,所述分析系统计算对于每个基因组区域的信息增益,或者更具体地说,每个CpG位点描述了区分不同结果的能力。
一种用于识别多个基因组区域能够区分癌症类型和非癌症类型的方法使用了一训练后的分类模型,所述训练后的分类模型可以被应用在对应于或衍生自一癌性或非癌性群组的异常甲基化的多个DNA分子或多个片段的集合。所述训练后的分类模型可以被训练以识别任何可以从多个甲基化状态向量中识别出的感兴趣的条件。
在一个实施例中,所述训练后的分类模型是基于多个cfDNA片段或多个基因组序列的多个甲基化状态训练的二元分类器,所述多个cfDNA片段或所述多个基因组序列来自于具有癌症或一癌症类型的一对象群体(cohort)和不具有癌症的一健康对象群体,然后基于多个甲基化状态向量用于对具有癌症、一癌症类型,或不具有癌症分类一测试对象概率。在其它实施例中,可以使用已知具有特定癌症(例如,乳腺癌、肺癌、前列腺癌等)、已知具有癌症的特定起源组织(癌症据认为起源的地方)、或已知具有特定癌症的不同阶段(例如,乳腺癌、肺癌、前列腺癌等)的多个对象群组来训练不同的分类器。在这些实施例中,可以使用从已知具有特定癌症(例如,乳腺癌、肺癌、前列腺癌等)来自多个对象群体的肿瘤细胞扩增的多个样本中获得的多个序列读数来训练不同的分类器。在分类模型中,每个基因组区域区分癌症类型和非癌症类型的能力被用来将基因组区域从信息最丰富到信息最少在分类执行中进行排名。所述分析系统可以根据非癌症类型和癌症类型之间在分类中的信息增益的排名中识别多个基因组区域。多个探针可以被设计成470以标靶识别的多个基因组区域。
从表示癌症的低甲基化和高甲基化片段中计算信息增益
根据一个实施例,利用表示癌症的多个片段,所述分析系统可以根据图6A所示的程序600训练一分类器。所述程序600访问两个样本训练组(一非癌症组和一癌症组)及获得605多个甲基化状态向量的一非癌症集合和包含多个异常甲基化片段的多个甲基化状态向量的一癌症集合,例如通过程序400的步骤440。
所述程序确定610(对于每个甲基化状态向量)甲基化状态向量是否表示癌症。这里,如果至少一些数量的CpG位点具有一特定状态(分别为甲基化或未甲基化)和/或具有所述特定状态的多个位点的一阈值百分比(再次分别为甲基化或未甲基化),则表示癌症的多个片段被定义为高甲基化或低甲基化的多个片段。在一个示例中,如果片段与至少5个CpG位点重叠,并且其CpG位点的至少80%是甲基化或至少80%是未甲基化,则多个cfDNA片段分别被识别为低甲基化或高甲基化。在一个替代的实施例中,所述程序考虑甲基化状态向量的多个部分并确定所述部分是否低甲基化还是高甲基化,并且可以区分该部分是低甲基化还是高甲基化。此替代方法解决了丢失的多个甲基化状态向量,所述丢失的多个甲基化状态向量的尺寸很大,但含有至少一个区域的密集的低甲基化或高甲基化。这种定义低甲基化和高甲基化的程序可应用于图4的步骤450中。在另一实施例中,可根据从多个训练后的概率模型输出的似然性来定义表示癌症的多个片段。
在一个实施例中,所述程序在基因组中的每个CpG位点产生620一低甲基化得分(Phypo)和一高甲基化得分(Phyper)。为了在一给定的CpG位点处生成任何一个得分,所述分类器在该CpG位点处取四个计数(1)与CpG位点重叠的标记为低甲基化的癌症集合的(甲基化状态)多个向量的计数;(2)与CpG位点重叠的标记为高甲基化的癌症集合的多个向量的计数;(3)与CpG位点重叠的标记为低甲基化的非癌症集合的多个向量的计数;以及(4)与CpG位点重叠的标记为高甲基化的非癌症集合的多个向量的计数。此外,所述程序可以使每个组的这些计数标准化,以解释非癌症组和癌症组之间群组大小的差异。在替代的实施例中,表示癌症的多个片段更普遍地被使用,所述多个得分可以更广泛地定义为在每个基因组区域和/或CpG位点处表示癌症的多个片段的计数。
具体而言,在一个实施例中,为了在一给定的CpG位点生成620低甲基化得分,所述程序采用(1)与(1)和(3)加总的比率。类似地,高甲基化得分是通过取(2)除以(2)和(4)的比率来计算。此外,这些比率可通过上文讨论的附加平滑技术来计算。所述低甲基化得分和高甲基化得分与癌症概率的估计有关,考虑到来自癌症集合的多个片段的低甲基化或高甲基化的存在。
所述程序为每个异常甲基化状态向量生成630一总合的低甲基化得分和一总合的高甲基化得分。所述总合的高甲基化和低甲基化得分,是基于甲基化状态向量中所述多个CpG位点的高甲基化和低甲基化得分来确定。在一个实施例中,总合的高甲基化得分和低甲基化得分分别被分配为每个状态向量中所述多个位点的最大高甲基化和低甲基化得分。然而,在替代的实施例中,所述多个总合的得分可基于平均值、中位数或使用每个向量中所述多个位点的高/低甲基化得分的其他计算。
所述程序600通过其总合的低甲基化得分和总合的高甲基化得分对该对象的多个甲基化状态向量进行排名640,结果每个对象有两个排名。所述程序从低甲基化排名中选择总合的低甲基化得分,从高甲基化排名中选择总合的高甲基化得分。根据所选的多个得分,所述分类器为每个对象生成650单个特征向量。在一个实施例中,从任一排名中选择的多个得分以一固定顺序选择,对于多个训练组中的每一个的每个对象的每个生成的特征向量是相同的。作为一示例,在一个实施例中,所述分类器从每个排名中选择第一、第二、第四和第八总合的高甲基化得分,及类似地对于每个总合的低甲基化得分,以及将这些得分写入该对象的特征向量中。
所述程序训练660一二元分类器,以区分癌症和非癌症训练组之间的多个特征向量。一般来说,可以使用许多分类技术中的任何一种。在一个实施例中,所述分类器是一非线性分类器。在具体实施例中,所述分类器是一非线性分类器利用具有高斯径向基函数(RBF)核(Gaussian radial basis function kernel)的一L2正则化核逻辑回归(L2-regularized kernel logistic regression)。
具体而言,在一个实施例中,非癌性样本或(多种)不同癌症类型(nother)的数量以及具有与一CpG位点重叠的一异常甲基化片段的癌症样本或(多种)癌症类型(ncancer)的数量被计算。然后,一样本是癌症的概率通过一得分(“S”)来估计,所述得分与ncancer呈正相关,而与nother呈负相关。所述得分可以使用以下公式计算:(ncancer+1)/(ncancer+nother+2)or(ncancer)/(ncancer+nother)。所述分析系统计算670每种癌症类型和每个基因组区域或CpG位点的一信息增益,以确定所述基因组区域或CpG位点是否表示癌症。计算具有一给定癌症类型的多个训练样本与所有其他样本相比的信息增益。例如,使用两个随机变量“异常片段”(“AF”)和“癌症类型”(“CT”)。在一个实施例中,AF是表示在一给定样本中是否存在与一给定CpG位点重叠的一异常片段的二进制变量,如针对上述异常得分/特征向量而确定。CT是用来表示癌症是否属特定类型的一随机变量。所述分析系统计算与给定的AF相关的CT的相互信息。也就是说,如果知道是否有在一特定的CpG位点上重叠的一异常片段,就可以获得多少关于癌症类型的信息。
对于一给定的癌症类型,所述分析系统基于其癌症特异性如何使用此信息对CpG位点进行排名。这个程序是重复对所有癌症类型的考虑。如果一特定区域在一给定的癌症的多个训练样本中通常是异常甲基化,而在其他癌症类型的多个训练样本或多个健康训练样本中却没有,则通过那些异常片段重叠的多个CpG位点对于所述给定的癌症类型往往具有高的信息增益。对于每种癌症类型排名后的CpG位点被贪婪地添加(选择)到基于他们的排名的多个CpG位点的一选定的集合,以用于癌症分类器。
从概率模型中识别出表示癌症的片段计算成对的信息增益
根据多个概率模型下的所述第二种方法识别出的表示癌症的多个片段,所述分析可根据图6B中的流程680识别多个基因组区域。所述分析系统为每个样本、每个区域、每种癌症类型定义690一特征向量,通过对具有一计算出的对数似然比的多个DNA片段的一计数,所述片段表示高于多个阈值的癌症,其中每个计数是所述特征向量中的一值。在一个实施例中,所述分析系统对每种癌症类型在对数似然比高于一个或多个可能阈值的一区域处的一样本中存在的多个片段的数量进行计数。所述分析系统通过为每种癌症类型的每个基因组区域的多个DNA片段的一计数来定义对于每个样本的一特征向量,其为高于多个阈值的片段提供一计算的对数似然比,其中每个计数是所述特征向量中的一值。所述分析系统使用被定义的多个特征向量来计算每个基因组区域描述该基因组区域区分多个癌症类型中的每一对之间的能力的一信息得分。对于多个癌症类型中的每一对,所述分析系统基于多个信息得分对多个区域进行排名。所述分析系统可以根据多个信息得分基于所述排名选择多个区域。
所述分析系统计算695对于描述区分多个癌症类型中的每一对之间的能力的每个区域的一信息得分。对于每一对不同的癌症类型,所述分析系统可以指定一种类型为一阳性类型(positive type),另一种类型为一阴性类型(negative type)。在一个实施例中,区分所述阳性类型和所述阴性类型之间的一区域的能力是基于相互信息,使用所述阳性类型和所述阴性类型的多个cfDNA样本的估计分数进行计算,其中所述特征在最终化验中将不为零,即该等级的至少一个片段在一标靶甲基化化验中测序。这些分数是使用观察到的在健康cfDNA、高信号cfDNA和/或每种癌症类型的肿瘤样本中出现的特征的比率来估计的。例如,如果一特征在健康的cfDNA中频繁出现,则它也将被估计为在任何癌症类型的cfDNA中频繁出现,并且可能导致一低的信息得分。所述分析系统可以从排名中为多个癌症类型中的每一对选择一定数量的区域,例如1024。
在其他实施例中,所述分析系统进一步从多个区域的排名中识别主要的高甲基化或低甲基化的多个区域。所述分析系统可以为被标识为信息的一区域加载(多个)阳性类型的多个片段的一集合。所述分析系统从加载的多个片段中,评估加载的多个片段主要是高甲基化还是低甲基化。如果所述加载的多个片段主要是高甲基化或低甲基化,所述分析系统可以选择与主要甲基化模式相对应的多个探针。如果所述加载的多个片段不是主要的高甲基化或低甲基化,所述分析系统可使用多个探针的一混合来标靶高甲基化和低甲基化。所述分析系统可以进一步识别重叠超过一定百分比的多个片段的多个CpG位点的一最小集合。
在其他实施例中,所述分析系统在基于多个信息得分对所述多个区域进行排名之后,标记所有癌症类型对中最低信息性排名的每个区域。例如,如果一区域是用于区分乳腺癌和肺癌的第十大信息区域,以及用于区分乳腺癌和结肠直肠癌的第五大信息区域,则该区域给定一总体标签为“5”。所述分析系统可以设计多个探针从最低标签的多个区域开始,同时将多个区域添加到化验板中,例如,直到化验板的大小预算耗尽为止。
脱靶基因组区域
在一些实施例中,标靶所选的多个基因组区域的多个探针基于其脱靶区域的数量被进一步过滤475。这是为了筛选能下拉太多对应于或衍生自多个脱靶基因组区域的多个cfDNA片段的多个探针。排除具有许多脱靶区域的多个探针可能是有价值的,因为它降低了脱靶率,并增加了一给定数量的测序的标靶覆盖率。
一脱靶基因组区域是指与一标靶基因组区域具有显着同源性的一基因组区域,使得从多个脱靶基因组区域衍生的多个DNA分子或多个片段被设计通过设计用于杂交到一标靶基因组区域的一探针杂交并下拉。一非靶标基因组区域可以是一基因组区域,沿着至少35bp、40bp、45bp、50bp、60bp、70bp或80bp以具有至少为80%、85%、90%、95%或97%的匹配率与一探针对准。在一个实施例中,一脱靶基因组区域是一基因组区域沿着至少45bp以至少90%的匹配率与一探针对准。可以采用本领域已知的各种方法来筛选出多个标靶基因组区域。
彻底搜索基因组以找到所有脱靶基因组区域可能在计算上具有挑战性。在一个实施例中,一k-mer(k个碱基的子字符串)接种策略(可允许一个或多个不匹配)组合到多个种子位置处的局部对准。在这种情况下,可以基于k-mer长度、允许的不匹配数量和一特定位置的k-mer种子命中数来保证对良好对准的彻底搜索。这需要在大量位置进行动态编程局部对准,因此此方法被高度优化以使用多个向量CPU指令(例如,AVX2、AVX512),并且可以在一机器内的多个核心上并行,也可以在通过一网络连接在多台机器上并行。本领域普通技术人员将认识到可以对这种方法进行多种修改和多种变型,以识别出脱靶的多个基因组区域。
在一些实施例中,包含大于一阈值数量的多个脱靶基因组区域或对应于或衍生自多个脱靶基因组区域的多个DNA分子与多个探针具有序列同源性的被排除(或过滤)。例如,多于30个、多于25个、多于20个、多于18个、多于15个、多于12个、多于10个或多于5个的脱靶区域的多个脱靶基因组区域或对应于或衍生自多个脱靶基因组区域多个DNA分子与多个探针具有序列同源性被排除。
在一些实施例中,取决于脱靶区域的数量,将探针分为2、3、4、5、6或更多个单独的群组。例如,没有脱靶区域或没有对应于或衍生自多个脱靶区域DNA分子与多个探针具有序列同源性的被分配到高质量组,具有1至18个脱靶区域或对应于或衍生自1至18个脱靶区域与多个探针具有序列同源性的被分配到低质量组,具有19个以上的脱靶区域或对应于或衍生自19个标靶区域的DNA分子与多个探针具有序列同源性被分配到劣质组。其他截止值可用于分组。
在一些实施例中,最低质量组中的多个探针被排除。在一些实施例中,除了最高质量组之外的组中的多个探针被排除。在一些实施例中,为每组中的多个探针制作单独的化验板。在一些实施例中,所有探针使用在相同化验板上,但是基于分配的组执行单独的分析。
在一些实施例中,一化验板包含的数量较多的高质量探针较低的组中的探针的数量多。在一些实施例中,一化验板包含的较少数量的劣质探针少于其他组中的数量。在一些实施例中,一化验板中超过95%、90%、85%、80%、75%或70%的探针是高质量探针。在一些实施例中,一化验板中少于35%、30%、20%、10%、5%、4%、3%、2%或1%的探针是低质量探针。在一些实施例中,一化验板中少于5%、4%、3%、2%或1%的探针是劣质探针。在一些实施例中,一化验板中不包含劣质的探针。
在一些实施例中,低于50%、低于40%、低于30%、低于20%、低于10%或低于5%的探针被排除。在一些实施例中,一化验板中选择性地包含具有30%以上、40%以上、50%以上、60%以上、70%以上、80%以上或90%以上的探针。
癌症化验板的使用方法
在另一方面,提供了多种使用一癌症化验板的方法。所述多种方法可包含步骤:处理多个DNA分子或多个片段,以将未甲基化的胞嘧啶转化为尿嘧啶(例如,使用亚硫酸氢盐处理)、将一癌症化验板(如本文所述)施加到被转换的多个DNA分子或多个片段,扩增与所述化验板中的多个探针杂交(或结合)的转换后多个DNA分子或多个片段的一子集,及对扩增的多个cfDNA片段进行测序。将所述癌症化验板施加到所述被转换的多个DNA分子或多个片段的步骤被执行在转换后的多个DNA分子或多个片段可以结合到所述癌症化验板的多个探针的情况下。因此,转化后的多个DNA分子或多个片段结合到所述多个探针可以被选择性地分离。在一些实施例中,所述多个序列读数可与一参考基因组(例如,一人类参考基因组)进行比较,允许识别在多个DNA分子或多个片段内的多个CpG位点处的多个甲基化状态,从而提供与癌症诊断相关的信息。
样本处理
图7A是根据一个实施例制备用于分析的一核酸样本的方法的流程图。所述方法包含但不限于以下步骤。例如,所述方法的任何步骤可包含用于质量控制的定量子步骤或本领域技术人员已知的其他实验室化验程序。
在步骤105中,从一对象中提取一核酸样本(DNA或RNA)。在本发明的公开中,除非另有说明,否则DNA和RNA可以互换使用。也就是说,本文所描述的实施例可以同时适用于核酸序列的DNA和RNA类型。然而,为了清楚和解释的目的,本文描述的示例可以集中于DNA。所述样本可以包含人类基因组的任何子集,包含整个基因组。所述样本可包含血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中,用于提取一血液样本的多种方法(例如,注射器或手指刺)可比用于获取组织活检的程序(可能需要手术)具有更小的侵入性。提取的样本可以包含cfDNA和/或ctDNA。对于多个健康的个体,人体可能会自然清除cfDNA和其他细胞片段。如果一对象患有一癌症或疾病,提取样本中的ctDNA可能在可检测水平上以用于诊断。
在步骤110中,所述多个cfDNA片段被处理以将未甲基化胞嘧啶转化为尿嘧啶。在一个实施例中,所述方法使用DNA的亚硫酸氢盐处理,将未甲基化胞嘧啶转化为尿嘧啶,而不转化甲基化胞嘧啶。例如,用于亚硫酸氢盐转化的商用试剂盒,如EZ-DNA MethylationTM-Gold、EZ-DNA MethylationTM-Direct或EZ-DNA MethylationTM-Lightning试剂盒(可从Zymo Research Corp公司(加利福尼亚州尔湾市))获得。在另一实施例中,利用一酶反应来完成未甲基化的胞嘧啶到尿嘧啶的转化。例如,所述转化可以使用商业上可买到的试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs公司,马萨诸塞州伊普斯威奇市)。
在步骤115,制备一测序文库。在一第一步骤中,使用一ssDNA连接反应(ligationreaction)将一ssDNA适配器(adapter)添加到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一个实施例中,所述ssDNA连接反应使用环化连接酶(CircLigase)II(Epicentre公司)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端,其中所述适配器的5′-端被磷酸化并且所述亚硫酸氢盐转化的ssDNA已经被脱磷(即,3′端具有一羟基)。在另一实施例中,所述ssDNA连接反应使用热稳定5′AppDNA/RNA连接酶(Thermostable 5′AppDNA/RNA ligase)(可从New England BioLabs公司(马萨诸塞州伊普斯威奇市)获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在本示例中,第一UMI适配器在5′端被腺苷酸化(adenylated)并且在3′端被阻断(blocked)。在另一实施例中,所述ssDNA连接反应使用T4 RNA连接酶(T4 RNA ligase)(可从New England BioLabs公司获得)将所述ssDNA适配器连接到一亚硫酸氢盐转化的ssDNA分子的3′-OH端。在一第二步骤中,在一延伸反应(extension reaction)中合成一第二链DNA。例如,在一引物延伸反应中使用与ssDNA适配器中包含的一引物序列杂交的一延伸引物,以形成一双链亚硫酸氢盐转化的DNA分子。可选地,在一个实施例中,所述延伸反应使用能够读取亚硫酸氢盐转化模板链中的多个尿嘧啶残基(residues)的酶。可选地,在一第三步骤中,将一dsDNA适配器添加到所述双链亚硫酸氢盐转化的DNA分子中。最后,所述双链亚硫酸氢盐转化的DNA被扩增(amplified)以添加多个测序适配器。例如,使用包含一P5序列的一正向引物和包含一P7序列的一反向引物的PCR扩增用于将P5和P7序列添加到所述亚硫酸氢盐转化的DNA中。可选地,在文库制备期间,多个唯一分子标识符(UMI)可通过适配器连接添加到多个核酸分子(例如多个DNA分子)中。所述多个唯一分子标识符(UMIs)是多个短的核酸序列(例如,4-10个碱基对),在适配器连接期间添加到多个DNA片段的末端。在一些实施例中,UMIs是多个简并(degenerate)碱基对,其作为一唯一标记以可用于识别源自一特定DNA片段的多个序列读数。在PCR扩增过程后适配器连接期间,所述多个唯一分子标识符与附加的多个DNA片段一起复制,以在下游分析中提供了一种方法以识别来自相同原始片段的多个序列读数。
在步骤120中,多个标靶DNA序列可从文库中扩增(例如,通过杂交)。可以使用任何合适的扩增方法。例如,在一些实施例中,在(例如,接触)多个样本上执行标靶化验板化验。在扩增中,多个杂交探针(在本文中也被称为“多个探针”)可用于标靶并下拉多个核酸片段,这些片段可提供关于癌症(或疾病)的存在与否、癌症状态或癌症分类(例如,癌症类型或起源组织)的信息。对于一给定的工作流程,所述多个探针可以设计成与DNA或RNA的一标靶(互补的)链进行退火(或杂交)。所述标靶链可以是“正”链(例如,转录成mRNA的链,随后转化为蛋白质)或互补的“负”链。所述多个探针的长度可以是10s、100s或1000s的碱基对。此外,所述多个探针可以覆盖一标靶区域的多个重叠部分。
在某些示例中,多个引物可用于特异性地放大感兴趣的多个标靶/多个生物标记物(例如,通过PCR),从而扩增样本所需的多个标靶/多个生物标记物(可选择不进行杂交捕获)。例如,可以为每个感兴趣的基因组区域制备正向和反向引物,并用于放大对应于或衍生自所需的基因组区域的多个片段。因此,虽然本发明特别关注多种癌症化验板和多种诱饵组,但本发明的范围足够广泛以包含用于扩增无细胞DNA的其他方法。因此,本领域技术人员在本发明的益处下将认识到,类似于本文所述的与杂交捕获相关的方法可以通过用一些其他扩增策略代替杂交捕获来实现,例如对应感兴趣的多个基因组区域的无细胞DNA的多个片段的PCR放大。在一些实施例中,亚硫酸氢盐锁式探针捕获用于扩增多个感兴趣区域,如Zhang等人(美国专利申请案公开第US 2016/0340740号)中所述。在一些实施例中,使用附加或替代方法来扩增(例如,非标靶扩增),例如还原亚硫酸氢盐测序、甲基化限制酶测序、甲基化DNA免疫沉淀测序、甲基CpG结合域蛋白质测序、甲基DNA捕获测序,或微滴PCR。
在下拉和/或杂交(参见步骤120)之后,杂交的多个核酸片段也可以可选地使用PCR放大(扩增125)。例如,可以对多个标靶序列进行扩增以获得可随后测序的多个扩增序列。一般而言,本领域任何已知方法均可用于分离并扩增探针杂交的多个标靶核酸。例如,如本领域已知,可将一生物素部分添加至探针的5′端(即,生物素化),以便于分离使用链霉亲和素涂层表面(例如,链霉亲和素包披珠)与探针杂交的多个标靶核酸。在允许多个核酸片段与多个互补探针特异结合的条件下,将多个核酸片段应用于包含多个探针的一化验板上。因此,它能够选择性的分离和扩增与多个探针有高度亲和力的多个核酸片段。
在步骤130中,多个序列读数从扩增的多个DNA序列(例如,多个扩增序列)生成。测序数据可以通过本领域已知的手段从扩增的多个DNA序列获得。例如,所述方法可包含下一代测序(NGS)技术,包含合成技术(Illumina公司)、焦磷酸测序(454 Life Sciences公司)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences公司)、边连接边测序(SOLiD测序),纳米孔测序(Oxford Nanopore Technologies公司),或双端测序(paired-end sequencing)。在一些实施例中,通过使用具有多个可逆染料终止子(reversible dye terminators)的边合成边测序(sequencing-by-synthesis)来执行大规模平行测序。
序列读数分析
在一些实施例中,所述多个序列读数可以使用本领域已知的方法与一参考基因组对准以确定对准位置信息。所述对准位置信息可表示所述参考基因组中的一起始位置和一结束位置,所述参考基因组中的所述起始位置和所述结束位置对应于一给定序列读数的一起始核苷酸碱基和一结束核苷酸碱基。对准位置信息还可以包含序列读数长度,其可从所述起始位置和所述结束位置确定。所述参考基因组中的一区域可能与一基因或一基因的一片段相关联。
在各种实施例中,一序列读数包含表示为R1和R2的一读数对。例如,第一读数R1可以从一核酸片段的一第一端测序,而第二读数R2可从所述核酸片段的第二端测序。因此,第一读数R1和第二读数R2的核苷酸碱基对可与所述参考基因组的多个核苷酸碱基一致地(例如,在相反方向上)对准。从读数对R1和R2衍生的对准位置信息可以包含所述参考基因组中对应于一第一读数的结束的一起始位置(例如,R1)和所述参考基因组中对应于一第二读数的结束的一结束位置(例如,R2)。换言之,所述参考基因组中的所述起始位置和所述结束位置代表所述参考基因组内所述核酸片段对应的可能位置。具有SAM(序列对准映射)格式或BAM(二进制对准映射)格式的输出文件可以生成并输出,以供进一步分析。
根据所述序列读数,每个CpG位点的位置和甲基化状态可以基于与一参考基因组的对准来确定。此外,每个片段的甲基化状态向量可以被生成以指定所述片段在所述参考基因组中的一位置(例如,通过每个片段中第一CpG位点的位置或另一个类似的度量来指定)、所述片段中的多个CpG位点的一数量,以及所述片段中每个CpG位点的甲基化状态是甲基化(例如,表示为M)、未甲基化(例如,表示为U)或不确定(例如,表示为I)。所述多个甲基化状态向量可以被存储在临时或持久的计算机存储器中以供之后使用和处理。此外,来自一单一对象的多个重复读数或多个重复甲基化状态向量可以被移除。在另一实施例中,可以确定某个片段具有一个或多个具有不确定甲基化状态的CpG位点。这种片段可以从以后的处理中排除,也可以选择性地包含在下游数据模型说明此类不确定的甲基化状态。
图7B是根据一个实施例图7A的程序100的对一cfDNA片段测序以获得一甲基化状态向量的图示。作为一个示例,所述分析系统取用一cfDNA片段112。在本示例中,所述cfDNA片段112包含三个CpG位点。如图所示,cfDNA片段112的第一和第三CpG位点被甲基化114。在处理步骤120期间,所述cfDNA片段112被转换以产生一转换后的cfDNA片段122。在处理120期间,第二未甲基化的CpG位点使其胞嘧啶转化为尿嘧啶。然而,所述第一和第三CpG位点没有被转换。
转换后,准备一测序文库130并测序140生成一序列读数142。所述分析系统将序列读数142与一参考基因组144对准150。所述参考基因组144提供了所述cfDNA片段起源于一人类基因组中的哪个位置。在这个简化的示例中,所述分析系统对准150所述序列读数,使得三个CpG位点与CpG位点23、24和25(为了便于描述而使用的任意参考标识符)相关。所述分析系统因此产生了cfDNA片段112上所有CpG位点的甲基化状态的信息,以及在人类基因组中CpG位点地图定位的信息。如图所示,序列读数142上被甲基化的CpG位点被读作胞嘧啶。在本示例中,胞嘧啶出现在序列读数142中,仅出现在第一和第三CpG位点,这允许推断原始cfDNA片段中的第一和第三CpG位点被甲0基化。然而,第二CpG位点被读作胸腺嘧啶(在测序程序中U被转换成T),因此,可以推断第二CpG位点在原始cfDNA片段中是未甲基化的。利用这两个信息,甲基化状态和位置,所述分析系统为所述片段cfDNA 112生成160一甲基化状态向量152。在此示例中,所得的甲基化状态向量152是<M23,U24,M25>,其中M对应于一甲基化CpG位点,U对应于一未甲基化CpG位点,并且下标号对应于参考基因组中每个CpG位点的位置。
图13A和13B示出了验证来自一对照组的测序一致性的数据的三个图示。第一图示1300示出了不同癌症阶段(阶段0、阶段I、阶段II、阶段III、阶段IV和非癌症)的多个对象从一测试样本获得的cfDNA片段上未甲基化胞嘧啶转化为尿嘧啶(步骤120)的转化精度。如图所示,将多个cfDNA片段上的未甲基化胞嘧啶转化为尿嘧啶具有均一的一致性。总的转化准确率为99.47%,具有一精密度为±0.024%。第二图示1310示出了癌症不同阶段的平均覆盖率。所有组的平均覆盖率为多个DNA片段的基因组覆盖率约34倍(~34X),仅使用确信地映射到所述基因组的那些进行计数。第三图示1320(图13B)示出了不同癌症阶段每个样本的cfDNA浓度。
癌症诊断
通过本文提供的方法获得的多个序列读数可以通过多种自动化算法进一步处理。例如,所述分析系统用于从一测序器接收测序数据并执行如本文所述的各个方面的处理。所述分析系统可以是个人电脑(PC)、台式电脑、膝上型计算机、笔记本电脑、平板电脑、移动装置中的一种。一计算装置可以通过无线、有线或无线和有线通信技术的组合通信地耦合到所述测序器。通常,所述计算装置配置有一处理器和存储器,用于存储多个计算机指令,当由所述处理器执行时,所述多个计算机指令使处理器执行本文档其余部分中描述的步骤。一般来说,遗传数据和由此产生的数据量足够大,而计算能力又要求如此之大,以致于不可能在纸上或仅凭人类的头脑来执行。
多个标靶基因组区域的甲基化状态的临床解释是一程序,所述程序包含对每个甲基化状态或甲基化状态组合的临床效果进行分类,并以对医学专业人员有意义的方式报告结果。所述临床解释可以是基于多个序列读数与特定于癌症或非癌症对象的数据库的比较,和/或基于从一样本中识别出的具有癌症特异性甲基化模式的多个cfDNA片段的数量和类型。在一些实施例中,多个标靶基因组区域基于在多个癌性样本中的差异甲基化的相似性被排名或分类,并且在解释程序中使用多个等级或多个分类。所述多个等级和所述多个分类可以包含(1)临床疗效的类型,(2)疗效证据的强度,以及(3)疗效的大小。临床分析和基因组数据解释的各种方法可用于序列读数的分析。在一些其它实施例中,这种多个差异甲基化区域的多个甲基化状态的临床解释可以基于机器学习方法,所述机器学习方法基于一分类或回归方法来解释一当前样本,所述机器学习方法使用来自癌症和非癌性样本的患者具有已知癌症状态、癌症类型、癌症阶段、起源组织等的多个差异甲基化区域的多个甲基化状态进行训练。
具有临床意义的信息通常可以包含癌症存在或不存在,某些类型的癌症存在或不存在,癌症的阶段,或者其他类型的疾病存在或不存在。在一些实施例中,所述信息涉及一种或多种癌症类型的存在或不存在,所述癌症类型选自由以下组成的群组:(1)血癌;(2)乳腺癌;(3)结直肠癌;(4)食管癌;(5)头颈癌;(6)肝胆癌;(7)肺癌;(8)卵巢癌;和(9)胰腺癌。
癌症分级器
为了训练一癌症类型分类器,所述分析系统获得多个训练样本,每个训练样本具有表示癌症的低甲基化和高甲基化的多个片段的一集合,例如,通过程序400中的步骤450识别,以及训练样本的癌症类型的一标签。所述分析系统基于表示癌症的低甲基化和高甲基化的多个片段的所述集合确定(对于每个训练样本的)一特征向量。所述分析系统计算多个标靶基因组区域中每个CpG位点的一异常得分。在一个实施例中,所述分析系统基于来自包含所述CpG位点的所述集合中是否存在一低甲基化或高甲基化片段,将所述特征向量的所述异常得分定义为二进制得分。一旦确定了一训练样本的所有异常得分,所述分析系统将所述特征向量确定为多个元素的一向量,包含对于每个元素,所述异常得分中的一个与其中所述多个CpG位点中的一个相关联。所述分析系统可以基于样本覆盖率(即所有CpG位点的中位数或平均排序深度)标准化所述特征向量的所述多个异常得分。
使用多个训练样本的多个特征向量,所述分析系统可以对所述癌症分类器进行训练。在一个实施例中,所述分析系统基于所述多个训练样本的所述多个特征向量,训练一二进制癌症分类器,以区分多个标签、癌症和非癌症。在本实施例中,所述分类器输出表示癌症存在或不存在的似然性的一预测得分。在另一实施例中,所述分析系统训练一多类癌症分类器(multiclass cancer classifier),以瘥多种癌症类型之间进行区分。在此多类癌症分类器实施例中,对所述癌症分类器进行训练,以确定一癌症预测,所述癌症预测包含对被分类的多个癌症类型的每一种的一预测值。多个所述预测值可能对应于一给定样本具有所述多种癌症类型中的每一种的一似然性。例如,所述癌症分类器返回一癌症预测,包含对于乳腺癌、肺癌和非癌症的一预测值。例如,所述癌症分类器可以返回对于一测试样本的癌症预测,包含对于乳腺癌、肺癌和/或无癌症的一预测得分。在任一实施例中,所述分析系统通过将多个训练样本的多个集合及其多个特征向量输入到所述癌症分类器中并调整多个分类参数来训练所述癌症分类器,从而所述分类器的一功能能够将所述多个训练特征向量准确地关联到他们相应的标签。所述分析系统可以将所述多个训练样本分组为一个或多个训练样本的多个集合,以用于所述癌症分类器的迭代批次训练。在输入包含其多个训练特征向量的多个训练样本的所有集合并调整多个分类参数后,对所述癌症分类器进行充分训练,以在一定误差范围内根据其特征向量标记多个测试样本。所述分析系统可以根据多种方法中的任何一种来训练所述癌症分类器。例如,二进制癌症分类器可以是使用一对数损失函数(log-loss function)训练的L2正则化逻辑回归分类器(L2-regularized logisticregression classifier)。作为另一个示例,多癌症分类器可以是一多类逻辑回归(multinomial logistic regression)。在实践中,可以使用其他技术训练任何类型的癌症分类器。这些技术有很多,包含潜在使用的多种内核方法(kernel method)、多种机器学习算法(如多层神经网络等),特别是PCT专利申请案第PCT/US2019/022122号和美国专利申请案第16/352602号中所述的方法,其通过引用将其整体并入本文可以用于各种实施例。
在特定实施例中,一癌症分类器通过一程序来训练,所述程序包含以下步骤:a.从多个训练对象中获取多个训练片段的序列信息;b.对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;c.对于每一个训练对象,基于所述多个低甲基化的训练片段及所述多个高甲基化的训练片段产生一训练特征向量;及d.利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。所述训练方法还可以包含以下步骤:a.从多个训练对象中获取多个训练片段的序列信息;b.对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;c.对于在一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;d.对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;e.对于每一个训练对象:基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及基于所述多个训练片段的所述排名生成一特征向量;f.获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及g.利用不具有癌症的所述一个或多个训练对象的所述多个特征向量及具有癌症的所述一个或多个训练对象的所述多个特征向量训练所述模型。在一些实施例中,所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。
在一些实施例中,量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量以及与所述CpG位点重叠的多个高甲基化的训练片段的一数量进一步包含步骤:a.量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一非癌症数量;以及b.量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一非癌症数量。在一些实施例中,基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量来生成一低甲基化得分和一高甲基化得分还包含步骤:a.对于生成所述低甲基化得分,计算多个低甲基化的训练片段的所述癌症数量与多个低甲基化的训练片段的所述癌症数量及多个低甲基化的训练片段的所述非癌症数量的一低甲基化总合的一低甲基化比率;以及b.对于生成所述高甲基化得分,计算多个高甲基化的训练片段的所述癌症数量与多个高甲基化的训练片段的所述癌症数量及多个高甲基化的训练片段的所述非癌症数量的一高甲基化总合的一高甲基化比率。
在部署期间,所述分析系统从一对象收集的一测试样本中获取多个序列读数。本领域可用的各种测序方法可用于获得多个序列读数。在一些实施例中,所述多个序列读数从全基因组测序或标靶测序获得。在一些实施例中,所述多个序列读数包含修饰的多个测试片段的多个序列读数的一集合,其中所述修饰的多个测试片段是通过多个核酸片段的一集合的处理获得,其中所述多个核酸片段中的每一个对应于或衍生自从表1至24中的一个或多个中选择的多个基因组区域。在一些实施例中,所述多个序列读数来自使用如本文描述的化验板扩增的多个DNA样本。
所述分析系统处理所述多个序列读数,以获得与多个训练样本描述的类似程序中一测试特征向量。在一些实施例中,所述测试特征向量通过一程序获得,所述程序包含步骤:a.对于所述多个核酸片段中的每一个,确定所述核酸片段是低甲基化或高甲基化,其中低甲基化和高甲基化的所述多个核酸片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;b.对于一参考基因组中的多个CpG位点中的每一个:量化与所述CpG位点重叠的低甲基化的多个核酸片段的一数量和与所述CpG位点重叠的高甲基化的多个核酸片段的一数量;及基于低甲基化的多个核酸片段和高甲基化的多个核酸片段的所述数量,生成一低甲基化得分和一高甲基化得分;c.对于每一个核酸片段,基于所述核酸片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分和基于所述核酸片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;d.基于总合的低甲基化得分对所述多个核酸片段进行排名,及基于总合的高甲基化得分对所述多个核酸片段进行排名;以及e.基于所述多个核酸片段的所述排名生成所述测试特征向量。
然后,所述分析系统将所述测试特征向量输入到经过训练的癌症分类器中,以产生一癌症预测,例如,二元预测(癌症或非癌症)或多类癌症预测(多种癌症类型中的每一种的预测得分)。在一些实施例中,所述分析系统输出测试样本的一癌症概率。所述癌症概率可以与一阈值概率进行比较,以确定来自一对象的所述测试样本具有癌症或不具有癌症。
示例性测序器和分析系统
图8A是根据一个实施例用于测序多个核酸样本的多种系统和装置的流程图。此说明性的流程图包含多个装置,例如一测序器820和一分析系统800。所述测序器820和所述分析系统800可串联工作以执行本文所述程序中的一个或多个步骤。
在各种实施例中,所述测序器820接收一扩增的核酸样本810。如图8A所示,所述测序器820可以包含一图形用户界面825,所述图形用户界面825允许用户与多个特定任务互动(例如,启动测序或终止测序)以及一个或多个加载站830,用于加载一测序药盒(包含多个扩增片段样本)和/或用于加载执行测序化验所需的多种缓冲液。因此,一旦所述测序器820的一用户已向所述测序器820的所述加载站830提供了所需的试剂和测序药盒,所述用户就可以通过与所述测序器820互动的所述图形用户界面825来启动测序。一旦启动,所述测序器820执行测序并输出来自所述核酸样本810的多个扩增片段的多个序列读数。
在一些实施例中,所述测序器820与所述分析系统800通信地耦合。所述分析系统800包含一些用于处理各种应用的序列读数的计算装置,例如评估一个或多个CpG位点的甲基化状态、识别变体(variant calling)或质量控制。测序器820可以将BAM文件格式的多个序列读数提供给所述分析系统800。所述分析系统800可以通过无线、有线或无线和有线通信技术的组合以通信方式耦合到所述测序器820。通常,所述分析系统800配置有一处理器和存储多个计算机指令的非临时计算机可读存储介质,当由所述处理器执行时,所述多个计算机指令导致处理器处理所述多个序列读数或执行本文公开的任何方法或程序的一个或多个步骤。
在一些实施例中,所述多个序列读数可以使用本领域已知的方法与一参考基因组对准以确定对准位置信息,例如,图3A中程序100的步骤140的一部分。对准位置通常可以描述所述参考基因组中一区域的一起始位置和一结束位置,其对应于一给定序列读数的一起始碱基和一结束碱基。与甲基化测序相对应,所述对准位置信息可概括为表示根据与所述参考基因组的对准的所述序列读数中包含的一第一CpG位点和一最后CpG位点。所述对准位置信息可以进一步表示在一给定的序列读数中多个甲基化状态和所有CpG位点的位置。所述参考基因组中的一区域可与一基因或一基因的一片段相关联;因此,所述分析系统800可使用一个或多个基因与所述序列读数对准来标记一序列读数。在一个实施例中,从所述起始位置和所述结束位置来确定片段长度(或大小)。
在各种实施例中,例如当使用一成对的结束测序程序时,一序列读数由表示为R_1和R_2的一读数对组成。例如,一第一读数R_1可从一双链DNA(dsDNA)分子的一第一端测序,而一第二读数R_2可从所述双链DNA(dsDNA)的一第二端测序。因此,所述第一读数R_1和所述第二读数R_2的核苷酸碱基对可与所述参考基因组的多个核苷酸碱基一致地(例如,在相反方向上)对准。衍生自读数对R_1和R_2的对准位置信息可以包含所述参考基因组中的一起始位置,所述起始位置对应于所述第一读数(例如,R_1)的终点及所述参考基因组中的一结束位置,所述结束位置对应于一第二读数(例如,R_2)的终点。换言之,所述参考基因组中的所述起始位置和所述结束位置代表所述参考基因组内所述核酸片段对应的可能位置。可以生成并输出具有SAM(序列对准映射)格式或BAM(二进制)格式的一输出文件,以供进一步分析。
现在参考图8B,图8B是根据一个实施例的用于处理多个DNA样本的一分析系统800的方框图。所述分析系统实现了一个或多个用于分析多个DNA样本的计算装置。所述分析系统800包含一序列处理器840、序列数据库845、模型数据库855、多个模型850、参数数据库865和评分引擎860。在一些实施例中,所述分析系统800执行在图3A的程序100、图3B的程序340、图4的程序400、图5的程序500、图6A的程序600或图6B的程序680和本文描述的其他程序中的一个或多个步骤。
所述序列处理器840从一样本的多个片段生成多个甲基化状态向量。在一片段上的每个CpG位点处,所述序列处理器840通过图3A的程序100为每个片段生成一甲基化状态向量,其指定在参考基因组中所述片段的位置、所述片段中的多个CpG位点的一数量以及所述片段中每个CpG位点的甲基化状态,是甲基化、未甲基化还是不确定。所述序列处理器840可将多个片段的多个甲基化状态向量存储在所述序列数据库845中。所述序列数据库845中的数据可以被组织以使得来自一样本的多个甲基化状态向量彼此相关联。
此外,多个不同的模型850可以存储在所述模型数据库855中,或者检索以用于多个测试样本。在一个示例中,一模型是一经过训练的癌症分类器,用于使用来自多个异常片段的一特征向量来确定测一试样本的一癌症预测。所述癌症分类器的训练和使用将结合标题为“表示癌症的基因组区域和分类器”的小节进一步讨论。所述分析系统800可以训练一个或多个模型850并将各种被训练参数存储在所述参数数据库865中。所述分析系统800将所述多个模型850与多个函数一起存储在所述模型数据库855中。
在推断期间,所述评分引擎860使用一个或多个850模型返回多个输出。所述评分引擎860访问所述模型数据库855中的所述多个模型850以及所述参数数据库865中的多个被训练参数。根据每个模型,所述评分引擎接收所述模型的一适当输入,并基于接收到的输入、所述多个参数以及与输入和输出相关的每个模型的一函数来计算一输出。在一些使用的情况中,所述评分引擎860进一步计算与所述模型计算的多个输出的一置信度相关的多个度量。在其他使用的情况中,所述评分引擎860用于所述模型中计算其他中间值。
应用
在一些实施例中,本发明的方法、分析系统和/或分类器可用于检测癌症的存在、监测癌症的进展或复发、监测治疗反应或有效性、确定最小残留疾病灶(MRD)的存在或监测最小残留疾病灶或其任何组合。例如,如本文所述,一分类器可用于生成一样本特征向量是来自一癌症患者的一似然或概率得分(例如,从0到100)。在一些实施例中,将所述概率得分与一阈值概率进行比较以确定一对象是否患有癌症。在其它实施例中,可在不同时间点(例如,治疗前或治疗后)评估所述似然性或概率得分以监视疾病进展或监视治疗有效性(例如,治疗疗效)。在其他实施例中,所述似然性或概率得分可用于作出或影响一临床决策(例如,癌症诊断、治疗选择、治疗效果评估等)。例如,在一个实施例中,如果所述似然性或概率得分超过一阈值,则医生可以开出适当的治疗方案。
癌症的早期检测
在一些实施例中,本发明的方法和/或分类器用于检测怀疑患有癌症的一对象中癌症存在或不存在。例如,一分类器(如本文所述)可用于确定一样本特征向量是来自具有癌症的一对象的一似然性或概率得分。
在一个实施例中,大于或等于60的概率得分可表示所述对象患有癌症。在其他实施例中,概率得分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95,表示所述对象患有癌症。在其它实施例中,一概率得分可表示疾病的严重性。例如,与低于80分(例如,70分)相比,概率得分为80分可能表示癌症的更严重程度或晚期。类似地,随着时间的推移(例如,在一第二、更晚的时间点)概率得分的增加可以表示疾病的进展,或者随着时间的推移(例如,在一第二、更晚的时间点)概率得分的减少可以表示治疗成功。
在另一个实施例中,可以通过取一癌性概率与一非癌性概率(即1减去癌性概率)的比值的对数来计算一测试对象的一癌症对数概率比,如本文所述。根据本实施例,大于1的癌症对数概率比可表示所述对象患有癌症。在其他实施例中,癌症对数概率比大于1.2、大于1.3、大于1.4、大于1.5、大于1.7、大于2、大于2.5、大于3、大于3.5或大于4,表示对象患有癌症。在其它实施例中,一癌症对数概率比可表示疾病的严重程度。例如,与得分低于2(例如,得分为1)相比,一癌症对数概率比大于2可能表示癌症的更严重程度或晚期。同样,随着时间的推移(例如,在第二、更晚的时间点)癌症对数概率比的增加可以表示疾病的进展,或者随着时间的推移(例如,在第二、更晚的时间点)癌症对数概率比的减少可以表明治疗成功。
根据本发明的各个方面,本发明的方法和系统可以被训练来检测或分类多个癌症适应症。例如,本发明的方法、系统和分类器可用于检测一种或多种、两种或多种、三种或多种、五种或多种不同类型癌症的存在。
在一些实施例中,癌症是以下的一种或多种:(1)血癌;(2)乳腺癌;(3)结直肠癌;(4)食管癌;(5)头颈癌;(6)肝胆癌;(7)肺癌;(8)卵巢癌;及(9)胰腺癌。
癌症与治疗监测
在一些实施例中,可在不同的时间点(例如,或在治疗之前或之后)评估似然性或概率得分,以监测疾病进展或监测治疗效果(例如,治疗疗效)。例如,本发明提供的方法涉及在一第一时间点从一癌症患者获得一第一样本(例如,一第一血浆cfDNA样本)、从中确定一第一似然性或概率得分(如本文所述)、在第二时间点从所述癌症患者获得一第二测试样本(例如,一第二血浆cfDNA样本),并从中确定一第二似然性或概率得分(如本文所述)。
在某些实施例中,所述第一时间点在一癌症治疗之前(例如,在切除手术或治疗干预之前),并且所述第二时间点在一癌症治疗之后(例如,在切除手术或治疗干预之后),以及用于监测治疗的有效性的方法。例如,如果所述第二似然性或概率得分比所述第一似然性或概率得分降低,则认为治疗成功。然而,如果所述第二似然性或概率得分比所述第一似然性或概率得分增加,则认为治疗不成功。在其它实施例中,所述第一和所述第二时间点都在一癌症治疗之前(例如,在切除手术或治疗干预之前)。在其他实施例中,所述第一和所述第二时间点都是在一癌症治疗之后(例如,在切除手术或治疗干预之前),以及用于监视治疗的有效性或治疗的有效性的损失的方法。在其它实施例中,多个cfDNA样本可在第一和第二时间点从一癌症患者获得并分析。例如,用于监测癌症进展,确定癌症是否处于缓解期(例如,治疗后),监测或检测残留疾病或疾病复发,或监测治疗(treatment)(例如,治疗(therapeutic))的疗效。
本领域技术人员将容易理解,可以在任何期望的时间点从一癌症患者获得测试样本,并根据本发明的方法进行分析以监测患者的癌症状态。在一些实施例中,所述第一时间点和第二时间点被范围从大约15分钟到大约30年的时间量分开,例如大约30分钟,例如大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或大约24小时,例如大约1、2、3、4、5、10、15、20、25或大约30天,或例如约1、2、3、3、4、5、6、7、8、9、10、11、或12个月,或例如约1、1.5、2、2.5、3、3.5、4、4.5、5、5、5.5、6.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29,29.5年或约30年。在其它实施例中,可至少每3个月一次、至少每6个月一次、至少一年一次、至少每2年一次、至少每3年一次、至少每4年一次或至少每5年一次从所述患者处获取多个测试样本。
治疗
在另一实施例中,从本文描述的任何方法获得的信息(例如,似然性或概率得分)可用于作出或影响一临床决策(例如,癌症诊断、治疗选择、治疗效果评估等)。例如,在一个实施例中,如果似然性或概率得分超过一阈值,医生可以开出适当的治疗方案(例如,切除手术、放射治疗、化疗和/或免疫疗法)。在一些实施例中,例如一似然性或概率得分之类的信息可以作为一输出数值提供给医生或对象。
一分类器(如本文所述)可用于确定来自具有癌症的一对象的一样本特征向量的似然性或概率得分。在一个实施例中,当所述似然性或概率超过一阈值时,处方一适当的治疗(例如,切除手术或治疗)。例如,在一个实施例中,如果所述似然性或概率得分大于或等于60,则处方一个或多个适当的治疗。在另一实施例中,如果所述似然性或概率得分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95,则处方一个或多个适当的治疗。在其它实施例中,一癌症对数概率比可表示癌症治疗的有效性。例如,随着时间的推移(例如,在治疗后的一第二时间)癌症对数概率比的增加可以表示治疗无效。同样,随着时间的推移(例如,在治疗后的一第二时间)癌症对数概率比的降低可以表示治疗成功。在另一实施例中,如果癌症对数概率比大于1、大于1.5、大于2、大于2.5、大于3、大于3.5或大于4,则处方一种或多种适当的治疗。
在一些实施例中,所述治疗是选自由以下组成的群组的一种或多种的癌症治疗剂:一化学治疗剂、一靶向的癌症治疗剂、一分化治疗剂、一激素治疗剂和一免疫治疗剂。例如,所述治疗可以是选自由以下组成的群组的一种或多种的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物及其任何组合。在一些实施方案中,所述治疗是选自由以下组成的群组的一种或多种的靶向癌症治疗剂:信号转导抑制剂(例如酪氨酸激酶和生长因子受体抑制剂)、组蛋白脱乙酰基酶(HDAC)抑制剂、视黄酸受体激动剂、蛋白质组抑制剂、血管生成抑制剂和单克隆抗体结合物。在一些实施例中,所述治疗是一种或多种的分化治疗剂包含维甲酸类,例如维甲酸、阿利维甲酸和贝沙罗汀。在一些实施例中,所述治疗是选自由以下组成的群组的一种或多种的激素治疗剂:抗雌激素、芳香化酶抑制剂、孕激素、雌激素、抗雄激素和GnRH激动剂或类似物。在一个实施例中,所述治疗是选自由以下组成的群组的一种或多种的免疫治疗剂:单克隆抗体疗法,如利妥昔单抗(RITUXAN)和阿仑单抗(CAMPATH),非特异性免疫疗法和佐剂,如卡介苗、白细胞介素2(IL-2)和干扰素α,免疫调节药物,例如沙利度胺和来那度胺(REVLIMID)。熟练的医生或肿瘤学家有能力基于诸如肿瘤的类型、癌症阶段、先前接受过癌症治疗或治疗剂的暴露以及癌症的其他特征的特征来选择合适的癌症治疗剂。
示例
为了向本领域技术人员提供关于如何制作和使用本说明书的完整公开和描述,提出以下示例,并且不打算限制发明人所认为的描述的范围,也不打算表示下面的实验是全部或唯一进行的实验。已经努力确保所用数字(如数量、温度等)的准确性,但应考虑一些实验误差和偏差。
示例1:探针质量分析
为了测试一cfDNA片段和一探针之间需要多少重叠才能实现不可忽略的下拉量,使用设计包含三种不同类型探针(V1D3、V1D4、V1E2)的多种化验板测试不同长度的重叠,与每个探针特定的175bp标靶DNA片段具有不同的重叠。测试的重叠范围在0bp和120bp之间。将含有多个175bp标靶DNA片段的多个样本施加于所述化验板上并洗涤,然后收集与所述多个探针结合的多个DNA片段。测量收集到的多个DNA片段的多个数量,并将所述多个数量绘制为密度与重叠大小,如图9所示。
当重叠小于45bp时,多个标靶DNA片段没有显着的结合和下拉。这些结果表明通常需要至少45bp的一片段探针重叠来实现不可忽略的下拉量,尽管这个数字可能因化验条件而异。
此外,其表明在所述探针与多个片段序列在重叠区域中的大于10%的错配率足以大大破坏结合,从而降低了下拉效率。因此,可以沿至少45bp与探针对准且匹配率至少为90%的序列是脱靶下拉的候选序列。
因此,我们对每个探针进行了具有45bp对准且匹配率为90%以上(即脱靶区域)的所有基因组区域进行了详尽的搜索。具体地说,我们将一k-mer接种策略(其允许一个或多个不匹配)与多个种子位置的局部对准相结合。这保证不会丢失任何基于k-mer长度、允许的不匹配数量和特定位置的k-mer种子命中数的良好对准。这涉及到在大量位置执行动态编程本地对准。这涉及在大量位置执行动态编程局部对齐,因此对实现进行了优化以使用向量CPU指令(例如AVX2、AVX512)并在计算机内部的许多内核以及通过网络连接的许多计算机之间并行化。这样可以进行详尽的搜索,这对于设计高性能化验板时非常有价值(即,对于给定数量的测序的低脱靶率和高标靶覆盖率)。
在彻底搜索之后,基于脱靶区域的数量对每个探针进行评分。最好的探针得分为1,这意味着它们只在一个地方匹配(高Q)。得分在2-19之间的低得分(低Q)的探针被接受,但得分超过20(劣Q)的不佳得分的探针被丢弃。其他截止值可用于特定样本。
然后在多个探针标靶的多个高甲基化基因组区域或多个低甲基化基因组区域中对高质量、低质量和劣质量的探针的数量进行计数。如图10所示,标靶多个高甲基化区域的多个探针往往具有较少的脱靶区域。
示例2:标靶基因组区域的注释
通过图4中概述的程序识别的多个标靶基因组区域被,以了解多个标靶区域的多个特征。特别是,选定的多个标靶基因组区域与一参考基因组对准,以确定多个排列位置。对准位置信息被收集以用于每个选定的标靶基因组区域,所述对准位置信息包含染色体数量、起始碱基、结束碱基以及给定基因组区域的基因组注释。多个标靶基因组区域被定位在内含子、外显子、基因间区域、5’UTRs、3’UTRs或对照区域,如启动子或增强子。落在每个基因组注释内的多个标靶基因组区域的数量被计数并绘制在图12中提供的图示中。图12还比较了落入每个基因组注释内的所选的多个靶标基因组区域的数量(黑色条)或随机选择的多个基因组区域的数量(灰色条)。
分析显示,与随机选择的相同大小的标靶相比,所选的多个标靶基因组区域在其基因组分布上不是随机的,它们对调控和功能元件(如启动子和5UTRs)的扩增程度更高,基因间序列的代表性更少。例如,多个标靶基因组区域被发现定位于启动子、5’UTR、外显子、内含子/外显子边界、内含子、3’UTRs或增强子,而不是基因间区域。
示例3:癌症化验板(CCGA)
使用从1800多个个体中获得的多个cfDNA片段进行测序生成的数据库来选择多个标靶基因组区域。cfDNA测序数据库在本文中被称为循环无细胞基因组图谱研究(“CCGA”)。CCGA的研究描述在Clinical Trial.gov中,标识符:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978)。
具体而言,数据库中的多个cfDNA序列基于p值使用非癌症分布进行筛选,仅保留p<0.001的多个片段。所选的多个cfDNA被进一步过滤以仅保留那些至少90%甲基化或90%未甲基化的cfDNA。接下来,对于所选片段中的每个CpG位点,对包含重叠该CpG位点的多个片段的癌症样本或非癌症样本的数量进行计数。具体而言,计算每个CpG的P(癌症|重叠片段),并选择具有高P值的多个基因组位点作为一般癌症标靶。通过设计,所选的多个片段具有非常低的噪音(即很少有非癌症片段重叠)。
为了寻找癌症类型的多个特异性靶点,进行了类似的选择程序。多个CpG位点基于它们的信息增益进行排名,将一种癌症类型与所有其他样本(非癌症加上其他癌症类型)进行比较。我们只试图为CCGA中的癌症类型的亚集合找到癌症类型的特异性靶点,我们认为应该有足够的信号使之可行。使用相同的选择方法来找到一癌症类型分类器的多个特征时,良好的结果支持了这种直觉。
多种癌症化验板包含多个探针以标靶所选的多个基因组区域被生成。具体而言,所述多种化验板旨在一般地检测癌症的存在和/或阶段(即与非癌症相比)或如下所列的特定癌症类型:
表1:泛癌#1
表2:血癌#1
表3:乳腺癌#1
表4:结直肠癌#1
表5:食管癌#1
表6:头颈癌#1
表7:肝胆管癌#1
表8:肺癌#1
表9:卵巢癌#1
表10:胰腺癌#1
表12:泛癌#2
表13:泛癌#3
表14:泛癌#4
表15:泛癌#5
表16:血癌#2
表17:乳腺癌#2
表18:结直肠癌#2
表19:食管癌#2
表20:头颈癌#
表21:肝胆管癌#2
表22:肺癌#2
表23:卵巢癌#2
表24:胰腺癌#2
所述多个化验板可包含多个探针,配置为与从多个cfDNA分子的处理中获得的一修饰片段相杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自包含在表1至24提供的列表中的一个或多个基因组区域。表1至10和12至13中提供的所述多个基因组区域通过图4所示的程序使用CCGA数据集进行识别。表14至24表示表1至13的子集。表1至10以下列列格式列出所述多个基因组区域,从最左边一列开始:标靶基因组区域所在的染色体,标靶基因组区域的起始和终止位置,标靶基因组区域是高甲基化还是低甲基化,以及位于基因组的标靶区域的10000bp范围内的任何基因的注释(如果知道的话)。表12至24从最左边的一列开始,具有列格式如下:标靶基因组区域所在的染色体以及标靶基因组区域在染色体上的起始位置和终止位置。染色体数目和起始和终止位置是相对于已知的人类参考基因组hg19提供的。人类参考基因组hg19的序列可从基因组参考联盟获得,参考号为GRCh37/hg19,也可从圣克鲁斯基因组研究所提供的基因组浏览器中获得。
通常,可将一探针设计为与表1至24中包含的任何标靶区域(例如,多个异常片段)的起始/终止范围内包含的任何CpG位点重叠。
表1
Figure BDA0002812886910001141
Figure BDA0002812886910001151
Figure BDA0002812886910001161
Figure BDA0002812886910001171
Figure BDA0002812886910001181
Figure BDA0002812886910001191
Figure BDA0002812886910001201
Figure BDA0002812886910001211
Figure BDA0002812886910001221
Figure BDA0002812886910001231
Figure BDA0002812886910001241
Figure BDA0002812886910001251
Figure BDA0002812886910001261
Figure BDA0002812886910001271
Figure BDA0002812886910001281
Figure BDA0002812886910001291
Figure BDA0002812886910001301
Figure BDA0002812886910001311
Figure BDA0002812886910001321
Figure BDA0002812886910001331
Figure BDA0002812886910001341
Figure BDA0002812886910001351
Figure BDA0002812886910001361
Figure BDA0002812886910001371
Figure BDA0002812886910001381
Figure BDA0002812886910001391
Figure BDA0002812886910001401
Figure BDA0002812886910001411
Figure BDA0002812886910001421
Figure BDA0002812886910001431
Figure BDA0002812886910001441
Figure BDA0002812886910001451
Figure BDA0002812886910001461
Figure BDA0002812886910001471
Figure BDA0002812886910001481
Figure BDA0002812886910001491
Figure BDA0002812886910001501
Figure BDA0002812886910001511
Figure BDA0002812886910001521
Figure BDA0002812886910001531
Figure BDA0002812886910001541
Figure BDA0002812886910001551
Figure BDA0002812886910001561
Figure BDA0002812886910001571
Figure BDA0002812886910001581
Figure BDA0002812886910001591
Figure BDA0002812886910001601
Figure BDA0002812886910001611
Figure BDA0002812886910001621
Figure BDA0002812886910001631
Figure BDA0002812886910001641
Figure BDA0002812886910001651
Figure BDA0002812886910001661
Figure BDA0002812886910001671
Figure BDA0002812886910001681
Figure BDA0002812886910001691
Figure BDA0002812886910001701
Figure BDA0002812886910001711
Figure BDA0002812886910001721
Figure BDA0002812886910001731
Figure BDA0002812886910001741
Figure BDA0002812886910001751
Figure BDA0002812886910001761
Figure BDA0002812886910001771
Figure BDA0002812886910001781
Figure BDA0002812886910001791
Figure BDA0002812886910001801
Figure BDA0002812886910001811
Figure BDA0002812886910001821
Figure BDA0002812886910001831
Figure BDA0002812886910001841
Figure BDA0002812886910001851
Figure BDA0002812886910001861
Figure BDA0002812886910001871
Figure BDA0002812886910001881
Figure BDA0002812886910001891
Figure BDA0002812886910001901
Figure BDA0002812886910001911
Figure BDA0002812886910001921
Figure BDA0002812886910001931
Figure BDA0002812886910001941
Figure BDA0002812886910001951
Figure BDA0002812886910001961
Figure BDA0002812886910001971
Figure BDA0002812886910001981
Figure BDA0002812886910001991
Figure BDA0002812886910002001
Figure BDA0002812886910002011
Figure BDA0002812886910002021
Figure BDA0002812886910002031
Figure BDA0002812886910002041
Figure BDA0002812886910002051
Figure BDA0002812886910002061
Figure BDA0002812886910002071
Figure BDA0002812886910002081
Figure BDA0002812886910002091
Figure BDA0002812886910002101
Figure BDA0002812886910002111
Figure BDA0002812886910002121
Figure BDA0002812886910002131
Figure BDA0002812886910002141
Figure BDA0002812886910002151
Figure BDA0002812886910002161
Figure BDA0002812886910002171
Figure BDA0002812886910002181
Figure BDA0002812886910002191
Figure BDA0002812886910002201
Figure BDA0002812886910002211
表2-血癌
Figure BDA0002812886910002221
Figure BDA0002812886910002231
Figure BDA0002812886910002241
表3-乳腺癌
Figure BDA0002812886910002251
Figure BDA0002812886910002261
Figure BDA0002812886910002271
表4-结直肠癌
Figure BDA0002812886910002281
Figure BDA0002812886910002291
Figure BDA0002812886910002301
表5-食管癌
Figure BDA0002812886910002311
Figure BDA0002812886910002321
Figure BDA0002812886910002331
表6-头颈癌
Figure BDA0002812886910002341
Figure BDA0002812886910002351
Figure BDA0002812886910002361
表7-肝胆癌
Figure BDA0002812886910002371
Figure BDA0002812886910002381
Figure BDA0002812886910002391
表8-肺癌
Figure BDA0002812886910002401
Figure BDA0002812886910002411
Figure BDA0002812886910002421
Figure BDA0002812886910002431
表9-卵巢癌
Figure BDA0002812886910002441
Figure BDA0002812886910002451
Figure BDA0002812886910002461
表10-胰腺癌
Figure BDA0002812886910002471
Figure BDA0002812886910002481
Figure BDA0002812886910002491
表11
Figure BDA0002812886910002501
Figure BDA0002812886910002511
Figure BDA0002812886910002521
Figure BDA0002812886910002531
Figure BDA0002812886910002541
Figure BDA0002812886910002551
Figure BDA0002812886910002561
Figure BDA0002812886910002571
Figure BDA0002812886910002581
Figure BDA0002812886910002591
Figure BDA0002812886910002601
Figure BDA0002812886910002611
Figure BDA0002812886910002621
Figure BDA0002812886910002631
Figure BDA0002812886910002641
Figure BDA0002812886910002651
Figure BDA0002812886910002661
Figure BDA0002812886910002671
Figure BDA0002812886910002681
Figure BDA0002812886910002691
Figure BDA0002812886910002701
Figure BDA0002812886910002711
Figure BDA0002812886910002721
Figure BDA0002812886910002731
Figure BDA0002812886910002741
Figure BDA0002812886910002751
Figure BDA0002812886910002761
Figure BDA0002812886910002771
Figure BDA0002812886910002781
Figure BDA0002812886910002791
Figure BDA0002812886910002801
Figure BDA0002812886910002811
Figure BDA0002812886910002821
Figure BDA0002812886910002831
Figure BDA0002812886910002841
Figure BDA0002812886910002851
Figure BDA0002812886910002861
Figure BDA0002812886910002871
Figure BDA0002812886910002881
Figure BDA0002812886910002891
Figure BDA0002812886910002901
Figure BDA0002812886910002911
Figure BDA0002812886910002921
Figure BDA0002812886910002931
Figure BDA0002812886910002941
Figure BDA0002812886910002951
Figure BDA0002812886910002961
Figure BDA0002812886910002971
Figure BDA0002812886910002981
Figure BDA0002812886910002991
Figure BDA0002812886910003001
Figure BDA0002812886910003011
Figure BDA0002812886910003021
Figure BDA0002812886910003031
Figure BDA0002812886910003041
Figure BDA0002812886910003051
Figure BDA0002812886910003061
Figure BDA0002812886910003071
Figure BDA0002812886910003081
Figure BDA0002812886910003091
Figure BDA0002812886910003101
Figure BDA0002812886910003111
Figure BDA0002812886910003121
Figure BDA0002812886910003131
Figure BDA0002812886910003141
Figure BDA0002812886910003151
Figure BDA0002812886910003161
Figure BDA0002812886910003171
Figure BDA0002812886910003181
Figure BDA0002812886910003191
Figure BDA0002812886910003201
Figure BDA0002812886910003211
Figure BDA0002812886910003221
Figure BDA0002812886910003231
Figure BDA0002812886910003241
Figure BDA0002812886910003251
Figure BDA0002812886910003261
Figure BDA0002812886910003271
Figure BDA0002812886910003281
Figure BDA0002812886910003291
Figure BDA0002812886910003301
Figure BDA0002812886910003311
Figure BDA0002812886910003321
Figure BDA0002812886910003331
Figure BDA0002812886910003341
Figure BDA0002812886910003351
Figure BDA0002812886910003361
Figure BDA0002812886910003371
Figure BDA0002812886910003381
Figure BDA0002812886910003391
Figure BDA0002812886910003401
Figure BDA0002812886910003411
Figure BDA0002812886910003421
Figure BDA0002812886910003431
Figure BDA0002812886910003441
Figure BDA0002812886910003451
Figure BDA0002812886910003461
Figure BDA0002812886910003471
Figure BDA0002812886910003481
Figure BDA0002812886910003491
Figure BDA0002812886910003501
Figure BDA0002812886910003511
Figure BDA0002812886910003521
Figure BDA0002812886910003531
Figure BDA0002812886910003541
Figure BDA0002812886910003551
Figure BDA0002812886910003561
Figure BDA0002812886910003571
Figure BDA0002812886910003581
Figure BDA0002812886910003591
Figure BDA0002812886910003601
Figure BDA0002812886910003611
Figure BDA0002812886910003621
Figure BDA0002812886910003631
Figure BDA0002812886910003641
Figure BDA0002812886910003651
Figure BDA0002812886910003661
Figure BDA0002812886910003671
Figure BDA0002812886910003681
Figure BDA0002812886910003691
Figure BDA0002812886910003701
Figure BDA0002812886910003711
Figure BDA0002812886910003721
Figure BDA0002812886910003731
Figure BDA0002812886910003741
Figure BDA0002812886910003751
Figure BDA0002812886910003761
Figure BDA0002812886910003771
Figure BDA0002812886910003781
Figure BDA0002812886910003791
Figure BDA0002812886910003801
Figure BDA0002812886910003811
Figure BDA0002812886910003821
Figure BDA0002812886910003831
Figure BDA0002812886910003841
Figure BDA0002812886910003851
Figure BDA0002812886910003861
Figure BDA0002812886910003871
Figure BDA0002812886910003881
Figure BDA0002812886910003891
Figure BDA0002812886910003901
Figure BDA0002812886910003911
Figure BDA0002812886910003921
Figure BDA0002812886910003931
Figure BDA0002812886910003941
Figure BDA0002812886910003951
Figure BDA0002812886910003961
Figure BDA0002812886910003971
Figure BDA0002812886910003981
Figure BDA0002812886910003991
Figure BDA0002812886910004001
Figure BDA0002812886910004011
Figure BDA0002812886910004021
Figure BDA0002812886910004031
Figure BDA0002812886910004041
Figure BDA0002812886910004051
Figure BDA0002812886910004061
Figure BDA0002812886910004071
Figure BDA0002812886910004081
Figure BDA0002812886910004091
Figure BDA0002812886910004101
Figure BDA0002812886910004111
Figure BDA0002812886910004121
Figure BDA0002812886910004131
Figure BDA0002812886910004141
Figure BDA0002812886910004151
Figure BDA0002812886910004161
Figure BDA0002812886910004171
Figure BDA0002812886910004181
Figure BDA0002812886910004191
Figure BDA0002812886910004201
Figure BDA0002812886910004211
Figure BDA0002812886910004221
Figure BDA0002812886910004231
Figure BDA0002812886910004241
Figure BDA0002812886910004251
Figure BDA0002812886910004261
Figure BDA0002812886910004271
Figure BDA0002812886910004281
Figure BDA0002812886910004291
Figure BDA0002812886910004301
Figure BDA0002812886910004311
Figure BDA0002812886910004321
Figure BDA0002812886910004331
Figure BDA0002812886910004341
Figure BDA0002812886910004351
Figure BDA0002812886910004361
Figure BDA0002812886910004371
Figure BDA0002812886910004381
Figure BDA0002812886910004391
表12-泛癌#2
Figure BDA0002812886910004401
Figure BDA0002812886910004411
Figure BDA0002812886910004421
Figure BDA0002812886910004431
Figure BDA0002812886910004441
Figure BDA0002812886910004451
Figure BDA0002812886910004461
Figure BDA0002812886910004471
Figure BDA0002812886910004481
Figure BDA0002812886910004491
Figure BDA0002812886910004501
Figure BDA0002812886910004511
Figure BDA0002812886910004521
Figure BDA0002812886910004531
Figure BDA0002812886910004541
Figure BDA0002812886910004551
Figure BDA0002812886910004561
Figure BDA0002812886910004571
Figure BDA0002812886910004581
Figure BDA0002812886910004591
Figure BDA0002812886910004601
Figure BDA0002812886910004611
Figure BDA0002812886910004621
Figure BDA0002812886910004631
Figure BDA0002812886910004641
Figure BDA0002812886910004651
Figure BDA0002812886910004661
Figure BDA0002812886910004671
Figure BDA0002812886910004681
Figure BDA0002812886910004691
Figure BDA0002812886910004701
Figure BDA0002812886910004711
Figure BDA0002812886910004721
Figure BDA0002812886910004731
Figure BDA0002812886910004741
Figure BDA0002812886910004751
Figure BDA0002812886910004761
Figure BDA0002812886910004771
Figure BDA0002812886910004781
Figure BDA0002812886910004791
Figure BDA0002812886910004801
Figure BDA0002812886910004811
Figure BDA0002812886910004821
Figure BDA0002812886910004831
Figure BDA0002812886910004841
Figure BDA0002812886910004851
Figure BDA0002812886910004861
Figure BDA0002812886910004871
Figure BDA0002812886910004881
Figure BDA0002812886910004891
Figure BDA0002812886910004901
Figure BDA0002812886910004911
Figure BDA0002812886910004921
Figure BDA0002812886910004931
Figure BDA0002812886910004941
Figure BDA0002812886910004951
Figure BDA0002812886910004961
Figure BDA0002812886910004971
Figure BDA0002812886910004981
Figure BDA0002812886910004991
Figure BDA0002812886910005001
Figure BDA0002812886910005011
Figure BDA0002812886910005021
Figure BDA0002812886910005031
Figure BDA0002812886910005041
Figure BDA0002812886910005051
Figure BDA0002812886910005061
Figure BDA0002812886910005071
Figure BDA0002812886910005081
Figure BDA0002812886910005091
Figure BDA0002812886910005101
Figure BDA0002812886910005111
Figure BDA0002812886910005121
Figure BDA0002812886910005131
Figure BDA0002812886910005141
Figure BDA0002812886910005151
Figure BDA0002812886910005161
Figure BDA0002812886910005171
Figure BDA0002812886910005181
Figure BDA0002812886910005191
Figure BDA0002812886910005201
Figure BDA0002812886910005211
Figure BDA0002812886910005221
Figure BDA0002812886910005231
Figure BDA0002812886910005241
Figure BDA0002812886910005251
Figure BDA0002812886910005261
Figure BDA0002812886910005271
Figure BDA0002812886910005281
Figure BDA0002812886910005291
Figure BDA0002812886910005301
Figure BDA0002812886910005311
Figure BDA0002812886910005321
Figure BDA0002812886910005331
Figure BDA0002812886910005341
Figure BDA0002812886910005351
表13-泛癌#3
Figure BDA0002812886910005361
Figure BDA0002812886910005371
Figure BDA0002812886910005381
Figure BDA0002812886910005391
Figure BDA0002812886910005401
Figure BDA0002812886910005411
Figure BDA0002812886910005421
Figure BDA0002812886910005431
Figure BDA0002812886910005441
Figure BDA0002812886910005451
Figure BDA0002812886910005461
Figure BDA0002812886910005471
Figure BDA0002812886910005481
Figure BDA0002812886910005491
Figure BDA0002812886910005501
Figure BDA0002812886910005511
Figure BDA0002812886910005521
Figure BDA0002812886910005531
Figure BDA0002812886910005541
Figure BDA0002812886910005551
Figure BDA0002812886910005561
Figure BDA0002812886910005571
Figure BDA0002812886910005581
Figure BDA0002812886910005591
Figure BDA0002812886910005601
Figure BDA0002812886910005611
Figure BDA0002812886910005621
Figure BDA0002812886910005631
Figure BDA0002812886910005641
Figure BDA0002812886910005651
Figure BDA0002812886910005661
Figure BDA0002812886910005671
Figure BDA0002812886910005681
Figure BDA0002812886910005691
Figure BDA0002812886910005701
Figure BDA0002812886910005711
Figure BDA0002812886910005721
Figure BDA0002812886910005731
Figure BDA0002812886910005741
Figure BDA0002812886910005751
Figure BDA0002812886910005761
Figure BDA0002812886910005771
Figure BDA0002812886910005781
Figure BDA0002812886910005791
Figure BDA0002812886910005801
Figure BDA0002812886910005811
Figure BDA0002812886910005821
Figure BDA0002812886910005831
Figure BDA0002812886910005841
Figure BDA0002812886910005851
Figure BDA0002812886910005861
Figure BDA0002812886910005871
Figure BDA0002812886910005881
Figure BDA0002812886910005891
Figure BDA0002812886910005901
Figure BDA0002812886910005911
Figure BDA0002812886910005921
Figure BDA0002812886910005931
Figure BDA0002812886910005941
Figure BDA0002812886910005951
Figure BDA0002812886910005961
Figure BDA0002812886910005971
Figure BDA0002812886910005981
Figure BDA0002812886910005991
Figure BDA0002812886910006001
Figure BDA0002812886910006011
Figure BDA0002812886910006021
Figure BDA0002812886910006031
Figure BDA0002812886910006041
Figure BDA0002812886910006051
Figure BDA0002812886910006061
Figure BDA0002812886910006071
Figure BDA0002812886910006081
Figure BDA0002812886910006091
Figure BDA0002812886910006101
Figure BDA0002812886910006111
Figure BDA0002812886910006121
Figure BDA0002812886910006131
Figure BDA0002812886910006141
表14-泛癌#4
Figure BDA0002812886910006151
Figure BDA0002812886910006161
Figure BDA0002812886910006171
Figure BDA0002812886910006181
Figure BDA0002812886910006191
Figure BDA0002812886910006201
Figure BDA0002812886910006211
Figure BDA0002812886910006221
Figure BDA0002812886910006231
Figure BDA0002812886910006241
Figure BDA0002812886910006251
Figure BDA0002812886910006261
Figure BDA0002812886910006271
Figure BDA0002812886910006281
Figure BDA0002812886910006291
Figure BDA0002812886910006301
Figure BDA0002812886910006311
Figure BDA0002812886910006321
Figure BDA0002812886910006331
Figure BDA0002812886910006341
Figure BDA0002812886910006351
Figure BDA0002812886910006361
Figure BDA0002812886910006371
Figure BDA0002812886910006381
Figure BDA0002812886910006391
Figure BDA0002812886910006401
Figure BDA0002812886910006411
Figure BDA0002812886910006421
Figure BDA0002812886910006431
Figure BDA0002812886910006441
Figure BDA0002812886910006451
Figure BDA0002812886910006461
Figure BDA0002812886910006471
Figure BDA0002812886910006481
Figure BDA0002812886910006491
Figure BDA0002812886910006501
Figure BDA0002812886910006511
Figure BDA0002812886910006521
Figure BDA0002812886910006531
Figure BDA0002812886910006541
Figure BDA0002812886910006551
Figure BDA0002812886910006561
Figure BDA0002812886910006571
Figure BDA0002812886910006581
Figure BDA0002812886910006591
Figure BDA0002812886910006601
Figure BDA0002812886910006611
Figure BDA0002812886910006621
Figure BDA0002812886910006631
Figure BDA0002812886910006641
Figure BDA0002812886910006651
Figure BDA0002812886910006661
Figure BDA0002812886910006671
Figure BDA0002812886910006681
Figure BDA0002812886910006691
Figure BDA0002812886910006701
Figure BDA0002812886910006711
Figure BDA0002812886910006721
Figure BDA0002812886910006731
Figure BDA0002812886910006741
Figure BDA0002812886910006751
表15-泛癌#5
Figure BDA0002812886910006761
Figure BDA0002812886910006771
Figure BDA0002812886910006781
Figure BDA0002812886910006791
Figure BDA0002812886910006801
Figure BDA0002812886910006811
Figure BDA0002812886910006821
Figure BDA0002812886910006831
Figure BDA0002812886910006841
Figure BDA0002812886910006851
Figure BDA0002812886910006861
Figure BDA0002812886910006871
Figure BDA0002812886910006881
Figure BDA0002812886910006891
Figure BDA0002812886910006901
Figure BDA0002812886910006911
Figure BDA0002812886910006921
Figure BDA0002812886910006931
Figure BDA0002812886910006941
Figure BDA0002812886910006951
Figure BDA0002812886910006961
Figure BDA0002812886910006971
Figure BDA0002812886910006981
Figure BDA0002812886910006991
Figure BDA0002812886910007001
Figure BDA0002812886910007011
Figure BDA0002812886910007021
Figure BDA0002812886910007031
Figure BDA0002812886910007041
Figure BDA0002812886910007051
Figure BDA0002812886910007061
Figure BDA0002812886910007071
Figure BDA0002812886910007081
Figure BDA0002812886910007091
Figure BDA0002812886910007101
Figure BDA0002812886910007111
Figure BDA0002812886910007121
Figure BDA0002812886910007131
Figure BDA0002812886910007141
Figure BDA0002812886910007151
Figure BDA0002812886910007161
Figure BDA0002812886910007171
Figure BDA0002812886910007181
Figure BDA0002812886910007191
Figure BDA0002812886910007201
Figure BDA0002812886910007211
Figure BDA0002812886910007221
Figure BDA0002812886910007231
Figure BDA0002812886910007241
Figure BDA0002812886910007251
Figure BDA0002812886910007261
Figure BDA0002812886910007271
Figure BDA0002812886910007281
Figure BDA0002812886910007291
Figure BDA0002812886910007301
Figure BDA0002812886910007311
Figure BDA0002812886910007321
Figure BDA0002812886910007331
Figure BDA0002812886910007341
Figure BDA0002812886910007351
Figure BDA0002812886910007361
Figure BDA0002812886910007371
Figure BDA0002812886910007381
Figure BDA0002812886910007391
Figure BDA0002812886910007401
Figure BDA0002812886910007411
Figure BDA0002812886910007421
Figure BDA0002812886910007431
Figure BDA0002812886910007441
Figure BDA0002812886910007451
Figure BDA0002812886910007461
Figure BDA0002812886910007471
Figure BDA0002812886910007481
Figure BDA0002812886910007491
Figure BDA0002812886910007501
Figure BDA0002812886910007511
Figure BDA0002812886910007521
Figure BDA0002812886910007531
Figure BDA0002812886910007541
表16-血癌
chr 起始 结束 chr 起始 结束 chr 起始 结束
chr1 15251121 15251211 chr1 15480854 15480892 chr1 64240031 64240118
chr1 64240618 64240673 chr1 183774245 183774363 chr1 202183372 202183401
chr1 214724532 214724561 chr1 232765226 232765301 chr1 233750126 233750302
chr2 14772762 14772823 chr2 14774475 14774567 chr2 46526303 46526331
chr2 75427370 75427399 chr2 101436638 101436708 chr2 103236166 103236277
chr2 151342979 151343218 chr2 171571265 171571315 chr2 171571890 171571997
chr2 189157513 189157617 chr2 235860803 235860808 chr2 236402772 236402901
chr2 236403271 236403419 chr2 238395907 238395961 chr3 37901952 37901953
chr3 45187297 45187328 chr3 126373521 126373619 chr3 126373669 126373704
chr3 133748141 133748206 chr3 133748552 133748576 chr3 153838819 153838870
chr3 153839519 153839559 chr3 153839641 153839775 chr3 171527953 171527971
chr4 24914639 24914668 chr4 152246133 152246237 chr4 170947288 170947325
chr4 184019693 184019736 chr4 184020107 184020179 chr5 34656933 34657034
chr5 72416247 72416262 chr5 72733094 72733185 chr5 107005984 107006186
chr5 121413538 121413590 chr6 1312001 1312095 chr6 1312680 1312708
chr6 1314089 1314101 chr6 26987968 26988166 chr6 42928322 42928454
chr7 27275514 27275532 chr7 28995658 28995978 chr7 28996458 28996495
chr7 32997125 32997454 chr7 50860227 50860393 chr7 50860980 50861103
chr7 51384328 51384440 chr7 51384916 51384951 chr7 55086481 55086601
chr7 55086984 55087533 chr7 121945823 121945920 chr7 155602752 155602805
chr8 25041747 25041864 chr8 95651539 95651599 chr8 95651637 95651655
chr8 102505798 102505934 chr8 120220429 120220592 chr9 14312995 14313096
chr9 21559295 21559381 chr9 21559678 21559702 chr9 38620642 38620725
chr9 110251389 110251418 chr9 110252364 110252455 chr9 134421818 134421835
chr10 21462534 21462607 chr10 30026077 30026090 chr10 33624167 33624230
chr10 33624493 33624550 chr10 72973131 72973180 chr10 116164249 116164341
chr11 12132525 12132559 chr11 12399041 12399145 chr11 12399181 12399222
chr11 12695482 12695496 chr11 12695573 12695611 chr11 12696612 12696746
chr11 16628820 16628933 chr11 33037468 33037556 chr11 66790622 66790655
chr11 120039834 120039865 chr11 129245747 129245810 chr11 130318961 130318997
chr11 134201503 134201543 chr11 134201842 134202084 chr12 16500577 16500621
chr12 56882365 56882380 chr12 107486551 107486672 chr12 107487195 107487855
chr12 107712274 107712303 chr13 100634315 100634382 chr14 34420251 34420288
chr14 61747389 61747528 chr14 61747583 61747816 chr14 61748002 61748033
chr15 62456923 62456952 chr15 71055770 71055815 chr15 96874363 96874416
chr15 98504115 98504144 chr15 99193207 99193345 chr15 99193350 99193465
chr16 54964949 54965114 chr16 68771167 68771298 chr16 80966400 80966431
chr16 84402245 84402319 chr16 84853289 84853376 chr17 42061337 42061381
chr17 72427854 72427963 chr17 72428345 72428381 chr17 75207840 75207944
chr17 80693343 80693554 chr18 19750309 19750346 chr18 21269350 21269390
chr18 21269660 21269740 chr18 78005004 78005051 chr19 462182 462235
chr19 33792412 33792524 chr20 1206856 1207034 chr20 6748926 6749036
chr20 18039824 18039897 chr20 22564236 22564265 chr20 50384768 50384896
chr21 38070706 38070765 chr22 31198493 31198637
表17-乳腺癌
chr 起始 结束 chr 起始 结束 chr 起始 结束
chr1 2336398 2336427 chr1 2521025 2521062 chr1 6507964 6508126
chr1 21573736 21574203 chr1 23885071 23885088 chr1 155043332 155043657
chr1 167823371 167823461 chr1 185073819 185073966 chr2 44497709 44497842
chr2 61135116 61135137 chr2 127863602 127863725 chr3 12977068 12977144
chr3 183728814 183728926 chr5 43007937 43007966 chr5 176764101 176764169
chr6 41773521 41773844 chr6 43748464 43748616 chr7 907657 907709
chr7 6188652 6188831 chr7 6188926 6189061 chr7 55410020 55410126
chr7 127371130 127371234 chr7 129800244 129800434 chr7 131041516 131041596
chr7 134918504 134918637 chr8 61777576 61777622 chr8 142367673 142367790
chr8 144668567 144668667 chr8 144668910 144668972 chr9 34224349 34224474
chr9 34372806 34372983 chr9 129401098 129401195 chr9 139888946 139888980
chr10 6003403 6003625 chr10 22047362 22047601 chr11 232864 233062
chr11 63641073 63641104 chr12 110353415 110353451 chr13 28239910 28240164
chr14 102564465 102564502 chr16 3802982 3803074 chr16 85699690 85699921
chr17 26961771 26961833 chr17 42092191 42092220 chr17 70026544 70026667
chr18 74755509 74755577 chr19 14181306 14181682 chr19 33468019 33468055
chr19 38782560 38782589 chr19 40829794 40830032 chr19 45570402 45570450
chr19 45574774 45574782 chr19 45574837 45574888 chr20 6022813 6023045
chr20 32301800 32301953 chr20 60620233 60620412 chr20 60772886 60773878
chr21 37775035 37775141 chr21 46935740 46935936 chr22 21977315 21977347
chr22 23801460 23801567 chr22 24560376 24560522 chr22 39830356 39830457
chr22 41657234 41657350
表18-结直肠癌
chr 起始 结束 chr 起始 结束 chr 起始 结束
chr1 3659551 3659643 chr1 3659672 3659716 chr1 3663533 3663562
chr1 12123244 12123276 chr1 38511662 38511757 chr2 12858453 12858499
chr2 29338159 29338748 chr2 29338810 29338969 chr2 31360307 31360590
chr2 31360631 31360693 chr2 31360695 31360756 chr2 31360804 31360831
chr2 31456893 31457039 chr2 100937837 100938164 chr2 100938481 100938545
chr2 100938575 100938799 chr2 100938801 100938810 chr2 100938985 100939155
chr2 144694753 144695135 chr2 172367022 172367125 chr2 241542045 241542344
chr3 142791152 142791173 chr3 142839563 142839578 chr3 142839580 142839607
chr3 179168977 179169016 chr4 718082 718112 chr4 79689652 79689732
chr4 156297417 156297556 chr4 156297980 156298073 chr5 38845676 38845705
chr5 82769015 82769061 chr5 111987788 111987818 chr5 146257500 146257602
chr6 73331516 73331851 chr6 73331876 73332169 chr6 73332392 73332674
chr6 73332987 73333099 chr6 127440332 127440510 chr6 127440512 127440524
chr6 151815056 151815089 chr6 152957954 152957995 chr6 163834315 163834383
chr6 163834406 163834533 chr6 163836569 163836900 chr7 2728069 2728108
chr7 28449277 28449291 chr7 44364839 44364903 chr7 69064591 69064772
chr7 69064834 69064858 chr7 76033251 76033289 chr7 90226290 90226363
chr7 106797775 106797804 chr7 107483695 107483918 chr7 134143808 134143908
chr7 140027009 140027043 chr7 149411542 149411728 chr7 149411835 149412304
chr7 150069099 150069346 chr7 150070022 150070058 chr8 53853998 53854027
chr8 80803674 80803831 chr8 97507150 97507246 chr8 143533745 143533774
chr9 37026964 37026993 chr9 93698030 93698051 chr9 140024843 140024919
chr9 140024957 140025023 chr10 3641379 3641396 chr10 7450525 7450567
chr10 7452350 7452550 chr10 7453492 7453521 chr10 49731643 49731749
chr10 64578319 64578355 chr10 101089410 101089439 chr10 125851518 125851645
chr10 125852300 125852498 chr10 125852754 125853191 chr10 133795401 133795430
chr11 2040108 2040148 chr11 3169689 3169835 chr11 94275795 94275813
chr11 94473683 94473769 chr11 94473803 94473984 chr11 94502453 94502489
chr12 104850506 104850537 chr12 104850578 104850592 chr12 104851078 104851186
chr13 26625302 26625502 chr13 28366066 28366122 chr13 36920350 36920379
chr13 36920629 36920769 chr13 73619661 73619698 chr13 95364499 95364528
chr13 95364771 95364800 chr13 95620022 95620057 chr13 110959797 110959860
chr15 45670503 45670839 chr15 48937059 48937095 chr15 48937428 48937646
chr15 48937710 48937987 chr15 79383948 79383977 chr15 83776497 83776596
chr16 10276758 10276799 chr16 10276801 10276841 chr16 71715780 71715809
chr17 32908287 32908371 chr17 46125007 46125061 chr17 47574091 47574149
chr17 80535383 80535469 chr19 3578139 3578223 chr19 10823679 10823708
chr19 50316245 50316330 chr19 57862640 57862783 chr20 4803922 4804008
chr20 33547579 33547585 chr20 36531800 36531910 chr20 37434553 37434722
chr20 37434737 37434744 chr20 39317088 39317196 chr21 27012374 27012431
chr21 45508618 45508647 chr22 39853522 39853590 chr22 39853592 39853592
表19-食管癌
chr 起始 结束 chr 起始 结束 chr 起始 结束
chr1 3663875 3663921 chr1 9712075 9712104 chr1 11538796 11538821
chr1 11539176 11539205 chr1 11539411 11539440 chr1 29450492 29450543
chr1 38512386 38512415 chr1 53068387 53068425 chr1 91869989 91870018
chr1 170633608 170633637 chr1 202679216 202679327 chr1 209381133 209381165
chr1 230561780 230561824 chr1 244014222 244014376 chr2 31456683 31456712
chr2 56410918 56410996 chr2 56411692 56411733 chr2 228029471 228029500
chr3 37493520 37493621 chr3 46924935 46924964 chr3 49907094 49907130
chr3 55519220 55519228 chr3 98620892 98620980 chr4 331323 331352
chr4 57687721 57687782 chr4 75858574 75858611 chr4 87515338 87515367
chr4 155665446 155665475 chr5 129240069 129240101 chr6 53212553 53213932
chr6 71665639 71665723 chr6 168719984 168720019 chr7 409827 409872
chr7 409887 409892 chr7 54609992 54610006 chr7 87104817 87105101
chr7 87257964 87258054 chr7 106685283 106685345 chr7 113726510 113726539
chr8 107282164 107282195 chr8 110704002 110704029 chr8 110704098 110704144
chr9 21974208 21974237 chr9 36037069 36037098 chr9 112403365 112403394
chr9 132805319 132805445 chr9 132805750 132805893 chr10 116853876 116853908
chr10 134755905 134755934 chr11 20618293 20618322 chr11 20618527 20618556
chr11 64410724 64410759 chr11 107461624 107461653 chr11 114113023 114113052
chr12 8850659 8850744 chr12 95267525 95267554 chr12 133463737 133463876
chr12 133758049 133758107 chr13 46961495 46961533 chr13 49794118 49794179
chr13 78492724 78492748 chr13 92050761 92050814 chr14 51561766 51562012
chr15 53082444 53082491 chr15 65669860 65669899 chr15 83378213 83378370
chr15 91643361 91643586 chr16 23313465 23313522 chr16 23313780 23313836
chr16 80838052 80838143 chr17 14204213 14204242 chr17 14204528 14204620
chr17 40333045 40333226 chr17 42907565 42907630 chr17 48071021 48071050
chr17 51901005 51901034 chr17 56327272 56327301 chr17 56833708 56833953
chr19 10527166 10527243 chr19 12163452 12163672 chr19 12163894 12163923
chr19 12175446 12175504 chr19 12476501 12476556 chr19 12606382 12606511
chr19 23433144 23433223 chr19 24216976 24217023 chr19 33685545 33685581
chr19 35264086 35264092 chr19 37263533 37263584 chr19 37341762 37341962
chr19 37569394 37569554 chr19 38085255 38085759 chr19 38085958 38086066
chr19 38146063 38146247 chr19 38146458 38146568 chr19 52097690 52097732
chr19 53031202 53031215 chr19 53193859 53193893 chr19 58740087 58740118
chr20 4230571 4230600 chr20 20348527 20348605 chr20 20349575 20349604
chr20 39317751 39318138 chr20 62680682 62680739 chr21 33244922 33245040
chr21 33245716 33245718 chr21 33246038 33246190 chr22 21368588 21368617
chr22 24820331 24820396 chr22 44208422 44208448
表20-头颈癌
chr 起始 结束 chr 起始 结束 chr 起始 结束
chr1 898655 898690 chr1 1856437 1856466 chr1 1910416 1910445
chr1 2375149 2375355 chr1 10166522 10166551 chr1 32180398 32180427
chr1 97185263 97185357 chr1 177150774 177150803 chr1 246488176 246488316
chr3 154797384 154797416 chr4 146853952 146853981 chr4 185089697 185089797
chr5 57878711 57878752 chr5 87976104 87976308 chr5 87976526 87976559
chr5 174220972 174221001 chr7 44097691 44097876 chr8 67025064 67025365
chr9 140709047 140709174 chr9 140727472 140727511 chr9 140727846 140727930
chr10 524755 524770 chr11 392577 392720 chr11 1027541 1027574
chr11 66454425 66454454 chr11 94884131 94884160 chr12 54399617 54399646
chr13 114807745 114807815 chr14 21100749 21100778 chr14 21100802 21100831
chr16 1397455 1397484 chr16 2128578 2128682 chr16 2129033 2129332
chr16 88757467 88757496 chr17 1536129 1536146 chr17 7348886 7348997
chr17 17062575 17062752 chr17 17123964 17123993 chr18 32557847 32557864
chr18 74501145 74501183 chr19 1308066 1308081 chr19 1775077 1775239
chr19 58144495 58144701 chr21 39047777 39047838 chr21 44283611 44283774
chr22 36902292 36902381 chr22 42096003 42096190 chr22 47023045 47023191
chr22 47054687 47054700 chr22 50943094 50943262 chrX 3746613 3746642
表21-肝胆癌
chr 起始 结束 chr 起始 结束 chr 起始 结束
chr1 213123890 213123919 chr2 1653023 1653230 chr5 17512115 17512144
chr6 26284812 26284898 chr7 6543151 6543216 chr7 64330412 64330470
chr10 7213532 7213535 chr10 7424627 7424687 chr11 68409559 68409588
chr12 105478324 105478359 chr15 99456300 99456329 chr16 47177526 47177606
chr16 88942120 88942160 chr17 29298081 29298184 chr17 29298186 29298463
chr17 42402885 42402917 chr17 62777336 62777450 chr18 77309534 77309563
chr22 40075158 40075302
表22-肺癌
Figure BDA0002812886910007601
Figure BDA0002812886910007611
表23-卵巢癌
chr 起始 结束 chr 起始 结束 chr 起始 结束
chr1 2331364 2331437 chr1 90309344 90309490 chr1 219347395 219347472
chr1 234620965 234620979 chr1 245494496 245494578 chr2 47200592 47200621
chr2 47249735 47249848 chr2 178973004 178973042 chr2 209225238 209225275
chr2 220080582 220080941 chr2 240319921 240320012 chr3 193419703 193419732
chr4 1008741 1008806 chr4 1282516 1282545 chr4 57777438 57777577
chr6 43639549 43639710 chr7 127615922 127615951 chr7 138042222 138042288
chr7 140180180 140180298 chr8 59058942 59059233 chr8 141596887 141597022
chr8 143558473 143558604 chr8 144203654 144203708 chr8 144303563 144303592
chr10 135018033 135018070 chr11 66658258 66658290 chr11 120998702 120998825
chr14 105512064 105512395 chr16 4431127 4431189 chr17 7368948 7369139
chr17 77084519 77084667 chr19 56201644 56201812 chr22 46931261 46931332
表24-胰腺癌
Figure BDA0002812886910007621
Figure BDA0002812886910007631
示例4:癌症化验板(TCGA)
能够一般地检测癌症的存在和/或阶段(即癌症与非癌症)的一化验板被生成。所述化验板包含多个探针,配置成与从多个cfDNA分子的处理中获得的一修饰片段相杂交,其中所述多个cfDNA分子中的每个对应于或衍生自表11中的一个或多个基因组区域。表11中的所述多个基因组区域是使用本文件其余部分所述的技术以及通过标靶多个病毒序列/基因组进行识别的,来自癌症基因组图谱(TCGA)的数据集是由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)合作开发的。所述数据集提供了33种癌症的类型中关键基因组变化的全面、多维地图。
表11从最左列开始以下列格式列出了多个基因组区域:标靶基因组区域所在的染色体,标靶基因组区域的起始和终止位置,标靶基因组区域是高甲基化还是低甲基化,以及位于基因组的标靶区域10000bp范围内的任何基因的注释(如果知道的话)。染色体数量及起始和终止位置是相对于已知的人类参考基因组hg19提供的。人类参考基因组hg19的序列可从基因组参考联盟获得,参考号为GRCh37/hg19,也可从圣克鲁斯基因组研究所提供的基因组浏览器中获得。
通常情况下,一探针被设计与表11中包含的多个标靶区域(例如多个异常碎片)的起始/终止范围内的包含的任何CpG位点重叠。
为了从TCGA中识别用于在标靶的化验板中使用的基因组区域,使用了BRCA(乳腺癌)、COAD(结肠腺癌)、LIHC(肝细胞癌)、LUAD(肺腺癌)和LUSC(肺鳞状细胞癌)的450KIllumina阵列TCGA数据。由于TCGA阵列数据处于CpG位点水平,因此很容易导致假阳性。为了避免假阳性,基因库中的多个CpG位点被转化为350个碱基箱(bins)。每个箱的多个β值被计算为该箱中多个CpGβ值的平均值。下表汇总了具有不同范围的多个平均CpG值(CpG/箱(CpG/bin))的箱数(bin count)。
CpG/箱 1 2_5 6_10 11_15 16_20 20_25
箱数 220424 83644 6354 271 30 3
多个箱具有少于2个CpG的被排除在分析外。其次,在正常组织和癌组织之间具有β差异大于0.95的多个箱被选择。LIHC(肝细胞癌)分析采用0.9作为阈值。本领域技术人员将理解,对于上述多个参数中的每一个的其他阈值可用于选择要标靶的CpG位点。
正在分析的多个箱的总数和为每种癌症类型选择的多个箱的数量总结如下。如下表所示,通过此分析识别出的所述多个标靶基因组区域的超过50%与使用CCGA数据集选择的多个基因组区域重叠,如示例3所提供。然而,有3459个CpG位点位于新的基因组区域,这些位点在CCGA的研究中没有被识别。
Figure BDA0002812886910007651
还向所述多个标靶基因组区域添加了额外的肝脏特异性标记。为了选择这些标记,通过Illumina Infinium 450K阵列从TCGA肝脏甲基化数据集中使用了49对HCC(肝细胞癌)肿瘤/正常对。对单个CpGs的M值进行差异一甲基化分析,选择折叠变化(fold change)>8的高甲基化CpGs。在这个版本中只选择了高甲基化的CpGs,因为它们在基因表达调控中更为相关。将群集的CpGs(由选定的CpGs在另一个选定的CpG的150bp之内定义)组合成多个簇(clusters),并将多个单例扩展到最大长度为300bp的多个区域,前提是所述簇或区域内的所有CpGs一致且显着地高甲基化(平均折叠变化>4,最小折叠变化>2)。
表11还包含文献中已经报道的与不同类型癌症相关联的一些区域。其他地区,如SEPT9和SHOX2也包含在表11中。
表11还包含能够检测常见驱动突变的一些标靶区域。为此,还包含了Cohen等人在2018年论文(Cohen等人,使用多分析物血液测试检测和定位可手术切除的癌症,科学期刊,2018)中研究的多个区域,以及oncoKB集合中的所有蛋白质变体。
关于表11中包含的多个病毒序列的选择,对于上述提到的每种癌症,一模型适用于所有可能的病毒组合以进行诊断。最高得分的10%以内的多个模型被存储。存在于任何癌症的顶级模型中的所有病毒被保留。这消除了JCV-PLYCG和HPV8-ZM130,并保留了HBV和HCV。
在多个病毒基因组中划分500个位点。多个位点被分配以反映每一种病毒被包含在内的多个顶级模型的比例。在每种病毒的基因组中,多个位点的分布间隔不小于250bp。多个位点的概率与CCGA数据集的读数分布成正比。这个分布被选为相对于人类的独特性(特异性)和跨病毒株的保守性(敏感度)的一代替物(proxy)。如果每个提议的位点在一现有位点的250bp之内,则将被拒绝,否则将被接受。然而,如果多个位点的数量足以覆盖整个基因组,取样是统一的,任何多余的位点都会分配给其他基因组。将多个位点重新分配给其他基因组,以使最终结果尽可能接近目标分配。
示例5:用于癌症诊断的化验板的性能
如本文所述,通过应用二进制排名得分L2正则化核逻辑回归分类器来评估本文所述的化验板的性能(参见,例如,图6A;另见PCT专利申请案第PCT/US2019/022122号和美国专利申请案第US 16/352602号),利用三个不同的计算程序来区分癌症样本和非癌症样本:(1)WGBS数据分析(“M得分.测试V1(Mscore.testV1)”);(2)WGBS数据的10倍交叉验证分析(“M得分.测试V1.cv(Mscore.testV1.cv)”);及(3)经过计算过滤的WGBS数据分析,以将分类限制在表12所列的衍生自多个标靶基因组区域的多个cfDNA分子的多个序列读数(“M得分.测试V1.cv.化验板(Mscore.testV1.cv.panel)”)。利用这三种方法评估的多个序列读数从本文所述的CCGA研究获得。
将多个输出分数汇总并用于构建一接收者操作特性(ROC)曲线以用于性能分析,并评估敏感度和特异性。校正干扰信号后,使用非肿瘤样本来评估特异性。敏感度和特异性之间的关系由图14B中提供的接收者操作特性曲线来描述,图14A中提供了每个数据集在95%特异性下的敏感度。
无论使用何种计算方法,数据都显示了分类器的高度特异性。曲线下面积(AUC)值和95%特异性下的敏感度在三个不同的计算程序中是相似的。这一结果显示,当分析局限于多个标靶基因组区域(如本文所述)时,分类器在诊断癌症方面与未过滤的WGBS数据一样有效。当分析是限制从表12中所列的多个标靶基因组区域衍生的多个cfDNA分子的多个序列读取时,基本上没有性能损失。通过使用从化验板的使用而不是整个核酸测序获得的标靶基因组区域的序列读数,化验板为基础的方法可以增加标靶区域的测序深度,与WGBS相比成本更低,同时提供相似的敏感度和特异性。
示例6:使用癌症化验板诊断癌症
多个血样样本收集自一组先前诊断为具有癌症的多个个体和另一组不具有癌症的多个个体。cfDNAs是从所述多个血液样本中提取出来,用亚硫酸氢盐处理,以将非甲基化的胞嘧啶转化为尿嘧啶。亚硫酸氢盐处理的多个样本应用到按本文提供设计的癌症化验板。未结合的cfDNAs被清洗及cfDNAs结合到多个探针被收集。对收集到的cfDNAs进行放大和测序。测序数据证实,探针特异性地扩增具有多个甲基化模式的cfDNAs,与非癌症组相比,来自癌症组的多个样本包含显着更多的差异甲基化cfDNA。
通过引用合并
在本申请中引用的所有出版物、专利、专利申请和其他文件,出于所有目的通过引用全文并入本文,其程度与每个单独的出版物、专利、专利申请或其他文件分别指出通过引用并入的程度相同。用于所有目的。
同义词
应当理解,本发明的附图和描述已经被简化,以说明与清楚理解本发明相关的元素,同时为了清晰起见,消除了在典型系统中发现的许多其他元素。本领域的普通技术人员可以认识到在实施本发明公开时需要和/或需要其他元件和/或步骤。然而,由于这些元素和步骤在本领域中是公知的,并且由于它们不会便于更好地理解本公开,因此本文不提供对此类元素和步骤的讨论。本文公开的内容可以针对本领域技术人员已知的元件和方法进行变更和修改。
上述描述的一些部分以算法和信息操作的符号表示来描述实施例。这些算法的描述和表示通常由数据处理领域的技术人员用于将其工作的实质有效地传达给本领域技术人员。这些操作,虽然在功能上、计算上或逻辑上描述,但应理解为通过计算机程序或等效电路、微代码等来实现。所描述的操作及其相关联的模块可以体现在软件、固件、硬件或其任何组合中。
如本文所用,对“一个实施例(one embodiment)”或“一实施例(an embodiment)”的任何引用意味着结合该实施例描述的特定元件、特征、结构或特性包含在至少一个实施例中。在说明书的不同位置出现的短语“在一个实施例中”不一定都指同一实施例,从而为所描述的实施例的各种可能性提供了共同工作的框架。
如本文所用,术语“包含(comprises、comprising、includes、including)”、“具有(has、having)”或其任何其他变体旨在涵盖非排他性包含。例如,包含多个元件列表的程序、方法、物品或设备不一定仅限于这些元件,而是可以包含未明确列出或此类程序、方法、物品或设备固有的其他元素。此外,除非另有明确的相反规定,“或”指的是包含或,而不是排他或。例如,条件A或B由以下任一条件满足:A为真(或存在)且B为假(或不存在),A为假(或不存在),B为真(或存在),及A和B均为真(或存在)。
此外,使用“一(a、an)”来描述本文实施例的元件和组件。这样做仅仅是为了方便和给人一个大致的描述。本说明应理解为包含一个或至少一个,单数也包含复数,除非很明显地其另有含义。
虽然已经说明和描述了特定的实施例和应用,但是应该理解,所公开的实施例不限于本文所公开的精确结构和组件。在不脱离所附权利要求所限定的精神和范围的情况下,可以对本文公开的方法和装置的布置、操作和细节进行对本领域技术人员来说显而易见的各种修改、改变和变化。
虽然已经示出并描述了各种具体实施例,但上述规范并不具有限制性。应理解的是,可以在不偏离描述的精神和范围的情况下进行各种更改。本领域技术人员在审查本规范后,许多变化将变得明显。

Claims (261)

1.一种用于扩增供癌症诊断的多个cfDNA分子的化验板,其特征在于:所述化验板包含:
至少不同的500对的多核苷酸探针,其中所述至少500对的探针中的每一对:(i)包含两个不同的探针,配置为通过30个或更多个核苷酸的一重叠序列彼此相重叠,及(ii)被配置为与从所述多个cfDNA分子的处理中获得的一修饰的片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
2.如权利要求1所述的化验板,所述重叠序列包含至少40、50、75或100个核苷酸。
3.如前述权利要求任一项所述的化验板,所述化验板包含至少1000、2000、2500、5000、6000、7500、10000、15000、20000或25000对探针。
4.一种用于扩增供癌症诊断的多个cfDNA分子的化验板,其特征在于:所述化验板包含:
至少1000个多核苷酸探针,其中所述至少1000个探针中的每一个被配置成与一修饰的多核苷酸杂交,所述修饰的多核苷酸杂交从所述多个cfDNA分子的处理中获得,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
5.如前述权利要求任一项所述的化验板,其特征在于:所述多个cfDNA分子的处理包含:将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。
6.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个多核苷酸探针中的每一个与一亲和部分接合。
7.如权利要求6所述的化验板,其特征在于:所述亲和部分为一生物素部分。
8.如前述权利要求任一项所述的化验板,其特征在于:所述多个训练样本是源自被确定具有癌症的多个对象的多个样本。
9.如前述权利要求任一项所述的化验板,其特征在于:当所述多个癌性训练样本中代表所述基因组区域的一甲基化状态向量在多个参考样本中出现的频率低于一阈值时,在多个癌性训练样本中的一基因组区域中具有一异常甲基化模式。
10.如权利要求9所述的化验板,其特征在于:所述阈值为0.1、0.01、0.001或0.0001。
11.如前述权利要求任一项所述的化验板,其特征在于:所述一个或多个基因组区域中的每一个在所述多个癌性训练样本中是高甲基化或低甲基化。
12.如前述权利要求任一项所述的化验板,其特征在于:所述至少5个甲基化位点的至少80%、85%、90%、92%、95%或98%在所述多个癌性训练样本中是甲基化或未甲基化。
13.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。
14.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%、98%在多个CpG检测位点上仅具有CpG或仅具有CpA。
15.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含少于20、15、10、8或6个CpG检测位点。
16.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个被设计为与少于20、15、10或8个脱靶基因组区域具有序列同源性或序列互补性。
17.如权利要求16所述的化验板,其特征在于:所述少于20个脱靶基因组区域使用k-mer接种策略来识别。
18.如权利要求17所述的化验板,其特征在于:所述少于20个脱靶基因组区域使用k-mer接种策略结合在多个接种位置处的局部比对来识别。
19.如前述权利要求任一项所述的化验板,其特征在于:所述化验板包含至少1000、2000、2500、5000、10000、12000、15000、20000或25000个探针。
20.如前述权利要求任一项所述的化验板,其特征在于:所述至少500对探针或所述至少1000个探针同时包含至少20万、40万、60万、80万、100万、200万或400万个核苷酸。
21.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含至少50、75、100或120个核苷酸。
22.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含少于300、250、200或150个核苷酸。
23.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含100至150个核苷酸。
24.如前述权利要求任一项所述的化验板,其特征在于:所述多个基因组区域的至少30%是外显子或内含子。
25.如前述权利要求任一项所述的化验板,其特征在于:所述多个基因组区域的至少15%是外显子。
26.如前述权利要求任一项所述的化验板,其特征在于:所述多个基因组区域的至少20%是外显子。
27.如前述权利要求任一项所述的化验板,其特征在于:少于10%的所述多个基因组区域是多个基因间区域。
28.如前述权利要求任一项所述的化验板,其特征在于:所述化验板还包含:多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置为与来自cfDNA的一病毒基因组片段杂交。
29.如权利要求28所述的化验板,其特征在于:所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。
30.如权利要求28至29任一项所述的化验板,其特征在于:所述化验板包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。
31.如前述权利要求任一项所述的化验板,其特征在于:所述一个或多个基因组区域中的每一个选自表1或表11至15(或其组合)中的一个。
32.如前述权利要求任一项所述的化验板,其特征在于:所述一个或多个基因组区域中的每一个选自表13。
33.如前述权利要求任一项所述的化验板,其特征在于:所述一个或多个基因组区域的每一个选自表14。
34.如前述权利要求任一项所述的化验板,其特征在于:所述一个或多个基因组区域的每一个选自表15。
35.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1、表11至15的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
36.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
37.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
38.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60、70%,80%,90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
39.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1、11至15中的一个或多个中的至少500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
40.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体部一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
41.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
42.如前述权利要求任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
43.一种用于扩增供癌症诊断的多个cfDNA分子的化验板,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与从所述多个cfDNA分子的处理而获得的一修饰的片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1至24中的一个或多个的一个或多个基因组区域。
44.如权利要求43所述的化验板,其特征在于:所述多个cfDNA分子中的每一个对应于或衍生自选自表2至10或表16至24中的一个或多个的一个或多个基因组区域。
45.如权利要求43所述的化验板,其特征在于:所述多个cfDNA分子中的每一个对应于或衍生自选自表13的一个或多个基因组区域。
46.如权利要求43所述的化验板,其特征在于:所述多个cfDNA分子中的每一个对应于或衍生自选自表14的一个或多个基因组区域。
47.如权利要求43所述的化验板,其特征在于:所述多个cfDNA分子中的每一个对应于或衍生自选自表15的一个或多个基因组区域。
48.如权利要求43所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的一个或多个中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
49.如权利要求43所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24的一个或多个中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
50.如权利要求43所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
51.如权利要求43所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
52.如权利要求43所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的所述多个基因组区域的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
53.如权利要求43所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表1至24的一个或多个中的至少50、60、70、80、90、100、120、150、200、500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
54.如权利要求43所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24的一个或多个的至少50、60、70、80、90、100、120、150或200个基因的所述多个cfDNA分子获得。
55.如权利要求43所述的癌症化验,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表13中的至少500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
56.如权利要求43所述的癌症化验,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表14中的至少500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
57.如权利要求43所述的癌症化验,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表15中的至少500、1000、5000、10000或15000个基因的所述多个cfDNA分子获得。
58.如权利要求43至57任一项所述的化验板,其特征在于:所述多个cfDNA分子的处理包含将所述多个cfDNA分子中未甲基化的C(胞嘧啶)转化为U(尿嘧啶)。
59.如权利要求58所述的化验板,其特征在于:所述化验板上的多个探针的每一个都与一亲和部分接合。
60.如权利要求59所述的化验板,其特征在于:所述亲和部分为一生物素。
61.如权利要求43至60任一项所述的化验板,其特征在于:所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。
62.如权利要求43至61任一项所述的化验板,其特征在于:所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%或98%在多个CpG检测位点上仅具有CpG或仅具有CpA。
63.一种提供癌症存在或不存在的信息的序列信息的方法,其特征在于:所述方法包含以下步骤:
(a)获取一测试样本,所述测试样本包含多个cfDNA测试分子;
(b)处理所述多个cfDNA测试分子,从而获得多个亚硫酸氢盐转化的测试片段;
(c)将所述多个亚硫酸氢盐转化的测试片段与一化验板相接触,从而通过杂交捕获来扩增所述多个亚硫酸氢盐转化的测试片段的一子集;及
(d)对所述多个亚硫酸氢盐转化的测试片段的所述子集进行测序,从而获得多个序列读数的一集合。
64.如权利要求63所述的方法,其特征在于:所述化验板选自如权利要求1至62任一项所述的化验板。
65.如权利要求63至64任一项所述的方法,所述方法还包含以下步骤:通过评估所述多个序列读数的所述集合确定一癌症分类,其中所述癌症分类为:
(a)癌症存在或不存在;
(b)癌症的一阶段;
(c)一种类型的癌症存在或不存在;或
(d)至少1、2、3、4或5种不同类型的癌症存在或不存在。
66.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1、12、13、14和15中的一个或多个的一个或多个基因组区域,其中所述癌症分类是癌症存在或不存在,或癌症的一阶段。
67.如权利要求66所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表1、12、13、14和15中的一个或多个中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
68.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表2的一个或多个基因组区域,其中所述癌症分类是血癌的存在或不存在或血癌的一阶段。
69.如权利要求68所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表2中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
70.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表3的一个或多个基因组区域,其中所述癌症分类是乳腺癌的存在或不存在或乳腺癌的一阶段。
71.如权利要求70所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表3中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
72.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表4的一个或多个基因组区域,其中所述癌症分类是结直肠癌的存在或不存在或结直肠癌的一阶段。
73.如权利要求72所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表4中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
74.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表5的一个或多个基因组区域,其中所述癌症分类是食管癌的存在或不存在或食管癌的一阶段。
75.如权利要求74所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表5中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
76.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表6的一个或多个基因组区域,其中所述癌症分类是头颈癌的存在或不存在或头颈癌的一阶段。
77.如权利要求76所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表6中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
78.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表7的一个或多个基因组区域,其中所述癌症分类是肝胆癌的存在或不存在或肝胆癌的一阶段。
79.如权利要求78所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表7中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
80.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表8的一个或多个基因组区域,其中所述癌症分类是肺癌的存在或不存在或肺癌的一阶段。
81.如权利要求80所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表8中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
82.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表9的一个或多个基因组区域,其中所述癌症分类是卵巢癌的存在或不存在或卵巢癌的一阶段。
83.如权利要求82所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表9中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
84.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表10的一个或多个基因组区域,其中所述癌症分类是胰腺癌的存在或不存在或胰腺癌的一阶段。
85.如权利要求84所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表10中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
86.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表16的一个或多个基因组区域,其中所述癌症分类是血癌的存在或不存在或血癌的一阶段。
87.如权利要求86所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表16中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
88.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表17的一个或多个基因组区域,其中所述癌症分类是乳腺癌的存在或不存在或乳腺癌的一阶段。
89.如权利要求88所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表17中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
90.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表18的一个或多个基因组区域,其中所述癌症分类是结直肠癌的存在或不存在或结直肠癌的一阶段。
91.如权利要求90所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表18中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
92.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表19的一个或多个基因组区域,其中所述癌症分类是食管癌的存在或不存在或食管癌的一阶段。
93.如权利要求92所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表19中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
94.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表20的一个或多个基因组区域,其中所述癌症分类是头颈癌的存在或不存在或头颈癌的一阶段。
95.如权利要求94所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表20中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
96.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表21的一个或多个基因组区域,其中所述癌症分类是肝胆癌的存在或不存在或肝胆癌的一阶段。
97.如权利要求96所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表21中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
98.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表22的一个或多个基因组区域,其中所述癌症分类是肺癌的存在或不存在或肺癌的一阶段。
99.如权利要求98所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表22中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
100.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表23的一个或多个基因组区域,其中所述癌症分类是卵巢癌的存在或不存在或卵巢癌的一阶段。
101.如权利要求100所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表23中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
102.如权利要求65所述的方法,其特征在于:所述化验板包含多个多核苷酸探针,其中所述多个多核苷酸探针中的每一个被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表24的一个或多个基因组区域,其中所述癌症分类是胰腺癌的存在或不存在或胰腺癌的一阶段。
103.如权利要求102所述的方法,其特征在于:所述多个核苷酸探针一起被配置为与一亚硫酸氢盐转化的片段杂交,所述亚硫酸氢盐转化的片段从对应于或衍生自表24中至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA获得。
104.如权利要求65至103任一项所述的方法,其特征在于:所述确定一癌症分类的步骤由包含以下步骤的方法执行:
(a)基于所述多个序列读数的所述集合生成一测试特征向量;以及
(b)将所述测试特征向量应用于通过一训练程序获得一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。
105.如权利要求104所述的方法,其特征在于:所述训练程序包含:
(a)从多个训练对象中获取多个训练片段的序列信息;
(b)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(c)对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及
(d)利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。
106.如权利要求104所述的方法,其特征在于:所述训练程序包含:
(a)从多个训练对象中获取多个训练片段的序列信息;
(b)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(c)对于在一参考基因组中的多个CpG位点中的每一个:
量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及
基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;
(d)对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;
(e)对于每一个训练对象:
基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及
基于所述多个训练片段的所述排名生成一特征向量;
(f)获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及
(g)利用所述不具有癌症的一个或多个训练对象的所述多个特征向量及具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。
107.如权利要求104至106任一项所述的方法,其特征在于:所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。
108.如权利要求104至107任一项所述的方法,其特征在于:所述方法进一步包含:
(a)基于所述模型获得测试样本的一癌症概率;以及
(b)将所述癌症概率与一阈值概率进行比较,以确定所述测试样本是否来自具有癌症的一患者或不具有癌症的一患者。
109.如权利要求108所述的方法,其特征在于:所述方法进一步包含:对所述对象施用一抗癌剂。
110.一种治疗癌症患者的方法,其特征在于:所述方法包含:
向通过如权利要求108所述的方法向已经被识别为一癌症对象的一对象施用一抗癌剂。
111.如权利要求109或110所述的方法,其特征在于:所述抗癌剂是选自以下群组组成的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物。
112.一种方法,其特征在于:所述方法包含步骤:
(a)获得多个修饰的测试片段的多个序列读数的一集合,其中所述多个修饰的测试片段是或已经通过处理来自一测试对象的一组的多个核酸片段而获得,其中所述多个核酸片段中的每一个对应于或衍生自选自表1至24中的一个或多个中的多个基因组区域;以及
(b)将所述多个序列读数的所述集合或基于所述多个序列读数的所述集合获得的一测试特征向量应用于通过一训练程序获得的一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合及所述多个片段的所述非癌症集合包含多个训练片段。
113.如权利要求112所述的方法,其特征在于:所述方法进一步包含:获得所述测试特征向量的步骤,所述步骤包含:
(a)对于所述多个核酸片段中的每一个,确定所述核酸片段是低甲基化或高甲基化,其中低甲基化和高甲基化的所述多个核酸片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(b)对于一参考基因组中的多个CpG位点中的每一个:
量化与所述CpG位点重叠的低甲基化的多个核酸片段的一数量和与所述CpG位点重叠的高甲基化的多个核酸片段的一数量;及
基于低甲基化的多个核酸片段和高甲基化的多个核酸片段的所述数量,生成一低甲基化得分和一高甲基化得分;
(c)对于每一个核酸片段,基于所述核酸片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分和基于所述核酸片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;
(d)基于总合的低甲基化得分对所述多个核酸片段进行排名,及基于总合的高甲基化得分对所述多个核酸片段进行排名;以及
(e)基于所述多个核酸片段的所述排名生成所述测试特征向量。
114.如权利要求112至113任一项所述的方法,其特征在于:所述训练程序包含步骤:
(a)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(b)对于每一个训练对象,基于所述多个低甲基化的训练片段产生一训练特征向量及基于所述多个高甲基化的训练片段产生一训练特征向量;及
(c)利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。
115.如权利要求112至113任一项所述的方法,其特征在于:所述训练程序包含步骤:
(a)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(b)对于在一参考基因组中的多个CpG位点中的每一个:
量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及
基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;
(c)对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;
(d)对于每一个训练对象:
基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及
基于所述多个训练片段的所述排名生成一特征向量;
(e)获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及
(f)利用所述不具有癌症的一个或多个训练对象的所述多个特征向量及具有癌症的一个或多个训练对象的所述多个特征向量训练所述模型。
116.如权利要求115所述的方法,其特征在于:对于一参考基因组中的每一个CpG位点,量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量以及与所述CpG位点重叠的多个高甲基化的训练片段的一数量进一步包含步骤:
(a)量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个低甲基化的训练片段的一非癌症数量;以及
(b)量化来自与所述CpG位点重叠的具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一癌症数量,以及量化来自与所述CpG位点重叠的不具有癌症的一个或多个训练对象的多个高甲基化的训练片段的一非癌症数量。
117.如权利要求116所述的方法,其特征在于:对于一参考基因组中的每一个CpG位点,基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量来生成一低甲基化得分和一高甲基化得分还包含步骤:
(a)对于生成所述低甲基化得分,计算多个低甲基化的训练片段的所述癌症数量与多个低甲基化的训练片段的所述癌症数量及多个低甲基化的训练片段的所述非癌症数量的一低甲基化总合的一低甲基化比率;以及
(b)对于生成所述高甲基化得分,计算多个高甲基化的训练片段的所述癌症数量与多个高甲基化的训练片段的所述癌症数量及多个高甲基化的训练片段的所述非癌症数量的一高甲基化总合的一高甲基化比率。
118.如权利要求112至117任一项所述的方法,其特征在于:所述模型包含所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。
119.如权利要求112至118任一项所述的方法,其特征在于:所述多个序列读数的所述集合是通过使用如权利要求1至62任一项所述的化验板获得。
120.一种设计用于癌症诊断的化验板的方法,其特征在于:所述方法包含以下步骤:
(a)识别多个基因组区域,其中所述多个基因组区域中的每一个:(i)包含至少30个核苷酸,及(ii)包含至少5个甲基化位点;
(b)选择所述多个基因组区域的一子集,其中所述选择是当对应于或衍生自多个癌症训练样本中的所述多个基因组区域的每一个的多个cfDNA分子具有一异常甲基化模式时实行,其中所述异常甲基化模式包含至少5个甲基化位点已知为或被识别为的低甲基化或高甲基化;以及
(c)设计所述化验板,所述化验板包含多个探针,其中所述多个探针中的每一个被配置成与从处理对应于或衍生自所述多个基因组区域的所述子集的一个或多个的多个cfDNA分子而获得的一修饰的片段杂交。
121.如权利要求120所述的方法,其特征在于:所述多个cfDNA分子的处理包含将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。
122.一种用于杂交捕获的诱饵组,其特征在于:所述诱饵组包含至少50个不同的含有多核苷酸的探针,其中所述多个含有多核苷酸的探针中的每一个具有一核酸序列,所述核酸序列为:(1)在序列上与选自表1至24中任一个表所列的任何基因组区域的一基因组区域中的一序列相同,或(2)相对于所述基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个相应的转换发生在对应于所述基因组区域中的一CpG位点的一核苷酸处。
123.如权利要求122所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个在长度上具有至少45个碱基对的一核酸序列。
124.如权利要求122或123所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针在长度上具有不超过200个碱基对的一核酸序列。
125.如权利要求122所述的诱饵组,其特征在于:所述至少50个不同的含有多核苷酸的探针被组织成至少25对含有多核苷酸的探针,其中所述多个探针中的每一对包含一第一探针和一第二探针,所述第二探针与第一探针不同,其中所述第一探针通过至少30个核苷酸在序列上与所述第二探针重叠。
126.如权利要求125所述的诱饵组,其特征在于:所述第一探针在序列上与所述第二探针通过至少40、50、75或100个核苷酸重叠。
127.如权利要求122至126任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针被组织成至少50、60、70、80、90、100、120、150或200对含有多核苷酸的探针。
128.如权利要求122至126任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针被组织成至少1000、2000、2500、5000、6000、7500、10000、15000、20000或25000对含有多核苷酸的探针。
129.如权利要求122至128任一项所述的诱饵组,其特征在于:一尿嘧啶或一胸腺嘧啶位于所述转换处。
130.如权利要求122至129任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个与一亲和部分结合,其中所述亲和部分不是一核酸亲和部分。
131.如权利要求130所述的诱饵组,其特征在于:所述亲和部分包含生物素。
132.如权利要求122至131任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个包含少于20、15、10、8或6个CpG检测位点。
133.如权利要求122至132任一项所述的诱饵组,其特征在于:所述诱饵组不具有在序列上与超过8个、10个、15个或20个的脱靶基因组区域同源或互补的探针。
134.如权利要求122至127或129至133任一项所述的诱饵组,其特征在于:所述诱饵组具有至少50、60、70、80、90、100、120、150或200个含有探针的多核苷酸。
135.如权利要求122至126或128至133任一项所述的诱饵组,其特征在于:所述诱饵组具有至少1000、2000、2500、5000、10000、12000、15000、20000或25000个含有探针的多核苷酸。
136.如权利要求122至135任一项所述的诱饵组,其特征在于:所述诱饵组中所有的所述多个含有多核苷酸的探针的至少3%、5%、10%、15%、20%、30%或40%缺少G(鸟嘌呤)。
137.如权利要求122至136任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针共同包含至少1万、2万、5万、20万、40万、60万、80万、100万、200万或400万个核苷酸。
138.如权利要求122至137任一项所述的诱饵组,其特征在于:所述多个多核苷酸探针中的每一个包含至少50、75、100或120个核苷酸。
139.如权利要求122至138任一项所述的诱饵组,其特征在于:所述多个多核苷酸探针中的每一个具有少于300、250、200或150个核苷酸。
140.如权利要求122至139任一项所述的诱饵组,其特征在于:所述多个多核苷酸探针中的每一个具有100到150个核苷酸。
141.如权利要求122至140任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针的至少80%、85%、90%、92%、95%或98%仅在多个CpG检测位点上具有CpG或CpA。
142.如权利要求122至141任一项所述的诱饵组,其特征在于:所述诱饵组的所述多个含有多核苷酸的探针对应于从表1至24中的任一个表的所述多个基因组区域中选择的一数量的基因组区域,其中所述多个基因组区域的至少30%是外显子或内含子。
143.如权利要求122至142任一项所述的诱饵组,其特征在于:所述诱饵组的所述多个含有多核苷酸的探针对应于一数量的基因组区域,其中所述多个基因组区域的至少15%是外显子。
144.如权利要求122至143任一项所述的诱饵组,其特征在于:所述诱饵组的所述多个含有多核苷酸的探针对应于一数量的基因组区域,其中所述多个基因组区域的至少20%是外显子。
145.如权利要求122至144任一项所述的诱饵组,其特征在于:所述诱饵组的所述多个含有多核苷酸的探针对应于一数量的基因组区域,其中少于10%的所述多个基因组区域是多个基因间区域。
146.如权利要求122至145任一项所述的诱饵组,其特征在于:所述诱饵组进一步包含:
多个病毒特异性探针,所述多个病毒特异性探针中的每一个被配置成与一病毒基因组片段杂交。
147.如权利要求146所述的诱饵组,其特征在于:所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。
148.如权利要求146至147任一项所述的诱饵组,其特征在于:所述多个病毒特异性探针包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。
149.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表2的一基因组区域中的一序列相同,或(2)相对于选自表2的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
150.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表3的一基因组区域中的一序列相同,或(2)相对于选自表3的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
151.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表4的一基因组区域中的一序列相同,或(2)相对于选自表4的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
152.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表5的一基因组区域中的一序列相同,或(2)相对于选自表5的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
153.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表6的一基因组区域中的一序列相同,或(2)相对于选自表6的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
154.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表7的一基因组区域中的一序列相同,或(2)相对于选自表7的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
155.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表8的一基因组区域中的一序列相同,或(2)相对于选自表8的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
156.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表9的一基因组区域中的一序列相同,或(2)相对于选自表9的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
157.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表10的一基因组区域中的一序列相同,或(2)相对于选自表10的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
158.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表2至10的任一个表的一基因组区域中的一序列相同,或(2)相对于选自表2至10的任一个表的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
159.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表11的一基因组区域中的一序列相同,或(2)相对于选自表11的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
160.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表12的一基因组区域中的一序列相同,或(2)相对于选自表12的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
161.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表13的一基因组区域中的一序列相同,或(2)相对于选自表13的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
162.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表14的一基因组区域中的一序列相同,或(2)相对于选自表14的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
163.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表15的一基因组区域中的一序列相同,或(2)相对于选自表15的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
164.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表16的一基因组区域中的一序列相同,或(2)相对于选自表16的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
165.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表17的一基因组区域中的一序列相同,或(2)相对于选自表17的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
166.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表18的一基因组区域中的一序列相同,或(2)相对于选自表18的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
167.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表19的一基因组区域中的一序列相同,或(2)相对于选自表19的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
168.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表20的一基因组区域中的一序列相同,或(2)相对于选自表20的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
169.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表21的一基因组区域中的一序列相同,或(2)相对于选自表21的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
170.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表22的一基因组区域中的一序列相同,或(2)相对于选自表22的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
171.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表23的一基因组区域中的一序列相同,或(2)相对于选自表23的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
172.如权利要求122至148任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个为:(1)在序列上与选自表24的一基因组区域中的一序列相同,或(2)相对于选自表24的一基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换中的每一个对应的转变发生在对应于所述基因组区域中一CpG位点的一核苷酸处。
173.如权利要求122至172任一项所述的诱饵组,其特征在于:所述诱饵组中的所述多个多核苷酸探针的一整体被配置成与多个片段杂交,所述多个片段从选自表1至24的任一个表中对应于所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的的多个cfDNA分子获得。
174.如权利要求122至173任一项所述的诱饵组,其特征在于:所述诱饵组中的多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表2至10或16至24的任一个中对应于所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的多个cfDNA分子获得。
175.如权利要求122至174任一项所述的诱饵组,其特征在于:所述诱饵组中多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表1至24中的任一个中对应于至少500、1000、5000、10000或15000个基因组区域的多个cfDNA分子获得。
176.如权利要求122至175任一项所述的诱饵组,其特征在于:所述诱饵组中多个含有多核苷酸的探针的一整体被配置成与多个片段杂交,所述多个片段从表2至10或16至24中的任一个中对应于至少50、60、70、80、90、100、120、150或200个基因组区域的cfDNA分子获得。
177.如权利要求122至176任一项所述的诱饵组,其特征在于:所述多个含有多核苷酸的探针中的每一个的所述核酸序列相对于所述基因组区域中的一序列仅通过一个或多个转换而变化,其中所述一个或多个转换的每一个对应的转换发生在所述基因组区域中一CpG位点的一核苷酸处。
178.一种混合物,其特征在于:所述混合物包含:
亚硫酸氢盐转化的无细胞DNA;以及
如权利要求122至177任一项所述的诱饵集。
179.一种用于扩增一亚硫酸氢盐转化的无细胞DNA样本的方法,其特征在于:所述方法包含步骤:
使所述亚硫酸氢盐转化的无细胞DNA样本与如权利要求122至177任一项所述的诱饵组相接触;以及
通过杂交捕获来扩增所述样本的一第一组的多个基因组区域。
180.一种用于提供一癌症存在或不存在、癌症的一阶段或癌症的一类型的信息的序列信息的方法,其特征在于:所述方法包含步骤:
用一脱氨基剂处理来自一生物样本的无细胞DNA,以产生一无细胞DNA样本,所述无细胞DNA样本包含多个脱氨基核苷酸;
扩增所述无细胞DNA样本,以用于获取多个无细胞DNA分子的信息,其中扩增所述无细胞DNA样本以获取所述多个无细胞DNA分子的信息包含:将所述无细胞DNA与多个探针相接触,所述多个探针被配置成杂交到对应于表1至24的任一个中所识别的多个区域的多个无细胞DNA分子;以及
对扩增后的所述多个无细胞DNA分子进行测序,从而获得多个序列读数的一集合,以提供一癌症存在或不存在、癌症的一阶段或癌症的一类型的信息。
181.如权利要求180所述的方法,其特征在于:所述多个探针包含多个引物,及扩增所述无细胞DNA包含:使用所述多个引物放大所述多个无细胞DNA片段。
182.如权利要求180所述的方法,其特征在于:所述无细胞DNA样本通过如权利要求179所述的方法进行扩增,及所述多个探针包含所述多个含有多核苷酸的探针。
183.如权利要求180至182任一项所述的方法,其特征在于:所述方法进一步包含以下步骤:通过评估所述多个序列读数的所述集合来确定一癌症分类,其中所述癌症分类为:
(a)癌症存在或不存在;
(b)癌症的一阶段;
(c)一类型的癌症的存在或不存在;或
(d)至少有1种、2种、3种、4种或5种不同类型的癌症的存在或不存在。
184.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表1、11、12、13、14和15的一个中的一个或多个基因组区域,其中所述癌症分类是癌症存在或不存在,或癌症的一阶段。
185.如权利要求184所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表1、11、12、13、14和15的一个中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
186.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表2中的一个或多个基因组区域,其中所述癌症分类是血癌存在或不存在或血癌的一阶段。
187.如权利要求186所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表2中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
188.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表3中的一个或多个基因组区域,其中所述癌症分类是乳腺癌存在或不存在或乳腺癌的一阶段。
189.如权利要求188所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表3中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
190.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表4中的一个或多个基因组区域,其中所述癌症分类是结直肠癌存在或不存在或结直肠癌的一阶段。
191.如权利要求190所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表4的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
192.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表5中的一个或多个基因组区域,其中所述癌症分类是食管癌存在或不存在或食管癌的一阶段。
193.如权利要求192所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表5中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
194.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表6中的一个或多个基因组区域,其中所述癌症分类是头颈癌存在或不存在或头颈癌的一阶段。
195.如权利要求194所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表6中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
196.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表7中的一个或多个基因组区域,其中所述癌症分类是肝胆癌存在或不存在或肝胆癌的一阶段。
197.如权利要求196所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表7中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
198.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表8中的一个或多个基因组区域,其中所述癌症分类是肺癌存在或不存在或肺癌的一阶段。
199.如权利要求198所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表8中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
200.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表9中的一个或多个基因组区域,其中所述癌症分类是卵巢癌存在或不存在或卵巢癌的一阶段。
201.如权利要求200所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表9中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
202.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表10中的一个或多个基因组区域,其中所述癌症分类是胰腺癌存在或不存在或胰腺癌的一阶段。
203.如权利要求202所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表10中一个中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
204.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表16中的一个或多个基因组区域,其中所述癌症分类是血癌存在或不存在或血癌的一阶段。
205.如权利要求204所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表16中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
206.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表17中的一个或多个基因组区域,其中所述癌症分类是乳腺癌存在或不存在或乳腺癌的一阶段。
207.如权利要求206所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表17中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
208.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表18中的一个或多个基因组区域,其中所述癌症分类是结直肠癌存在或不存在或结直肠癌的一阶段。
209.如权利要求208所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表18中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
210.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表19中的一个或多个基因组区域,其中所述癌症分类是食管癌存在或不存在或食管癌的一阶段。
211.如权利要求210所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表19中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
212.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表20中的一个或多个基因组区域,其中所述癌症分类是头颈癌存在或不存在或头颈癌的一阶段。
213.如权利要求212所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表20中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
214.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表21中的一个或多个基因组区域,其中所述癌症分类是肝胆癌存在或不存在或肝胆癌的一阶段。
215.如权利要求214所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表21中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
216.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表22中的一个或多个基因组区域,其中所述癌症分类是肺癌存在或不存在或肺癌的一阶段。
217.如权利要求216所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表22中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
218.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表23中的一个或多个基因组区域,其中所述癌症分类是卵巢癌存在或不存在或卵巢癌的一阶段。
219.如权利要求218所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表23中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
220.如权利要求183所述的方法,其特征在于:所述多个探针配置成与从多个cfDNA分子的处理获得的多个亚硫酸氢盐转化片段杂交,其中所述多个cfDNA分子中的每一个对应于或衍生自选自表24中的一个或多个基因组区域,其中所述癌症分类是胰腺癌存在或不存在或胰腺癌的一阶段。
221.如权利要求220所述的方法,其特征在于:所述多个探针被配置成与多个亚硫酸氢盐转化片段杂交,所述多个亚硫酸氢盐转化片段从对应于或衍生自表24中的所述多个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个cfDNA分子获得。
222.如权利要求183至221任一项所述的方法,其特征在于:所述确定一癌症分类的步骤包含:
(a)基于所述多个序列读数的所述集合生成一测试特征向量;以及
(b)将所述测试特征向量应用于通过一训练程序获得一模型,所述模型具有来自具有癌症的一个或多个训练对象的多个片段的一癌症集合和来自不具有癌症的一个或多个训练对象的多个片段的一非癌症集合,其中所述多个片段的所述癌症集合和所述多个片段的所述非癌症集合均包含多个训练片段。
223.如权利要求222所述的方法,其特征在于:所述训练程序包含:
(a)从多个训练对象中获取多个训练片段的序列信息;
(b)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(c)对于每一个训练对象,基于所述多个低甲基化的训练片段及所述多个高甲基化的训练片段产生一训练特征向量;及
(d)利用来自不具有癌症的一个或多个训练对象的所述多个训练特征向量和来自具有癌症的一个或多个训练对象的所述多个训练特征向量训练所述模型。
224.如权利要求222所述的方法,其特征在于:所述训练程序包含:
(a)从多个训练对象中获取多个训练片段的序列信息;
(b)对于每一个训练片段,确定所述训练片段是低甲基化或高甲基化,其中所述多个低甲基化和高甲基化的训练片段中的每一个包含至少一个阈值数的多个CpG位点,所述多个CpG位点分别具有至少一个阈值百分比为未甲基化或甲基化;
(c)对于在一参考基因组中的多个CpG位点中的每一个:
量化与所述CpG位点重叠的多个低甲基化的训练片段的一数量和与所述CpG位点重叠的多个高甲基化的训练片段的一数量;及
基于多个低甲基化的训练片段和多个高甲基化的训练片段的所述数量,生成一低甲基化得分和一高甲基化得分;
(d)对于每一个训练片段,基于所述训练片段中所述多个CpG位点的所述低甲基化得分生成一总合的低甲基化得分,以及基于所述训练片段中所述多个CpG位点的所述高甲基化得分生成一总合的高甲基化得分;
(e)对于每一个训练对象:
基于总合的低甲基化得分对所述多个训练片段进行排名,并基于总合的高甲基化得分对所述多个训练片段进行排名;及
基于所述多个训练片段的所述排名生成一特征向量;
(f)获取不具有癌症的一个或多个训练对象的多个训练特征向量,以及具有癌症的一个或多个训练对象的多个训练特征向量;以及
(g)利用不具有癌症的所述一个或多个训练对象的所述多个特征向量及具有癌症的所述一个或多个训练对象的所述多个特征向量训练所述模型。
225.如权利要求222至224任一项所述的方法,其特征在于:所述模型包含一内核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络和一自动编码器模型中的一种。
226.如权利要求222至225任一项所述的方法,其特征在于:所述方法进一步包含:
(a)基于所述模型获得测试样本的一癌症概率;以及
(b)将所述癌症概率与一阈值概率进行比较,以确定所述测试样本是否来自具有癌症的一患者或不具有癌症的一患者。
227.如权利要求226所述的方法,其特征在于:所述方法进一步包含:对所述对象施用一抗癌剂。
228.一种治疗癌症患者的方法,其特征在于:所述方法包含:
向通过如权利要求226所述的方法向已经被识别为一癌症对象的一对象施用一抗癌剂。
229.如权利要求228所述的方法,其特征在于:所述抗癌剂是选自以下群组组成的化学治疗剂:烷基化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉醇)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基药物。
230.一种用于提供癌症存在或不存在的信息的序列信息的方法,其特征在于:所述方法包含步骤:
将来自一生物样本的无细胞DNA与一脱氨基剂相接触,以生成一无细胞DNA样本,所述无细胞DNA样本包含多个多个脱氨基核苷酸;
扩增无细胞DNA以获取多个DNA片段,所述多个DNA片段共同对应于选自在表1至24的任一个中所识别的多个基因组区域的至少100、200、500或1000个基因组区域;以及
对扩增后的无细胞DNA分子进行测序,从而获得多个序列读数的一集合。
231.如权利要求230所述的方法,其特征在于:扩增所述无细胞DNA不涉及杂交捕获。
232.如权利要求230或231所述的方法,其特征在于:扩增所述无细胞DNA包含:放大所述多个DNA片段。
233.如权利要求231所述的方法,其特征在于:放大所述无细胞DNA分子包含:将所述无细胞DNA与多组引物相接触,及通过聚合酶链式反应放大所述多个无细胞DNA分子,其中每一个引物组包含一前向引物和一反向引物。
234.一种用于扩增供癌症诊断的多个cfDNA分子的化验板,其特征在于:所述化验板包含:
至少不同的50对的多核苷酸探针,其中所述至少50对探针中的每一对:
(i)包含两个不同的探针,被配置成通过30个或更多个的核苷酸的一重叠序列彼此相重叠,及(ii)被配置成与一修饰的片段杂交,所述修饰的片段从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子中的每一个对应于或衍生自一个或多个基因组区域,及
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
235.如权利要求234所述的化验板,其特征在于:所述重叠序列包含至少40、50、75或100个核苷酸。
236.如权利要求234至235任一项所述的化验板,其特征在于:所述化验板包含至少50、60、70、80、90、100、120、150或200对探针。
237.一种用于扩增供癌症诊断的多个cfDNA分子的化验板,其特征在于:所述化验板包含:
至少100个多核苷酸探针,其中所述至少100个探针中的每一个被配置成与一修饰的多核苷酸杂交,所述修饰的多核苷酸杂交从所述多个cfDNA分子的处理获得,其中所述多个cfDNA分子对应于或衍生自一个或多个基因组区域,及
其中所述一个或多个基因组区域中的每一个包含至少5个甲基化位点以及在多个癌性训练样本中具有一异常甲基化模式。
238.如权利要求234至237任一项所述的化验板,其特征在于:所述多个cfDNA分子的处理包含将所述多个cfDNA分子中的未甲基化C(胞嘧啶)转化为U(尿嘧啶)。
239.如权利要求234至238任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个与一生物素部分接合。
240.如权利要求234至239任一项所述的化验板,其特征在于:所述多个训练样本是从被确定具有癌症的多个对象的多个样本。
241.如权利要求234至240任一项所述的化验板,其特征在于:当所述多个癌性训练样本中代表所述基因组区域的一甲基化状态向量在多个参考样本中出现的频率低于一阈值时,在多个癌性训练样本中一基因组区域中具有一异常甲基化模式。
242.如权利要求241所述的化验板,其特征在于:所述阈值为0.1、0.01、0.001或0.0001。
243.如权利要求234至242任一项所述的化验板,其特征在于:所述一个或多个基因组区域中的每一个在所述多个癌性训练样本中是高甲基化或低甲基化。
244.如权利要求234至243任一项所述的化验板,其特征在于:所述至少5个甲基化位点的至少80%、85%、90%、92%、95%或98%在所述多个癌性训练样本中甲基化或未甲基化。
245.如权利要求234至244任一项所述的化验板,其特征在于:所述化验板上的所述多个探针的至少3%、5%、10%、15%、20%、30%或40%不包含G(鸟嘌呤)。
246.如权利要求234至245任一项所述的化验板,其特征在于:所述化验板上的所述多个探针的至少80%、85%、90%、92%、95%、98%在多个CpG检测位点上仅具有CpG或仅具有CpA。
247.如权利要求234至246任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含少于20、15、10、8或6个CpG检测位点。
248.如权利要求234至247任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个被设计为与少于20、15、10或8个脱靶基因组区域具有序列同源性或序列互补性。
249.如权利要求248所述的化验板,其特征在于:所述少于20个脱靶基因组区域使用k-mer接种策略识别。
250.如权利要求249任一项所述的化验板,其特征在于:所述少于20个脱靶基因组区域使用k-mer接种策略结合在多个接种位置处的局部比对来识别。
251.如权利要求234至250任一项所述的化验板,其特征在于:所述化验板包含至少100、200、300或400个探针。
252.如权利要求234至251任一项所述的化验板,其特征在于:所述至少500对探针或所述至少100个探针同时包含至少1万、2万或5万个核苷酸。
253.如权利要求234至252任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含至少50、75、100或120个核苷酸。
254.如权利要求234至253任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含少于300、250、200或150个核苷酸。
255.如权利要求234至254任一项所述的化验板,其特征在于:所述化验板上的所述多个探针中的每一个包含100至150个核苷酸。
256.如权利要求234至255任一项所述的化验板,其特征在于:所述化验板还包含:
多个病毒特异性探针,其中所述多个病毒特异性探针中的每一个被配置为与来自cfDNA的一病毒基因组片段杂交。
257.如权利要求256所述的化验板,其特征在于:所述病毒基因组片段来自MCV、EBV、HBV、HCMV、HCV、HHV5、HPV16或HPV18。
258.如权利要求256至257任一项所述的化验板,其特征在于:所述化验板包含至少50、100、200、500、1000、2000或3000个病毒特异性探针。
259.如权利要求234至258任一项所述的化验板,其特征在于:所述一个或多个基因组区域中的每一个选自表2至10或表16至24中的所述多个基因组区域中的一个或多个。
260.如权利要求234至258任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或表16至24的一个或多个中的至少30%、40%、50%、60%、70%、80%、90%或95%的所述多个基因组区域的所述多个cfDNA分子获得。
261.如权利要求234至258任一项所述的化验板,其特征在于:所述化验板上的多个探针的一整体一起被配置为与多个修饰的片段杂交,所述多个修饰的片段从对应于或衍生自表2至10或16至24中的一个或多个中的至少50、60、70、80、90、100、120、150或200个基因组区域的所述多个cfDNA分子获得。
CN201980037495.6A 2018-04-02 2019-04-02 甲基化标记和标靶甲基化探针板 Pending CN112236520A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862651643P 2018-04-02 2018-04-02
US62/651,643 2018-04-02
US201862738271P 2018-09-28 2018-09-28
US62/738,271 2018-09-28
PCT/US2019/025358 WO2019195268A2 (en) 2018-04-02 2019-04-02 Methylation markers and targeted methylation probe panels

Publications (1)

Publication Number Publication Date
CN112236520A true CN112236520A (zh) 2021-01-15

Family

ID=68101340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980037495.6A Pending CN112236520A (zh) 2018-04-02 2019-04-02 甲基化标记和标靶甲基化探针板

Country Status (8)

Country Link
US (2) US20210017609A1 (zh)
EP (1) EP3775198A4 (zh)
CN (1) CN112236520A (zh)
AU (1) AU2019249422A1 (zh)
CA (1) CA3094717A1 (zh)
DE (1) DE202019005627U1 (zh)
GB (2) GB2611500B (zh)
WO (1) WO2019195268A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114164275A (zh) * 2021-12-22 2022-03-11 武汉艾米森生命科技有限公司 肝癌的标记物在制备肝癌检测产品中的用途及检测试剂盒

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3094717A1 (en) 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels
EP3776381A4 (en) * 2018-04-13 2022-01-05 Freenome Holdings, Inc. IMPLEMENTATION OF MACHINE LEARNING FOR MULTI-ANALYTE TESTS OF BIOLOGICAL SAMPLES
CN113286881A (zh) 2018-09-27 2021-08-20 格里尔公司 甲基化标记和标靶甲基化探针板
US11773450B2 (en) 2019-04-03 2023-10-03 Grail, Llc Methylation-based false positive duplicate marking reduction
JP2022532892A (ja) 2019-05-13 2022-07-20 グレイル, インコーポレイテッド モデルベースの特徴量化および分類
WO2020237184A1 (en) 2019-05-22 2020-11-26 Grail, Inc. Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210065842A1 (en) 2019-07-23 2021-03-04 Grail, Inc. Systems and methods for determining tumor fraction
US20210102262A1 (en) 2019-09-23 2021-04-08 Grail, Inc. Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
US20210241046A1 (en) * 2019-11-26 2021-08-05 University Of North Texas Compositions and methods for cancer detection and classification using neural networks
CA3159651A1 (en) 2019-12-18 2021-06-24 Jing Xiang Systems and methods for estimating cell source fractions using methylation information
CN115315529A (zh) * 2020-01-17 2022-11-08 小利兰·斯坦福大学董事会 用于诊断肝细胞癌的方法
CN115443507A (zh) * 2020-02-28 2022-12-06 格里尔公司 鉴定可鉴别或指示癌症病状的甲基化模式
US20210285042A1 (en) 2020-02-28 2021-09-16 Grail, Inc. Systems and methods for calling variants using methylation sequencing data
EP4115427A1 (en) 2020-03-04 2023-01-11 Grail, LLC Systems and methods for cancer condition determination using autoencoders
JP2023524627A (ja) * 2020-03-31 2023-06-13 フリーノム ホールディングス,インク. 核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム
CN115956132A (zh) 2020-06-20 2023-04-11 格里尔公司 人乳头瘤病毒相关癌症的检测及分类
WO2022064162A1 (en) * 2020-09-22 2022-03-31 The Secretary Of State For Defence Dstl Apparatus, kits and methods for predicting the development of sepsis
WO2022165247A1 (en) * 2021-01-29 2022-08-04 Mayo Foundation For Medical Education And Research Detecting the presence or absence of multiple types of cancer
AU2022245306A1 (en) * 2021-03-26 2023-10-12 Freenome Holdings, Inc. Methods and systems for detecting cancer via nucleic acid methylation analysis
CA3227495A1 (en) 2021-08-05 2023-02-09 Grail, Inc. Somatic variant cooccurrence with abnormally methylated fragments
WO2023158711A1 (en) 2022-02-17 2023-08-24 Grail, Llc Tumor fraction estimation using methylation variants
WO2024178248A1 (en) * 2023-02-22 2024-08-29 University Of Southern California Pan-cancer early detection and mrd cfdna methylation

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120149593A1 (en) * 2009-01-23 2012-06-14 Hicks James B Methods and arrays for profiling dna methylation
US20130337447A1 (en) * 2009-04-30 2013-12-19 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
US20160040218A1 (en) * 2013-03-14 2016-02-11 The Broad Institute, Inc. Selective Purification of RNA and RNA-Bound Molecular Complexes
US20160047001A1 (en) * 2013-04-08 2016-02-18 Carmel-Haifa University Economic Corporation Ltd. Sept4/ARTS AS A TUMOR SUPPRESSOR IN THE DIAGNOSIS, PROGNOSIS AND TREATMENT OF HEPATIC DISORDERS
CN106661631A (zh) * 2014-06-06 2017-05-10 康奈尔大学 使用组合的核酸酶、连接酶、聚合酶和测序反应识别和枚举核酸序列、表达、拷贝或dna甲基化变化的方法
WO2017127741A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Methods and systems for high fidelity sequencing
WO2017158158A1 (en) * 2016-03-18 2017-09-21 Region Nordjylland, Aalborg University Hospital Methylation markers for pancreatic cancer
US20180044731A1 (en) * 2016-08-10 2018-02-15 Grail, Inc. Methods of Preparing Dual-Indexed DNA Libraries for Bisulfite Conversion Sequencing
US20180066306A1 (en) * 2016-08-10 2018-03-08 Cirina, Inc. Methods of analyzing nucleic acid fragments

Family Cites Families (239)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6210878B1 (en) * 1997-08-08 2001-04-03 The Regents Of The University Of California Array-based detection of genetic alterations associated with disease
US7700324B1 (en) 1998-11-03 2010-04-20 The Johns Hopkins University School Of Medicine Methylated CpG island amplification (MCA)
US8076063B2 (en) 2000-02-07 2011-12-13 Illumina, Inc. Multiplexed methylation detection methods
DE10021204A1 (de) 2000-04-25 2001-11-08 Epigenomics Ag Verfahren zur hochparallelen Analyse von Polymorphismen
DE10029914A1 (de) 2000-06-19 2002-01-03 Epigenomics Ag Verfahren zur hochparallelen Analyse von Polymorphismen
AU2001296511A1 (en) 2000-09-29 2002-04-08 The Johns Hopkins University School Of Medicine Method of predicting the clinical response to chemotherapeutic treatment with alkylating agents
US6773987B1 (en) 2001-11-17 2004-08-10 Altera Corporation Method and apparatus for reducing charge loss in a nonvolatile memory cell
WO2003054219A2 (en) 2001-12-19 2003-07-03 Incyte Corporation Nucleic acid-associated proteins
DE60207979T2 (de) 2002-03-05 2006-09-28 Epigenomics Ag Verfahren und Vorrichtung zur Bestimmung der Gewebespezifität von freier DNA in Körperflüssigkeiten
AU2003236461B2 (en) 2002-08-29 2009-05-28 Epigenomics Ag Improved method for bisulfite treatment
EP1567669B1 (en) 2002-12-02 2010-03-24 Illumina Cambridge Limited Determination of methylation of nucleic acid sequences
DE602004021902D1 (de) 2003-01-17 2009-08-20 Univ Boston Haplotypanalyse
EP1590362B8 (en) 2003-01-29 2015-06-03 Epigenomics AG Improved method for bisulfite treatment
US7041455B2 (en) 2003-03-07 2006-05-09 Illumigen Biosciences, Inc. Method and apparatus for pattern identification in diploid DNA sequence data
US8150626B2 (en) 2003-05-15 2012-04-03 Illumina, Inc. Methods and compositions for diagnosing lung cancer with specific DNA methylation patterns
WO2005003381A1 (en) 2003-07-04 2005-01-13 Johnson & Johnson Research Pty. Limited Method for detection of alkylated cytosine in dna
US20060183128A1 (en) 2003-08-12 2006-08-17 Epigenomics Ag Methods and compositions for differentiating tissues for cell types using epigenetic markers
US7485420B2 (en) 2003-08-14 2009-02-03 Case Western Reserve University Methods and compositions for detecting colon cancers
US8415100B2 (en) 2003-08-14 2013-04-09 Case Western Reserve University Methods and compositions for detecting gastrointestinal and other cancers
GB0319376D0 (en) 2003-08-18 2003-09-17 Chroma Therapeutics Ltd Histone modification detection
US7371526B2 (en) 2003-08-29 2008-05-13 Applera Corporation Method and materials for bisulfite conversion of cytosine to uracil
US7655399B2 (en) 2003-10-08 2010-02-02 Trustees Of Boston University Methods for prenatal diagnosis of chromosomal abnormalities
EP1692264A2 (en) 2003-10-28 2006-08-23 The Johns Hopkins University Quantitative multiplex methylation-specific pcr
AU2004311882A1 (en) 2003-12-29 2005-07-21 Nugen Technologies, Inc. Methods for analysis of nucleic acid methylation status and methods for fragmentation, labeling and immobilization of nucleic acids
US7842459B2 (en) 2004-01-27 2010-11-30 Compugen Ltd. Nucleotide and amino acid sequences, and assays and methods of use thereof for diagnosis
US20050196792A1 (en) 2004-02-13 2005-09-08 Affymetrix, Inc. Analysis of methylation status using nucleic acid arrays
US7709194B2 (en) 2004-06-04 2010-05-04 The Chinese University Of Hong Kong Marker for prenatal diagnosis and monitoring
DK1659186T3 (da) 2004-10-11 2008-09-22 Epigenomics Ag Fremgangsmåde til kontaminationsbeskyttelse i DNA-amplifikationssystemer til methyleringsanalyse opnået ved en modificeret forbehandling af nukleinsyrer
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
US20070196820A1 (en) 2005-04-05 2007-08-23 Ravi Kapur Devices and methods for enrichment and alteration of cells and other particles
ES2533767T3 (es) 2005-04-15 2015-04-15 Epigenomics Ag Métodos para el análisis de trastornos proliferativos celulares
JP2008545418A (ja) 2005-05-27 2008-12-18 ジョン ウェイン キャンサー インスティチュート 癌の診断、予後診断、および治療のための遊離循環dnaの使用
US20060292585A1 (en) 2005-06-24 2006-12-28 Affymetrix, Inc. Analysis of methylation using nucleic acid arrays
ATE453728T1 (de) 2005-09-29 2010-01-15 Keygene Nv Screening mutagenisierter populationen mit hohem durchsatz
US9797005B2 (en) 2005-11-23 2017-10-24 University Of Southern California High throughput method of DNA methylation haplotyping
WO2007068437A1 (en) 2005-12-14 2007-06-21 Roche Diagnostics Gmbh New method for bisulfite treatment
US20070141582A1 (en) 2005-12-15 2007-06-21 Weiwei Li Method and kit for detection of early cancer or pre-cancer using blood and body fluids
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US20070161031A1 (en) 2005-12-16 2007-07-12 The Board Of Trustees Of The Leland Stanford Junior University Functional arrays for high throughput characterization of gene expression regulatory elements
WO2007073165A1 (en) 2005-12-22 2007-06-28 Keygene N.V. Method for high-throughput aflp-based polymorphism detection
ES2595373T3 (es) 2006-02-02 2016-12-29 The Board Of Trustees Of The Leland Stanford Junior University Prueba genética no invasiva mediante análisis digital
WO2007106802A2 (en) 2006-03-14 2007-09-20 Siemens Healthcare Diagnostics Inc. Method for linear amplification of bisulfite converted dna
US7901882B2 (en) 2006-03-31 2011-03-08 Affymetrix, Inc. Analysis of methylation using nucleic acid arrays
US20070264640A1 (en) 2006-05-12 2007-11-15 Barrett Michael T Array-based assays using split-probe nucleic acid arrays
US8768629B2 (en) 2009-02-11 2014-07-01 Caris Mpi, Inc. Molecular profiling of tumors
CN101449162B (zh) 2006-05-18 2013-07-31 分子压型学会股份有限公司 确定针对病状的个性化医疗介入的系统和方法
ES2538214T3 (es) 2006-08-08 2015-06-18 Epigenomics Ag Un método para el análisis de metilación de ácido nucleico
TWI335354B (en) 2006-09-27 2011-01-01 Univ Hong Kong Chinese Methods for the detection of the degree of the methylation of a target dna and kits
WO2008048508A2 (en) 2006-10-13 2008-04-24 Vermillion, Inc. Prognostic biomarkers in patients with ovarian cancer
US20080102450A1 (en) 2006-10-26 2008-05-01 Barrett Michael T Detecting DNA methylation patterns in genomic DNA using bisulfite-catalyzed transamination of CpGS
EP2097538A4 (en) 2006-12-07 2011-11-30 Switchgear Genomics TRANSCRIPTION REAGULATION ELEMENTS OF BIOLOGICAL PATHS, TOOLS AND METHODS
BRPI0721095B1 (pt) * 2006-12-13 2015-09-29 Luminex Corp Sistemas e métodos para a análise multíplex de pcr em tempo real
GB0700374D0 (en) 2007-01-09 2007-02-14 Oncomethylome Sciences S A NDRG family methylation markers
US7899626B2 (en) 2007-01-10 2011-03-01 Illumina, Inc. System and method of measuring methylation of nucleic acids
US7863035B2 (en) 2007-02-15 2011-01-04 Osmetech Technology Inc. Fluidics devices
JP5378687B2 (ja) 2007-03-02 2013-12-25 エフ.ホフマン−ラ ロシュ アーゲー Basp1遺伝子および/またはsrd5a2遺伝子中のメチル化シトシンを利用する、肝臓癌、肝臓癌発症リスク、肝臓癌再発リスク、肝臓癌悪性度および肝臓癌の経時的進展の検出方法
WO2008128198A2 (en) 2007-04-12 2008-10-23 Usc Stevens - University Of Southern California Dna methylation analysis by digital bisulfite genomic sequencing and digital methylight
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
PT2183379E (pt) 2007-08-01 2015-09-25 Dana Farber Cancer Inst Inc Enriquecimento de uma sequência alvo
US8486634B2 (en) 2007-11-06 2013-07-16 Ambergen, Inc. Amplifying bisulfite-treated template
EP2240603A4 (en) 2008-01-03 2011-07-20 Univ Johns Hopkins COMPOSITIONS AND METHOD FOR POLYNUCLEOTIDE EXTRACTION AND METHYLATION DETECTION
EP2255198A4 (en) 2008-02-15 2011-05-25 Mayo Foundation DETECTION OF NEOPLASM
US8586310B2 (en) 2008-09-05 2013-11-19 Washington University Method for multiplexed nucleic acid patch polymerase chain reaction
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
EP2175037B1 (en) * 2008-09-26 2017-10-11 Genomic Vision Method for analyzing D4Z4 tandem repeat arrays of nucleic acid and kit therefore
WO2010037001A2 (en) 2008-09-26 2010-04-01 Immune Disease Institute, Inc. Selective oxidation of 5-methylcytosine by tet-family proteins
US8728764B2 (en) 2008-10-02 2014-05-20 Illumina Cambridge Limited Nucleic acid sample enrichment for sequencing applications
WO2010048337A2 (en) 2008-10-22 2010-04-29 Illumina, Inc. Preservation of information related to genomic dna methylation
US20100304978A1 (en) 2009-01-26 2010-12-02 David Xingfei Deng Methods and compositions for identifying a fetal cell
EP2233590A1 (en) 2009-01-28 2010-09-29 AIT Austrian Institute of Technology GmbH Methylation assay
US9334531B2 (en) * 2010-12-17 2016-05-10 Life Technologies Corporation Nucleic acid amplification
WO2010132814A1 (en) 2009-05-15 2010-11-18 The Trustees Of The University Of Pennsylvania Long hepitype distribution (lhd)
WO2011001274A2 (en) 2009-07-02 2011-01-06 Nucleix Methods for distinguishing between natural and artificial dna samples
US20110027771A1 (en) 2009-07-31 2011-02-03 Artemis Health, Inc. Methods and compositions for cell stabilization
WO2011022420A1 (en) 2009-08-17 2011-02-24 Yale University Methylation biomarkers and methods of use
US20120208711A1 (en) 2009-10-02 2012-08-16 Centre For Addiction And Mental Health Method for Analysis of DNA Methylation Profiles of Cell-Free Circulating DNA in Bodily Fluids
ES2564656T3 (es) 2009-10-26 2016-03-28 Lifecodexx Ag Medios y métodos para el diagnóstico no invasivo de la aneuploidía cromosómica
US20130059734A1 (en) 2009-11-13 2013-03-07 Commonwealth Scientific And Industrial Research Organisation Epigenetic analysis
US20110237444A1 (en) 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
WO2011071923A2 (en) 2009-12-07 2011-06-16 Illumina, Inc. Multi-sample indexing for multiplex genotyping
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
US9938575B2 (en) 2010-08-06 2018-04-10 Rutgers, The State University Of New Jersey Compositions and methods for high-throughput nucleic acid analysis and quality control
US20140342940A1 (en) * 2011-01-25 2014-11-20 Ariosa Diagnostics, Inc. Detection of Target Nucleic Acids using Hybridization
US20120053062A1 (en) 2010-08-24 2012-03-01 Bio Dx, Inc. Defining diagnostic and therapeutic targets of conserved free floating fetal dna in maternal circulating blood
WO2012031329A1 (en) 2010-09-10 2012-03-15 Murdoch Childrens Research Institute Assay for detection and monitoring of cancer
ES2523140T3 (es) 2010-09-21 2014-11-21 Population Genetics Technologies Ltd. Aumento de la confianza en las identificaciones de alelos con el recuento molecular
JP6017458B2 (ja) 2011-02-02 2016-11-02 ユニヴァーシティ・オブ・ワシントン・スルー・イッツ・センター・フォー・コマーシャリゼーション 大量並列連続性マッピング
US9611510B2 (en) 2011-04-06 2017-04-04 The University Of Chicago Composition and methods related to modification of 5-methylcytosine (5-mC)
US9476095B2 (en) 2011-04-15 2016-10-25 The Johns Hopkins University Safe sequencing system
WO2012149171A1 (en) 2011-04-27 2012-11-01 The Regents Of The University Of California Designing padlock probes for targeted genomic sequencing
EP3444361A1 (en) 2011-06-22 2019-02-20 Yale University Methods of diagnosing diseases and disorders associated with pancreatic beta cell death
EP2737085B1 (en) 2011-07-29 2016-10-12 Cambridge Epigenetix Limited Methods for detection of nucleotide modification
GB201115098D0 (en) 2011-09-01 2011-10-19 Belgian Volition Sa Method for detecting nucleosomes containing histone variants
US20130129668A1 (en) 2011-09-01 2013-05-23 The Regents Of The University Of California Diagnosis and treatment of arthritis using epigenetics
GB201115099D0 (en) 2011-09-01 2011-10-19 Belgian Volition Sa Method for detecting nucleosomes
US9896725B2 (en) 2011-10-04 2018-02-20 The Regents Of The University Of California Corporation Real-time, label-free detection of macromolecules in droplets based on electrical measurements
WO2013060762A1 (en) 2011-10-25 2013-05-02 Roche Diagnostics Gmbh Method for diagnosing a disease based on plasma-dna distribution
WO2013062856A1 (en) 2011-10-27 2013-05-02 Verinata Health, Inc. Set membership testers for aligning nucleic acid samples
CN103103624B (zh) 2011-11-15 2014-12-31 深圳华大基因科技服务有限公司 高通量测序文库的构建方法及其应用
US8573311B2 (en) 2012-01-20 2013-11-05 Halliburton Energy Services, Inc. Pressure pulse-initiated flow restrictor bypass system
CA3111723A1 (en) 2012-01-30 2013-08-08 Exact Sciences Development Company, Llc Sulfonated small dna compositions and methods for sulfonating and desulfonating small dnas
ES2930180T3 (es) 2012-03-02 2022-12-07 Sequenom Inc Métodos para enriquecer ácido nucleico canceroso a partir de una muestra biológica
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
CA2867293C (en) 2012-03-13 2020-09-01 Abhijit Ajit PATEL Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
US10081827B2 (en) 2012-03-15 2018-09-25 New England Biolabs, Inc. Mapping cytosine modifications
US9200260B2 (en) 2012-03-15 2015-12-01 New England Biolabs, Inc. Compositions and methods for the transfer of a hexosamine to a modified nucleotide in a nucleic acid
EP2825645B1 (en) 2012-03-15 2016-10-12 New England Biolabs, Inc. Methods and compositions for discrimination between cytosine and modifications thereof, and for methylome analysis
DK2828218T3 (da) 2012-03-20 2020-11-02 Univ Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
US20130261984A1 (en) 2012-03-30 2013-10-03 Illumina, Inc. Methods and systems for determining fetal chromosomal abnormalities
WO2013163207A1 (en) 2012-04-24 2013-10-31 Pacific Biosciences Of California, Inc. Identification of 5-methyl-c in nucleic acid templates
CA2876393A1 (en) 2012-06-13 2013-12-19 King Abdullah University Of Science And Technology Methylation biomarkers for breast cancer
US20150011396A1 (en) 2012-07-09 2015-01-08 Benjamin G. Schroeder Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing
US9977861B2 (en) 2012-07-18 2018-05-22 Illumina Cambridge Limited Methods and systems for determining haplotypes and phasing of haplotypes
EP2698436A1 (en) 2012-08-14 2014-02-19 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Colorectal cancer markers
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CA2883901C (en) 2012-09-04 2023-04-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US9732390B2 (en) 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
ES2665273T5 (es) 2012-09-20 2023-10-02 Univ Hong Kong Chinese Determinación no invasiva de metiloma del feto o tumor de plasma
ES2669512T3 (es) 2012-11-30 2018-05-28 Cambridge Epigenetix Limited Agente oxidante para nucleótidos modificados
US20140274767A1 (en) 2013-01-23 2014-09-18 The Johns Hopkins University Dna methylation markers for metastatic prostate cancer
JP2016513959A (ja) 2013-02-21 2016-05-19 トマ バイオサイエンシーズ, インコーポレイテッド 核酸分析のための方法、組成物およびキット
GB201303576D0 (en) 2013-02-28 2013-04-10 Singapore Volition Pte Ltd Method for predicting therapy efficacy using nucleosome structure biomarkers
EP2775304A1 (en) 2013-03-07 2014-09-10 Universitätsspital Basel Methods for detecting inflammatory disorder
EP3543360B1 (en) * 2013-03-14 2021-02-17 Mayo Foundation for Medical Education and Research Detecting neoplasm
AU2014233373B2 (en) 2013-03-15 2019-10-24 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
EP3421613B1 (en) 2013-03-15 2020-08-19 The Board of Trustees of the Leland Stanford Junior University Identification and use of circulating nucleic acid tumor markers
WO2014184684A2 (en) 2013-05-16 2014-11-20 Oslo Universitetssykehus Hf Methods and biomarkers for detection of hematological cancers
CN104250663B (zh) 2013-06-27 2017-09-15 北京大学 甲基化CpG岛的高通量测序检测方法
ES2875892T3 (es) 2013-09-20 2021-11-11 Spraying Systems Co Boquilla de pulverización para craqueo catalítico fluidizado
US20150099670A1 (en) 2013-10-07 2015-04-09 Weiwei Li Method of preparing post-bisulfite conversion DNA library
ES2885191T3 (es) 2013-10-17 2021-12-13 Illumina Inc Métodos y composiciones para preparar bibliotecas de ácidos nucleicos
CA2928185C (en) 2013-10-21 2024-01-30 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
EP3080268A1 (en) 2013-12-09 2016-10-19 Illumina, Inc. Methods and compositions for targeted nucleic acid sequencing
EP3087204B1 (en) 2013-12-28 2018-02-14 Guardant Health, Inc. Methods and systems for detecting genetic variants
JP2017501730A (ja) 2013-12-31 2017-01-19 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft Dnaメチル化の状態を通してゲノム機能のエピジェネティックな調節を評価する方法ならびにそのためのシステムおよびキット
WO2015106273A2 (en) 2014-01-13 2015-07-16 Trustees Of Boston University Methods and assays relating to huntingtons disease and parkinson's disease
AU2014377537B2 (en) 2014-01-16 2021-02-25 Illumina, Inc. Amplicon preparation and sequencing on solid supports
CN112322735A (zh) 2014-01-16 2021-02-05 启迪公司 用于前列腺癌复发的预后的基因表达面板
WO2015116591A1 (en) 2014-01-30 2015-08-06 Illumina, Inc. Compositions and methods for dispensing reagents
US9670530B2 (en) 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing
CA2938451C (en) 2014-01-30 2023-10-17 The Regents Of The University Of California Methylation haplotyping for non-invasive diagnosis (monod)
GB201403216D0 (en) 2014-02-24 2014-04-09 Cambridge Epigenetix Ltd Nucleic acid sample preparation
US9745614B2 (en) 2014-02-28 2017-08-29 Nugen Technologies, Inc. Reduced representation bisulfite sequencing with diversity adaptors
GB201405226D0 (en) 2014-03-24 2014-05-07 Cambridge Entpr Ltd Nucleic acid preparation method
US10301680B2 (en) 2014-03-31 2019-05-28 Mayo Foundation For Medical Education And Research Detecting colorectal neoplasm
PL4026917T3 (pl) 2014-04-14 2024-04-08 Yissum Research And Development Company Of The Hebrew University Of Jerusalem Ltd. Metoda i zestaw do określania śmierci komórek lub tkanek albo tkankowego lub komórkowego pochodzenia dna za pomocą analizy metylacji dna
EP2942400A1 (en) 2014-05-09 2015-11-11 Lifecodexx AG Multiplex detection of DNA that originates from a specific cell-type
US20170183712A1 (en) 2014-05-21 2017-06-29 Atherotech, Inc. Methods of isolation of cell free complexes and circulating cell-free nucleic acid
DK3543356T3 (da) * 2014-07-18 2021-10-11 Univ Hong Kong Chinese Analyse af methyleringsmønster af væv i DNA-blanding
CA2955382C (en) 2014-07-21 2023-07-18 Illumina, Inc. Polynucleotide enrichment using crispr-cas systems
EP3172341A4 (en) 2014-07-25 2018-03-28 University of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
HUE059031T2 (hu) 2014-07-25 2022-10-28 Bgi Genomics Co Ltd Módszer a sejtmentes magzati nukleinsavak frakciójának meghatározására egy terhes nõ perifériás vérmintájában és annak alkalmazása
GB201413318D0 (en) 2014-07-28 2014-09-10 Cambridge Epigenetix Ltd Nucleic acid sample preparation
GB201415761D0 (en) 2014-09-05 2014-10-22 Cambridge Epigenetix Ltd Methods for detection of Nucleotide modification
WO2016038220A1 (en) 2014-09-12 2016-03-17 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data
EP3201361B1 (en) 2014-10-01 2020-02-12 Chronix Biomedical Methods of quantifying cell-free dna
DK3207134T3 (da) 2014-10-17 2019-09-23 Illumina Cambridge Ltd Kontiguitetsbevarende transposition
GB201418621D0 (en) 2014-10-20 2014-12-03 Cambridge Epigenetix Ltd Improved nucleic acid sample preparation using concatenation
GB201418718D0 (en) 2014-10-21 2014-12-03 Cambridge Epigenetix Ltd Improved nucleic acid re-sequencing using a reduced number of identified bases
KR20170083563A (ko) 2014-11-14 2017-07-18 리퀴드 제노믹스, 아이엔씨. 암 진단 및/또는 모니터링을 위한 무세포 rna의 사용 방법
JP6905934B2 (ja) 2014-12-05 2021-07-21 ファウンデーション・メディシン・インコーポレイテッド 腫瘍試料の多重遺伝子分析
WO2016094853A1 (en) 2014-12-12 2016-06-16 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
EP3230476B1 (en) 2014-12-12 2020-02-05 Exact Sciences Development Company, LLC Zdhhc1 for normalizing methylation detection assays
EP3230744B1 (en) 2014-12-12 2021-05-12 Exact Sciences Development Company, LLC Compositions and methods for performing methylation detection assays
US20170342500A1 (en) 2014-12-19 2017-11-30 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour
WO2016101258A1 (zh) 2014-12-26 2016-06-30 北京大学 一种检测与人体异常状态相关的差异甲基化CpG岛的方法
CN107406876B (zh) 2014-12-31 2021-09-07 夸登特健康公司 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
CN113957124A (zh) 2015-02-10 2022-01-21 香港中文大学 用于癌症筛查和胎儿分析的突变检测
US10196395B2 (en) 2015-02-12 2019-02-05 Crystal Pharmatech Co., Ltd Crystalline form alpha of IPI-145 and preparation method thereof
CA2974398A1 (en) 2015-02-13 2016-08-18 Abhijit Ajit PATEL Methods for highly parallel and accurate measurement of nucleic acids
US20160275240A1 (en) 2015-02-18 2016-09-22 Nugen Technologies, Inc. Methods and compositions for pooling amplification primers
EP3265079A4 (en) 2015-03-03 2019-01-02 Caris MPI, Inc. Molecular profiling for cancer
US20180087114A1 (en) 2015-03-05 2018-03-29 Trovagene, Inc. Early assessment of mechanism of action and efficacy of anti-cancer therapies using molecular markers in bodily fluid
CN107750279A (zh) 2015-03-16 2018-03-02 个人基因组诊断公司 核酸分析系统和方法
US10023922B2 (en) * 2015-03-23 2018-07-17 Whitehead Institute For Biomedical Research Reporter of genomic methylation and uses thereof
EP3274440A4 (en) 2015-03-27 2019-03-06 Exact Sciences Corporation PROOF OF DISEASES OF THE DISHES
GB201506669D0 (en) 2015-04-20 2015-06-03 Cambridge Epigenetix Ltd Nucleic acid sample enrichment
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
JP6995625B2 (ja) 2015-05-01 2022-01-14 ガーダント ヘルス, インコーポレイテッド 診断方法
WO2016189288A1 (en) 2015-05-22 2016-12-01 Cambridge Epigenetix Ltd Nucleic acid sample enrichment
US11274333B2 (en) 2015-05-29 2022-03-15 Molecular Cloning Laboratories (MCLAB) LLC Compositions and methods for preparing sequencing libraries
WO2016201142A1 (en) 2015-06-09 2016-12-15 Life Technologies Corporation Methods, systems, compositions, kits, apparatus and computer-readable media for molecular tagging
EP3839047A1 (en) 2015-06-15 2021-06-23 Cepheid Integrated purification and measurement of dna methylation and co-measurement of mutations and/or mrna expression levels in an automated reaction cartridge
US11725230B2 (en) 2015-06-24 2023-08-15 Dana-Farber Cancer Institute, Inc. Selective degradation of wild-type DNA and enrichment of mutant alleles using nuclease
DE102015009187B3 (de) 2015-07-16 2016-10-13 Dimo Dietrich Verfahren zur Bestimmung einer Mutation in genomischer DNA, Verwendung des Verfahrens und Kit zur Durchführung des Verfahrens
US10689706B2 (en) 2015-07-20 2020-06-23 The Chinese University Of Hong Kong Methylation pattern analysis of haplotypes in tissues in a DNA mixture
HUE057821T2 (hu) 2015-07-23 2022-06-28 Univ Hong Kong Chinese Sejtmentes DNS fragmentációs mintázatának elemzése
US11015213B2 (en) 2015-08-12 2021-05-25 Circulogene Theranostics, Llc Method of preparing cell free nucleic acid molecules by in situ amplification
WO2017048932A1 (en) 2015-09-17 2017-03-23 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Cancer detection methods
ES2796501T3 (es) 2015-10-10 2020-11-27 Guardant Health Inc Métodos y aplicaciones de la detección de fusión de genes en el análisis de ADN sin células
US10260088B2 (en) 2015-10-30 2019-04-16 New England Biolabs, Inc. Compositions and methods for analyzing modified nucleotides
WO2017075436A1 (en) 2015-10-30 2017-05-04 New England Biolabs, Inc. Compositions and methods for determining modified cytosines by sequencing
ES2856598T3 (es) 2015-11-11 2021-09-27 Resolution Bioscience Inc Construcción de alta eficiencia de bibliotecas de ADN
FR3044925B1 (fr) 2015-12-09 2020-04-24 Centre National De La Recherche Scientifique Composes et compositions comprenant de tels composes pour la prevention ou le traitement des myopathies et traumatismes musculaires
CN108603228B (zh) 2015-12-17 2023-09-01 夸登特健康公司 通过分析无细胞dna确定肿瘤基因拷贝数的方法
EP3390657B1 (en) 2015-12-17 2020-09-16 Illumina, Inc. Distinguishing methylation levels in complex biological samples
EP3411505A4 (en) 2016-02-02 2020-01-15 Guardant Health, Inc. DETECTION AND DIAGNOSIS OF CANCER EVOLUTION
EP3433373B1 (en) * 2016-03-22 2022-01-12 Myriad Women's Health, Inc. Combinatorial dna screening
AU2017246318B2 (en) 2016-04-07 2023-07-27 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnostics by sequencing 5-hydroxymethylated cell-free DNA
WO2017181146A1 (en) 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
RU2760913C2 (ru) 2016-04-15 2021-12-01 Натера, Инк. Способы выявления рака легкого
CN109154613A (zh) 2016-04-15 2019-01-04 豪夫迈·罗氏有限公司 用于监测和治疗癌症的方法
JP2019515670A (ja) 2016-04-15 2019-06-13 ジェネンテック, インコーポレイテッド がんをモニタリングし治療するための方法
WO2017181134A2 (en) 2016-04-15 2017-10-19 F. Hoffman-La Roche Ag Detecting cancer driver genes and pathways
US20190256921A1 (en) 2016-05-04 2019-08-22 Queen's University At Kingston Cell-free detection of methylated tumour dna
CN109072293A (zh) 2016-05-13 2018-12-21 豪夫迈·罗氏有限公司 Met外显子14缺失的检测和相关疗法
US11427866B2 (en) 2016-05-16 2022-08-30 Accuragen Holdings Limited Method of improved sequencing by strand identification
US11499196B2 (en) 2016-06-07 2022-11-15 The Regents Of The University Of California Cell-free DNA methylation patterns for disease and condition analysis
EP3510171A4 (en) 2016-07-01 2020-04-29 Natera, Inc. COMPOSITIONS AND METHODS FOR DETECTION OF NUCLEIC ACID MUTATIONS
WO2018009705A1 (en) 2016-07-06 2018-01-11 Youhealth Biotech, Limited Liver cancer methylation markers and uses thereof
CN107847515B (zh) 2016-07-06 2021-01-29 优美佳生物技术有限公司 实体瘤甲基化标志物及其用途
EP3481954A4 (en) 2016-07-06 2020-04-15 Youhealth Biotech, Limited METHYLIZATION MARKERS FOR LUNG CANCER AND USES THEREOF
US10093986B2 (en) 2016-07-06 2018-10-09 Youhealth Biotech, Limited Leukemia methylation markers and uses thereof
US11396678B2 (en) 2016-07-06 2022-07-26 The Regent Of The University Of California Breast and ovarian cancer methylation markers and uses thereof
WO2018009696A1 (en) 2016-07-06 2018-01-11 Youhealth Biotech, Limited Colon cancer methylation markers and uses thereof
CA3030894A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
WO2018022890A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Genetic copy number alteration classifications
RU2019108294A (ru) 2016-08-25 2020-09-25 Резолюшн Байосайенс, Инк. Способы обнаружения изменений количества геномных копий в образцах днк
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
EP3559259A4 (en) 2016-12-21 2020-08-26 The Regents of the University of California DECONVOLUTION AND DETECTION OF RARE DNA IN PLASMA
CA3046007A1 (en) 2016-12-22 2018-06-28 Guardant Health, Inc. Methods and systems for analyzing nucleic acid molecules
CA3194557A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Sequencing adapter manufacture and use
BR112019018272A2 (pt) 2017-03-02 2020-07-28 Youhealth Oncotech, Limited marcadores metilação para diagnosticar hepatocelular carcinoma e câncer
US20200048697A1 (en) 2017-04-19 2020-02-13 Singlera Genomics, Inc. Compositions and methods for detection of genomic variance and DNA methylation status
CA3060555A1 (en) 2017-04-19 2018-10-25 Singlera Genomics, Inc. Compositions and methods for library construction and sequence analysis
WO2018204764A1 (en) 2017-05-05 2018-11-08 Camp4 Therapeutics Corporation Identification and targeted modulation of gene signaling networks
EP3688195A1 (en) 2017-09-27 2020-08-05 Cambridge Epigenetix Limited Biomarkers for colorectal cancer detection
EP3694426B1 (en) 2017-10-09 2024-05-01 The Board of Regents of the University of Oklahoma Surgical evacuation apparatus
TWI834642B (zh) 2018-03-13 2024-03-11 美商格瑞爾有限責任公司 異常片段偵測及分類
CA3094717A1 (en) 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels
CN112352057A (zh) 2018-04-12 2021-02-09 鹍远基因公司 用于癌症或肿瘤形成评估的组合物和方法
CN113286881A (zh) * 2018-09-27 2021-08-20 格里尔公司 甲基化标记和标靶甲基化探针板
CN113728115A (zh) 2019-01-25 2021-11-30 格里尔公司 侦测癌症、癌症来源组织及/或癌症细胞类型
WO2020163410A1 (en) 2019-02-05 2020-08-13 Grail, Inc. Detecting cancer, cancer tissue of origin, and/or a cancer cell type
CA3127894A1 (en) 2019-02-05 2020-08-13 Grail, Inc. Detecting cancer, cancer tissue of origin, and/or a cancer cell type

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120149593A1 (en) * 2009-01-23 2012-06-14 Hicks James B Methods and arrays for profiling dna methylation
US20130337447A1 (en) * 2009-04-30 2013-12-19 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
US20160040218A1 (en) * 2013-03-14 2016-02-11 The Broad Institute, Inc. Selective Purification of RNA and RNA-Bound Molecular Complexes
US20160047001A1 (en) * 2013-04-08 2016-02-18 Carmel-Haifa University Economic Corporation Ltd. Sept4/ARTS AS A TUMOR SUPPRESSOR IN THE DIAGNOSIS, PROGNOSIS AND TREATMENT OF HEPATIC DISORDERS
CN106661631A (zh) * 2014-06-06 2017-05-10 康奈尔大学 使用组合的核酸酶、连接酶、聚合酶和测序反应识别和枚举核酸序列、表达、拷贝或dna甲基化变化的方法
WO2017127741A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Methods and systems for high fidelity sequencing
WO2017158158A1 (en) * 2016-03-18 2017-09-21 Region Nordjylland, Aalborg University Hospital Methylation markers for pancreatic cancer
US20180044731A1 (en) * 2016-08-10 2018-02-15 Grail, Inc. Methods of Preparing Dual-Indexed DNA Libraries for Bisulfite Conversion Sequencing
US20180066306A1 (en) * 2016-08-10 2018-03-08 Cirina, Inc. Methods of analyzing nucleic acid fragments

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YIBIN LIU等: "Methylation-sensitive enrichment of minor DNA alleles using a double-strand DNA-specific nuclease", NUCLEIC ACIDS RESEARCH, vol. 45, no. 6, 7 April 2017 (2017-04-07), XP055512982, DOI: 10.1093/nar/gkw1166 *
伍超群: "多基因甲基化联合检测在云南地区肺癌早期诊断中的应用研究", 中国优秀硕士学位论文全文数据库(电子期刊)医药卫生科技辑, 15 February 2017 (2017-02-15), pages 072 - 405 *
周彩存: "循环肿瘤标志物在肺癌中的应用", 中国肺癌杂志, vol. 18, no. 12, 20 December 2015 (2015-12-20), pages 770 *
朱彦辉;姚广裕;陈路嘉;胡晓磊;叶长生;: "循环肿瘤DNA检测及其在乳腺癌中的临床应用", 肿瘤, no. 01, 19 January 2018 (2018-01-19) *
瞿国英等: "外周血游离DNA作为肿瘤标志物的临床展望和生物学意义", 国际检验医学杂志, vol. 37, no. 09, 15 May 2016 (2016-05-15), pages 1234 - 1236 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114164275A (zh) * 2021-12-22 2022-03-11 武汉艾米森生命科技有限公司 肝癌的标记物在制备肝癌检测产品中的用途及检测试剂盒

Also Published As

Publication number Publication date
GB202017322D0 (en) 2020-12-16
WO2019195268A3 (en) 2020-02-06
GB2587939B (en) 2023-06-14
GB2587939A (en) 2021-04-14
US12024750B2 (en) 2024-07-02
GB2611500B (en) 2023-06-28
GB2611500A (en) 2023-04-05
GB202300979D0 (en) 2023-03-08
CA3094717A1 (en) 2019-10-10
WO2019195268A2 (en) 2019-10-10
EP3775198A4 (en) 2022-01-05
US20210017609A1 (en) 2021-01-21
US20210025011A1 (en) 2021-01-28
EP3775198A2 (en) 2021-02-17
AU2019249422A1 (en) 2020-10-15
DE202019005627U1 (de) 2021-05-31

Similar Documents

Publication Publication Date Title
CN112236520A (zh) 甲基化标记和标靶甲基化探针板
US11685958B2 (en) Methylation markers and targeted methylation probe panel
CN113728115A (zh) 侦测癌症、癌症来源组织及/或癌症细胞类型
EP3921444B1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
JP7498793B2 (ja) 合成トレーニングサンプルによるがん分類
WO2020163410A1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
CN113574602A (zh) 从循环无细胞核酸中灵敏地检测拷贝数变异(cnv)
US20210395841A1 (en) Detection and classification of human papillomavirus associated cancers
KR20240073026A (ko) 노이즈 영역 필터링을 사용한 메틸화 단편 확률론적 노이즈 모델
US20240309461A1 (en) Sample barcode in multiplex sample sequencing
KR20240148354A (ko) 메틸화 변이체를 사용한 종양 분율 추정
CN118715565A (zh) 使用甲基化变体的肿瘤分数估计

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044143

Country of ref document: HK

CB02 Change of applicant information
CB02 Change of applicant information

Address after: Menlo Park, California, USA

Applicant after: GRAIL, Inc.

Address before: Menlo Park, California, USA

Applicant before: SDG OPS Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220420

Address after: Menlo Park, California, USA

Applicant after: SDG OPS Ltd.

Address before: Menlo Park, California, USA

Applicant before: GRAIL, Inc.