CN114026255A - 侦测癌症、癌症来源组织及/或一癌症细胞类型 - Google Patents

侦测癌症、癌症来源组织及/或一癌症细胞类型 Download PDF

Info

Publication number
CN114026255A
CN114026255A CN202080025351.1A CN202080025351A CN114026255A CN 114026255 A CN114026255 A CN 114026255A CN 202080025351 A CN202080025351 A CN 202080025351A CN 114026255 A CN114026255 A CN 114026255A
Authority
CN
China
Prior art keywords
cancer
genomic regions
list
derived
composition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080025351.1A
Other languages
English (en)
Inventor
奥利弗·克劳德·维恩
亚历山大·P·菲尔兹
萨缪尔·S·格罗斯
刘勤文
简·施伦伯格
约格·布登诺
约翰·F·博桑
塞德梅迪·肖吉
奥努尔·萨卡里亚
M·赛勒斯·马厄
阿拉什·詹姆席狄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SDG Ops LLC
Original Assignee
Grail LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2020/015082 external-priority patent/WO2020154682A2/en
Application filed by Grail LLC filed Critical Grail LLC
Priority claimed from PCT/US2020/016684 external-priority patent/WO2020163410A1/en
Publication of CN114026255A publication Critical patent/CN114026255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/22Haematology
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/70Mechanisms involved in disease identification
    • G01N2800/7023(Hyper)proliferation
    • G01N2800/7028Cancer

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本描述提供了一种癌症化验检测组合,用于靶向检测各种癌症专一性的甲基化模式。在本文中进一步提供者包括:设计、制造及使用用于侦测癌症来源组织(例如,癌症的类型)的所述癌症化验检测组合的方法。

Description

侦测癌症、癌症来源组织及/或一癌症细胞类型
交叉引用
本申请自申请日为2019年2月5日的美国临时专利申请第62/801,556号、申请日为2019年2月5日的美国临时专利申请第62/801,561号、申请日为2020年1月24日的美国临时专利申请第62/965,327号、申请日为2020年1月24日的美国临时专利申请第62/965,342号、申请日为2020年1月24日的PCT国际申请第PCT/US2020/015082号及申请日为2020年2月4日的PCT国际申请第PCT/US2020/016673号请求优先权,上述申请通过引用以其整体被并入本文中。
序列表
本申请包括序列表,所述序列表以ASCII格式被电子式地提交且是以此通过引用以其整体被并入本文中。在2020年2月3日被创造的上述ASCII复本被命名为50251-852_601_SL.txt且大小为27,132,797位元。
背景技术
DNA甲基化在调控基因表现上扮演重要的角色。异常的DNA甲基化与许多疾病疾病过程有关,包括癌症。使用甲基化定序(例如,全基因组亚硫酸氢盐定序(whole genomebisulfite sequencing,WGBS))的DNA甲基化分析越发被公认为用于癌症的侦测、诊断及/或监测的有价值的诊断工具。举例而言,数个被差异地甲基化的区域的特定模式,作为各种疾病的分子标记可以是有用的。
然而WGBS并不理想地适于一产品检测组合。理由是基因组中的绝大多数或者并不在癌症中被差异地甲基化,或者局部CpG密度过低,无法提供强劲信号。只有所述基因组的数个百分比可能在分类中是有用的。
进一步地,辨识在各种疾病中被差异地甲基化的数个区域有各种挑战。首先,判定在一疾病组中被差异地甲基化的数个区域只在与数个控制组对象的一群组比较时才有意义,从而如果所述控制组在数量上是少的,所述判定因小控制组而失去置信度。此外,在数个控制组对象的一群组中,甲基化状态可能各异,这在判定所述数个区域是否在一疾病组中被差异地甲基化时可能是难以解释的。另一方面,在一CpG位点处的一胞嘧啶的甲基化与一随后的CpG位点处的甲基化强烈地关联。要概括此依赖性(dependency),本身便是一项挑战。
因此,尚不能获得一种具成本效益的,通过侦测被差异地甲基化的数个区域而准确地诊断一疾病的方法。
发明内容
在本文中,在特定的数个实施例中被描述的是数个组合物,所述数个组合物包括:数个不同的诱饵寡核苷酸,其中所述数个不同的诱饵寡核苷酸是配置以集体地杂合至衍生自至少100个目标基因组区域的DNA分子,及其中所述至少100个目标基因组区域中的每个基因组区域在至少一癌症类型中,相较于在另一癌症类型中或相较于在一非癌症类型中是被差异地甲基化。在一些实施例中,所述至少100个目标基因组区域包括在至少一个第一癌症类型中,相较于在一个第二癌症类型中及相较于在一非癌症类型中是被差异地甲基化的至少一个、至少5个、至少10个、至少20个、至少50个或至少100个目标基因组区域。在一些实施例中,所述至少100个目标基因组区域包括在所述第一癌症类型中相较于两个或更多个、三个或更多个、四个或更多个、五个或更多个、或十个或更多个、十二个或更多个、或十五个或更多个其它癌症类型被差异地甲基化的至少一个目标基因组区域。在一些实施例中,所述至少100个目标基因组区域对一个癌症类型及至少10个、至少12个、至少15个或至少18个其它癌症类型或所述非癌症类型之间的所有可能的配对,包括在数个癌症类型的配对之间被差异地甲基化的至少一个目标基因组区域。
在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中任一者的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中任一者的所述数个目标基因组区域中的至少20%或至少40%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中的所述数个目标基因组区域中的至少20%或至少40%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中任一者的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中任一者的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中的所述数个目标基因组区域中的至少20%。
在本文中,在特定的数个实施例中被描述的是数个组合物,所述数个组合物包括:数个不同的诱饵寡核苷酸,配置以杂合至数个DNA分子,所述数个DNA分子衍生自列表1至49中任一者的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中任一者的所述数个目标基因组区域中的至少20%或至少40%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中的所述数个目标基因组区域中的至少20%或至少40%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中任一者的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中任一者的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中的所述数个目标基因组区域中的至少20%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表1的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表2的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表2的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表3的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表3的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表4的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表4的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表5的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表5的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表6的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表6的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表7的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表7的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表8的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表8的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表9的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表9的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表10的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表10的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表11的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表11的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表12的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表12的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表13的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表13的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表14的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表14的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表15的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表15的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表16的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表17的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表17的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表18的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表18的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表19的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表19的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表20的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表20的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表21的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表21的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表22的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表22的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表23的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表23的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表24的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表24的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表25的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表25的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表26的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表26的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表27的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表27的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表28的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表28的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表29的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表29的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表30的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表30的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表31的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表31的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表32的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表32的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表33的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表34的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表34的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表35的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表35的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表36的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表36的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表37的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表37的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表38的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表38的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表39的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表39的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表40的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表40的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表41的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表41的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表42的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表42的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表43的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表43的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表44的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表44的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表45的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表45的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表46的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表46的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表47的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表47的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表48的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表48的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表49的所述数个目标基因组区域中的至少20%。在一些实施例中,所述数个DNA分子是衍生自列表49的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中的任两个或更多个、三个或更多个、四个或更多个、或五个或更多个列表的所述数个目标基因组区域中的至少20%。
在一些实施例中,所述数个DNA分子是衍生自列表16至32中的任两个或更多个、三个或更多个、四个或更多个、或五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个列表的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中的任两个或更多个、三个或更多个、四个或更多个、或五个或更多个列表的所述数个目标基因组区域中的至少20%。
在一些实施例中,所述数个DNA分子是衍生自列表33至49中的任两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个列表的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
在一些实施例中,所述数个目标基因组区域的总尺寸是少于1100kb、少于750kb、少于270kb、少于200kb、少于150kb、少于100kb或少于50kb。在一些实施例中,所述数个目标基因组区域的总数量是少于1700、少于1300、少于900、少于700或少于400。
在一些实施例中,所述数个目标基因组区域的总尺寸是少于5000kb、少于2500kb、少于2000kb、少于1500kb、少于1000kb、少于750kb或少于500kb。在一些实施例中,所述数个目标基因组区域的总数量是少于20000、少于18000、少于16000、少于14000、少于12000、少于10000、少于8000、少于6000、少于4000或少于2000。
在一些实施例中,所述数个DNA分子是经转换的cfDNA片段。在一些实施例中,所述数个目标基因组区域是过甲基化区域、低甲基化区域,或是可以是过甲基化的或是低甲基化的二元区域,如在序列表中所指示的。在一些实施例中,所述数个诱饵寡核苷酸是配置以杂合至衍生自每个目标基因组区域的过甲基化经转换DNA分子、低甲基化经转换DNA分子、或过甲基化与低甲基化经转换DNA分子两者,如在序列表中所指示的。
在一些实施例中,所述数个诱饵寡核苷酸中的各者是接合至一亲和部分。在一些实施例中,所述亲和部分是生物素。在一些实施例中,所述数个诱饵寡核苷酸中的各者是接合至一固态表面。在一些实施例中,所述固态表面是一微阵列或芯片。
在一些实施例中,所述数个诱饵寡核苷酸各具有45至300个核苷酸碱基的一长度、75至200个核苷酸碱基的一长度、100至150个核苷酸碱基的一长度、或约120个核苷酸碱基的一长度。在一些实施例中,所述数个诱饵寡核苷酸包括:两个或更多个诱饵寡核苷酸的数个组,其中在数个诱饵寡核苷酸的一个组中的每个诱饵寡核苷酸配置用以结合至相同的经转换的目标基因组区域或配置用以结合至衍生自所述目标基因组区域的一核酸分子。在一些实施例中,每组的诱饵寡核苷酸包括一对或多对的一第一诱饵寡核苷酸及一第二诱饵寡核苷酸,其中每个诱饵寡核苷酸包括一个5’端及一个3’端,其中位于所述第一诱饵寡核苷酸的所述3’端的至少X个核苷酸碱基的一序列,与位于所述第二诱饵寡核苷酸的所述5’端的X个核苷酸碱基的一序列相同,且其中X是至少25、30、35、40、45、50、60、70、75或100。在一些实施例中,所述第一诱饵寡核苷酸包括:至少31、40、50或60个核苷酸碱基的一序列,所述序列与所述第二诱饵寡核苷酸的一序列不重叠。
在一些实施例中,所述组合物进一步包括:来自一检测对象的经转换cfDNA。在一些实施例中,来自所述检测对象的所述cfDNA是通过一程序被转换,所述程序包括:以亚硫酸氢盐或一胞嘧啶脱氨酶处理。
在本文中,在特定的数个实施例中被描述的是数个用于富集cfDNA片段的方法,所述cfDNA片段可提供一类型的癌症的信息,所述方法包括步骤:将本文中所述的数个诱饵寡核苷酸组合物中的任一者与衍生自一检测对象的DNA接触;及通过杂合捕捉,富集对应于数个基因组区域的cfDNA的样本,所述数个基因组区域与所述类型的癌症相关联。
在本文中,在特定的数个实施例中被描述的是数个用于获得序列信息的方法,所述序列信息可提供一个类型的癌症的存在或不存在的信息,所述方法包括步骤:(a)通过将来自一检测对象的经转换DNA与本文中所述的数个诱饵寡核苷酸组合物中的任一者接触,富集所述经转换DNA;及(b)定序所述富集的经转换DNA。
在本文中,在特定的数个实施例中被描述的是数个用于判定一检测对象具有一类型的癌症的方法,所述方法包括步骤:(a)以本文中所述的数个诱饵寡核苷酸组合物中的任一者捕捉来自所述检测对象的数个cfDNA片段;(b)定序所述被捕捉的数个cfDNA片段;及(c)将一经训练的分类器应用到数个cfDNA序列,以判定所述检测对象具有所述类型的癌症。
在本文中,在特定的数个实施例中被描述的是用于判定一检测对象具有一类型的癌症的方法,所述方法包括步骤:(a)以本文中所述的数个诱饵寡核苷酸组合物中的任一者捕捉来自所述检测对象的数个cfDNA片段;(b)通过DNA微阵列侦测所述被捕捉的数个cfDNA片段;及(c)将一经训练的分类器应用到杂合至所述DNA微阵列的数个DNA片段,以判定所述检测对象具有所述类型的癌症。
在一些实施例中,所述经训练的分类器是一混合模型分类器。在一些实施例中,所述分类器是在数个经转换的DNA序列之上被训练,所述数个经转换的DNA序列衍生自选自列表1至49中的任一者的至少1000个、至少2000个或至少4000个目标基因组区域。
在一些实施例中,所述经训练的分类器通过下述判定癌症的存在或不存在,或一癌症类型:(i)为样本产生一组的多个特征,其中在所述一组的多个特征中的每个特征包括一数字数值;(ii)将所述一组的多个特征输入至所述分类器中,其中所述分类器包括一多项式分类器;(iii)基于所述一组的多个特征,于所述分类器判定一组机率分数,其中所述一组机率分数包括每个癌症类型类别及每个非癌症类型类别的一个机率分数;及(iv)基于在所述分类器的训练时被决定的一个或多个数值,以阀值衡量所述一组机率分数,以决定所述样本的一最终癌症分类。在一些实施例中,所述一组的多个特征包括一组二元化的特征。在一些实施例中,所述数字数值包括一个单一的二元数值。在一些实施例中,所述多项式分类器包括一个多项式逻辑回归集成,被训练以为所述癌症预测一来源组织。
在一些实施例中,所述方法进一步包括步骤:相对一最小值,基于一最高两个机率分数差异,判定所述最终癌症分类,其中所述最小值对应于训练癌症样本的一预先界定的百分率,所述训练癌症样本的预先界定的百分率在所述分类器的训练时被指派正确的癌症类型作为最高分数。在一些实施例中,(i)依据判定所述最高两个机率分数差异超过所述最小值,指派一癌症标签作为所述最终癌症分类,所述癌症标签对应于由所述分类器判定的最高机率分数;及(ii)依据判定所述头两个机率分数差异并未超过所述最小值,指派一不确定癌症标签作为所述最终癌症分类。在一些实施例中,所述癌症类型是选自由肛门直肠癌、膀胱癌、膀胱及尿道上皮癌、乳癌、子宫颈癌、结肠直肠癌、头颈癌、肝胆癌、肝及胆管癌、肺癌、黑色素瘤、卵巢癌、胰腺癌、胰腺及胆囊癌、前列腺癌、肾癌、肉瘤、甲状腺癌、上消化道癌及子宫癌组成的群组。在一些实施例中,所述被捕捉的数个cfDNA片段是数个经转换的cfDNA片段。
在本文中,在特定的数个实施例中被描述的是数个癌症化验检测组合,包括:至少5对探针,其中所述至少5对探针中的每对包括:两个探针,配置以通过一重叠序列与彼此重叠,其中所述重叠序列包括至少30个核苷酸的一序列,其中所述至少30个核苷酸的序列是配置以杂合至一经转换的cfDNA分子,所述经转换的cfDNA分子对应于,或衍生自一个或多个基因组区域,其中所述数个基因组区域中的各者包括至少五个甲基化位点,其中所述至少五个甲基化位点在数个第一癌性样本中具有一异常甲基化模式,且其中所述至少5对探针中的每个探针包括至少31个核苷酸的一非重叠序列。在一些实施例中,所述数个癌症化验检测组合包括至少10对、至少20对、至少30对、至少50对、至少100对、至少200对或至少500对探针。
在一些实施例中,所述数个基因组区域是选自于一列表,及:所述列表是列表1,且所述数个第一癌性样本是来自具有膀胱癌的对象的数个样本;所述列表是列表2,且所述数个第一癌性样本是来自具有乳癌的对象的数个样本;所述列表是列表3,且所述数个第一癌性样本是来自具有子宫颈癌的对象的数个样本;所述列表是列表4,且所述数个第一癌性样本是来自具有结肠直肠癌的对象的数个样本;所述列表是列表5,且所述数个第一癌性样本是来自具有头颈癌的对象的数个样本;所述列表是列表6,且所述数个第一癌性样本是来自具有肝胆癌的对象的数个样本;所述列表是列表7,且所述数个第一癌性样本是来自具有肺癌的对象的数个样本;所述列表是列表8,且所述数个第一癌性样本是来自具有黑色素瘤的对象的数个样本;所述列表是列表9,且所述数个第一癌性样本是来自具有卵巢癌的对象的数个样本;所述列表是列表10,且所述数个第一癌性样本是来自具有胰腺癌的对象的数个样本;所述列表是列表11,且所述数个第一癌性样本是来自具有前列腺癌的对象的数个样本;所述列表是列表12,且所述数个第一癌性样本是来自具有肾癌的对象的数个样本;所述列表是列表13,且所述数个第一癌性样本是来自具有甲状腺癌的对象的数个样本;所述列表是列表14,且所述数个第一癌性样本是来自具有上消化道癌的对象的数个样本;或所述列表是列表15,且所述数个第一癌性样本是来自具有子宫癌的对象的数个样本。
在一些实施例中,所述数个基因组区域是选自于一列表,及其中:所述列表是列表16或列表33,且所述数个第一癌性样本是来自具有肛门直肠癌的对象的数个样本;所述列表是列表17或列表34,且所述数个第一癌性样本是来自具有膀胱或尿道上皮癌的对象的数个样本;所述列表是列表18或列表35,且所述数个第一癌性样本是来自具有乳癌的对象的数个样本;所述列表是列表19或列表36,且所述数个第一癌性样本是来自具有子宫颈癌的对象的数个样本;所述列表是列表20或列表37,且所述数个第一癌性样本是来自具有结肠直肠癌的对象的数个样本;所述列表是列表21或列表38,且所述数个第一癌性样本是来自具有头颈癌的对象的数个样本;所述列表是列表22或列表39,且所述数个第一癌性样本是来自具有肝或胆管癌的对象的数个样本;所述列表是列表23或列表40,且所述数个第一癌性样本是来自具有肺癌的对象的数个样本;所述列表是列表24或列表41,且所述数个第一癌性样本是来自具有黑色素瘤的对象的数个样本;所述列表是列表25或列表42,且所述数个第一癌性样本是来自具有卵巢癌的对象的数个样本;所述列表是列表26或列表43,且所述数个第一癌性样本是来自具有胰腺或胆囊癌的对象的数个样本;所述列表是列表27或列表44,且所述数个第一癌性样本是来自具有前列腺癌的对象的数个样本;所述列表是列表28或列表45,且所述数个第一癌性样本是来自具有肾癌的对象的数个样本;或所述列表是列表29或列表46,且所述数个第一癌性样本是来自具有肉瘤的对象的数个样本;所述列表是列表30或列表47,且所述数个第一癌性样本是来自具有甲状腺癌的对象的数个样本;所述列表是列表31或列表48,且所述数个第一癌性样本是来自具有上消化道癌的对象的数个样本;或所述列表是列表32或列表49,且所述数个第一癌性样本是来自具有子宫癌的对象的数个样本。
在一些实施例中,所述数个基因组区域包括所述列表中的所述数个基因组区域中的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。在一些实施例中,所述数个基因组区域包括所述列表中的至少30个、53个、103个、159个、160个、200个、250个、300个、400个、500个、600个、800个或1000个基因组区域。在一些实施例中,所述经转换的cfDNA分子包括被处理以将未甲基化的C(胞嘧啶)转换为U(脲嘧啶)的cfDNA分子。在一些实施例中,所述至少5对探针中的各者是接合至一非核苷酸亲和部分。在一些实施例中,所述非核苷酸亲和部分是一生物素部分。在一些实施例中,所述异常甲基化模式在所述数个第一癌性样本中具有至少一阀值的p值稀有度。在一些实施例中,所述数个探针中的各者被设计用于与少于20个脱靶基因组区域具有序列同源性或序列互补性。在一些实施例中,所述少于20个脱靶基因组区域是使用一k聚体播种策略被辨识。在一些实施例中,所述少于20个脱靶基因组区域是使用k聚体播种策略结合到位于数个种子位点处的局部对齐而被辨识。在一些实施例中,所述数个探针中的各者包括至少61、75、100、120或121个核苷酸。在一些实施例中,所述数个探针中的各者包括少于300、250、200、160或159个核苷酸。在一些实施例中,所述数个探针中的各者包括100至159个或100至160个核苷酸。在一些实施例中,所述数个探针中的各者包括少于20、15、10、8或6个甲基化位点。在一些实施例中,所述至少五个甲基化位点中的至少80、85、90、92、95或98%在所述数个癌性样本中或者是经甲基化的,或者是未甲基化的。在一些实施例中,所述数个探针中的至少3%、5%、10%、15%或20%不包括G(鸟嘌呤)。在一些实施例中,所述数个探针中的各者包括对所述经转换的cfDNA分子的所述数个甲基化位点的多个结合位点,其中所述多个结合位点的至少80、85、90、92、95或98%仅包括CpG或CpA。在一些实施例中,所述数个探针中的各者配置用于与少于15个、10个或8个脱靶基因组区域具有序列同源性或序列互补性。
在一些实施例中,所述数个基因组区域的至少30%是在外显子或内含子中。在一些实施例中,所述数个基因组区域的至少15%是在外显子中。在一些实施例中,所述数个基因组区域的至少20%是在外显子中。在一些实施例中,所述数个基因组区域的少于10%是在基因间区域中。在一些实施例中,所述癌症化验检测组合包括:至少100个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1200个、1400个、1600个、1800个、2000个、2200个、2400个、2600个、2800个、3000个、3200个、4000个、4500个、5000个、5500个、6000个、6500个、7000个、7500个、8000个、8500个、9000个、10000个、15000个或20000个探针。在一些实施例中,所述至少5对探针共包括至少10000个、20000个、30000个、40000个、50000个、60000个、70000个、80000个、90000个、100000个、120000个、140000个、160000个、180000个、200000个、240000个、260000个、280000个、300000个、320000个、400000个、450000个、500000个、550000个、600000个、650000个、700000个、750000个、800000个、850000个、900000个、1百万个、1.5百万个、2百万个、2.5百万个或3百万个核苷酸。
在本文中,在特定的数个实施例中被描述的是用于侦测癌症及/或一癌症来源组织(TOO)的方法,所述方法包括步骤:(a)接收一样本,所述样本包括数个cfDNA分子;(b)处理所述数个cfDNA分子,以将未甲基化的C(胞嘧啶)转换为U(脲嘧啶),从而获得数个经转换的cfDNA分子;(c)将本文中所述的数个癌症化验检测组合中的任一者应用到所述数个经转换的cfDNA分子,从而富集所述数个经转换的cfDNA分子的一子集;及(d)定序所述经转换的cfDNA分子的所述富集的子集,从而提供一组序列读数。
在本文中,在特定的数个实施例中被描述的是用于侦测癌症及/或一癌症来源组织(TOO)的方法,所述方法包括步骤:(a)接收一样本,所述样本包括数个cfDNA分子;(b)处理所述数个cfDNA分子,以将未甲基化的C(胞嘧啶)转换为U(脲嘧啶),从而获得数个经转换的cfDNA分子;(c)将本文中所述的数个癌症化验检测组合中的任一者应用到所述数个经转换的cfDNA分子,从而富集所述数个经转换的cfDNA分子的一子集;及(d)通过杂合到一DNA微阵列而侦测所述经转换的cfDNA分子的所述被富集的子集。
在一些实施例中,所述方法进一步包括步骤:通过评估所述一组序列读数判定一健康状况,其中所述健康状况是(a)一癌症的存在或不存在;(b)癌症的一阶段;(c)一癌症来源组织(TOO)的存在或不存在;(d)一癌细胞类型的存在或不存在;或(e)至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个不同类型的癌症的存在或不存在。在一些实施例中,包括数个cfDNA分子的所述样本是获得自一人类对象。
在本文中,在特定的数个实施例中被描述的是数个用于侦测一癌症的方法,所述数个方法包括步骤:(a)通过定序来自一对象的一组核酸片段来获得一组序列读数,其中所述数个核酸片段中的各者是对应于或是衍生自选自列表1至15中的一个或多个列表;列表16至32中的一个或多个列表;或列表33至49中的一个或多个列表的数个基因组区域;(b)对于所述数个序列读数中的各者,判定于数个CpG位点处的甲基化状态;及(c)通过评估所述数个序列读数的甲基化状态而判定癌症在所述对象中被侦测到,其中所述癌症的所述侦测包括下述中的一个或多个:(i)一癌症的存在或不存在;(ii)癌症的一阶段;(iii)一癌症来源组织(TOO)的存在或不存在;(iv)一癌细胞类型的存在或不存在;或(v)至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个不同类型的癌症的存在或不存在。
在一些实施例中,(a)所述数个基因组区域是选自列表1,且癌症的所述侦测包括膀胱癌的一侦测;(b)所述数个基因组区域是选自列表2,且癌症的所述侦测包括乳癌的一侦测;(c)所述数个基因组区域是选自列表3,且癌症的所述侦测包括子宫颈癌的一侦测;(d)所述数个基因组区域是选自列表4,且癌症的所述侦测包括节肠直肠癌的一侦测;(e)所述数个基因组区域是选自列表5,且癌症的所述侦测包括头颈癌的一侦测;(f)所述数个基因组区域是选自列表6,且癌症的所述侦测包括肝胆癌的一侦测;(g)所述数个基因组区域是选自列表7,且癌症的所述侦测包括肺癌的一侦测;(h)所述数个基因组区域是选自列表8,且癌症的所述侦测包括黑色素瘤的一侦测;(i)所述数个基因组区域是选自列表9,且癌症的所述侦测包括卵巢癌的一侦测;(j)所述数个基因组区域是选自列表10,且癌症的所述侦测包括胰腺癌的一侦测;(k)所述数个基因组区域是选自列表11,且癌症的所述侦测包括前列腺癌的一侦测;(l)所述数个基因组区域是选自列表12,且癌症的所述侦测包括肾癌的一侦测;(m)所述数个基因组区域是选自列表13,且癌症的所述侦测包括甲状腺癌的一侦测;(n)所述数个基因组区域是选自列表14,且癌症的所述侦测包括上消化道癌的一侦测;或(o)所述数个基因组区域是选自列表15,且癌症的所述侦测包括子宫癌的一侦测。
在一些实施例中,(a)所述数个基因组区域是选自列表16或列表33,且癌症的所述侦测包括肛门直肠癌的一侦测;所述数个基因组区域是选自列表17或列表34,且癌症的所述侦测包括膀胱或尿道上皮癌的一侦测;所述数个基因组区域是选自列表18或列表35,且癌症的所述侦测包括乳癌的一侦测;所述数个基因组区域是选自列表19或列表36,且癌症的所述侦测包括子宫颈癌的一侦测;所述数个基因组区域是选自列表20或列表37,且癌症的所述侦测包括结肠直肠癌的一侦测;所述数个基因组区域是选自列表21或列表38,且癌症的所述侦测包括头颈癌的一侦测;所述数个基因组区域是选自列表22或列表39,且癌症的所述侦测包括肝或胆管癌的一侦测;所述数个基因组区域是选自列表23或列表40,且癌症的所述侦测包括肺癌的一侦测;所述数个基因组区域是选自列表24或列表41,且癌症的所述侦测包括黑色素瘤的一侦测;所述数个基因组区域是选自列表25或列表42,且癌症的所述侦测包括卵巢癌的一侦测;所述数个基因组区域是选自列表26或列表43,且癌症的所述侦测包括胰腺或胆囊癌的一侦测;所述数个基因组区域是选自列表27或列表44,且癌症的所述侦测包括前列腺癌的一侦测;所述数个基因组区域是选自列表28或列表45,且癌症的所述侦测包括肾癌的一侦测;所述数个基因组区域是选自列表29或列表46,且癌症的所述侦测包括肉瘤的一侦测;所述数个基因组区域是选自列表30或列表47,且癌症的所述侦测包括甲状腺癌的一侦测;所述数个基因组区域是选自列表31或列表48,且癌症的所述侦测包括上消化道癌的一侦测;或所述数个基因组区域是选自列表32或列表49,且癌症的所述侦测包括子宫癌的一侦测。
在一些实施例中,所述数个基因组区域包括所述列表的所述数个基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。在一些实施例中,所述数个基因组区域包括所述列表当中的至少30个、50个、100个、150个、200个、250个、或300个基因组区域。在一些实施例中,所述数个基因组区域包括所述列表的少于90%、80%、70%、60%、50%、40%、30%或20%的基因组区域。在一些实施例中,所述数个基因组区域包括所述列表的少于25000个、20000个、15000个、10000个、7500个、5000个或2500个基因组区域。在一些实施例中,所述数个基因组区域包括所述列表的少于1000个、500个、400个、300个、200个或100个基因组区域。
在本文中,在特定的数个实施例中被描述的是数个包括数个探针的癌症化验检测组合,所述数个探针中的各者配置用于杂合至一经转换的cfDNA分子,所述转换的cfDNA分子对应于选自列表1至15中的一个或更多个列表的数个基因组区域。在一些实施例中,所述经转换的cfDNA分子包括数个被处理以将未甲基化的胞嘧啶转换为脲嘧啶的cfDNA分子。在一些实施例中,所述数个探针是配置以杂合至数个核酸分子,所述数个核酸分子对应于或衍生自一列表的所述数个基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%,且所述列表是列表1至15中的一个或多个。在一些实施例中,所述数个探针配置用于杂合至数个核酸分子,所述数个核酸分子对应于或衍生自一列表的至少30个、50个、100个、159个、171个、200个、250个、300个、400个、500个、600个、800个或1000个基因组区域,且所述列表是列表1至15中的一个或多个。在一些实施例中,所述数个探针中的至少3%、5%、10%、15%或20%不包括G(鸟嘌呤)。在一些实施例中,所述数个探针中的各者包括结合至所述经转换的cfDNA分子的数个甲基化位点的多个结合位点,其中所述多个结合位点中的至少80、85、90、92、95或98%仅包括CpG或CpA。在一些实施例中,所述数个探针中的各者是接合至一非核苷酸亲和部分。在一些实施例中,所述非核苷酸亲和部分是一生物素部分。
在本文中,在特定的数个实施例中被描述的是数个用于判定癌症在一对象中的存在或不存在的数个方法,所述方法包括步骤:(i)以包括数个不同的寡核苷酸诱饵的一组合物捕捉来自所述对象的数个cfDNA片段;(ii)定序被捕捉的数个cfDNA片段;及(iii)将一经训练的分类器应用到数个cfDNA序列,以判定癌症的存在或不存在。在一些实施例中,癌症的存在或不存在的一伪阳性判定的可能性是少于1%且癌症的存在或不存在的一准确判定的可能性是至少40%。在一些实施例中,所述癌症是一第一期癌症,癌症的存在或不存在的一伪阳性判定的可能性是少于1%且癌症的存在或不存在的一准确判定的可能性是至少9%。在一些实施例中,所述数个cfDNA片段是经转换的cfDNA片段。
在本文中,在特定的数个实施例中被描述的是用于侦测一癌症类型的方法,所述方法包括步骤:(i)以包括数个不同的寡核苷酸诱饵的一组合物捕捉来自一对象的数个cfDNA片段;(ii)定序被捕捉的数个cfDNA片段,及(iii)将一经训练的分类器应用到数个cfDNA序列,以判定一癌症类型;其中所述数个寡核苷酸诱饵是配置以杂合至衍生自数个目标基因组区域的数个cfDNA片段;其中所述数个目标基因组区域在一个或多个癌症类型中,相较于在一个不同的癌症类型中或在一个非癌症类型中被差异地甲基化;其中癌症的一伪阳性判定的可能性是少于1%;且其中对一癌症类型的一准确的指定的可能性是至少75%、至少80%、至少85%或至少89%或至少90%。在一些实施例中,所述方法进一步包括步骤:将一经训练的分类器应用到数个cfDNA序列,以在判定所述癌症类型之前判定癌症的存在。在一些实施例中,所述数个cfDNA片段是经转换的cfDNA片段。
在一些实施例中,所述癌症类型是选自于子宫癌、上消化道鳞状细胞癌、所有其它上消化道癌、甲状腺癌、肉瘤、尿道上皮肾癌、所有其它肾癌、前列腺癌、胰腺癌、卵巢癌、神经内分泌癌、多发性骨髓瘤、黑色素瘤、淋巴癌、小细胞肺癌、肺腺癌、所有其它肺癌、白血病、肝细胞癌、肝胆癌、头颈癌、结肠直肠癌、子宫颈癌、乳癌、膀胱癌及肛门直肠癌。在一些实施例中,所述癌症类型是选自于肛门癌、膀胱癌、结肠直肠癌、食道癌、头颈癌、肝/胆管癌、肺癌、淋巴癌、卵巢癌、胰腺癌、浆细胞瘤及胃癌。在一些实施例中,所述癌症类型是选自于甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿道上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胆管癌、胰腺癌、胆囊癌、上消化道癌、多发性骨髓瘤、淋巴瘤及肺癌。
在一些实施例中,所述癌症类型是一第一期癌症类型,且一准确的指定的可能性是至少70%或至少75%。在一些实施例中,所述癌症类型是一第二期癌症类型,且一准确的指定的可能性是至少85%。
在一些实施例中,所述癌症类型是一肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且在具有被侦测到的癌症的数个样本中侦测肛门直肠癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肛门直肠癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且在具有被侦测到的癌症的数个样本中侦测膀胱及尿道上皮癌的准确率是至少80%或90%。在一些实施例中,所述癌症类型是第一期或第二期膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期膀胱及尿道上皮癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是乳癌,所述数个目标基因组区域是选自列表2、18或35,且在具有被侦测到的癌症的数个样本中侦测乳癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期乳癌,所述数个目标基因组区域是选自列表2、18或35,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期乳癌的准确率是至少75%或84%。
在一些实施例中,所述癌症类型是子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且在具有被侦测到的癌症的数个样本中侦测子宫颈癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期子宫颈癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且在具有被侦测到的癌症的数个样本中侦测结肠直肠癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期结肠直肠癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是头颈癌,所述数个目标基因组区域是选自列表5、21或38,且在具有被侦测到的癌症的数个样本中侦测头颈癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期头颈癌,所述数个目标基因组区域是选自列表5、21或38,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期头颈癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且在具有被侦测到的癌症的数个样本中侦测肝及胆管癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肝及胆管癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是肺癌,所述数个目标基因组区域是选自列表7、23或40,且在具有被侦测到的癌症的数个样本中侦测肺癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期肺癌,所述数个目标基因组区域是选自列表7、23或40,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肺癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是黑色素瘤,所述数个目标基因组区域是选自列表8、24或41,且在具有被侦测到的癌症的数个样本中侦测黑色素瘤的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期黑色素瘤,所述数个目标基因组区域是选自列表8、24或41,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期黑色素瘤的准确率是至少75%或84%。
在一些实施例中,所述癌症类型是卵巢癌,所述数个目标基因组区域是选自列表9、25或42,且在具有被侦测到的癌症的数个样本中侦测卵巢癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期卵巢癌,所述数个目标基因组区域是选自列表9、25或42,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期卵巢癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且在具有被侦测到的癌症的数个样本中侦测胰腺及胆囊癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期胰腺及胆囊癌的准确率是至少75%、81%或83%。
在一些实施例中,所述癌症类型是前列腺癌,所述数个目标基因组区域是选自列表11、27或44,且在具有被侦测到的癌症的数个样本中侦测前列腺癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期前列腺癌,所述数个目标基因组区域是选自列表11、27或44,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期前列腺癌的准确率是至少75%或83%。
在一些实施例中,所述癌症类型是肾癌,所述数个目标基因组区域是选自列表12、28或45,且在具有被侦测到的癌症的数个样本中侦测肾癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期肾癌,所述数个目标基因组区域是选自列表12、28或45,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肾癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是肉瘤,所述数个目标基因组区域是选自列表29或46,且在具有被侦测到的癌症的数个样本中侦测肉瘤的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期肉瘤,所述数个目标基因组区域是选自列表29或46,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肉瘤的准确率是至少75%或83%。
在一些实施例中,所述癌症类型是甲状腺癌,所述数个目标基因组区域是选自列表13、30或47,且在具有被侦测到的癌症的数个样本中侦测甲状腺癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期甲状腺癌,所述数个目标基因组区域是选自列表13、30或47,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期甲状腺癌的准确率是至少75%或87%。
在一些实施例中,所述癌症类型是上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且在具有被侦测到的癌症的数个样本中侦测上消化道癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期上消化道癌的准确率是至少75%或83%。
在一些实施例中,所述癌症类型是子宫癌,所述数个目标基因组区域是选自列表15、32或49,且在具有被侦测到的癌症的数个样本中侦测子宫癌的准确率是至少80%或88%。在一些实施例中,所述癌症类型是第一期或第二期子宫癌,所述数个目标基因组区域是选自列表16或33,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期子宫癌的准确率是至少75%或85%。
在一些实施例中,所述癌症类型是肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且对肛门直肠癌的敏感度是至少65%或75%。在一些实施例中,所述癌症类型是第一期或第二期肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且对第一期或第二期肛门直肠癌的敏感度是至少65%或55%。
在一些实施例中,所述癌症类型是膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且对膀胱及尿道上皮癌的敏感度是至少50%或40%。在一些实施例中,所述癌症类型是第一期或第二期膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且对第一期或第二期膀胱及尿道上皮癌的准确率是至少40%或50%。
在一些实施例中,所述癌症类型是乳癌,所述数个目标基因组区域是选自列表2、18或35,且对乳癌的敏感度是至少20%或25%。在一些实施例中,所述癌症类型是第一期或第二期乳癌,所述数个目标基因组区域是选自列表2、18或35,且对第一期或第二期乳癌的敏感度是至少15%或18%。
在一些实施例中,所述癌症类型是子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且对子宫颈癌的敏感度是至少25%或35%。在一些实施例中,所述癌症类型是第一期或第二期子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且对第一期或第二期子宫颈癌的敏感度是至少17%或22%。
在一些实施例中,所述癌症类型是结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且对结肠直肠癌的敏感度是至少55%或65%。在一些实施例中,所述癌症类型是第一期或第二期结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且对第一期或第二期结肠直肠癌的敏感度是至少25%、29%或34%。
在一些实施例中,所述癌症类型是头颈癌,所述数个目标基因组区域是选自列表5、21或38,且对头颈癌的敏感度是至少70%或80%。在一些实施例中,所述癌症类型是第一期或第二期头颈癌,所述数个目标基因组区域是选自列表5、21或38,且对第一期或第二期头颈癌的敏感度是至少70%或79%。
在一些实施例中,所述癌症类型是肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且对肝及胆管癌的敏感度是至少75%或85%。在一些实施例中,所述癌症类型是第一期或第二期肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且对第一期或第二期肝及胆管癌的敏感度是至少65%或75%。
在一些实施例中,所述癌症类型是肺癌,所述数个目标基因组区域是选自列表7、23或40,且对肺癌的敏感度是至少55%或62%。在一些实施例中,所述癌症类型是第一期或第二期肺癌,所述数个目标基因组区域是选自列表7、23或40,且对第一期或第二期肺癌的敏感度是至少20%或25%。
在一些实施例中,所述癌症类型是黑色素瘤,所述数个目标基因组区域是选自列表8、24或41,且对黑色素瘤的敏感度是至少40%或30%。
在一些实施例中,所述癌症类型是卵巢癌,所述数个目标基因组区域是选自列表9、25或42,且对卵巢癌的敏感度是至少70%或80%。
在一些实施例中,所述癌症类型是胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且对胰腺及胆囊癌的敏感度是至少60%、70%或74%。在一些实施例中,所述癌症类型是第一期或第二期胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且对第一期或第二期胰腺及胆囊癌的敏感度是至少40%或50%。
在一些实施例中,所述癌症类型是肉瘤,所述数个目标基因组区域是选自列表29或46,且对肉瘤的敏感度是至少40%或50%。
在一些实施例中,所述癌症类型是上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且对上消化道癌的敏感度是至少70%或60%。在一些实施例中,所述癌症类型是第一期或第二期上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且对第一期或第二期上消化道癌的敏感度是至少35%或45%。
在一些实施例中,包括数个寡核苷酸诱饵的所述组合物是本文中描述的数个组合物中的任一者,或是本文中描述的数个癌症化验检测组合的数个组合物中的任一者。在一些实施例中,所述数个基因组区域包括不多于1700个、1300个、900个、700个或400个基因组区域。在一些实施例中,所述数个基因组区域的总尺寸是少于4MB、少于2MB、少于1100kb、少于750kb、少于270kb、少于200kb、少于150kb、少于100kb或少于50kb。在一些实施例中,所述对象具有一个或多个癌症类型的提高的风险。在一些实施例中,所述对象显现出与一个或多个癌症类型相关联的数个症状。在一些实施例中,所述对象未被诊断出具有一癌症。
在一些实施例中,所述分类器是在衍生自至少100名具有一第一癌症类型的对象、至少100名具有一第二癌症类型的对象及至少100名不具有癌症的对象的数个经转换的DNA序列上被训练。在一些实施例中,所述第一癌症类型是卵巢癌。在一些实施例中,所述第一癌症类型是结肠直肠癌。在一些实施例中,所述第一癌症类型是选自于甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿道上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胰腺癌、胆囊癌、食道癌、胃癌、多发性骨髓瘤、淋巴瘤、肺癌或白血病。在一些实施例中,所述分类器在衍生自选自列表1至49中的任一者的至少1000个、至少2000个或至少4000个目标基因组区域的数个经转换DNA序列上被训练。
在一些实施例中,所述经训练的分类器通过下述判定癌症的存在或不存在,或一癌症类型:(i)为所述样本产生一组的多个特征,其中在所述一组的多个特征中的每个特征包括一数字数值;(ii)将所述一组的多个特征输入至所述分类器中,其中所述分类器包括一多项式分类器;(iii)基于所述一组的多个特征,于所述分类器判定一组机率分数,其中所述一组机率分数包括每个癌症类型类别及每个非癌症类型类别的一个机率分数;及(iv)基于在所述分类器的训练时被决定的一个或多个数值,以阀值衡量所述一组机率分数,以决定所述样本的一最终癌症分类。在一些实施例中,所述一组的多个特征包括一组二元化的多个特征。在一些实施例中,所述数字数值包括一个单一的二元数值。在一些实施例中,所述多项式分类器包括一个多项式逻辑回归集成,被训练以为所述癌症预测一来源组织。在一些实施例中,所述方法进一步包括步骤:相对一最小值,基于一最高两个机率分数差异,判定所述最终癌症分类,其中所述最小值对应于训练癌症样本的一预先界定的百分率,所述训练癌症样本的预先界定的百分率在所述分类器的训练时被指派正确的癌症类型作为最高分数。
在一些实施例中,(i)依据判定所述最高两个机率分数差异超过所述最小值,指派一癌症标签作为所述最终癌症分类,所述癌症标签对应于由所述分类器判定的最高机率分数;及(ii)依据判定所述头两个机率分数差异并未超过所述最小值,指派一不确定癌症标签作为所述最终癌症分类。
在本文中,在特定的数个实施例中被描述的是用于在需要的一对象中治疗一个类型的癌症的数个方法,所述方法包括步骤:(i)通过本文中所述的任何方法侦测癌症的类型;及(ii)对所述对象施予一抗癌治疗剂。在一些实施例中,所述抗癌治疗剂是一化疗剂,选自由烷化剂(alkylating agents)、抗代谢剂(antimetab01ites)、蒽环类(anthracyclines)、抗肿瘤抗生素、细胞骨架破坏剂(紫杉类)、拓扑异构酶抑制剂(topoisomerase inhibitors)、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基试剂组成的群组。
通过引用被并入
在本说明书中提及的所有出版物、专利及专利申请通过引用被并入本文中,其程度如同每个个别的出版物、专利或专利申请被特定地且个别地指示通过引用被并入本文中。
附图说明
本揭示的新颖特征在随附的权利要求中包括细节地被提出。对这些特征及本揭示的优点的更好的理解将通过参考提出数个例示性实施例的,以下的详细描述而获得,在所述数个实施例中应用了本揭示的原理,且所述数个实施例的随附附图:
图1A绘示根据一实施例的一个2x铺排的探针设计,有三个探针针对一小目标区域,而在一目标区域(被框在虚线矩形中)中的每个碱基由至少两个探针覆盖。
图1B绘示根据一实施例的一个2x铺排的探针设计,有多于三个探针针对一较大的目标区域,而在一目标区域(被框在虚线矩形中)中的每个碱基由至少两个探针覆盖。
图1C绘示根据一实施例的,针对在数个基因组区域中的数个低甲基化及/或过甲基化片段的探针设计。
图2绘示根据一实施例的,产生一癌症化验检测组合的一程序。
图3A是一流程图,描述根据一实施例的,为一控制组创造一数据结构的一程序。
图3B是一流程图,描述根据一实施例的,为图3A的所述控制组验证所述数据结构的一额外步骤。
图4是一流程图,描述根据一实施例的,用于选择数个基因组区域的一程序,所述数个基因组区域用于设计用于一癌症化验检测组合的数个探针。
图5是根据一实施例的,一示例性p值分数计算的一绘示。
图6A是一流程图,描述根据一实施例的,基于指示癌症的数个低甲基化及过甲基化片段训练一分类器的一程序。
图6B是一流程图,描述根据一实施例的,通过机率模型判定指示癌症的数个片段的一程序。
图7A是一流程图,描述根据一实施例的,定序细胞游离(cf)DNA的一片段的一程序。
图7B是根据一实施例的,定序细胞游离(cf)DNA的一片段以获得一甲基化状态向量的,图7A的程序的一绘示。
图8A绘示横跨癌症的各种阶段,亚硫酸氢盐转换的程度(上方图表)及平均覆盖/定序深度(下方图表)。
图8B绘示横跨癌症的各种阶段,每个样本的cfDNA的浓度。
图9是根据数个DNA片段与数个探针之间的重叠的尺寸,杂合到所述数个探针的所述数个DNA片段的量的一图表。
图10A绘示用于根据一实施例定序数个核酸样本的数个装置的一流程图;图10B绘示根据一实施例分析cfDNA的甲基化状态的一分析系统。
图11是一色彩编码的图表,呈现被选择以自一对比TOO(y轴)分辨每个目标TOO(x轴)的基因组区域的数量。
图12呈现用于使用cfDNA及WBGgDNA验证数个选定的基因组区域的数据。提供了正确地分类每个TOO(x轴)的比率(y轴)。
图13是一接收者操作者曲线,比较由一个经训练的分类器应用来自(为肺癌最适化的)列表23的所述数个目标基因组区域的甲基化状态信息进行的,癌症侦测的真阳性率与伪阳性率。
具体实施方式
定义:
除非另外界定,在本文中使用的所有技术及科学术语,具有本描述所属的技艺的技术人员所通常了解的意义。如本文中所使用的,下列的词汇具有在下文中归于它们的意义。
如本文中所使用的,对“一个实施例”或“一实施例”的任何指称意指与所述实施例相关联地被描述的一个特定的元素、特征、结构、或者特性,是被包括在至少一个实施例中。“在一实施例中”一词在说明书中各处的出现并不必然皆指称相同的实施例,从而提供一个框架,供数个被描述的实施例的各种可能性共同运作。
如本文中所使用地,“包括(comprisis)”、“包括(comrising)”、“包括(including)”、“包括(including)”、“具有(has)”、“具有(having)”或其任何其它变化,是意在涵盖一非排除性的含括。举例而言,包括一系列的元素的一个程序、方法、物品或设备不必然仅限于那些元素,而是可以包括不被明确地列出或固有于这样的程序、方法、物品或设备的其它元素。进一步地,除非明确地做出相反的宣言,“或”意指一涵括性的或(inclusive or)而非一排除性的或(exclusive or)。举例而言,一情况A或B由下列的任一者所满足:A为真(或存在)且B为假(或不存在)、A为假(或不存在)且B为真(或存在)、以及A与B两者皆为真(或存在)。
此外,“一(a)”或“一(an)”的使用是被应用以描述本文中的数个实施例的元素及组件。这仅是为了便利且为了给出本描述的一般意义。此描述应被阅读为包括一个或至少一个,且单数也包括多数,除非明显另有涵义。
如本文中所使用的,范围及用量可以被表示为“约”为一特定数值或范围。约也包括该精确用量。因此“约5微克”意指“约5微克”及也意指“5微克”。一般地,“约”一词包括被预期在实验误差之内的一用量。在一些实施例中,“约”意指被标示的数字或数值,所述数字或数值“+”或“-”20%、10%或5%。此外,在本文中被引用的范围是被理解为在所述范围内的所有数值的速记,含括被引用的端点。举例而言,1至50的一范围被理解为包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49及50组成的群组的任何数字、数个数字的组合或子范围。
“甲基化”一词,如本文中使用地,意指一甲基被添加到一DNA分子的过程。举例而言,在一胞嘧啶碱基的嘧啶环上的氢原子可以转化为甲基,形成5-甲基胞嘧啶。该术语还指将羟甲基添加到一DNA分子的过程,例如通过胞嘧啶碱基的嘧啶环上的甲基的氧化。甲基化和羟甲基化倾向于发生在本文中称为“CpG位点”的,胞嘧啶和鸟嘌呤的二核苷酸处。
“甲基化”一词也可以意指一CpG位点的甲基化状态。具有一5-甲基胞嘧啶部分的一CpG位点是甲基化的。在胞嘧啶碱基的嘧啶环上具有一氢原子的一CpG位点是未甲基化的。
在这样的数个实施例中,如在本领域中为人熟知的,用以侦测甲基化的湿式实验室化验可能与本文中所描述者不同。
“甲基化位点”一词,如本文中使用的,意指一DNA分子的一区域,一甲基可以被添加到所述区域。“CpG”位点是最常见的甲基化位点,但甲基化位点不限于CpG位点。举例而言,DNA甲基化可以发生在CHG及CHH中的胞嘧啶,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。使用本文中揭示的方法及程序,5-羟基甲基胞嘧啶形式的胞嘧啶甲基化及其特征也可以被评估(参见,例如,通过引用被并入本文中的WO 2010/037001及WO 2011/127136)。
“CpG位点”一词在本文中用以意指一DNA分子的一区域,在所述区域中,在数个碱基的线状序列中沿着所述序列的5′到3′方向,一胞嘧啶核苷酸后跟着一鸟嘌呤核苷酸。“CpG”是5′-C-磷酸-G-3′的速记,5′-C-磷酸-G-3′是仅由一个磷酸基团分隔的胞嘧啶及鸟嘌呤。在CpG二核苷酸中的胞嘧啶可以被甲基化以形成5-甲基胞嘧啶。
“CpG侦测位点”一词如本文中使用的,意指在一探针中的一区域,所述区域配置以杂合到一目标DNA分子的一CpG位点。在所述目标DNA分子上的所述CpG位点可以包括由一个磷酸基分隔的胞嘧啶及鸟嘌呤,其中胞嘧啶是甲基化的或未甲基化的。在所述目标DNA分子上的所述CpG位点可以包括由一个磷酸基分隔的脲嘧啶及鸟嘌呤,其中所述脲嘧啶是通过未甲基化的胞嘧啶的转化而被产生。
“UpG”一词是5′-U-磷酸-G-3′的速记,5′-U-磷酸-G-3′是仅由一个磷酸基团分隔的脲嘧啶及鸟嘌呤。UpG可以由一DNA的一亚硫酸氢盐处理产生,所述亚硫酸氢盐处理将未甲基化的胞嘧啶转换为脲嘧啶。胞嘧啶可以由本领域中已知的其它方法被转换为脲嘧啶,比如化学修饰、合成或酵素转换。
“低甲基化”或“过甲基化”等词汇,如本文中所使用的,意指含有多个(例如,多于3、4、5、6、7、8、9、10个等)CpG位点的一DNA分子的一甲基化状态,其中高比例(例如,多于80%、85%、90%或95%或在50%至100%的范围内的任何其它百分率)的CpG位点分别是未甲基化的或甲基化的。
“甲基化状态向量(methylation state vector)”或“甲基化状态向量(methylation states vector)”等词汇如本文中使用地,意指包括多个元素的一向量,其中每个元素,以甲基化位点在一DNA分子中自5′至3′出现的顺序,指示在包括多个甲基化位点的一DNA分子中的一个甲基化位点的甲基化状态。举例而言,<Mx,Mx+1,Mx+2>、<Mx,Mx+1,Ux+2>、...、<Ux,Ux+1,Ux+2>可以是包括三个甲基化位点的DNA分子的数个甲基化向量,其中M代表一经甲基化的甲基化位点,且U代表一未经甲基化的甲基化位点。
“异常甲基化模式”或“异常的甲基化模式”等词汇如本文中使用地,意指一DNA分子的甲基化模式或一甲基化状态向量,所述甲基化模式或甲基化状态向量被预期比一阀值更不频繁地在一样本中被找到。在本文中提供的一个实施例中,在包括数个健康个体的一健康控制组中找到一特定甲基化状态向量的预期性(expectedness)是由一p值代表。一低p值分数一般对应于在来自健康个体的样本中,相较于其它甲基化状态向量而言较不被预期的一甲基化状态向量。一高p值分数一般对应于在来自健康控制组中的健康个体的样本中,比起其它甲基化状态向量而言较被预期的一甲基化状态向量。具有低于一阀值(例如,0.1、0.01、0.001、0.0001等)的p值的一甲基化状态向量可以被界定为一异常(abnormal)/异常的(anomalous)甲基化模式。各种本领域中已知的方法可以被用于计算一甲基化模式或一甲基化状态向量的一p值或预期性。本文中提供的示例性方法涉及使用一马可夫链机率,所述机率假定CpG位点的甲基化状态依赖邻近的CpG位点的甲基化状态。本文中提供的替代的方法,通过应用包括多个混合成分的一个混合模型,计算在健康个体中观察到一特定甲基化状态向量的预期值,每个成分是一独立位点模型,在其中每个CpG位点处的甲基化被假定为独立于在其它CpG位点处的甲基化状态。
“癌性样本”一词如本文中使用地,意指一样本,所述样本包括来自被诊断具有癌症的一个体的基因组DNA。所述基因组DNA可以是,但不限于,来自具有癌症的一对象的cfDNA片段或染色体DNA。所述基因组DNA可以被定序(或者侦测)且其甲基化状态可以通过本领域中已知的方法,例如亚硫酸氢盐定序,被评估。当基因组序列是获得自公共数据库(例如,癌症基因组图谱(The Cancer Genome Atlas,TCGA))或是通过定序被诊断有癌症的一个体的一基因组而被实验性地获得,癌性样本可以意指具有所述基因组序列的基因组DNA或cfDNA片段。“数个癌性样本”一词作为一复数,意指数个样本,包括来自多个个体的基因组DNA,每个个体被诊断为具有癌症。在各种实施例中,使用了来自多于100、300、500、1000、2000、5000、10000、20000、40000、50000或更多个被诊断为有癌症的个体的数个癌性样本。
“非癌性样本”或“健康样本”等词汇,如本文中使用地,意指一样本,所述样本包括来自不被诊断为具有癌症的一个体的基因组DNA。所述基因组DNA可以是,但不限于,来自没有癌症的一对象的cfDNA片段或染色体DNA。所述基因组DNA可以被定序(或者侦测)且其甲基化状态可以通过本领域中已知的方法,比如亚硫酸氢盐定序,被评估。当基因组序列是获得自公共数据库(例如,癌症基因组图谱(TCGA))或是通过定序没有癌症的一个体的一基因组而被实验性地获得,非癌性样本可以意指具有所述基因组序列的基因组DNA或cfDNA片段。“数个非癌性样本”一词作为一复数,意指数个样本,包括来自多个个体的基因组DNA,每个个体被诊断为不具有癌症。在各种实施例中,使用了来自多于100、300、500、1000、2000、5000、10000、20000、40000、50000或更多个被诊断为没有癌症的个体的健康样本。
“训练样本”一词,如本文中使用地,意指一样本,所述样本用于训练在本文中描述的一分类器及/或选择一个或多个基因组区域供癌症侦测或侦测一癌症来源组织或癌症细胞类型。所述训练样本可以包括来自一个或多个健康对象或来自一个或多个具有一病症(例如,癌症,一特定类型的癌症,一特定阶段的癌症等)的对象的基因组DNA或其修改。所述基因组DNA可以是,但不限于数个cfDNA片段或染色体DNA。所述基因组DNA可以被定序(或者侦测)且其甲基化状态可以通过本领域中已知的方法,比如亚硫酸氢盐定序,被评估。当基因组序列是获得自公共数据库(例如,癌症基因组图谱(TCGA))或是通过定序一个体的一基因组而被实验性地获得,一训练样本可以意指具有所述基因组序列的基因组DNA或cfDNA片段。
“检测样本”一词,如本文中使用地,意指来自一对象的一样本,所述对象的健康状况已经或者将使用本文中描述的一分类器及/或一化验检测组合被检测。所述检测样本可以包括基因组DNA或其修改。所述基因组DNA可以是,但不限于数个cfDNA片段或染色体DNA。
“目标基因组区域”一词,如本文中所使用地,意指在检测样本中被选择供分析的,在一基因组中的一区域。一化验检测组合是被产生为具有数个探针,所述数个探针被设计以杂合至(且可选地拉下)衍生自所述目标基因组区域或所述目标基因组区域的一片段的数个核酸片段。衍生自所述目标基因组区域的一核酸片段意指通过来自所述目标基因组区域的DNA的降解、切割、亚硫酸氢盐转换或其它处理产生的一核酸片段。
各种目标基因组区域根据它们在与本文一同提交的序列表中的染色体位置被描述。所述序列表包括下述信息:(1)所述区域所坐落的染色体,以及所述基因组区域的开始及停止位置,(2)所述区域在癌症中是低甲基化或过甲基化的(或是“二元的”,若低甲基化与过甲基化皆提供信息)。染色体号码与开始及停止位置是相对于一个已知的人类参考基因组hg19而被提供。所述人类参考基因组hg19的序列可以一参考号码GRCh37/hg19获得自基因组参考联盟(Genome Reference Consortium),及也可获得自由圣克鲁兹基因组学研究所(Santa Cruz Genomics Institute)提供的基因组浏览器(Genome Browser)。染色体DNA是双股的,因此一目标基因组区域包括两个DNA股:一股具有在所述列表中被提供的序列,及一第二股,所述第二股是列表中的所述序列的一相反互补股。探针可以被设计以杂合至一个或两个序列。可选地,探针杂合至经转换的序列,所述经转换的序列是来自举例而言,以亚硫酸氢钠处理。
“脱靶基因组区域”一词如本文中所使用地,意指一基因组中的一区域,所述区域在检测样本中未被选择用于分析,但与一目标基因组区域具有足够的同源性,而潜在地被设计以针对所述目标基因组区域的一探针连结并拉下。在一实施例中,一个脱靶基因组区域是一基因组区域,所述基因组区域与一探针沿着至少45碱基,以至少90%的符合率对齐。
“经转换的DNA分子”、“经转换的cfDNA分子”及“获得自所述cfDNA分子的处理的经修改片段”意指为分辨DNA或cfDNA分子中的甲基化核苷酸及未甲基化核苷酸,而通过处理一样本中的DNA或cfDNA分子获得的DNA分子。举例而言,在一实施例中,所述样本可如本领域中为人熟知地,被以亚硫酸氢盐离子(例如,使用亚硫酸氢钠)处理,以将未甲基化的胞嘧啶(“C”)转换为脲嘧啶(“U”)。在另一实施例中,未甲基化的胞嘧啶至脲嘧啶的转换是使用一酵素转换反应而被完成,举例而言,使用一胞苷脱氨酶(cytidine deaminase,比如APOBEC)。在处理后,经转换的DNA分子或cfDNA分子包括在原始cfDNA样本中不存在的额外脲嘧啶。包括一脲嘧啶的一DNA链通过DNA聚合酶的复制,导致一腺嘌呤添加到新的互补股,而非正常作为胞嘧啶或甲基胞嘧啶的互补的鸟嘌呤。
“细胞游离核酸”、“细胞游离DNA”或“cfDNA”等词汇意指在一个体的身体(例如,血流)内循环且源自一个或多个健康细胞及/或源自一个或多个癌性细胞的核酸片段。此外,cfDNA可以来自其他来源比如病毒、胎儿等。
“循环肿瘤DNA”或“ctDNA”等词汇意指源自肿瘤细胞的核酸片段,所述核酸片段可能作为生物过程,比如濒死细胞的细胞凋亡或坏死的结果,或由存活的肿瘤细胞主动地,被释放到一个体的血流中。
“片段”一词如本文中使用地,可以意指一核酸分子的一片段。举例而言,在一实施例中,一片段可以意指在一血液或血浆样本中的一cfDNA分子,或被自一血液或血浆样本提取的一cfDNA分子。一cfDNA分子的一放大产物也可以被称为一“片段”。在另一实施例中,“片段”一词如本文中描述的,意指一序列读数,或一组序列读数,已为(例如,在基于机器学习的分类中)后续分析而被处理。举例而言,如本领域中为人所熟知的,原始序列读数可以被对齐到一参考基因组且经吻合配对的末端序列读数被组装为一更长的片段,供后续分析。
“个体”一词意指一人类个体。“健康个体”一词意指被假定不具有一癌症或疾病的一个体。
“对象”一词意指一个体,所述个体的DNA被分析。一对象可以是一检测对象,所述检测对象的DNA使用如本文中所描述的一靶向检测组合被评估,以评估该人员是否具有一癌症或其它疾病。一对象也可以是一控制组的一员,已知不具有一癌症或其它疾病。一对象也可以是一癌症或其它疾病组的一员,已知有一癌症或其它疾病。控制组及癌症/疾病组可以被使用以辅助设计或验证所述靶向检测组合。
“序列读数”一词如本文中所使用地,意指来自一样本的核苷酸序列读数。序列读数可以经由本文中提供的或本领域中已知的各种方法被获得。
“定序深度”一词如本文中所使用的,意指在一样本中的一给定目标核酸被定序的次数的计数(例如,在一给定目标区域处的序列读数的计数)。增加定序深度可以减少评估一疾病状态(例如,癌症或癌症来源组织)所需的核酸的用量。
“来源组织”或“TOO”等词汇,如本文中所使用的,意指一癌症自其出现或发源的器官、器官组、身体区域或细胞类型。一来源组织或癌症细胞类型的辨识典型地允许辨识在癌症的持续照护(care continuum)中的最适当的下一步,以进一步诊断、分期及决定治疗。
“过渡”一般地意指碱基组成自一嘌呤改变至另一嘌呤,或自一嘧啶改变至另一嘧啶。举例而言,下列的改变是过渡:C→U、U→C、G→A、A→G、C→T及T→C。
一检测组合或诱饵组的“探针的一整体”或一检测组合或诱饵组的“含有聚核苷酸的(polynucleotide-containing)探针的一整体”一般地意指随一特定检测组合或诱饵组被递送的所有探针。例如,在一些实施例中,一检测组合或诱饵组可以包括(1)具有本文中指定的特征的数个探针(例如,用于连结到细胞游离DNA片段的数个探针,所述细胞游离DNA片段对应于或衍生自于本文中在一个或多个列表中被提出的基因组区域)及(2)并不含有这样的(数个)特征的额外探针。一检测组合的所述探针整体一般地意指随所述检测组合或诱饵组被递送的所有探针,包括并未含有(数个)指定的特征的探针。
癌症化验检测组合:
在一第一面向中,本描述提供一癌症化验检测组合,所述癌症化验检测组合包括数个探针或数个探针对。在本文中被描述的所述数个化验检测组合可以替代地被称为数个诱饵组,或被称为包括数个诱饵寡核苷酸的数个组合物。所述数个探针被特定地设计以针对一个或多个核酸分子,所述一个或多个核酸分子对应于,或衍生自如通过本文中所提供的方法被辨识的,在癌症及非癌症样本之间、在不同的癌症来源组织(TOO)类型之间、在不同的癌细胞类型之间、或在癌症的不同阶段的样本之间被差异地甲基化的数个基因组区域。在一些实施例中,数个探针针对具有一癌症类型例如,(1)膀胱癌、(2)乳癌、(3)子宫颈癌、(5)结肠直肠癌、(5)头颈癌、(6)肝胆癌、(7)肺癌、(8)黑色素瘤、(9)卵巢癌、(10)胰腺癌、(11)前列腺癌、(12)肾癌、(13)甲状腺癌、(14)上消化道癌、或(15)子宫癌,所特有的甲基化模式的数个基因组区域(或衍生自所述数个基因组区域的核酸分子)。在一些实施例中,所述检测组合包括针对一个单一癌症类型所特有的数个基因组区域的数个探针。在一些实施例中,所述检测组合包括针对2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或更多个癌症类型的数个探针。在一些实施例中,受制于尺寸预算(size budget)(由定序预算及希望的定序深度决定),所述数个目标基因组区域被选择以最大化分类准确度。
为了设计所述癌症化验检测组合,一个分析系统可以收集对应于考虑中的各种结果的数个样本,例如,已知有癌症的样本,被认为是健康的样本,来自一已知的来源组织的样本等。用于选择数个目标基因组区域的cfDNA及/或ctDNA的来源可以依所述化验的目的而不同。举例而言,不同的来源对于意在一般性地诊断癌症、诊断一特定类型的癌症、诊断一癌症阶段、或诊断一来源组织的一化验可能是被希望的。这些样本可以使用本领域中已知的一个或多个方法被处理(例如,以全基因组亚硫酸氢盐定序(WGBS)处理)以判定数个CpG位点的甲基化状态,或者所述信息可以获得自一公共数据库(例如,TCGA)。所述分析系统可以是具有一计算机处理器及一计算机可读存储介质的任何通用计算系统,所述计算机可读存储介质具有数个指令,用于执行所述计算机处理器以执行在本揭示中描述的任何或所有操作。
所述癌症化验检测组合的设计及应用被一般性地描述于图2中。为了设计所述癌症化验检测组合,一分析系统收集对应于考虑中的各种结果的数个样本,例如,已知具有癌症的样本、被认为健康的样本、来自一已知TOO的样本等。这些样本可以被处理(例如,以全基因组亚硫酸氢盐定序(WGBS)处理),或者获得自公共数据库(例如,TCGA)。所述分析系统可以是具有一计算机处理器及一计算机可读存储介质的任何通用计算系统,所述计算机可读存储介质具有数个指令,用于执行所述计算机处理器以执行在本揭示中描述的任何或所有操作。以所述数个样本,所述分析系统为所述样本中的每个片段判定数个CpG位点处的甲基化状态。
所述分析系统可以接着基于数个核酸片段的甲基化模式选择供包括在一癌症化验检测组合中的目标基因组区域。一个方式为数个目标区域的选择而考虑数对结果(例如,一个癌症类型对一个第二癌症类型)之间的成对可分辨度。另一个方式考虑当将每个结果相对于剩余的数个结果(例如,一个癌症类型对所有其它癌症类型)而考虑时,数个目标基因组区域的可分辨度。自具有高可分辨度力(distinguishability power)的选定的目标基因组区域,所述分析系统可以设计探针以针对包括或衍生自所述数个选定的基因组区域的数个核酸片段。所述分析系统可以产生多变的尺寸的癌症化验检测组合,例如,一个小尺寸的癌症化验检测组合包括针对最能提供信息的基因组区域的数个探针,一个中等尺寸的癌症化验检测组合包括来自所述小尺寸的癌症化验检测组合的数个探针,以及针对第二层的能提供信息的基因组区域的额外探针、且一个大尺寸的癌症化验检测组合包括来自所述小尺寸及中尺寸的癌症化验检测组合的数个探针,及更多的探针,针对第三层的能提供信息的基因组区域。有了这样的癌症化验检测组合获得的数据(例如,衍生自所述癌症化验检测组合的核酸的甲基化状态),所述分析系统可以各种分类技术训练分类器,以预测一样本具有一特定结果或状态,例如,癌症、特定癌症类型、其它病症等,的可能性。
用于设计一癌症化验检测组合的示例性方法被一般性地描述于图2中。举例而言,为了设计一癌症化验检测组合,一分析系统可以收集数个核酸片段的数个CpG位点的甲基化状态的信息,所述数个核酸片段来自对应于考虑中的各种结果的数个样本,例如,已知具有癌症的样本、被认为健康的样本、来自一已知的TOO的样本等。这些样本可以被处理(例如,以全基因组亚硫酸氢盐定序(WGBS)处理)以判定数个CpG位点的甲基化状态,或者所述信息可以获得自TCGA。所述分析系统可以是具有一计算机处理器及一计算机可读存储介质的任何通用计算系统,所述计算机可读存储介质具有数个指令,用于执行所述计算机处理器以执行在本揭示中描述的任何或所有操作。
在一些实施例中,所述癌症化验检测组合包括至少500对探针,其中所述至少500对中的每一对包括两个探针,所述两个探针配置以通过一重叠序列彼此重叠,其中所述重叠序列包括至少30个核苷酸,及其中每个探针是配置以杂合至一经转换的DNA(例如,一cfDNA)分子,所述经转换的DNA分子对应于一个或多个基因组区域。在一些实施例中,所述数个基因组区域中的各者包括至少五个甲基化位点,及其中所述至少五个甲基化位点在癌性样本中具有一异常的甲基化模式,或在不同的TOO的样本之间具有不同的甲基化模式。举例而言,在一实施例中,所述至少五个甲基化位点在癌性及非癌性样本之间,或在来自具有不同的癌症来源组织的癌症的一对或多对样本之间是被差异地甲基化的。在一些实施例中,每对探针包括一第一探针及一第二探针,其中所述第二探针不同于所述第一探针。所述第二探针可以与所述第一探针通过一重叠序列重叠,所述重叠序列是至少30、至少40、至少50或至少60个核苷酸长。
所述数个目标基因组区域可以被选自于列表1至49(表1)中的任一者。在一些实施例中,所述癌症化验检测组合包括数个探针,其中所述数个探针中的各者是配置以杂合至一经转换的cfDNA分子,所述经转换的cfDNA分子对应于列表1至49的任一者或所述数个列表的任何组合中的一个或多个基因组区域。在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中任一者的数个目标基因组区域中的至少20%。在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中的任一者的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
所述数个目标基因组区域可以选自列表1。在一些实施例中,用于侦测膀胱癌的一方法包括步骤:评估衍生自列表1的所述数个目标基因组区域的数个序列读数的甲基化状态。所述数个目标基因组区域可以选自列表2。在一些实施例中,用于侦测乳癌的一方法包括步骤:评估衍生自列表2的所述数个目标基因组区域的数个序列读数的甲基化状态。所述数个目标基因组区域可以选自列表3。在一些实施例中,用于侦测子宫颈癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表3的数个目标基因组区域。所述数个目标基因组区域可以选自列表4。在一些实施例中,用于侦测结肠直肠癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表4的数个目标基因组区域。所述数个基因组区域可以选自列表5。在一些实施例中,用于侦测头颈癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表5的数个目标基因组区域。所述数个目标基因组区域可以选自列表6。在一些实施例中,用于侦测肝胆癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表6的数个目标基因组区域。所述数个目标基因组区域可以选自列表7。在一些实施例中,用于侦测肺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表7的数个目标基因组区域。所述数个目标基因组区域可以选自列表8。在一些实施例中,用于侦测黑色素瘤的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表8的数个目标基因组区域。所述数个目标基因组区域可以选自列表9。在一些实施例中,用于侦测卵巢癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表9的数个目标基因组区域。所述数个目标基因组区域可以选自列表10。在一些实施例中,用于侦测胰腺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表10的数个目标基因组区域。所述数个目标基因组区域可以选自列表11。在一些实施例中,用于侦测前列腺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表11的数个目标基因组区域。所述数个目标基因组区域可以选自列表12。在一些实施例中,用于侦测肾癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表12的数个目标基因组区域。所述数个目标基因组区域可以选自列表13。在一些实施例中,用于侦测甲状腺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表13的数个目标基因组区域。所述数个目标基因组区域可以选自列表14。在一些实施例中,用于侦测上消化道癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表14的数个目标基因组区域。所述数个目标基因组区域可以选自列表15。在一些实施例中,用于侦测子宫癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表15的数个目标基因组区域。
所述数个目标基因组区域可以选自列表16。在一些实施例中,用于侦测肛门直肠癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表16的数个目标基因组区域。所述数个目标基因组区域可以选自列表17。在一些实施例中,用于侦测膀胱及尿道上皮癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表17的数个目标基因组区域。所述数个目标基因组区域可以选自列表18。在一些实施例中,用于侦测乳癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表18的数个目标基因组区域。所述数个目标基因组区域可以选自列表19。在一些实施例中,用于侦测子宫颈癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表19的数个目标基因组区域。所述数个目标基因组区域可以选自列表20。在一些实施例中,用于侦测结肠直肠癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表20的数个目标基因组区域。所述数个目标基因组区域可以选自列表21。在一些实施例中,用于侦测头颈癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表21的数个目标基因组区域。所述数个目标基因组区域可以选自列表22。在一些实施例中,用于侦测肝及胆管癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表22的数个目标基因组区域。所述数个目标基因组区域可以选自列表23。在一些实施例中,用于侦测肺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表23的数个目标基因组区域。所述数个目标基因组区域可以选自列表24。在一些实施例中,用于侦测黑色素瘤的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表24的数个目标基因组区域。所述数个目标基因组区域可以选自列表25。在一些实施例中,用于侦测卵巢癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表25的数个目标基因组区域。所述数个目标基因组区域可以选自列表26。在一些实施例中,用于侦测胰腺及胆囊癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表26的数个目标基因组区域。所述数个目标基因组区域可以选自列表27。在一些实施例中,用于侦测前列腺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表27的数个目标基因组区域。所述数个目标基因组区域可以选自列表28。在一些实施例中,用于侦测肾癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表28的数个目标基因组区域。所述数个目标基因组区域可以选自列表29。在一些实施例中,用于侦测肉瘤的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表29的数个目标基因组区域。所述数个目标基因组区域可以选自列表30。在一些实施例中,用于侦测甲状腺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表30的数个目标基因组区域。所述数个目标基因组区域可以选自列表31。在一些实施例中,用于侦测上消化道癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表31的数个目标基因组区域。所述数个目标基因组区域可以选自列表32。在一些实施例中,用于侦测子宫癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表32的数个目标基因组区域。
所述数个目标基因组区域可以选自列表33。在一些实施例中,用于侦测肛门直肠癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表33的数个目标基因组区域。所述数个目标基因组区域可以选自列表34。在一些实施例中,用于侦测膀胱及尿道上皮癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表34的数个目标基因组区域。所述数个目标基因组区域可以选自列表35。在一些实施例中,用于侦测乳癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表35的数个目标基因组区域。所述数个目标基因组区域可以选自列表36。在一些实施例中,用于侦测子宫颈癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表36的数个目标基因组区域。所述数个目标基因组区域可以选自列表37。在一些实施例中,用于侦测结肠直肠癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表37的数个目标基因组区域。所述数个目标基因组区域可以选自列表38。在一些实施例中,用于侦测头颈癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表38的数个目标基因组区域。所述数个目标基因组区域可以选自列表39。在一些实施例中,用于侦测肝及胆管癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表39的数个目标基因组区域。所述数个目标基因组区域可以选自列表40。在一些实施例中,用于侦测肺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表40的数个目标基因组区域。所述数个目标基因组区域可以选自列表41。在一些实施例中,用于侦测黑色素瘤的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表41的数个目标基因组区域。所述数个目标基因组区域可以选自列表42。在一些实施例中,用于侦测卵巢癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表42的数个目标基因组区域。所述数个目标基因组区域可以选自列表43。在一些实施例中,用于侦测胰腺及胆囊癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表43的数个目标基因组区域。所述数个目标基因组区域可以选自列表44。在一些实施例中,用于侦测前列腺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表44的数个目标基因组区域。所述数个目标基因组区域可以选自列表45。在一些实施例中,用于侦测肾癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表45的数个目标基因组区域。所述数个目标基因组区域可以选自列表46。在一些实施例中,用于侦测肉瘤的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表46的数个目标基因组区域。所述数个目标基因组区域可以选自列表47。在一些实施例中,用于侦测甲状腺癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表47的数个目标基因组区域。所述数个目标基因组区域可以选自列表48。在一些实施例中,用于侦测上消化道癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表48的数个目标基因组区域。所述数个目标基因组区域可以选自列表49。在一些实施例中,用于侦测子宫癌的一方法包括步骤:评估数个序列读数的甲基化状态,所述数个序列读数是衍生自列表49的数个目标基因组区域。
因为所述数个探针是配置以杂合至对应于或衍生自一个或多个基因组区域的,一经转换的DNA或cfDNA分子,所述数个探针可以具有不同于所述目标基因组区域的一序列。举例而言,含有未甲基化的CpG位点的一DNA将被转换以包括UpG而非CpG,因为未甲基化的胞嘧啶通过一转换反应(例如,亚硫酸氢盐处理)被转换为脲嘧啶。作为结果,一探针被配置以杂合至包括UpG,而非自然存在的未甲基化CpG的一序列。因此,在所述探针中对所述未甲基化位点的一互补位点可以包括CpA而非CpG,且针对其中所有甲基化位点皆未甲基化的一低甲基化位点的一些探针可以不具有鸟嘌呤(G)碱基。在一些实施例中,至少3%、5%、10%、15%或20%的探针不具有CpG序列。
所述癌症化验检测组合可以被用于侦测癌症整体的存在或不存在及/或提供一癌症分类,比如一癌症类型、癌症的阶段比如第一期、第二期、第三期或第四期,或提供所述癌症据信从其发源的TOO。所述检测组合可以包括数个探针,所述数个探针针对在总体癌性(多癌症)样本及非癌性样本之间,或仅在具有一特定癌症类型的癌性样本中被差异地甲基化的数个目标基因组区域(例如,数个肺癌特定目标)。举例而言,在一些实施例中,一癌症化验检测组合是设计以包括基于亚硫酸氢盐定序数据的被差异地甲基化的数个基因组区域,所述亚硫酸氢盐定序数据是产生自来自癌症及非癌症个体的cfDNA。
所述数个探针(或数个探针对)中的各者是被设计以针对一个或多个目标基因组区域。所述数个目标基因组区域是基于数个标准(criteria)被选择,所述数个标准是设计以增加能提供信息的cfDNA片段的选择性富集、同时减少噪声及非特异性结合。
在一实施例中,一检测组合可以包括数个探针,所述数个探针可以选择性地结合到且可选地富集在癌性样本中被不同地甲基化的数个cfDNA片段。在此案例中,来自数个经富集片段的序列可以提供与癌症的侦测相关的信息。进一步地,所述数个探针是设计以针对在癌症样本中,或在来自特定组织类型或细胞类型的样本中,被判定具有一异常甲基化模式的数个基因组区域。在一实施例中,数个探针是设计以针对在特定癌症中,或癌症来源组织中,被判定为过甲基化或低甲基化的数个基因组区域,以提供侦测的额外的选择性及特异性。在一些实施例中,一检测组合包括针对数个低甲基化片段的数个探针。在一些实施例中,一检测组合包括针对数个过甲基化片段的数个探针。在一些实施例中,一检测组合包括针对数个过甲基化片段的第一组的数个探针,以及针对数个低甲基化片段的第二组的数个探针。(图1C)在一些实施例中,所述针对数个过甲基化片段的第一组的数个探针及所述针对数个低甲基化片段的第二组的数个探针之间的比率(过甲基化:低甲基化比率)在0.4及2之间、在0.5及1.8之间、在0.5及1.6之间、在1.4及1.6之间、在1.2及1.4之间、在1及1.2之间、在0.8及1之间、在0.6及0.8之间或在0.4及0.6之间。辨识数个基因组区域(亦即,在癌症及非癌症样本之间、在不同的癌症来源组织(TOO)类型之间、在不同的癌细胞类型之间、或在来自不同阶段的癌症的样本之间产生被不同地甲基化的DNA分子或异常地甲基化的DNA分子的基因组区域)的方法在本文中被详细提供,且辨识被识别为指示癌症的数个异常地甲基化的DNA分子或片段的方法亦在本中被详细地提供。
在一第二示例中,数个基因组区域可以当所述数个基因组区域在癌症样本或具有已知的癌症来源组织(TOO)类型的样本中产生异常地甲基化的DNA分子时被选择。举例而言,如本文中所描述的,在一组非癌性样本上训练的一马可夫模型可以被用于辨识产生异常甲基化的DNA分子(亦即,具有低于一p值阀值的一甲基化模式的DNA分子)的数个基因组区域。
所述数个探针中的各者可以针对一基因组区域,所述基因组区域包括至少30bp(碱基对)、35bp、40bp、45bp、50bp、60bp、70bp、80bp、90bp、100bp或更多。在一些实施例中,所述数个基因组区域可以被选择以具有少于30个、25个、20个、15个、12个、10个、8个或6个甲基化位点。
所述数个基因组区域可以当在所述区域中的所述至少五个甲基化(例如,CpG)位点的至少80、85、90、92、95或98%是在非癌性或癌性样本中,或在来自一癌症来源组织(TOO)的癌症样本中是甲基化或未甲基化时被选择。
数个基因组区域可以基于它们的甲基化模式被进一步过滤,以便仅选择可能提供信息的数个基因组区域,举例而言,在癌性与非癌性样本之间被不同地甲基化(例如,在癌症中相对于非癌症被异常地甲基化或未甲基化)、在一TOO的癌性样本及一个不同的TOO的癌性样本之间被不同地甲基化的CpG位点,及仅在一特定TOO的癌性样本中被不同地甲基化的CpG位点。为了所述选择,计算可以对于每个CpG或数个CpG位点被执行。举例而言,一第一计数被决定,是包括与该CpG重叠的一片段的含癌症样本的数量(癌症_计数),且一第二计数被决定,是包括与该CpG位点重叠的片段的含总样本数(总和)。数个基因组区域可以基于标准被选择,所述标准与包括与该CpG位点重叠的指示癌症的片段的,含癌症样本的数量(癌症_计数)正相关,且与包括与该CpG位点重叠的,指示癌症的片段的总样本数(总数)负相关。在一实施例中,具有与一CpG位点重叠的一片段的非癌症样本的数量(n非-癌症)及癌症样本的数量(n癌症)被计算。接着一样本是癌症的机率被估计,举例而言,作为(n癌症+1)/(n癌症+n非-癌症+2)。
由此度量标准(metric)被评分的数个CpG位点被排名且被贪婪地(greedily)添加到一检测组合直到检测组合尺寸预算耗尽。选择指示癌症的数个基因组区域的程序在本文中被进一步详述。在一些实施例中,依照所述化验是意在为一个多癌症化验或一个单癌症化验,或依照在挑选哪些CpG位点贡献于所述检测组合时希望何种弹性,用于侦测一特定癌症类型的一检测组合可以使用类似的一程序被设计。在此实施例中,对于每个癌症类型,及对于每个CpG位点,信息增益被计算以决定是否要包括针对该CpG位点的一探针。所述信息增益可以对于具有一TOO的一给定的癌症类型的数个样本,相较于所有其它样本而被计算。举例而言,考虑两个随机的变数“AF”及“CT”。“AF”是一个二元变数,指示在一特定样本中是否有与一特定CpG位点重叠的一异常片段(是或否)。“CT”是一个二元随机变数,指示癌症是否是一特定类型(例如,肺癌或不同于肺癌的癌症)。可以计算给定“AF”关于“CT”的互信息(mutual information)。亦即,若知道是否有一异常片段与一特定CpG位点重叠,将获得多少位元关于所述癌症类型(例如,在所述示例中是肺癌相对于非肺癌)的信息。这可以被用于排名数个CpG,基于所述数个CpG有多么肺癌特定(lung-specific)。此程序对于数个癌症类型被重复。若一特定区域仅在肺癌(且不在其它癌症类型或非癌症)中被普遍地差异地甲基化,在该区域中的数个CpG将倾向于对肺癌有高信息增益。对于每个癌症类型,数个CpG位点通过此信息增益度量标准被排名,接着被贪婪地添加到一检测组合直到用于该癌症类型的尺寸预算用尽。
进一步的过滤可以被执行,以选择数个探针,所述数个探针对衍生自数个目标基因组区域的核酸的富集具有高特异度(亦即,高结合效率)。数个探针可以被过滤以减少对衍生自非目标基因组区域的核酸的非特异性结合(或脱靶结合)。举例而言,数个探针可以被过滤以仅选择那些具有少于一设定的阀值的脱靶结合事件的探针。在一实施例中,数个探针可以被对齐到一参考基因组(例如,一人类参考基因组)以选择数个探针,所述数个探针横跨所述基因组对齐到少于一设定阀值的区域。举例而言,数个探针可以被选择以横跨所述参考基因组对齐到少于25个、24个、23个、22个、21个、20个、19个、18个、17个、16个、15个、14个、13个、12个、11个、10个、9个或8个脱靶区域。在其它案例中,当所述数个目标基因组区域的序列在一基因组中出现超过5次、10次、15次、20次、21次、22次、23次、24次、25次、26次、27次、28次、29次、30次、31次、32次、33次、34次或35次时,过滤被执行以移除所述数个基因组区域。当与数个目标基因组区域90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同源的一探针序列或一组探针序列,在一参考基因组中出现少于25次、24次、23次、22次、21次、20次、19次、18次、17次、16次、15次、14次、13次、12次、11次、10次、9次或8次时,进一步的过滤可以被执行以选择数个目标基因组区域,或当被设计以富集目标基因组区域的所述探针序列或一组探针序列与所述数个目标基因组区域90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同源,在一参考基因组中出现多于5次、10次、15次、20次、21次、22次、23次、24次、25次、26次、27次、28次、29次、30次、31次、32次、33次、34次或35次时,被执行以移除所述数个目标基因组区域。这是为了排除可能拉下数个脱靶片段的重复探针,所述数个脱靶片段是不希望的且可能冲击化验效率。
在一些实施例中,至少45bp的一片段-探针重叠(fragment-probe overlap)被示范对于达成如在示例1中被提供的一不可忽略的拉下量是有效的(虽然本领域的一般技术人员会理解此数字是可变的)。在一些实施例中,所述探针及数个片段序列之间在重叠区域中多于10%的错配(mismatch)足以大幅破坏连结,且因此破坏拉下效率。因此,可以至少90%的配对率沿着至少45bp对齐到所述探针的数个序列,可以是脱靶拉下的候选者。因此,在一实施例中,这样的数个区域的数量被评分。最佳的探针具有分数1,意指它们仅配对于一处(在有意的目标区域)。具有中间的一分数(即是说,少于5或10)的数个探针可能在一些案例中是可接受的,及在一些案例中,高于一特定分数的任何探针被废弃。其它截止数值可以被用于特定的数个样本。
一旦所述数个探针杂合并捕捉对应于,或衍生自一目标基因组区域的数个DNA片段,所述被杂合的探针-DNA片段中间物(probe-DNA fragment intermediates)被拉下(或分离)且所述目标DNA被放大且所述目标DNA的甲基化状态通过举例而言,定序或杂合至一微阵列等被判定。所述序列读数提供与癌症的侦测相关联的信息。为此目的,一检测组合是被设计以包括数个探针,所述数个探针可以捕捉可共同提供与癌症的侦测相关的信息的数个片段。在一些实施例中,一检测组合包括至少5对、50对、100对、200对、300对、400对、500对、600对、700对、800对、900对、1000对、1200对、1400对、1600对、1800对、2000对、2200对、2400对、2600对、2800对、3000对、3200对、4000对、4500对、5000对、5500对、6000对、6500对、7000对、7500对、8000对、8500对、9000对或10000对探针。在其它实施例中,一检测组合包括至少100对、200对、300对、400对、500对、600对、700对、800对、900对、1000对、1200对、1400对、1600对、1800对、2000对、2200对、2400对、2600对、2800对、3000对、3200对、4000对、4500对、5000对、5500对、6000对、6500对、7000对、7500对、8000对、8500对、9000对、10000对、15000对或20000对探针。所述数个探针总共可以包括至少10000个、20000个、30000个、40000个、50000个、60000个、70000个、80000个、90000个、100000个、120000个、140000个、160000个、180000个、200000个、240000个、260000个、280000个、300000个、320000个、400000个、450000个、500000个、550000个、600000个、650000个、700000个、750000个、800000个、850000个、900000个、1百万个、1.5百万个、2百万个、2.5百万个或3百万个核苷酸。
所述数个被选择的基因组区域可以位于一基因组中的各种位置,包括但不限于外显子、内含子、基因间区域及其它部分。在一些实施例中,针对非人类基因组区域的数个探针,比如针对病毒基因组区域的数个探针,可以被添加。
在一些情况下,引子(primers)可以被用于(例如,通过PCR)特定地放大感兴趣的数个目标/生物标记,从而(可选地没有杂合捕捉地)富集所述样本的被希望的数个目标/生物标记。举例而言,正向(forward)与反向(reverse)的引子可以对每个感兴趣的基因组区域被制备,且用以放大对应于或衍生自所希望的基因组区域的数个片段。因此,虽然本揭示对于癌症化验检测组合及用于杂合捕捉的诱饵组投注特别的关注,本揭示足够宽广以含括用于细胞游离DNA的富集的其它方法。因此,一熟练的技术人员,得益于本揭示,将认识到与在本文中连结于杂合捕捉而被描述的那些方法类似的数个方法,可以替代地通过以其它富集策略取代杂合捕捉而被完成,比如对应于感兴趣的数个基因组区域的细胞游离DNA片段的PCR放大。在一些实施例中,亚硫酸氢盐扣锁探针捕捉(bisulfite padlock probecapture)被用于富集感兴趣的数个区域,如在Zhang等人的专利(US2016/0340740)中被描述的。在一些实施例中,额外的或替代的方法被用于富集(例如,非靶向富集),比如简化表示亚硫酸氢盐定序(reduced representation bisulfite sequencing)、甲基化限制酶定序、甲基化DNA免疫沉淀定序、甲基CpG结合域蛋白质定序、甲基DNA捕捉定序或微滴PCR。
探针:
本文中提供的癌症化验检测组合是包括一组杂合探针(在本文中也被称为“探针”)的一检测组合,所述一组杂合探针是设计以在富集时针对且拉下感兴趣的数个核酸片段,用于所述化验。在一些实施例中,所述数个探针是被设计以杂合并富集来自数个癌性样本的,被处理以将未甲基化的胞嘧啶(C)转换为脲嘧啶(U)的DNA或cfDNA分子。在其它实施例中,所述数个探针是设计以杂合并富集来自一TOO的数个癌性样本的,被处理以将未甲基化的胞嘧啶(C)转换为脲嘧啶(U)的DNA或cfDNA分子。所述数个探针可以被设计以粘合(anneal)(或杂合)至DNA或RNA的一目标(互补)股。所述目标股可以是“正”股(例如,被转录为mRNA且随后被转译为蛋白质的股)或互补的“负”股。在一特定的实施例中,一癌症化验检测组合可以包括数组的两个探针,一个探针针对所述正股且另一个探针针对一目标基因组区域的所述负股。
对于每个目标基因组区域,可以设计四个可能的探针序列。对应于或衍生自每个目标区域的DNA分子是双股的,因此,一探针或探针组可以针对一“正(positive)”或正向(forward)股,或者是其反向的互补(所述“负”股)。此外,在一些实施例中,所述数个探针或数个探针组是设计以富集已被处理以将未甲基化的胞嘧啶(C)转换为脲嘧啶(U)的数个DNA分子或数个片段。因为所述数个探针或探针组是设计以富集转换后的,对应于或衍生自所述数个目标区域的DNA分子,所述数个探针的序列可以(通过在对应于或衍生自所述目标区域的数个DNA分子或数个片段中是未甲基化的胞嘧啶的位置,于G的位置应用A)被设计以富集数个片段的数个DNA分子,其中未甲基化的C已被转换为U。在一实施例中,数个探针被设计以结合到或杂合到来自已知含有癌症特异性的甲基化模式的数个基因组区域的数个DNA分子或数个片段(例如,过甲基化或低甲基化DNA分子),从而富集(或侦测)癌症特异性DNA分子或片段。针对数个基因组区域,或者数个癌症特异性的甲基化模式,可以有利地允许特异性地富集被识别为对癌症或癌症TOO能提供信息的DNA分子或片段,且因此,降低侦测需求及成本(例如,减低定序成本)。在其它实施例中,对每个目标基因组区域可以设计两个探针序列(每个DNA股一个探针)。在又另一案例中,数个探针被设计以富集所有对应于或衍生自一目标区域的DNA分子或片段(亦即,无论股别或甲基化状态)。这可能是因为所述癌症甲基化状态并不是高度甲基化或未甲基化,或是因为所述数个探针是设计以针对数个小突变或其它变异,而非甲基化改变,这些其它变异类似地指示一癌症的存在或不存在,或一个或多个TOO的一癌症的存在或不存在。在该案例中,所有四个可能的探针序列可以对每一个目标基因组区域被包括。
所述数个探针可以在长度上是自10、100、200或300个碱基对。所述数个探针可以包括至少50、75、100或120个核苷酸。所述数个探针可以包括少于300、250、200或150个核苷酸。在一实施例中,所述数个探针包括100至150个核苷酸。在一特定实施例中,所述数个探针包括120个核苷酸。
在一些实施例中,所述数个探针是以“2x铺排(2x tiled)”的方式被设计,以覆盖一目标区域的数个重叠部分。每个探针可选地在覆盖范围上与文库(library)中的另一探针至少部分地重叠。在这样的数个实施例中,所述检测组合含有多对探针,一对当中的每个探针与另一者重叠至少25、30、35、40、45、50、60、70、75或100个核苷酸。在一些实施例中,所述重叠序列可以被设计以与一目标基因组区域(或衍生自所述目标基因组区域的cfDNA)互补,或与和一目标区域或cfDNA具有同源性的一序列互补。因此,在一些实施例中,至少两个探针是与在一目标基因组区域中的相同的序列互补,且对应于或衍生自所述目标基因组区域的一核苷酸片段可以被所述数个探针中的至少一者连结并拉下。其它的铺排水平是可能的,比如3x铺排、4x铺排等,其中在一目标区域中的每个核苷酸可以结合到多于两个探针。
在一实施例中,在一目标基因组区域中的每个碱基是由正好两个探针重叠,如绘示于图1A中地。若所述两个探针之间的重叠比所述目标基因组区域长,且延伸超过所述目标基因组区域的两端,则单一一对探针足够将一基因组区域拉下。在一些情况下,甚至相对较小的数个目标区域也可被三个探针所针对(参见图1A)。包括三个或更多个探针的一探针组可选地被用于捕捉一较大的基因组区域(参见图1B)。在一些实施例中,数个探针的数个次组合将集合地延伸横跨一整个基因组区域(例如,可以与来自所述基因组区域的未经转换的或经转换的数个片段互补)。一个铺排的探针组可选地包括数个探针,所述数个探针集合地包括与所述基因组区域中的每个核苷酸重叠的至少两个探针。这样做是为了确保在一端包括一目标基因组区域的一小部分的数个cfDNA,会与至少一个探针有延伸进入相邻的非目标基因组区域的一个大致的重叠,以提供有效的捕捉。
举例而言,包括30nt目标基因组区域的一个100bp的cfDNA片段可以被确保有至少65bp与数个重叠探针的至少一者相重叠。其它铺排的水平是可能的。举例而言,为了增加目标尺寸及在一检测组合中添加更多探针,数个探针可以被设计以将一30bp的目标区域扩张至少70bp、65bp、60bp、55bp或50bp。为了捕捉与所述目标区域有丝毫重叠(即便仅重叠1bp)的任何片段,所述数个探针可以被设计以在两侧延伸超过所述目标区域的所述数个末端。
所述数个探针是设计以分析(例如,人类或另一有机体的)数个目标基因组区域的甲基化状态,所述数个目标基因组区域被怀疑与下述相关联:癌症总体的存在或不存在、特定类型的癌症的存在或不存在、癌症阶段、或其它类型的疾病的存在或不存在。
进一步地,所述数个探针是设计以有效地杂合到并可选地拉下含有一目标基因组区域的数个cfDNA片段。在一些实施例中,所述数个探针是设计以覆盖一目标区域的数个重叠的部分,从而每个探针在覆盖上是“铺排”的,而使每个探针与在所述文库中的另一探针至少部分地在覆盖范围上重叠。在这样的数个实施例中,所述检测组合包括多对探针,而每对探针包括通过一重叠序列互相重叠的至少两个探针,所述重叠序列是至少25、30、35、40、45、50、60、70、75或100个核苷酸。在一些实施例中,所述重叠序列可以被设计以具有与一目标基因组区域(或一目标基因组区域的一经转换版本)互补的序列,因此衍生自或含有所述目标基因组区域的一核苷酸片段可以由所述数个探针中的至少一者连结且可选地拉下。
在一实施例中,最小的目标基因组区域是30bp。当一个新的目标区域(基于如上文所描述的贪婪选择)被添加到所述检测组合,30bp的所述新的目标区域可以在一个特定的感兴趣的CpG位点上被置中。接着所述新的目标区域被检查,看此新的目标的每个边缘是否离其它数个目标足够近,而使它们可以被融合。这是基于一个“融合距离”参数,所述融合距离参数可以默认为是200bp,但可以被调整。这允许接近但分别的数个目标区域以数个重叠的探针被富集。视离所述新的目标的左侧或右侧足够接近的目标是否存在,所述新的目标可以不与任何东西融合(使检测组合目标的数量增加一)、仅与一个目标融合,或者融合到左侧或者融合到右侧(不改变检测组合目标的数量)、或与左侧及右侧的现存目标融合(使检测组合目标的数量减少一)。
选择数个目标基因组区域的方法:
在另一面向中,提供了选择用于检测癌症及/或一TOO的数个目标基因组区域的数个方法。所述目标基因组区域可以被用于设计及制造用于一癌症化验检测组合的数个探针。对应于或衍生自所述数个目标基因组区域的DNA或cfDNA分子的甲基化状态,可以使用所述癌症化验检测组合被筛检。替代的方法,比如通过WGBS或其它本领域中已知的方法,可以亦被应用以侦测对应于或衍生自所述数个目标基因组区域的数个DNA分子或片段的甲基化状态。
样本处理:
图7A是根据一个实施例,用于处理一核酸样本并为数个DNA片段产生数个甲基化状态向量的一程序100的一流程图。虽然本揭示特别关注用于侦测核酸及判定甲基化状态的基于定序的方式,本揭示足够宽广以含括用于判定数个核酸序列的甲基化状态的其它方法(比如在通过引用被并入本文中的WO2014/043763号当中被描述的甲基化觉察定序方法(methylation-aware sequencing approaches))。如在图7A中描述的,所述方法包括但不限于下述步骤。举例而言,所述方法的任何步骤可以包括用于质量管控的一量化的次步骤(sub-step),或者本领域的一般技术人员所知的其它实验室化验程序。
在步骤105中,一核酸样本(DNA或RNA)自一对象被提取。在当前的揭示中,除非另有指示,DNA及RNA可以被可互换地使用。亦即,在本文中被描述的数个实施例可以适用于DNA及RNA类型的核酸序列。然而,本文中描述的数个示例为了简洁性及解释的目的而聚焦于DNA。所述样本可以是人类基因组的任何次组合,包括全基因组。所述样本可以包括血液、血浆、血清、尿液、粪便、唾液、其它类型的体液,或其任何组合。在一些实施例中,用于抽取一血液样本的方法(例如,注射器或手指刺(finger prick))可以比用于获得一组织活体切片的程序较不具侵入性,所述用于获得一组织活体切片的程序可能需要手术。所述被提取的样本可以包括cfDNA及/或ctDNA。对于健康的个体,人体可以自然清除cfDNA及其它细胞碎屑。若一对象具有一癌症或疾病,在被提取的一样本中的cfDNA及/或ctDNA可能以对侦测所述癌症或疾病而言可侦测的一水平存在。
在步骤110中,所述数个cfDNA片段被处理以将未甲基化的胞嘧啶转换为脲嘧啶。在一实施例中,所述方法使用DNA的一亚硫酸氢盐处理,所述亚硫酸氢盐处理将未甲基化的胞嘧啶转换为脲嘧啶而不转换经甲基化的胞嘧啶。举例而言,一商业套组(kit)比如EZ DNA甲基化TM-黄金(EZ DNA MethylationTM-Gold)套组、EZ DNA甲基化TM-导向(EZ DNAMethylationTM-Direct)套组或一EZ DNA甲基化TM-闪电套组(EZ DNA MethylationTM-Lightning kit)(可获得自Zymo Research Corp(加利福尼亚州尔湾市))被用于所述亚硫酸氢盐转换。在另一实施例中,未甲基化的胞嘧啶至脲嘧啶的转换是使用一酶反应被达成。举例而言,所述转换可以使用一商业上可获得的,用于未甲基化胞嘧啶至脲嘧啶的转换的套组,比如APOBEC-Seq(NEBiolabs,马萨诸塞州伊普斯威奇)进行。
在步骤115中,一定序文库被制备。在一个第一步骤中,一ssDNA转接子(adapter)使用一ssDNA连接反应被添加到一个经亚硫酸氢盐转换的ssDNA分子的3′-OH端。在一实施例中,所述ssDNA连接反应使用CircLigase II(Epicentre)以将所述ssDNA转接子连接到一个经亚硫酸氢盐转换的ssDNA分子的3′-OH端,其中所述转接子的5′端被磷酸化且所述经亚硫酸氢盐转换的ssDNA被去磷酸化(亦即,所述3′端具有一羟基)。在另一实施例中,所述ssDNA连接反应使用热稳定5′AppDNA/RNA连接酶(可获得自新英格兰生物实验室(马萨诸塞州伊普斯威奇))以将所述ssDNA转接子连接至一经亚硫酸氢盐转换的ssDNA分子的3′-OH端。在此示例中,所述第一个UMI转接子在5′端被腺苷酸化并在3′端被阻断。在另一实施例中,所述ssDNA连接反应使用T4 RNA连接酶(可获得自新英格兰生物实验室)以将所述ssDNA转接子连接至一经亚硫酸氢盐转换的ssDNA分子的3′-OH端。在一第二步骤中,一第二股DNA在一延伸反应中被合成。举例而言,杂合至被包括在所述ssDNA转接子中的一引子序列的一延伸引子,在一引子延伸反应中被使用以形成一双股的经亚硫酸氢盐转换的DNA分子。可选地,在一实施例中,所述延伸反应使用一酶,所述酶能够通读在所述经亚硫酸氢盐转换的模板股中的数个脲嘧啶残基。可选地,在一第三步骤中,一dsDNA转接子被添加到所述双股的经亚硫酸氢盐转换的DNA分子。最后,所述双股的经亚硫酸氢盐转换的DNA被放大以添加数个序列转接子。举例而言,使用包括一P5序列的一正向引子与包括一P7序列的一反向引子的PCR放大被使用,以将P5及P7序列添加到所述经亚硫酸氢盐转换的DNA。可选地,在文库制备时,独特分子识别物(UMI)可以经由转接子连接被添加到所述数个核酸分子(例如,DNA分子)。所述数个UMI是在转接子连接时被添加到数个DNA片段的数个末端的短核酸序列(例如,4至10个碱基对)。在一些实施例中,UMI是数个简并的(degenerate)碱基对,作为一独特标签,所述标签可以被用于辨识源自一特定DNA片段的数个序列读数。在转接子连接之后的PCR放大中,所述数个UMI连同连结的DNA片段被复制,提供了在下游分析中辨识来自相同的原始片段的数个序列读数的一个方法。
在步骤120中,数个目标DNA序列可以自所述文库被富集。这是举例而言,当一目标检测组合化验在数个样本上被执行时被使用。在富集时,数个杂合探针(在本文中也被称为“探针”)被用于针对并拉下对下述可提供信息的数个核酸片段:癌症(或疾病)的存在或不存在、癌症状态、或一癌症分类(例如,癌症类型或来源组织)。对于一给定的工作流程,所述数个探针可以被设计以粘合(或杂合)至一目标(互补)股的DNA或RNA。所述目标股可以是“正”股(例如,被转录为mRNA,及接着转译为一蛋白质的股)或互补的“负”股。所述数个探针的长度可以在10s、100s或1000s个碱基对的范围内。此外,所述数个探针可以覆盖一目标区域的数个重叠部分。
在一杂合步骤120之后,所述经杂合的数个核酸片段被捕捉,及可以亦使用PCR被放大(富集125)。举例而言,所述数个目标序列可以被富集,以获得数个经富集的序列,所述数个经富集的序列可以接着被定序。一般地,任何本领域中已知的方法可以被用于分离及富集经探针杂合的目标核酸。举例而言,如本领域中广为人知的,一生物素部分可以使用链霉亲和素披覆的(streptavidin-coated)一表面(例如,链霉亲和素披覆的数个小珠)被添加到所述数个探针的所述5′端(亦即,生物素化)以促进杂合至数个探针的数个目标核酸的分离。
在步骤130中,数个序列读数被自所述数个经富集的DNA序列,例如,数个经富集的序列,产生。序列数据可以通过本领域中已知的方法,自所述数个经富集的DNA序列被获得。举例而言,所述方法可以包括次世代定序(NGS)技术,包括合成科技(Illumina)、焦磷酸定序(pyrosequencing)(454生命科学)、离子半导体科技(Ion Torrent定序)、单分子实时定序(Pacific Biosciences)、通过连接的定序(SOLiD定序)、纳米孔定序(Oxford NanoporeTechnologies)或配对端定序(paired-end sequencing)。在一些实施例中,大规模平行定序使用具有可逆染料终止子的合成定序被执行。在其它实施例中,如将由本领域技术人员所轻易了解地,用于侦测核酸及判定甲基化状态的任何已知方法可以被使用。举例而言,使用已知的甲基化觉察定序(参见例如,WO2014/043763)、一DNA微阵列(例如,有经标示的数个探针粘附到或接合到一固态表面或DNA阵列晶片)等,数个序列可以被侦测,且甲基化状态被判定。
在步骤140中,数个甲基化状态向量自所述数个序列读数被产生。为了这么作,一序列读数被对齐到一参考基因组。所述参考基因组协助提供所述片段cfDNA源自一人类基因组的何种位置的一情境。在一简化的示例中,所述序列读数是被对齐而使三个CpG位点关联到CpG位点23、24及25。(为了描述的便利而被使用的随意参考辨识物)。在对齐后,有下述两者的信息:所述cfDNA片段上的所有CpG位点的甲基化状态,与所述数个CpG位点映射到所述人类基因组中的哪个位置。有了所述甲基化状态及位置,一甲基化状态向量可以为所述片段cfDNA被产生。
数据结构的产生:
图3A是一流程图,描述根据一实施例的,为一健康控制组产生一数据结构的一程序300。为了创造一健康控制组数据结构,所述分析系统获得关于在数个序列读数上的数个CpG位点的甲基化状态的信息,所述数个序列读数是衍生自来自数个健康对象的数个DNA分子或数个片段。在本文中被提供以创造一健康控制组数据结构的方法,可以类似地对具有癌症的数个对象、具有一TOO的癌症的数个对象、具有一已知癌症类型的数个对象、或具有另一已知疾病状态的数个对象执行。一甲基化状态向量为每个DNA分子或片段产生,举例而言,经由所述程序100产生。
以每个片段的甲基化状态向量,所述分析系统将所述甲基化状态向量细分310为数个CpG位点的数个串(strings)。在一实施例中,所述分析系统细分310所述甲基化状态向量,而使作为结果的数个串皆小于一给定的长度。举例而言,长度11的一甲基化状态向量可以被细分为数个串,小于或等于3的长度将造成9个长度3的串、10个长度2的串及11个长度1的串。在另一示例中,长度7的一甲基化状态向量被细分为长度小于或等于4的串将导致4个长度4的串、5个长度3的串、6个长度2的串及7个长度1的串。若一甲基化状态向量短于所述特定串长度或与所述特定串长度长度相同,则所述甲基化状态向量可以被转换为含有所述向量的所有CpG位点的一单一串。
所述分析系统通过数算对于在所述向量中的每个可能的CpG位点及甲基化状态的可能而言,存在所述控制组中,具有所述特定CpG位点作为串中的第一CpG位点及具有甲基化状态的该可能的串的数量,而纪录(tallies)320所述数个串。举例而言,在一给定的CpG位点,及考虑3的串长,有2^3或8个可能的串配置。在该给定CpG位点,对于所述8个可能的串配置中的每个,所述分析系统纪录320在所述控制组中,每个甲基化状态向量可能发生多少次。继续此示例,这可能涉及对在所述参考基因组中的每个起始CpG位点x,纪录下述量值:<Mx,Mx+1,Mx+2>、<Mx,Mx+1,Ux+2>、...、<Ux,Ux+1,UX+2>。所述分析系统创造330数据结构,所述数据结构存储每个起始CpG位点及串可能性的所述经纪录计数。
设定串长度的一上限有数个益处。首先,视一个串的最大长度而定,由所述分析系统创造的所述数据结构的尺寸可能大幅增加。例如,4的最大串长度意谓着每个CpG位点对长度4的数个串,有至少2^4个数字要记录。将所述最大串长度增加至5意谓着每个CpG位点有额外的2^4个或16个数字要记录,相较于先前的串长度,要记录的数字(及需要的计算机记忆体)加倍。减少串尺寸有助使数据结构创造及表现(例如,如下文所述地用于之后的评估),在计算及存储方面保持合理。其次,要限制所述最大串长度的一个统计上的考量,是要避免过拟合(overfitting)数个下游模型,所述数个下游模型使用所述数个串计数。若数个CpG位点的数个长串在生物学上,对结果(例如,对于对癌症的存在有预测性的异常的预测)并不具有强大的效果,基于数个CpG位点的数个大型串计算数个机率可能产生问题,因为这需要可能无法可得的大量数据,且因此对于一个模型要适当运行而言将是太过稀疏(sparse)的。举例而言,计算以先前100个CpG位点为条件的异常/癌症的一机率将需要数据结构中的长度100的数个串的计数,理想地,有一些确切符合先前100个甲基化状态。若仅可获得长度100的数个串的稀疏的计数,要判断在一检测样本中的长度100的一个给定串是否异常,数据将是不足够的。
数据结构的验证:
一旦所述数据结构已被创造,所述分析系统可以寻求验证340所述数据结构及/或使用所述数据结构的任何下游模型。一个类型的验证检查在所述控制组的数据结构中的一致性。举例而言,若在一控制组中有任何离群值(outlier)对象、样本及/或片段,则所述分析系统可以执行各种计算,以判定是否自这些类别中的一者移除任何片段。在一代表性示例中,所述健康控制组可以包括一样本,所述样本未经诊断但为癌性,而使所述样本包括数个异常的甲基化片段。此第一类型的验证确保潜在的癌性样本自所述健康控制组被移除,而不影响所述控制组的纯粹性。
一个第二类型的验证以来自所述数据结构自身(亦即,来自所述健康控制组)的数个计数,检查用于计算p值的所述机率模型。用于p值计算的一程序在下文中连同图5而被描述。一旦所述分析系统为验证组中的数个甲基化状态向量产生一p值,所述分析系统以所述数个p值建构一个累积密度函数(CDF)。以所述CDF,所述分析系统可以在所述CDF上执行各种计算,以验证所述控制组的数据结构。一个测试利用所述CDF应理想地位于或低于一恒等函数,而使得CDF(x)≤x的事实。相反地,在所述恒等函数以上,揭露用于所述控制组的数据结构的所述机率模型中的一些缺陷。举例而言,若1/100的片段具有1/1000的一p值分数,意谓着CDF(1/1000)=1/100>1/1000,则所述第二类型的验证失败,指示所述机率模型的一问题。
一个第三类型的验证使用数个验证样本的一个健康的组别,所述数个验证样本是分离自用于建构所述数据结构的数个验证样本。所述第三类型的验证测试是否所述数据结构被恰当地建构且所述模型可运作。用于执行此类型的验证的一个示例性程序在下文中连同图3B被描述。所述第三类型的验证可以量化所述健康控制组多么良好地概括数个健康样本的分布。若所述第三类型的验证失败,则所述健康控制组并不良好地概括到所述健康的分布。
一种第四类型的验证以来自一非健康验证组的数个样本进行测试。所述分析系统为所述非健康验证组计算数个p值并建构所述CDF。对一非健康验证组,所述分析系统预期看到对于至少一些样本,CDF(x)>x。或者换句话说,与在所述第二类型的验证与所述第三类型的验证中,对健康控制组及健康验证组所预期的相反。若所述第四类型的验证失败,则指示所述模型并不适当地辨识所述模型被设计辨识的异常。
图3B是一流程图,描述根据一实施例的,为图3A的所述控制组验证所述数据结构的一额外步骤340。在验证所述数据结构的所述步骤340的此实施例中,所述分析系统执行如上文所描述的所述第四类型的验证测试,所述第四类型的验证测试应用一验证组,所述验证组具有假定与所述控制组相似的对象、样本及/或片段的组成。举例而言,若所述分析系统选择数个没有癌症的健康对象作为控制组,则所述分析系统也在所述验证组中使用数个没有癌症的健康对象。
所述分析系统取所述验证组,并如在图3A中所述地产生100个一组的甲基化状态向量。所述分析系统对于来自所述验证组的每个甲基化状态向量执行一p值计算。所述p值计算程序将连同图4至5而被进一步描述。对于甲基化状态向量的每个可能性,所述分析系统自所述控制组的数据结构计算一机率。一旦所述数个机率对数个甲基化状态向量的所述数个可能性被计算,所述分析系统基于所述数个被计算的机率为该甲基化状态向量计算350一个p值分数。所述p值分数代表在所述控制组中找到该特定甲基化状态向量及具有甚至更低的机率的其它可能的甲基化状态向量的一预期性。从而,一低p值分数一般地对应于相对于在所述控制组中的其它甲基化状态向量较不被预期的一甲基化状态向量,而一高p值分数一般地对应于相对于在所述控制组中找到的其它甲基化状态向量更被预期的一甲基化状态向量。一旦所述分析系统对于在所述验证组中的数个甲基化状态向量产生一p值分数,所述分析系统以来自所述验证组的所述数个p值分数建构360一个累积密度函数(CDF)。所述分析系统如上文所描述地在所述第四类型的验证测试中验证370所述CDF的一致性。
异常甲基化片段:
根据在图4中被概述的一实施例,在癌症患者样本、具有一TOO的癌症的对象、具有一已知癌症类型的数个对象、或具有另一已知疾病状态的对象中的,具有异常甲基化模式的数个异常甲基化片段,被选为目标基因组区域。选择异常甲基化片段的示例性程序440被视觉性地例示在图5中,且在图4的描述下被进一步描述。在程序400中,所述分析系统自所述样本的数个cfDNA片段产生100数个甲基化状态向量。所述分析系统如下地处理每个甲基化状态向量。
对于一个给定的甲基化状态向量,所述分析系统列举410在所述甲基化状态向量中具有相同起始CpG位点及相同长度(亦即,CpG位点的集合)的甲基化状态向量的所有可能。因每个甲基化状态可能是甲基化或未甲基化,在每个CpG位点仅有两个可能状态,及因此甲基化状态向量的独特的可能的计数依赖于2的次方,而使长度n的一甲基化状态向量将与甲基化状态向量的2n个可能相关联。
所述分析系统通过评估健康控制组数据结构,计算420对所述辨认的起始CpG位点/甲基化状态向量长度而言,观察到甲基化状态向量的每个可能的机率。在一实施例中,计算观察到一给定的可能的所述机率使用一马克夫链机率,以建模所述联合机率计算,所述联合机率计算将在下文中参考图5而被更详细地描述。在其它实施例中,不同于马可夫链机率的计算方法被用以决定观察到甲基化状态向量的每个可能的所述机率。
所述分析系统使用对每个可能被计算的所述数个机率,为所述甲基化状态向量计算430一个p值分数。在一实施例中,这包括辨识对应于所述可能的所述被计算的机率,所述可能符合被考虑的所述甲基化状态向量。特定地,这是与所述甲基化状态向量具有相同的一组CpG位点,或类似地具有相同的起始CpG位点及长度的可能。所述分析系统加总所述数个被计算的机率以产生所述p值分数。所述数个被计算的机率是数个可能的被计算的机率,所述数个可能具有任何具有少于或等于被辨识的机率的机率。
此p值代表在所述健康控制组中观察到所述片段的所述甲基化状态向量或其它甚至更不可能的甲基化状态向量的机率。从而,一低p值分数,大致对应于在一健康个体中罕见的一甲基化状态向量,及造成所述片段相对于所述健康控制组,被标记为异常甲基化。一高p值分数一般地关联于在一健康对象中,在一相对概念上被预期存在的一甲基化状态向量。举例而言,若所述健康控制组是一非癌症组,一低p值指示所述片段相对于所述非癌症组而言是异常甲基化的,及因此可能指示在所述检测对象中的癌症的存在。
如上,所述分析系统对数个甲基化状态向量中的各者计算p值分数,所述数个甲基化状态向量中的各者代表在所述检测样本中的一cfDNA片段。为了辨认所述数个片段中的哪一个是异常甲基化的,所述分析系统可以基于数个甲基化状态向量的p值分数过滤440所述数个甲基化状态向量的所述集合。在一实施例中,过滤是通过将所述p值分数与一阀值相比较及仅保留低于所述阀值的那些片段而执行。此阀值p值分数可以是在0.1、0.01、0.001、0.0001或类似的数量级上。
P值分数计算:
图5是根据一实施例的,一示例性p值分数计算的一绘示500。为了计算给定一检测甲基化状态向量505的一p值分数,所述分析系统取该检测甲基化状态向量505,及列举410甲基化状态向量的数个可能。在此例示性示例中,所述检测甲基化状态向量505是<M23,M24,M25,U26>。因为所述检测甲基化状态向量505的所述长度是4,包含CpG位点23至26的甲基化状态向量有2^4种可能。在一个一般性示例中,甲基化状态向量的可能的所述数量是2^n个,其中n是所述检测甲基化状态向量的长度或替代地是所述滑动窗口(在下文中进一步描述)的长度。
所述分析系统计算420数个甲基化状态向量的被列举的数个可能的机率515。因为甲基化是有条件地依赖于附近的CpG位点的甲基化状态,计算观察到一给定的甲基化状态向量的可能的机率的一个方法是使用马可夫链模型。一般地,一甲基化状态向量,比如<S1,S2,…,Sn>(其中S表示所述甲基化状态,或者是甲基化(表示为M)、未甲基化(表示为U)或不确定(表示为I))具有一联合机率,所述联合机率可以使用机率的链式法则(chain rule ofprobabilities)被展开为:
Figure BPA0000311201070000712
马可夫链模型可以被用于使每个可能的所述条件机率的计算更有效率。在一实施例中,所述分析系统选择一马可夫链阶层k,所述马可夫链阶层k对应于在所述条件机率计算中要考虑多少在所述向量(或窗口)中的先前的CpG位点,而使所述条件机率被建模为P(Sn|S1,…,Sn-1)~P(Sn|Sn-k-2,…,Sn-1)。
为了计算对甲基化状态向量的一可能的每个经马可夫建模的机率,所述分析系统存取所述控制组的数据结构,特别是数个CpG位点及状态的各种串的计数。为了计算P(Mn|Sn-k-2,…,Sn-1),所述分析系统自符合<Sn-k-2,…,Sn-1,Mn>的所述数据结构取数个串的所述数量的被存储的计数,除以来自符合<Sn-k-2,…,Sn-1,Mn>及<Sn-k-2,…,Sn-1,Un>的所述数据结构的数个串的数量的所述经存储的计数的所述总和的一比率。因此,P(Mn|Sn-k-2,…,Sn-1)是经计算的比率,具有下述形式:
Figure BPA0000311201070000711
所述计算可以通过应用一先验分布而额外实施所述数个计数的一平滑化。在一实施例中,所述先验分布是如在拉普拉斯平滑化中的一均匀先验。作为此的一示例,一常数被加到上述等式的分子及另一常数(例如,两倍于在所述分子中的所述常数)被加到上述等式的分母。在其它实施例中,一演算法技术,比如聂氏平滑法(Knesser-Ney smoothing)被使用。
在所述例示中,上文中表示的公式被应用到覆盖位点23至26的所述检测甲基化状态向量505。一旦所述经计算的机率515被完成,所述分析系统计算430一p值分数525,所述p值分数525加总数个机率,所述数个机率少于或等于符合所述检测甲基化状态向量505的甲基化状态向量的可能的机率。
在一实施例中,计算机率及/或p值分数的计算负担可以通过缓存至少一些计算而被进一步减少。举例而言,所述分析系统可以将数个甲基化状态向量(或其窗口)的可能的机率的计算缓存于暂时或永久记忆体中。若其它片段具有相同的CpG位点,缓存所述可能机率允许p值分数的有效率的计算,而不需要重新计算潜在的可能机率。最终,所述分析系统可以为与来自向量(或其窗口)的一组CpG位点相关联的数个甲基化状态向量的可能中的各者计算p值分数。所述分析系统可以缓存所述p值分数,供用于决定包括所述相同CpG位点的其它片段的所述p值分数。一般地,具有相同CpG位点的甲基化状态向量的可能的所述p值分数可以被用于决定来自所述同一组CpG位点的所述可能的不同的一者的所述p值分数。
滑动窗口:
在一实施例中,所述分析系统使用435一滑动窗口以决定甲基化状态向量的可能及计算p值。所述分析系统仅对连续的数个CpG位点的一窗口列举可能及计算p值,而非对整个甲基化状态向量列举可能及计算p值,其中所述窗口在(CpG位点的)长度上比至少一些片段短(否则,所述窗口便无济于事)。所述窗口长度可以是静态的、使用者决定的、动态的或另外选择的。
在为大于所述窗口的一甲基化状态向量计算p值时,所述窗口自所述向量中第一个CpG位点开始,辨识在所述窗口中的,连续一组来自所述向量的CpG位点。所述分析系统计算包括所述第一CpG位点的所述窗口的一p值分数。所述分析系统接着将所述窗口“滑动”到所述向量中的第二个CpG位点,及为所述第二窗口计算另一p值分数。因此,对于尺寸l的一窗口及甲基化向量长度m,每个甲基化状态向量将产生m-l+1个p值分数。在完成对所述向量的每个部份的所述p值计算后,来自所有滑动窗口的最低的p值分数被采取为所述甲基化状态向量的所述总体p值分数。在另一实施例中,所述分析系统合计所述数个甲基化状态向量的所述p值分数以产生一总体p值分数。
使用所述滑动窗口有助减少甲基化状态向量的被列举的可能的数量及若非如此则需要被执行的,对应的机率计算。示例机率计算被展示在图5中,但一般地,甲基化状态向量的可能的数量随着所述甲基化状态向量的尺寸而呈2的次方指数增加。为了给出一现实的例子,片段可能具有多于54个CpG位点。所述分析系统可以对该片段使用(举例而言是)尺寸5的一窗口,导致对所述甲基化状态向量的50个窗口中的各者执行50个p值计算,而非计算2^54(约1.8×10^16)个可能的机率以产生一单一p值分数。所述50个计算中的各者列举所述甲基化状态向量的2^5(32)个可能,总共导致50×2^5(1.6×10^3)个可能性计算。这导致对异常片段的准确辨识缺乏有意义命中的,要被执行的计算的一大量减少。此额外步骤可以亦在以所述验证组的数个甲基化状态向量验证340所述控制组时被应用。
辨识指示癌症的片段:
所述分析系统自经过滤的异常甲基化片段组辨识450指示癌症的数个DNA片段。
低甲基化及过甲基化片段:
根据一个第一方法,所述分析系统可以自所述经过滤的异常甲基化片段组辨识被视为低甲基化或过甲基化的数个DNA片段,作为指示癌症的片段。低甲基化或过甲基化的数个片段可以被界定为数个CpG位点的一特定长度(例如,多于3、4、5、6、7、8、9、10个等)的数个片段,所述片段具有高百分比的甲基化CpG位点(例如,多于80%、85%、90%、或95%、或在50%至100%的范围内的任何其它百分比)或高百分比的未甲基化CpG位点(例如,多于80%、85%、90%、或95%、或在50%至100%的范围内的任何其它百分比)。
机率模型:
根据本文中描述的一个方法,所述分析系统应用拟合到每个癌症类型及非癌症类型的甲基化模式的机率模型,辨识指示癌症的数个片段。所述分析系统使用所述数个基因组区域中的数个DNA片段,以用于每个癌症类型及非癌症类型的经拟合机率模型考虑各种癌症类型,而为一样本计算对数可能性比率。所述分析系统可以基于是否相对于所述各种癌症类型而被考虑的所述数个对数可能性比率中的至少一者高于一阀值,而判定一DNA片段指示癌症。
在划分所述基因组的一个实施例中,所述分析系统通过数个阶段将所述基因组划分为数个区域。在一第一阶段中,所述分析系统将所述基因组分离为数个CpG位点的数个区块。每个区块在两个相邻的CpG位点中有超过一些阀值,例如,大于200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1000bp,的一间隔时被界定。自每个区块,所述分析系统于一第二阶段将每个区块细分为一特定长度,例如,500bp、600bp、700bp、800bp、900bp、1000bp、1100bp、1200bp、1300bp、1400bp或1500bp的数个区域。所述分析系统可以进一步以所述长度的一百分率,例如,10%、20%、30%、40%、50%或60%,与邻近的数个区域重叠。
所述分析系统对每个区域分析衍生自数个DNA片段的数个序列读数。所述分析系统可以处理来自组织及/或高信号cfDNA的数个样本。高信号cfDNA样本可以由一个二元分类模型通过癌症阶段,或通过其它度量标准判定。
对于每个癌症类型及非癌症,所述分析系统对于数个片段拟合一个分离的机率模型。在一实施例中,每个机率模型是混合模型,包括数个混合成分的一组合,而每个混合成分是一独立位点模型,其中于每个CpG位点处的甲基化被假定为独立于其它CpG位点处的甲基化状态。
在数个替代的实施例中,计算关于每个CpG位点被执行。特定地,一第一计数被决定,所述第一计数是包括与该CpG重叠的一异常甲基化DNA片段的癌性样本的数量(癌症_计数),且一第二计数被决定,所述第二计数是在所述组中,含有与该CpG重叠的片段的样本的总数量(总和)。数个基因组区域可以基于所述数个数量被选择,举例而言,基于正相关于包括与该CpG重叠的一DNA片段的癌性样本的数量(癌症_计数),且负相关于所述组中含有与该CpG重叠的片段的样本的总数量(总和)的标准被选择。
具有不同TOO的各种类型的癌症可以选自由下述组成的群组:乳癌、子宫癌、子宫颈癌、卵巢癌、膀胱癌、肾盂尿道上皮癌,尿道上皮以外的肾癌、前列腺癌、肛门直肠癌、肛门癌、结肠直肠癌、起源自肝细胞的肝胆癌、起源自肝细胞以外的细胞的肝胆癌、肝/胆管癌、食道癌、胰腺癌、上消化道鳞状细胞癌、鳞状细胞以外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌以及肺腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、浆细胞瘤、多发性骨髓瘤、骨髓性肿瘤、淋巴癌及白血病。
在一些实施例中,各种癌症类型可以使用本领域中可得的分类方法被分类并标记,比如国际肿瘤疾病分类(ICD-O-3)(codes.iarc.fr),或监测、流行病学和最终结果计划(SEER)(seer.cancer.gov)。在其它实施例中,癌症类型以三个正交码(orthogonal codes)被分类:(i)部位码,(ii)型态码,或(iii)行为码。在行为码下,良性肿瘤为0,不确定行为为1,原位癌为2,恶性,原发部位为3且恶性,转移部位为6。
在一些实施例中,一癌症TOO可以选自一群组,所述群组由将用于为被侦测到的一癌症分期的指引所界定。举例而言,下述参考资料辨识跟随标准指引被一同分期的不同癌症的数个群组:Amin,M.B.,Edge,S.,Greene,F.,Byrd,D.R.,Brookland,R.K.,Washington,M.K.,Gershenwald,J.E.,Compton,C.C.,Hess,K.R.,Sullivan,D.C.,Jessup,J.M.,Brierley,J.D.,Gaspar,L.E.,Schilsky,R.L.,Balch,C.M.,Winchester,D.P.,Asare,E.A.,Madera,M.,Gress,D.M.,Meyer,L.R.(编者),AJCC癌症分期指南,第8版,Springer,2017年。典型地,这样的分期在癌症管理中是跟随在癌症的侦测及诊断之后的下一步。
所述分析系统可以进一步以用于每个癌症类型及非癌症类型,或用于一癌症TOO的经拟合机率模型考虑各种癌症类型,为一片段计算指示所述片段是指示癌症的一可能性的对数可能性比率(“R”)。两个机率可以取自为每个癌症类型及非癌症类型拟合的机率模型,所述数个机率模型被界定以计算给定所述数个癌症类型及非癌症类型中的各者,在一片段上观察到一甲基化模式的一可能性。举例而言,所述数个机率模型可以被界定为为了所述数个癌症类型及非癌症类型中的各者被拟合。
指示癌症的基因组区域的选择:
所述分析系统辨识460指示癌症的数个基因组区域。为了辨识这些提供信息的区域,所述分析系统为每个基因组区域,或更特定地为每个CpG位点计算一信息增益,所述信息增益描述在各种结果之间进行区辨的能力。
用于辨识能够在癌症类型及非癌症类型之间进行区辨的数个基因组区域的一方法,应用一经训练的分类模型,所述经训练的分类模型可以被应用在对应于或衍生自一癌性或非癌性群组的所述异常甲基化DNA分子或片段组。所述经训练的分类模型可以被训练以辨识可自所述数个甲基化状态向量被辨识的任何感兴趣的情况。
在一实施例中,所述经训练的分类模型是一个二元分类器,所述二元分类器是基于数个cfDNA片段或数个基因组序列的甲基化状态而被训练,所述数个cfDNA片段或数个基因组序列获得自具有癌症或一癌症TOO的一对象群体,及没有癌症的一健康对象群体。且所述二元分类器接着被用于基于数个异常甲基化状态向量,分类一检测对象具有癌症、一癌症TOO,或不具有癌症的机率。在其它实施例中,不同的分类器可以使用已知具有特定癌症(例如,乳癌、肺癌,前列腺癌等);已知具有特定TOO的癌症,所述癌症据信自所述TOO发源;或已知具有不同阶段的特定癌症(例如,乳癌、肺癌,前列腺癌等)的对象群体被训练。在这些实施例中,数个不同的分类器可以使用获得自富含肿瘤细胞的样本的数个序列读数被训练。所述样本来自已知具有特定癌症(例如,乳癌、肺癌,前列腺癌等)的对象群体。每个基因组区域于所述分类模型中在癌症类型及非癌症类型之间进行区辨的能力被用于以分类表现排名所述数个基因组区域,自最能提供资讯至最不提供资讯。所述分析系统可以自所述排名辨识数个基因组区域,所述排名是根据在非癌症类型及癌症类型之间分类的信息增益。
计算来自指示癌症的低甲基化及过甲基化片段的信息增益:
根据一实施例,使用指示癌症的数个片段,所述分析系统可以根据绘示于图6A中的一程序600训练一分类器。所述程序600存取数个样本的两个训练组:一个非癌症组及一个癌症组,并例如,经由来自程序400的步骤440,获得605包括数个异常甲基化片段的,数个甲基化状态向量的一个非癌症组及数个甲基化状态向量的一个癌症组。
所述分析系统对于每个甲基化状态向量,判定610所述甲基化状态向量是否指示癌症。在此,若至少一些数量的CpG位点具有一特定状态(分别为甲基化或未甲基化)及/或具有一阀值比率的位点是所述特定状态(再次地,分别为甲基化或未甲基化),指示癌症的数个片段可以被界定为过甲基化的或低甲基化的片段。在一实施例中,若数个cfDNA片段与至少5个CpG位点重叠,且所述数个cfDNA片段的CpG位点的至少80%、90%或100%是甲基化的,或者所述数个cfDNA片段的CpG位点的至少80%、90%或100%是未甲基化的,则所述数个cfDNA片段分别被识别为低甲基化的或过甲基化的。
在一替代实施例中,所述程序考虑所述甲基化状态向量的数个部分,并判定所述部分是否是低甲基化的或过甲基化的,且可以判别该部分是低甲基化的或过甲基化的。此替代方案解决了遗失数个大尺寸但含有至少一个密集低甲基化或过甲基化的区域的甲基化状态向量的问题。这个界定低甲基化及过甲基化的程序可以在图4的步骤450中被应用。在另一实施例中,指示癌症的所述数个片段可以根据输出自数个经训练的机率模型的数个可能性而被界定。
在一实施例中,所述分析系统对所述基因组中的每个CpG位点产生620一个低甲基化分数(P)及一过甲基化分数(P)。为了在一个给定的CpG位点产生两个分数,所述分类器于该CpG位点采取四个计数:(1)与所述CpG位点重叠的,被标示为低甲基化的所述癌症组的数个(甲基化状态)向量的计数;(2)与所述CpG位点重叠的,被标示为过甲基化的所述癌症组的数个向量的计数;(3)与所述CpG位点重叠的,被标示为低甲基化的所述非癌症组的数个向量的计数;及(4)与所述CpG位点重叠的,被标示为过甲基化的所述非癌症组的数个向量的计数。此外,所述程序可以对于每个组标准化这些计数,以计入所述非癌症组与所述癌症组之间的组尺寸差异。在指示癌症的数个片段更一般地被使用的数个替代实施例中,所述数个分数可以被更广泛地界定为于每个基因组区域及/或CpG位点处,指示癌症的数个片段的计数。
在一实施例中,为了产生620在一给定CpG位点处的低甲基化分数,所述程序取(1)除以(1)与(3)加总的一比率。类似地,所述过甲基化分数是通过取(2)除以(2)及(4)的一比率而被计算。此外,这些比率可以如上文所讨论的额外的平滑化技术(smoothingtechnique)被计算。给定来自所述癌症组的数个片段的低甲基化或过甲基化的存在,所述低甲基化分数及所述过甲基化分数与癌症机率的一估计相关联。
所述分析系统为每个异常甲基化状态向量产生630一个总计低甲基化分数及一个总计过甲基化分数。所述总计过甲基化与低甲基化分数是基于在所述甲基化状态向量中的所述数个CpG位点的过甲基化及低甲基化分数而被判定。在一实施例中,所述总计过甲基化及低甲基化分数分别被记为在每个状态向量中的所述数个位点的最大过甲基化及低甲基化分数。然而,在数个替代实施例中,所述数个总计分数可以基于使用在每个向量中的所述数个位点的数个过甲基化/低甲基化分数的平均数、中位数或其它计算。
所述分析系统接着排名640对象的所有甲基化状态向量而对每个对象导致两个排名,所述排名640是按所述数个甲基化状态向量的总计低甲基化分数及按所述数个甲基化状态向量的总计过甲基化分数。所述过程自所述低甲基化排名选择数个总计低甲基化分数及自所述过甲基化排名选择数个总计过甲基化分数。以被选择的数个分数,所述分类器对每个对象产生650产生一单一特征向量。在一实施例中,被选择自两个排名的所述数个分数是以一固定排序被选择,所述固定排序对所述数个训练群组的各者中的每个对象的每个被产生的特征向量而言是相同的。作为一示例,在一实施例中,所述分类器自每个排名选取第一、第二、第四及第八个总计过甲基化分数,及对每个总计低甲基化分数也相同,及将这些分数写在该对象的所述特征向量中。
所述分析系统训练660一个二元分类器区辨所述癌症及非癌症训练组的特征向量。一般而言,一些分类技术中的任一者可以被使用。在一实施例中,所述分类器是一非线性分类器。在一特定实施例中,所述分类器是应用具有一高斯径向基函数核(Gaussianradial basis function(RBF)kernel)的一L2-正规化函数核逻辑回归(L2-regularizedkernel logistic regression)的一非线性分类器。
特定地,在一实施例中,具有与一CpG位点重叠的一异常甲基化片段的非癌症样本或(数个)不同癌症类型的数量(n其它)及数个癌症样本或(数个)癌症类型的数量(n癌症)被计数。接着,一个样本是癌症的机率由一分数(“S”)估计,所述分数与n癌症呈正相关且与n其它呈负相关。所述分数可以使用等式:(n癌症+1)/(n癌症+n其它+2)或(n癌症)/(n癌症+n其它)被计算。所述分析系统为每个癌症类型及为每个基因组区域或CpG位点计算670一信息增益,以决定所述基因组区域或CpG位点是否指示癌症。所述信息增益是对具有一给定癌症类型的数个训练样本,相较于所有其它样本而被计算。举例而言,使用了两个随机变数“异常片段”(“AF”)及“癌症类型”(“CT”)。在一实施例中,AF如为上文的异常分数/特征向量而决定地,是一个二元变数,指示在一给定的样本中是否有一异常片段与一给定的CpG位点重叠。CT是一随机变数,指示所述癌症是否属于一特定类型。所述分析系统计算给定AF时关于CT的互信息(mutual information)。亦即,若得知是否有一异常片段与一特定CpG位点重叠,则获得了多少位元的关于癌症类型的信息。
对于一给定的癌症类型,所述分析系统使用此信息以基于数个CpG位点多么地癌症特定而排名所述数个CpG位点。此程序对于所有考虑中的癌症类型被重复。若一特定区域在一给定癌症的数个训练样本中是普遍被异常地甲基化的,但在其它癌症类型的数个训练样本或在数个健康的训练样本中并非普遍被异常地甲基化,则被这些异常片段重叠的数个CpG位点将倾向于对所述给定的癌症类型具有高信息增益。对于每个癌症类型的被排名的所述数个CpG位点,基于它们的排名,被贪婪地添加(选择)到数个CpG位点的一选定的组别,供在所述癌症分类器中使用。
从辨识自机率模型的指示癌症的片段计算成对信息增益:
以根据本文中描述的一方法被辨识的,指示癌症的数个片段,所述分析可以根据图6B中的程序680辨识数个基因组区域。所述分析系统为每个样本、为每个区域、为每个癌症类型界定690一特征向量,所述界定是通过数个DNA片段的一计数,所述数个DNA片段具有高于数个阀值的,所述片段指示癌症的一经计算的对数可能性比率,其中每个计数是在所述特征向量中的一数值。在一实施例中,所述分析系统为具有高于一个或数个可能阀值的对数可能性比率的每个癌症类型,计数于一区域存在一样本中的片段的数量。所述分析系统通过为对所述片段提供高于数个阀值的一经计算的对数可能性比率的每个癌症类型,对每个基因组区域的数个DNA片段的一计数,为每个样本界定一特征向量,其中每个计数是所述特征向量中的一个数值。所述分析系统使用所述数个被界定的特征向量以为每个基因组区域计算一信息分数,所述信息分数描述该基因组区域在每对癌症类型之间区辨的能力。对于每对的癌症类型,所述分析系统基于所述数个信息分数排名数个区域。所述分析系统可以基于根据数个信息分数的排名选择数个区域。
所述分析系统为每个区域计算695一信息分数,所述信息分数描述该区域在每对癌症类型之间区辨的能力。对于每对不同的癌症类型,所述分析系统可以指定一个类型为一阳性类型,及另一者为一阴性类型。在一实施例中,一个区域在所述阳性类型及所述阴性类型之间区辨的能力是基于互信息,使用所述特征在最终化验中被预期为非零(non-zero)的,所述阳性类型及所述阴性类型的cfDNA样本,亦即,将在一靶向甲基化化验中被定序的,该层的至少一个片段,的估计分数(fraction)被计算。这些分数是使用所述特征在健康的cfDNA、在高信号cfDNA及/或每个癌症类型的肿瘤样本中发生的,被观察到的比率被估计。举例而言,若一特征在健康的cfDNA中频繁发生,则所述特征将也被预计在任何癌症类型的cfDNA中频繁发生,且将可能导致一低信息分数。所述分析系统可以对每对癌症类型,自所述排名选择一特定数量的区域,例如,1024个。
在数个额外的实施例中,所述分析系统进一步自数个区域的所述排名辨识主要过甲基化的或低甲基化的区域。所述分析系统可以对于被辨识为提供信息的一区域,将数个片段的所述组装载到所述(数个)阳性类型中。所述分析系统自所述数个被装载片段评估所述数个被装载片段是否主要地过甲基化或低甲基化。若所述数个被装载片段是主要地过甲基化或低甲基化,所述分析系统可以对应于所述主要甲基化模式选择数个探针。若所述数个被装载片段并不主要地过甲基化或低甲基化,所述分析系统可以使用数个探针的一混合物,以针对过甲基化及低甲基化两者。所述分析系统可以进一步辨识与所述数个片段的一些比率重叠的,CpG位点的一最小组别。
在其它实施例中,所述分析系统,在基于数个信息分数而排名所述数个区域之后,以所有的癌症类型对中最低的信息排名标记每个区域。举例而言,若一区域是对区辨乳癌与肺癌第10名最能提供信息的区域,且是区辨乳癌与结肠直肠癌第5名最能提供信息的区域,则所述区域将被给予“5”的整体标签。所述分析系统可以自被标记为最低的数个区域开始设计数个探针,而将数个区域添加到所述检测组合,例如,直到所述检测组合的尺寸预算耗尽。
脱靶基因组区域:
在一些实施例中,针对数个选定的基因组区域的数个探针基于它们的脱靶区域的数量被进一步过滤475。这是为了筛检拉下太多对应于或衍生自脱靶基因组区域的cfDNA片段的探针。排除具有许多脱靶区域的探针可以通过减少脱靶率并增加一给定量的定序的目标覆盖而是有价值的。
一脱靶基因组区域是与一目标基因组区域具有足够的同源性的一基因组区域,使得衍生自数个脱靶基因组区域的DNA分子或片段杂合至设计以杂合至一目标基因组区域的一探针,并被所述探针拉下。一脱靶基因组区域可以是沿着具有至少80%、85%、90%、95%或97%的符合率的至少35bp、40bp、45bp、50bp、60bp、70bp或80bp对齐到一探针。在一实施例中,一脱靶基因组区域是沿着具有至少90%符合率的至少45bp对齐到一探针的一基因组区域(或相同区域的经转换序列)。各种本领域中已知的方法可以被采用以筛检数个脱靶基因组区域。
彻底地搜索基因组以找到所有脱靶基因组区域可能是计算上具挑战性的。在一实施例中,一k聚体播种策略(k-mer seeding strategy)(可以允许一个或多个错配)被结合到于所述种子位点的局部对齐。在此案例中,良好对齐的彻底搜寻可以基于k聚体长度、允许的错配的数量,以及于一特定位置的k聚体种子命中数而被保证。这需要于大量的位置进行动态编程局部对齐,因此此方式高度适合使用向量CPU指令(例如,AVX2、AVX512)及也可以在一个机器的许多核心之间,及在由一网络连接的许多机器之间被平行化。本领域的一般技术人员将认识到此方式的修改及变化可以为了辨识数个脱靶基因组区域的目的而被应用。
在一些实施例中,具有与数个脱靶基因组区域同源的序列,或包括多于一阀值数量的对应于或衍生自数个脱靶基因组区域的DNA分子的数个探针被自所述检测组合排除(或过滤)。举例而言,具有与数个脱靶基因组区域,或者对应于或衍生自来自多于30个、多于25个、多于20个、多于18个、多于15个、多于12个、多于10个或多于5个脱靶区域的脱靶基因组区域的DNA分子同源的序列的探针被排除。
在一些实施例中,视乎脱靶区域的数量,数个探针被分为2、3、4、5、6或更多个分离的组。举例而言,不与脱靶区域或者对应于或衍生自数个脱靶区域的DNA分子具有序列同源性的数个探针被分配到高质量组,与1至18个脱靶区域或者对应于或衍生自1至18个脱靶区域的DNA分子具有序列同源性的数个探针被分配到低质量组,且与多于19个脱靶区域或者对应于或衍生自19个脱靶区域的DNA分子具有序列同源性的数个探针被分配到差质量组。其它截止值可以被用于分组。
在一些实施例中,在所述最低质量组中的数个探针被排除。在一些实施例中,在不同于最高质量组的数个组别中的数个探针被排除。在一些实施例中,分别的检测组合为在各个组中的探针被制作。在一些实施例中,所有的探针被放上相同的检测组合,但分别的分析基于被分配的组别被执行。
在一些实施例中,一检测组合比起较低组别中的探针的数量,包括一较大数量的高质量探针。在一些实施例中,一检测组合比起在其它组中的数个探针的数量,包括一较小数量的差质量探针。在一些实施例中,在一检测组合中多于95%、90%、85%、80%、75%或70%的探针是高质量探针。在一些实施例中,一检测组合中少于35%、30%、20%、10%、5%、4%、3%、2%或1%的探针是低质量探针。在一些实施例中,一检测组合中少于5%、4%、3%、2%或1%的探针是差质量探针。在一些实施例中,没有差质量探针被包括在一检测组合中。
在一些实施例中,具有低于50%、低于40%、低于30%、低于20%、低于10%或低于5%的探针被移除。在一些实施例中,具有高于30%、高于40%、高于50%、高于60%、高于70%、高于80%或高于90%的探针被选择性地包括在一检测组合中。
使用癌症化验检测组合的方法:
在又一个方面,提供了使用一癌症化验检测组合的方法。所述方法可以包括步骤:(例如,使用亚硫酸氢盐处理)处理数个DNA分子或数个片段,以将未甲基化的胞嘧啶转换为脲嘧啶,将(如本文中描述的)一癌症检测组合应用到所述经转换的DNA分子或片段,富集杂合(或结合)到在所述检测组合中的所述数个探针的,经转换DNA分子或片段的一个次组合,及举例而言,通过定序被富集的cfDNA片段,侦测所述核酸序列并判定所述核酸序列的甲基化状态。在一些实施例中,所述数个序列读数可以被与一参考基因组(例如,一人类参考基因组)比较,允许辨识在所述DNA分子或片段中的数个CpG位点处的甲基化状态,及因此提供关于侦测癌症的信息。虽然本揭示特别关注用于(经由数个序列读数)侦测核酸及判定其甲基化状态的,基于定序的方法,本揭示足够广泛以含括其它用于侦测核酸及判定其甲基化状态的方法,比如(在通过引用被并入本文中的WO2014/043763号当中被描述的)其它甲基化觉察定序方法、DNA微阵列(例如,有经标示的数个探针粘附到或接合到一固态表面或DNA阵列晶片)等。
序列读数的分析:
在一些实施例中,所述数个序列读数可以使用本领域中已知的方法被对齐到一参考基因组,以判定对齐位置信息。所述对齐位置信息可以指示在所述参考基因组中对应于一给定序列读数的一起始核苷酸碱基及结束核苷酸碱基的一起始位置及一结束位置。对齐位置信息可以亦包括序列读数长度,所述序列读数长度可以自所述起始位置及所述结束位置被判定。在所述参考基因组中的一区域可以与一基因或一基因的一片段相关联。
在各种实施例中,一序列读数包含被记为R1及R2的一读数对。举例而言,第一读数R1可以自一核酸片段的一第一末端被定序,而第二读数R2可以自所述核酸片段的一第二末端被定序。因此,所述第一读数R1及所述第二读数R2的数个核苷酸碱基对可以一致地(例如,以相反方向)被与所述参考基因组的核苷酸碱基对齐。衍生自所述读数对R1及R2的对齐位置信息可以包括对应于一第一读数(例如,R1)的一末端的,所述参考基因组中的一起始位置及对应于一第二读数(例如,R2)的一末端的,所述参考基因组中的一结束位置。换言之,在所述参考基因组中的所述起始位置及所述结束位置代表所述核酸片段对应的,在所述参考基因组中的可能位置。具有SAM(定序对齐地图)格式或BAM(二进位对齐地图)格式的一输出档案可以被产生并输出以供进一步分析。
自所述数个序列读数,每个CpG位点的位置及甲基化状态可以基于对齐到一参考基因组而被决定。进一步地,每个片段的一甲基化状态向量可以指定所述片段在一参考基因组中的一位置(例如,通过每个片段中的第一个CpG位点的位置或其它类似的度量标准而被指定)、在所述片段中的数个CpG位点的数量、及在所述片段中的每个CpG位点的或者是甲基化(例如,记为M)、未甲基化(例如,记为U)、或中间(例如,记为I)的甲基化状态,而被产生。所述数个甲基化状态向量可以被存储在暂时或永久计算机记忆体中,供之后使用及处理。进一步地,来自一单一对象的数个副本读数或副本甲基化状态向量可以被移除。在一额外的实施例中,一个特定的片段可以被判定为有一个或多个具有一中间甲基化状态的CpG位点。这样的数个片段可以自之后的处理被排除,或在下游的数据模型列入这样的中间甲基化状态时选择性地被包括。
图7B是根据一实施例的,定序一cfDNA片段以获得一甲基化状态向量的图7A的程序100的一绘示。作为一示例,所述分析系统采取一cfDNA片段112。在此示例中,所述cfDNA片段112包括三个CpG位点。如所展示的,所述cfDNA片段112的第一个及第三个CpG位点是甲基化114的。在所述处理步骤120中,所述cfDNA片段112被转换以产生一经转换的cfDNA片段122。在所述处理120中,未甲基化的第二CpG位点的胞嘧啶被转换为脲嘧啶。然而,所述第一及第三CpG位点不被转换。
在转换后,一序列文库130被制备并定序140,产生一序列读数142。所述分析系统将所述序列读数142对齐150到一参考基因组144。所述参考基因组144提供所述片段cfDNA源自一人类基因组中的何处的背景信息。在此简化示例中,所述分析系统将所述序列读数对齐150,而使三个CpG位点关联到CpG位点23、24及25(为了描述的便利,使用了任意的参考标志符)。所述分析系统因此产生在所述cfDNA片段112上的所有CpG位点的甲基化状态以及所述数个CpG位点绘制到所述人类基因组中的何处的信息。如所展示的,在序列读数142上的所述数个被甲基化的CpG位点被读作胞嘧啶。在此示例中,胞嘧啶在所述序列读数142中仅在所述第一及第三CpG位点出现,允许推断在所述原始cfDNA片段中的所述第一及第三CpG位点是甲基化的。所述第二CpG位点被读作一胸腺嘧啶(U在定序程序中被转换为T),且因此,可以推论所述第二CpG位点在原始cfDNA片段中是未甲基化的。以甲基化状态及位置这两条信息,所述分析系统为所述片段cfDNA 112产生160一甲基化状态向量152。在此示例中,作为结果的甲基化状态向量152是<M23,U24,M25>,其中M对应到一甲基化的CpG位点、U对应到一未甲基化的CpG位点,且下标的数字对应于每个CpG位点在所述参考基因组中的位置。
图8A及8B展示来自一控制组的定序的数据验证一致性的三个图表。第一张图表170展示将获得自横跨癌症的不同阶段:第零期、第一期、第二期、第三期、第四期,以及非癌症的数个患者的一检测样本的cfDNA片段上的未甲基化的胞嘧啶转换为脲嘧啶(步骤120)的转换准确率。如所展示地,将在cfDNA片段上的未甲基化胞嘧啶转换为脲嘧啶上有一一致的准确率。有99.47%的总体准确率,具有±0.024%的一精确度。第二张图表180比较横跨癌症的各种阶段的覆盖率(定序的深度)。仅计数被有信心地标记到一参考基因组的数个序列读数,横跨所有群组的平均覆盖率是约34。第三张图表190展示横跨癌症的各种阶段的,每个样本的cfDNA的浓度。
癌症的侦测:
通过本文中所提供的方法获得的数个序列读数可以通过自动化演算法被进一步处理。举例而言,所述分析系统被用于接收来自一定序器的序列资料,并执行如本文中所描述的处理的各种面向。所述分析系统可以是一个人计算机(PC)、一台式计算机(desktopcomputer)、一膝上型计算机(laptop computer)、一笔记本计算机(notbook)、一平板个人计算机(tablet PC)、一行动装置中的一者。一计算装置可以通过一无线、有线或无线与有线通信科技的一结合被通信地耦合至所述定序器。一般地,所述计算装置配置有一处理器及一记忆体,所述记忆体存储数个计算机指令。当由所述处理器执行时,所述数个计算机指令造成所述处理器执行如同在本文件中其余部分所述的数个步骤。一般地,基因数据及自所述基因数据衍生的数据的量足够大,且所需的计算力如此大,以致不可能单纯在纸上或由人类心智执行。
数个目标基因组区域的数个甲基化状态的临床诠释是一程序,所述程序包括分类所述数个甲基化状态中的各者或所述数个甲基化状态的一组合的临床效果,及以对于一医疗专业人员而言有意义的方式报告结果。所述临床诠释可以基于所述数个序列读数与特定到癌症或非癌症对象的数据库的比较,及/或基于自一样本辨识的,具有癌症特定的甲基化模式的cfDNA片段的数量与类型。在一些实施例中,数个目标基因组区域基于它们在数个癌症样本中被差异地甲基化的可能性而被排名或分类,且所述排名或分类在所述诠释过程被使用。所述排名及分类可以包括(1)临床效果的类型、(2)所述效果的证据的强度、及(3)所述效果的大小。各种临床分析及基因组数据诠释的方法可以被用于所述数个序列读数的分析。在一些其它的实施例中,这样的数个差异地甲基化的区域的所述数个甲基化状态的所述临床诠释可以基于机器学习的方式,所述机器学习的方式基于一个分类或回归方法诠释一当前样本,所述分类或回归方法使用来自具有已知的癌症状态、癌症类型、癌症阶段、TOO等的癌症及非癌症患者的样本的,这样的数个差异地甲基化的区域的所述数个甲基化状态被训练。
临床意义信息可以包括癌症广泛而言的存在或不存在、特定类型的癌症的存在或不存在、癌症阶段、或者其它类型的疾病的存在或不存在。在一些实施例中,所述信息与一个或多个癌症类型的存在或不存在相关,所述一个或多个癌症类型选自由下述组成的群组:乳癌、子宫内膜癌、子宫颈癌、卵巢癌、膀胱癌、肾盂的尿道上皮癌、肾细胞癌、前列腺癌、肛门直肠癌、结肠直肠癌、肝细胞癌、胆管癌及肝细胞癌、胰腺癌、上消化道腺癌、食道鳞状细胞癌、头颈癌、鳞状细胞肺癌、肺腺癌、小细胞肺癌、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、骨髓性肿瘤、淋巴癌和白血病。在一些实施例中,所述数个样本并非癌性的,且是来自具有白血球克隆性扩张或没有癌症的对象。
癌症分类器:
在一些实施例中,在本文中描述的化验检测组合可以与一癌症类型分类器被使用,所述癌症类型分类器为一样本预测一疾病状态,比如一癌症或非癌症预测、一来源组织预测、及/或一中间预测,在一些示例中,所述癌症类型分类器可以基于数个序列读数,通过计入位于特定的感兴趣的基因组区域处的DNA的数个甲基化及未甲基化片段而产生数个特征。举例而言,若所述癌症类型分类器判定在一片段处的一甲基化模式类似一特定癌症类型的甲基化模式,则所述癌症类型分类器可以将该片段的一特征设为1,且若不存在这样的片段,则所述特征可以被设为0。以此方式,所述癌症类型分类器可以为每个样本制造一组二元特征(仅为示例,30000个特征)。进一步地,在一些示例中,一样本的所述一组二元特征中的所有或一部份可以被输入到所述癌症类型分类器中以提供一组机率分数,比如每个癌症类型类别及一个非癌症类型类别一个机率分数。进一步地,在一些示例中,所述癌症类型分类器可以整合阀值或与阀值一同被使用,以决定一样本是否应作为癌症或非癌症被呼叫,及/或作为中间阀值被呼叫,以反映对特定TOO呼叫的置信度。这样的方法在下文中被进一步描述。
为了训练所述癌症类型分类器,所述分析系统(例如,分析系统800)可以获得一组训练样本。在一些示例中,每个训练样本包括(数个)片段档案(例如,含有序列读数数据的数个档案)、一个标签,对应于所述样本的一个类型的癌症(TOO)或非癌症状态、及/或所述样本的所述个体的性别。所述分析系统可以应用所述训练组训练所述癌症类型分类器,以预测所述样本的疾病状态。
在一些实施例中,为了训练,所述分析系统将所述基因组(例如,全基因组)或所述基因组的一次组合(例如,数个目标甲基化区域)分为数个区域。仅以示例性的方式,所述基因组的数个部分可以被分为数个CpG的“区块”,而一个新的区块在有最接近的相邻CpG之间的距离至少是一最小分离距离(例如,至少500bp)时开始。进一步地,在一些示例中,每个区块可以被分为数个1000bp的区域,且被定位而使相邻的数个区域有一定量的(例如,50%或500bp的)重叠。
进一步地,在一些示例中,所述分析系统可以将所述训练组分为K个次组合或折(folds),所述K个次组合或折将被用在一K折交叉验证中。在一些示例中,所述数个折可以为癌症/非癌症状态、来源组织、癌症阶段、年龄(例如,以10年的数个桶(buckets)分组)、及/或吸烟状态而被平衡。在一些示例中,所述训练组被分成5个折,由此训练了五个分离的分类器,在每个案例中,在所述数个训练样本的4/5上进行训练并使用剩余的1/5供验证。
在以所述训练组训练时,所述分析系统可以对于每个癌症类型(及对于健康cfDNA),将一个机率模型拟合至衍生自该类型的样本的数个片段。如本文中所使用地,一“机率模型”是任何数学模型,所述数学模型能够基于一序列读数上的一个或多个位点处的甲基化状态,将一机率指定到所述序列读数。在训练时,所述分析系统拟合衍生自具有一已知疾病的数个对象的一个或多个样本的数个序列读数,且可以被用于应用甲基化信息或数个甲基化状态向量,判定指示一疾病状态的数个序列读数可能性。特别地,在一些案例中,所述分析系统对于在一序列读数中的每个CpG位点决定观察到的甲基化比率。所述甲基化比率代表在一CpG位点中被甲基化的碱基对的比例或百分率。所述经训练的机率模型可以由所述数个甲基化比率的乘积参数化。一般地,用于将数个机率指定到来自一样本的数个序列读数的任何已知的机率模型可以被使用。举例而言,所述机率模型可以是一个二元模型,在所述二元模型中,在一核酸片段上的每个位点(例如,CpG位点)被指定一个甲基化的机率,或可以是一个独立位点模型,在所述独立位点模型中,每个CpG的甲基化由一个不同的甲基化机率指定,而一个位点处的甲基化被假定为独立于所述核酸片段上的一个或多个其它位点处的甲基化。
在一些实施例中,所述机率模型是一马可夫模型,在所述马可夫模型中,在每个CpG位点处的甲基化的所述机率是依赖于在所述序列读数中,或者在所述序列读数从其衍生的核酸分子中的一些数量的在前的CpG位点处的甲基化状态。参见例如,通过引用以其整体被并入本文中且可以被用于各种实施例的,标题为“异常片段侦测及分类”并于2019年5月13日递交的美国专利申请第16/352,602号。
在一些示例中,所述机率模型是一个“混合模型”,使用来自数个下层模型的成分的一混合被拟合。举例而言,在一些实施例中,所述数个混合成分可以使用多个独立位点模型被判定,而于每个CpG位点处的甲基化(例如,甲基化的比率)被假定为独立于其它CpG位点处的甲基化。应用一独立位点模型,被指定到一序列读数,或到所述序列读数从其衍生的所述核酸分子的一机率,是序列读数被甲基化处的每个CpG位点的甲基化机率与一减去序列读数未被甲基化处的每个CpG位点的甲基化机率的乘积。根据此示例,所述分析系统判定所述数个混合成分中的各者的甲基化比率。所述混合模型是通过所述数个混合成分的一总和被参数化,所述数个混合成分中的各者各与所述数个甲基化比率的一个乘积相关联。n个混合成分的一机率模型Pr可以由下述代表:
Figure BPA0000311201070000911
对于一输入片段,mi∈{0,1}代表所述片段于一参考基因组的位置i的被观察到的甲基化状态,0指示未甲基化且1指示甲基化。对每个混合成分k的分数分配值是fk,其中fk≥0且
Figure BPA0000311201070000912
混合成分k的一CpG位点中的位置i处的甲基化机率是βki。因此,未甲基化的机率是1-βki。混合成分的数量n可以是1、2、3、4、5、6、7、8、9、10等。
在一些示例中,所述分析系统使用最大可能性估计拟合所述机率模型,以辨识一组参数{βki,fk},所述一组参数{βki,fk}最大化所有衍生自一疾病状态,受到以正规化(regularization)强度r施加到每个甲基化机率的一正规化惩罚的片段的对数可能性。N个总片段的经最大化的量值可以被表示为:
Figure BPA0000311201070000913
在一些示例中,所述分析系统分别地对每个癌症类型及对健康cfDNA执行拟合。如本领域的技术人员将理解的,其它方式可以被用于拟合所述数个机率模型,或者被用于辨识数个参数,所述数个参数最大化衍生自所述数个参考样本的所有序列读数的对数可能性。举例而言,在一些示例中,使用了贝叶斯拟合(Bayesian fitting)(使用例如,马可夫链蒙特卡罗法(Markov chain Monte Carlo)),在其中每个参数不是被指定一单一数值,而是与一分布相关联。在一些示例中,使用了基于梯度的优化(gradient-basedoptimization),其中关于所述数个参数数值的所述可能性(或对数可能性)的梯度被使用,以逐步经过参数空间趋向最适。在另一些示例中,预期性最大化,其中一组潜在参数(例如,每个片段中其中衍生而出的所述混合物成分的身份)被设置为它们在先前的数个模型参数下的预期性,接着在这些潜在变量的假设值的条件下,模型参数被指定以最大化可能性。所述两步骤的程序接着被重复直到收敛。
进一步地,在一些示例中,所述分析系统可以对在所述训练组中的每个样本产生数个特征。举例而言,对于每个样本(无论标签),在每个区域中,对每个癌症类型,对每个片段,所述分析系统可以根据下述算式以经拟合的数个机率模型评估所述对数可能性比率R:
Figure BPA0000311201070000921
接着,对于每个样本,对于每个区域,对于每个癌症类型,对于每组“层(tier)”数值,所述分析系统可以计数具有R癌症类型>层的片段的数量,并将那些计数指定为非负整数值特征。举例而言,所述数个层包括1、2、3、4、5、6、7、8及9的阀值,导致每个区域对每个癌症类型有9个特征。
在一些示例中,所述分析系统可以选择特定特征,用于包括到每个样本的一特征向量中。举例而言,对于每对不同的癌症类型,所述分析系统可以指定一个类型为“阳性类型”,及另一个为“阴性类型”,并通过所述数个特征区辨这些类型的能力排名所述数个特征。在一些案例中,所述排名是基于由所述分析系统计算的互信息。举例而言,所述互信息可以使用所述阳性类型及所述阴性类型(例如,癌症类型A及B)的数个样本的估计比例被计算,对于这些样本,所述特征在一结果化验中被预期为非零。举例而言,若一特征在健康的cfDNA中频繁发生,所述分析系统判定所述特征不太可能频繁发生在与各种类型的癌症相关联的cfDNA中。因此,所述特征于在数个疾病状态之间进行区辨时可能是一弱标准。在计算互信息I时,变数X是一特定特征(例如,二元特征)且变数Y代表一疾病状态,例如,癌症类型A或B:
Figure BPA0000311201070000922
Figure BPA0000311201070000923
p(1|A)=fA+fH-fHfA
X及Y的联合机率质量函数是p(x,y),且边际机率质量函数是p(x)及p(y)。所述分析系统可以先验地假定特征缺失是无信息的(uninformative)且每种疾病状态是同等地可能的,举例而言,p(Y=A)=p(Y=B)=0.5。(例如,在cfDNA中)观察到癌症类型A的一给定二元特征的机率是由p(1|A)表示,而fA是在来自与癌症类型A相关联的肿瘤的ctDNA样本(或高信号cfDNA样本)中观察到所述特征的机率,且fH是在一健康或非癌症的cfDNA样本中观察到所述特征的机率。
在一些示例中,仅有对应于所述阳性类型的特征被包括在所述排名中,且仅当这些特征的预测发生比率在所述阳性类型中比在所述阴性类型中高时才被包括在所述排名中。举例而言,若“肝”是所述阳性类型,且“乳房”是所述阴性类型,则只有“肝_x”特征被考虑,且仅当它们在肝cfDNA中的预计发生率大于它们在乳房cfDNA中的预计发生率时才被考虑。进一步地,在一些示例中,对于每个区域,对于每个癌症类型对(包括作为一阴性类型的非癌症),所述分析系统仅保留表现最佳的层。进一步地,在一些示例中,所述分析系统通过二元化而转换数个特征数值,从而任何大于0的特征数值被设定为1,而使所有的特征是0或1。
在一些示例中,所述分析系统在一折的训练资料上训练一多项式逻辑回归分类器,并为保持除外的资料产生预测。举例而言,对于所述K个折当中的各者,一个逻辑回归可以为数个超参数(hyperparameter)的每个组合被训练。这样的数个超参数可以包括L2惩罚及/或topK(例如,如由上文概述的互信息程序排名的,每个组织类型对(包括非癌症)保留的高排名区域的数量)。对于每对超参数,表现在完整训练组的交叉验证预测上被评估,且有最佳表现的超参数组被选择,用于在完整训练组上重新训练。在一些示例中,所述分析系统使用对数损失作为一表现度量标准,因而所述对数损失是通过对每个样本的正确标签的预测取负对数,接着在数个样本之间加总而被计算(亦即,对于正确标签的一完美预测1.0,将给出0的对数损失)。
为了产生对一新样本的预测,数个特征值使用上文所描述的相同的方法被计算,但缩限到在选定的topK值下被选择的数个特征(区域/阳性类别组合)。被产生的数个特征接着被用于使用上文中训练的逻辑回归模型创造一预测。
在一些示例中,所述分析训练一个两阶段分类器。举例而言,所述分析系统基于所述数个训练样本的所述数个特征向量训练一个二元癌症分类器,以在所述数个标签、癌症及非癌症之间进行区辨。在此案例中,所述二元分类器输出一预测分数,所述预测分数指示癌症的存在或不存在的可能性。在另一示例中,所述分析系统训练一个多类别癌症分类器在许多癌症类型之间进行区辨。在此多类别癌症分类器中,所述癌症分类器被训练以决定一癌症预测,所述癌症预测包括对其被分类的所述数个癌症类型中的各者的一个预测值。所述数个预测值可以对应于一个给定的样本具有所述数个癌症类型中的各者的一可能性。举例而言,所述癌症分类器返回一癌症预测,所述癌症预测包括乳癌、肺癌及无癌症的一预测值。举例而言,所述癌症分类器可以返回对一检测样本的一癌症预测,所述癌症预测包括对乳癌、肺癌及/或无癌症的一预测分数。
所述分析系统可以根据数个方法中的任何一个训练所述癌症分类器。作为一示例,所述二元癌症分类器可以是使用一对数损失函数被训练的一L2正规化逻辑回归分类器。作为另一示例,所述多癌症(TOO)分类器可以是一个多项式逻辑回归。在应用中,两个类型的癌症分类器皆可以使用其它技术被训练。这些技术为数众多,包括核方法(kernelmethod)、机器学习演算法比如多层神经网络等的潜在应用。特别地,如在通过引用以其整体被并入本文中的PCT/US2019/022122及美国专利申请第16/352,602号中被描述的方法,可以被用于各种实施例。更进一步地,在一些示例中,所述TOO分类器仅在由所述二元分类器成功地呼叫作为癌症的数个癌症样本上被训练,从而确保在所述癌症样本中的足够的癌症信号。另一方面,在一些示例中,所述二元分类器无论TOO而在所述数个训练样本上被训练。
示例性的定序器及分析系统:
图10A是用于根据一实施例定序数个核酸样本的数个系统及装置的一流程图。此例示性的流程图包括数个装置,比如一个定序器820及一分析系统800。所述定序器820及所述分析系统800可以协同工作,以执行本文中描述的程序中的一个或多个步骤。
在各种实施例中,所述定序器820接收一个经富集的核酸样本810。如展示于图10A中的,所述定序器820可以包括一个图像式用户介面825及一个或多个装载站830,所述图像式用户介面825在特定作业(例如,起始定序或终止定序)允许使用者互动,所述一个或多个装载站830用于装载一定序盒(sequencing cartridge),所述定序盒包括数个经富集的片段样本及/或用于装载用于执行所述定序化验的必要缓冲液。因此,一旦所述定序器820的一使用者将必要的反应试剂及定序盒提供到所述定序器820的所述装载站830,所述使用者可以通过与所述定序器820的所述图像式用户介面825互动而起始定序。一旦被起始,所述定序器820执行定序并自所述核酸样本810输出所述数个经富集的片段的序列读数。
在一些实施例中,所述定序器820是与所述分析系统800通信地耦合。所述分析系统800包括一些数量的计算装置,用于为各种应用处理所述数个序列读数,比如评估于一个或多个CpG位点处的甲基化状态、变数呼叫或质量控制。所述定序器820可以将BAM档案格式的所述数个序列读数提供至所述分析系统800。所述分析系统800可以被经由一无线的、有线的或两者的一结合的通信科技被耦合到所述定序器820。一般地,所述分析系统800是配置有一处理器及一非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储数个计算机指令。当由所述处理器执行时,所述数个计算机指令造成所述处理器处理所述数个序列读数或执行本文中揭示的数个方法或程序中的任一者的一个或多个步骤。
在一些实施例中,所述数个序列读数可以使用本领域中已知的方法被对齐到一参考基因组,以判定对齐位置信息。对齐位置可以大致描述对应于一给定序列读数的一起始核苷酸碱基及一结束核苷酸碱基的,在所述参考基因组中的一区域的一起始位置及一结束位置。对应于甲基化定序,所述对齐位置信息可以被概括以根据对所述参考基因组的对齐,指示被包括在所述序列读数中的一个第一CpG位点及一个最后CpG位点。所述对齐位置信息可以进一步指示在一给定的序列读数中的所有CpG位点的甲基化状态及位置。在所述参考基因组中的一区域可以被与一基因或者一基因的一段落相关联。如此,所述分析系统800可以对齐到一序列读数的一个或多个基因标记所述序列读数。在一实施例中,片段长度(或尺寸)是自起始及结束位置被判定。
在各种实施例中,举例而言,当一配对端定序程序被使用时,一个序列读数包括被记为R_1及R_2的一个读数对。举例而言,所述第一读数R_1可以被定序自一双股DNA(dsDNA)分子的一个第一端,而所述第二读数R_2可以被定序自所述双股DNA(dsDNA)的一个第二端。因此,所述第一读数R_1及所述第二读数R_2的数个核苷酸碱基对可以被一贯地(例如,以相反的朝向)与所述参考基因组的核苷酸碱基对齐。衍生自所述读数对R_1及R_2的对齐位置信息可以包括对应于一第一读数(例如,R_1)的一端的,在所述参考基因组中的一个起始位置,以及对应于一第二读数(例如,R_2)的一端的,在所述参考基因组中的一个结束位置。换句话说,在所述参考基因组中的所述起始位置及所述结束位置代表所述核苷酸片段在所述参考基因组中对应到的可能位置。在一实施例中,所述读数对R_1及R_2可以被组合为一片段,且所述片段被用于后续的分析及/或分类。具有SAM(定序对齐地图)格式或BAM(二元)格式的一个输出档案可以被产生并被输出供进一步分析。
现在参考图14B,图14B是用于根据一实施例处理DNA样本的一分析系统800的一方块图。所述分析系统应用一个或多个计算装置,所述一个或多个计算装置是供用在分析数个DNA样本。所述分析系统800包括一个序列处理器840、序列数据库845、模型数据库855、数个模型850、参数数据库865及评分引擎860。在一些实施例中,所述分析系统800执行图3A的程序300、图3B的程序340、图4的程序400、图5的程序500、图6A的程序600或图6B的程序680及本文中描述的其它程序中的一个或多个步骤。
所述序列处理器840对来自一样本的数个片段产生数个甲基化状态向量。在一片段上的每个CpG位点处,所述序列处理器840经由图3A的所述程序300为每个片段产生一甲基化状态向量,所述甲基化状态向量指定所述片段在所述参考基因组中的位置、在所述片段中的CpG位点的数量,及在所述片段中的每个CpG位点的甲基化状态是甲基化、未甲基化或中间。所述序列处理器840可以将数个片段的甲基化状态向量存储在所述序列数据库845中。在所述序列数据库845中的数据可以被组织,使得来自一个样本的所述数个甲基化状态向量彼此关联。
进一步地,多个不同的模型850可以被存储在所述模型数据库855中,或被回收供用于数个检测样本。在一示例中,一模型是一个经训练的癌症分类器,用于使用衍生自数个异常片段的一特征向量为一检测样本决定一癌症预测。所述癌症分类器的训练及使用在本文中它处被讨论。所述分析系统800可以训练一个或多个模型850并将各种训练参数存储在所述参数数据库865中,所述分析系统800将所述数个模型850连同数个函数存储在所述模型数据库855中。
在推论时,所述评分引擎860使用所述一个或多个模型850以返回输出。所述评分引擎860访问在所述模型数据库855中的所述数个模型850连同来自所述参数数据库865的数个经训练的参数。根据每个模型,所述参数引擎接收对所述模型而言适宜的一输入并基于接收的输入计算一输出,所述数个参数及每个模型的一函数关联所述输入及所述输出。在一些使用案例中,所述评分引擎860进一步地计算数个度量标准,所述数个度量标准与对来自所述模型的被计算的输出的一置信度相关联。在其它使用案例中,所述评分引擎860计算其它用于所述模型中的中间数值。
应用:
在一些实施例中,本发明的数个方法、分析系统及/或分类器可以被用于侦测癌症的存在(或不存在)、监控癌症进程或复发、监控治疗反应或有效性、判定微量残留疾病(minimum residual disease,MRD)的一存在或监控所述微量残留疾病,或用于其任何组合。在一些实施例中,所述数个分析系统及/或分类器可以被用于辨识一癌症的组织或来源。举例而言,所述数个系统及/或分类器可以被用于辨识一癌症作为下述中任何的癌症类型:乳癌、子宫癌、子宫颈癌、卵巢癌、膀胱癌、肾盂尿道上皮癌,尿道上皮以外的肾癌、前列腺癌、肛门直肠癌、肛门癌、结肠直肠癌、起源自肝细胞的肝胆癌、起源自肝细胞以外的细胞的肝胆癌、肝/胆管癌、食道癌、胰腺癌、上消化道鳞状细胞癌、鳞状细胞以外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌以及肺腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、浆细胞瘤、多发性骨髓瘤、骨髓性肿瘤、淋巴癌及白血病。举例而言,如本文中所描述的,一分类器可以被用于产生一样本特征向量是来自具有癌症的一对象的一可能性或机率分数(例如,自0至100)。在一些实施例中,所述机率分数被与一阀值机率比较,以判定所述对象是否具有癌症。在其它实施例中,所述可能性或机率分数可以于不同时间点(例如,治疗之前或之后)被评估,以监控疾病进程或监控治疗有效性(例如,治疗效果)。在又其它实施例中,所述可能性或机率分数可以被用于作成或影响一临床决定(例如,癌症的侦测、治疗选择、治疗有效性的评估等)。举例而言,在一实施例中,若所述可能性或机率分数超过一阀值,一医师可以制定一适当的治疗。
癌症的侦测:
在一些实施例中,本发明的所述数个方法及/或分类器被用于侦测在被怀疑具有癌症的一对象中的一癌症类型。举例而言,(如本文中所描述的)一分类器可以被用于判定一样本特征向量是来自具有一癌症类型的一对象的一个可能性或机率分数。
在一实施例中,大于或等于60的一机率分数可以指示所述对象具有所述癌症类型。在又其它实施例中,大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95的一机率分数指示所述对象具有癌症类型。在其它实施例中,一机率分数可以指示疾病的严重度。举例而言,80的一机率分数相较于低于80的一分数(例如,70的一分数)可能指示癌症的一较严重的型态,或较晚的阶段。类似地,所述机率分数随时间(例如,在一第二,较后的时间点)的增加可以指示疾病进展,或者所述机率分数随时间(例如,在一第二,较后的时间点)的一减少可以指示成功的治疗。
在另一实施例中,一癌症对数胜算比可以对一检测对象,通过取是一癌症类型的一机率除以非所述癌症类型的一机率(亦即,一减掉是所述癌症类型的机率)的一比率的对数而被计算,如本文中所描述的。根据此实施例,大于1的一癌症对数胜算比可以指示所述对象具有一癌症类型。在又其它实施例中,大于1.2、大于1.3、大于1.4、大于1.5、大于1.7、大于2、大于2.5、大于3、大于3.5或大于4的癌症类型对数胜算比指示所述对象具有所述癌症类型。在其它实施例中,一癌症对数胜算比可以指示疾病的严重度。举例而言,大于2的一癌症对数胜算比相较于低于2的一分数(例如,1的一分数)可以指示癌症的一个更严重的型态或癌症的一个型态的较晚的阶段。类似地,所述癌症对数胜算比随时间(例如,在一第二,较后的时间点)的增加可以指示疾病进展,或者所述癌症对数胜算比随时间(例如,在一第二,较后的时间点)的一减少可以指示成功的治疗。
根据本发明的数个面向,本发明的所述数个方法及系统可以被训练以侦测或类多个癌症指标。举例而言,本发明的数个方法、系统及分类器可以被用于侦测一个或更多个、两个或更多个、三个或更多个、五个或更多个或十个或更多个不同类型的癌症的存在。
在一些实施例中,所述癌症是头颈癌、肝/胆管癌、上消化道癌、胰脏/胆囊癌、结肠直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴瘤、黑色素瘤、肉瘤、乳癌、及子宫癌中的一个或多个。在一些实施例中,所述癌症是肛门直肠癌、膀胱或尿道上皮癌,或子宫颈癌中的一个或多个。在一些实施例中,所述癌症是乳癌、子宫癌、子宫颈癌、卵巢癌、膀胱癌、肾盂的尿道上皮癌、尿道上皮以外的肾癌、前列腺癌、肛门直肠癌、肛门癌、结肠直肠癌、起源自肝细胞的肝胆癌、起源自肝细胞以外的细胞的肝胆癌、肝/胆管癌、食道癌、胰腺癌、上消化道鳞状细胞癌、鳞状细胞以外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌以及肺腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、浆细胞瘤、多发性骨髓瘤、骨髓性肿瘤、淋巴癌及白血病。
在一些实施例中,所述可能性或机率分数可以于不同时间点(例如,治疗之前或之后)被评估,以监控疾病进程或监控治疗有效性(例如,治疗效果)。举例而言,本揭示提供数个方法,所述数个方法涉及在一第一时间点自一癌症患者获取一第一样本(例如,一第一血浆cfDNA样本),(如本文中所描述的)自所述第一样本判定一第一可能性或机率分数,在一第二时间点自所述癌症患者获取一第二样本(例如,一第二血浆cfDNA样本),并(如本文中所描述的)自所述第二样本判定一第二可能性或机率分数。
治疗:
在又其它实施例中,获得自本文中描述的任何方法的信息(例如,所述可能性或机率分数)可以被用于作成或影响一临床决定(例如,癌症的侦测、治疗选择、治疗有效性的评估等)。举例而言,在一实施例中,若所述可能性或机率分数超过一阀值,一医师可以制定一适当的治疗(例如,一切除手术、放射疗法、化疗,及/或免疫疗法)。在一些实施例中,信息,比如一可能性或机率分数可以作为一读数(readout)被提供给一医师或对象。
一(如本文中所描述的)分类器可以被用于判定一样本特征向量是来自具有癌症或一特定类型的癌症(例如,来源组织)的一对象的一可能性或机率分数。在一实施例中,一适当的治疗(例如,切除手术或治疗)当所述可能性或机率超过一阀值时被制定。举例而言,在一实施例中,若所述可能性或机率分数大于或等于60,一个或多个适当的治疗被制定。在另一实施例中,若所述可能性或机率分数大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95,一个或多个适当的治疗被制定。在其它实施例中,一癌症对数胜算比可以指示一癌症治疗的有效性。举例而言,(例如,于一第二,治疗之后的)所述癌症对数胜算比的增加可以指示所述治疗并不有效。类似地,(例如,于一第二,治疗之后的)所述癌症对数胜算比的减少可以指示成功的治疗。在另一实施例中,若所述癌症对数胜算比大于1、大于1.5、大于2、大于2.5、大于3、大于3.5或大于4,一个或多个适当的治疗被制定。
在一些实施例中,所述治疗是一个或多个癌症治疗药剂,选自由下述组成的群组:一化疗药剂、一标靶癌症治疗药剂、一分化治疗剂、一激素治疗剂及一免疫治疗剂。举例而言,所述治疗可以是选自由烷化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉类)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物、铂基试剂及其任何组合组成的群组。在一些实施例中,所述治疗是选自由信号传导抑制剂(例如,酪氨酸激酶及生长因子受体抑制剂)、组蛋白脱乙酰酶(HDAC)抑制剂、视黄酸受体激动剂、蛋白质体抑制剂、血管生成抑制剂,以及单克隆抗体偶联物组成的群组的一个或多个靶向癌症治疗剂。在一些实施例中,所述治疗是一个或多个分化治疗剂,包括类视黄醇,比如维甲酸(tretinoin)、阿利维甲酸(alitretinoin)和贝沙罗汀(bexarotene)。在一些实施例中,所述治疗是选自由抗雌激素、芳香化酶抑制剂、孕激素、雌激素、抗雄激素和GnRH激动剂或类似物组成的群组的一个或多个激素疗法药剂。在一实施例中,所述治疗是一种或多种免疫疗法药剂,选自由单株抗体治疗剂如利妥昔单抗(RITUXAN)和阿仑单抗(CAMPATH)、非特异性免疫治疗剂和佐剂如BCG、白细胞介素-2(IL-2),以及干扰素-α、免疫调节药物,例如沙利度胺及来那度胺(REVLIMID)组成的群组。根据比如肿瘤类型、癌症分期、先前接触癌症治疗或治疗剂以及癌症的其它特性等特征而选择合适的癌症治疗剂,是在熟练的医师或肿瘤学家的能力范围内。
示例
下列的数个示例被提出,以提供本领域的一般技术人员如何制造及使用本揭示的一完整揭示及描述,且并非意在限制发明人视为其描述之物的范围,也并非意在代表下列的实验是所有的或仅有的被执行的实验。做出了努力以确保对于所使用的数字(例如,用量、温度等)的精确性,但一些实验误差及偏差应被考虑。
示例1:探针量值的分析
为了测试在一cfDNA片段及一探针之间需要有多少重叠以达成一不可忽略量的拉下,各种长度的重叠使用设计以包括三个不同类型的探针(VID3、VID4、VIE2)的检测组合被测试。所述三个不同类型的探针与对每个探针有专一性的数个175bp目标DNA片段有各种重叠。被测试的重叠范围在0bp及120bp之间。包括175bp目标DNA片段的数个样本被施用到所述检测组合并被清洗,接着连结到所述数个探针的数个DNA片段被收集。被收集的数个DNA片段的量被测量,且所述量被作为密度对重叠的尺寸作图,如在图9中提供的。
当少于45bp重叠时,没有目标DNA片段的显着结合与拉下。这些结果显示,一般需要至少45bp的一片段-探针重叠以达成一不可忽略量的拉下,虽然视化验条件,此数字可能会改变。
进一步地,被显示的是,在重叠的区域中于所述探针及片段序列之间多于10%的错配率足以大幅干扰结合,并因此干扰拉下效率。因此,可以沿着至少45bp以至少90%的配对率对齐到所述探针的数个序列是脱靶拉下的候选者。
因此,我们对每个探针执行了具有90%+配对率的45bp对齐的所有基因组区域(亦即,脱靶区域)的一穷举搜寻。特定地,我们结合了一k聚体播种策略(这可允许一个或多个错配)与数个种子位置处的局部对齐。这保证基于k聚体长度、允许的错配数量与一特定位置的k聚体种子命中数量,没有错失任何良好的对齐。这涉及在大量的位置执行动态编程局部对齐,因此此方式适于使用向量CPU指令(例如,AVX2、AVX512)及在一个机器中的许多核心之间,及在由一网络连接的许多机器之间被平行化。这允许在设计一高表现检测组合(亦即,低脱靶率及对于一给定量的定序的高目标覆盖率)时有价值的穷举搜寻。
在所述穷举搜寻后,每个探针基于脱靶区域的数量被评分。最佳的探针具有1的一分数,意指它们仅符合到一处(高Q)。具有2至19命中之间的一低分数的数个探针(低Q)被接受但具有多于20命中的差分数的数个探针(差Q)被废弃。其他截止值可以对特定样本被使用。
高质量、低质量及差质量探针的数量接着在针对数个过甲基化基因组区域或数个低甲基化基因组区域的数个探针间被计数。
示例2:用于侦测特定癌症类型的癌症化验检测组合
癌症类型:数个癌症特定检测组合被设计以侦测(15)个不同癌症类型的癌症及/或癌症来源组织。所述15个癌症类型包括(1)膀胱癌、(2)乳癌、(3)子宫颈癌、(4)结肠直肠癌、(5)头颈癌、(6)肝胆癌、(7)肺癌、(8)黑色素瘤、(9)卵巢癌、(10)胰腺癌、(11)前列腺癌、(12)肾癌、(13)甲状腺癌、(14)上消化道癌及(15)子宫癌(参见列表1至15)。癌症特定的(cancer-specific)分类被施加到所述数个样本供相关分类及标示。
用于基因组区域选择的样本:用于此工作的DNA样本来自各种来源。
循环游离基因组图谱研究(“CCGA”;Clinical Trial.gov识别号NCT02889978)是一个有长期追踪的前瞻性的,案例控制的观察性研究。去识别化的生物检体自142个位置被收集自约15000名参与者。数个样本被选择以确保在每个队列中,癌症类型及非癌症横跨数个位置的一预特定的分布,且数个癌症及非癌症样本依性别被频率年龄配对(frequencyage-matched)。
所述癌症基因组图谱(“TCGA”;Clinical Trial.gov识别号NCT02889978)是由国家癌症研究所(NCI)及国家人类基因组研究所(NHGRI)之间的合作所发展的公共资源。
播散性的肿瘤细胞(DTC)获取自Conversant。
非癌症细胞由Yuval Dor及Ben Glaser(希伯来大学)提供,且源自获得自标准临床程序的人类组织。举例而言,例如,乳腺管腔和基底上皮细胞来自缩胸手术;结肠上皮细胞来自局部结肠病理部分切除后的重新植入的位置附近的组织;骨髓细胞来自关节置换手术;血管和动脉内皮细胞来自血管手术;头颈部上皮来自扁桃体切除术。
WGBS在收集自健康个体及被诊断有各种阶段及来源组织的癌症的数个个体的超过1000个基因组DNA样本上被执行。所述数个样本包括:经甲醛固定,经石蜡包埋(FFPE)组织块、来自数个不同TOO的癌症的播散性肿瘤细胞(DTC)、骨髓单核细胞(BMMC)、白血球细胞(WBC)及外周血液单核细胞(PBMC)。所述DTC经历负向选择,在gDNA分离之前使用一负向选择套组(Miltenyi)以移除WBC、纤维母细胞及内皮细胞。所述负向选择收获经纯化的肿瘤细胞,允许数个被差异地甲基化的区域被更清楚地辨识。
所述TCGA数据是通过将来自8809个样本的经亚硫酸氢盐转换的DNA片段杂合至甲基化敏感的寡核苷酸阵列而被收集。来自此研究的数个β值代表480000个个别的CpG位点处的甲基化相对丰度。在排除来自高噪声基因组区域的CpG(360000个)及具有交叉杂合探针的CpG位点(45000个)之后,这些CpG位点中的75000个被分析。TCGA数据使用不同的演算法被分析,因为所述TCGA数据描述个别CpG位点的甲基化,而WGBS数据揭露在数个DNA片段上的数个相邻CpG位点的数个串的甲基化模式。
来源组织类别:每个样本被分类到二十五(25)个不同的来源组织(TOO)类别中的一个当中:乳癌、子宫癌、子宫颈癌、卵巢癌、膀胱癌、肾盂尿道上皮癌、尿道上皮以外的肾癌、前列腺癌、肛门直肠癌、结肠直肠癌、起源自肝细胞的肝胆癌、起源自肝细胞以外的细胞的肝胆癌、胰腺癌、上消化道鳞状细胞癌、鳞状细胞以外的上消化道癌、头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌以及肺腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴癌及白血病。在过滤掉液态癌症、脑癌、小肠癌、阴道+外阴癌和阴茎+睾丸癌之后,这些TOO类别涵盖由监测、流行病学和最终结果计划(SEER;seer.cancer.gov)报告的癌症发生率的97%。罕见癌症如肉瘤及神经内分泌癌被聚合以防止误分类。国际肿瘤疾病分类(ICD-O-3)部位码、型态码及行为码以及世界卫生组织(WHO)部位名称被使用以将数个个别样本分入所述数个TOO类别。举例而言,如在表1中所示的,所述34个TCGA研究被标示到所述数个TOO类别。所述TOO分类根据观察到的分类表现而迭代细化。
表1:数个TCGA类型的来源组织(TOO)分类
Figure BPA0000311201070001051
Figure BPA0000311201070001061
区域选择:对于区域选择,在癌症样本中具有异常甲基化模式的数个片段使用本文中所描述的一个或多个方法被选择。这些方法的使用允许辨识数个低噪声区域作为推定目标。在这些低噪声区域中,在区别癌症类型上最能提供信息的数个片段被排名并选择。
特定地,在一些实施例中,当WGBS数据被使用时,在所述数据库中的数个片段序列使用一非癌症分布,基于p值被过滤,且仅有具有小于0.001的p值的片段被保留,如本文中所描述的。在一些案例中,所述数个被选择的cfDNA被进一步过滤,仅保留至少90%甲基化或90%未甲基化的cfDNA。接着,对于在所述被选择的片段中的每个CpG位点,包括与该CpG位点重叠的数个片段的癌症样本或非癌症样本的数量被数算。特定地,对于每个CpG的P(癌症|重叠片段)被计算,且具有高P值的数个基因组位点被选作一般癌症目标。通过设计,所述数个被选择的片段具有非常低的噪声(亦即,少有非癌症片段重叠)。
为了寻找癌症类型专一的数个目标,类似的选择过程被执行。数个CpG位点基于它们的信息增益被排名,包括(i)一特定TOO的数个样本或其它样本的数量的信息增益,包括非癌症样本及一不同的TOO的样本、(ii)一特定TOO的数个样本或非癌症样本的数量的信息增益,及/或(iii)一特定TOO或包括与该CpG位点重叠的一不同的TOO的样本的数量的信息增益。所述程序被应用到所述25个TOO中的各者,且所述比较对所述25个TOO的所有成对组合被完成。举例而言,P(一TOO的癌症|重叠片段)被计算,并接着被与P(一不同的TOO的癌症|重叠片段)比较。在一TOO的一癌症下比在一个不同的TOO的一癌症下有大得多的可能性的,在每个TOO中的一离群值片段被选作所述TOO的一目标。因此,通过所述成对比较被选择的数个基因组区域包括被差异地甲基化的数个基因组区域,以分离一目标TOO及一对比TOO。用于自一对比TOO(y轴)分辨每个目标TOO(x轴)的基因组区域的数量在图11中被提供。
当TCGA数据被使用时,指示甲基化密度的CpG位点β值被用于辨识数个目标基因组区域。这是因为阵列数据并非处于CpG位点水平,且因此它们容易导致伪阳性。为了避免伪阳性,数个CpG位点横跨基因组被转换为350bp的数个区间段(bin)。每个区间段的β值被计算为在该区间段中的CpGβ值的平均。具有少于2个CpG的区间段被自所述分析排除。接着,数个区间段以(i)一特定TOO的数个样本及其它样本,包括非癌症样本及一不同的TOO的样本、(ii)一特定TOO的数个样本及非癌症样本,及/或(iii)一特定TOO及包括与该CpG位点重叠的一不同的TOO的样本之间的β差异大于0.95被选择。
如上文所描述地被选择的数个基因组区域接着如本文中详述地基于它们的脱靶基因组区域数量而被过滤。特定地,具有大于等于90%相等的大于或等于45bp对齐的基因组位置的数量被计算作脱靶基因组区域的数量。具有多于20个脱靶基因组区域的基因组区域被废弃。
如在本段中被描述地被选择的目标基因组区域的各种列表被识别于表2中(参见列表1至15)
表2:列表1至15的概要
对于每个列表,表格辨识被侦测的癌症类型、在所述列表中的目标基因组区域的总数、一系列的SEQ ID NO,对应于将在与本申请一同被提交的序列表中被觅得的列表中的所有目标基因组区域,及检测组合尺寸(所述列表中的所有目标基因组区域的长度的总和)。所述序列表辨识每个目标基因组区域的染色体位置,要自所述区域被富集的cfDNA片段是过甲基化或低甲基化的,及所述目标基因组区域的一个DNA股的序列。染色体号码与开始及停止位置是相对于已知的人类参考基因组hg19而被提供。所述人类参考基因组hg19的序列可以一参考号码GRCh37/hg19获得自基因组参考联盟(Genome ReferenceConsortium),及也可获得自由圣克鲁兹基因组学研究所(Santa Cruz GenomicsInstitute)提供的基因组浏览器(Genome Browser)。
Figure BPA0000311201070001081
示例3:用于诊断特定癌症类型的癌症化验检测组合
额外的癌症化验检测组合被设计,以与在示例2中提出者类似的方式辨识特定的癌症类型。如在本段中被描述地被选择的数个目标基因组区域的各种列表被识别于表3中(参见列表16至49)。列表16至32的所述数个目标基因组区域分别含有列表33至49的所述数个目标基因组区域的数个甲基化位点的次组合。
表3:列表16至49的概要
对于每个列表,表格辨识被侦测的癌症类型、在所述列表中的目标基因组区域的总数、一系列的SEQ ID NO,对应于将在与本申请一同被提交的序列表中被觅得的列表中的所有目标基因组区域,及检测组合尺寸(所述列表中的所有目标基因组区域的长度的总和)。所述序列表辨识每个目标基因组区域的染色体位置,要自所述区域被富集的cfDNA片段是过甲基化或低甲基化的,及所述目标基因组区域的一个DNA股的序列。染色体号码与开始及停止位置是相对于已知的人类参考基因组hg19而被提供。所述人类参考基因组hg19的序列可以一参考号码GRCh37/hg19获得自基因组参考联盟(Genome ReferenceConsortium),及也可获得自由圣克鲁兹基因组学研究所(Santa Cruz GenomicsInstitute)提供的基因组浏览器(Genome Browser)。
Figure BPA0000311201070001091
示例4:一混合模型分类器的产生
为了最大化表现,在此示例中被描述的预测性癌症模型使用序列数据被训练,所述序列数据是获得自下述:来自CCGA子研究(CCGA1及CCGA22)的已知癌症类型及非癌症的数个样本,获得自CCGA1的数个已知癌症的数个组织样本,及来自STRIVE研究(参见Clinical Trial.gov辨识号:NCT03085888(//clinicaltrials.gov/ct2/show/NCT03085888))的数个非癌症样本。所述STRIVE研究是一个前瞻性的、多中心的观察性队列研究,以验证用于乳癌及其它侵略性癌症的早期侦测的一化验,额外的非癌症训练样本被获得自所述研究以训练本文中描述的分类器。来自所述CCGA样本组的被包括的已知癌症类型包括下列:乳癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰脏癌、食道癌、淋巴癌、头颈癌、卵巢癌、肝胆癌、黑色素瘤、子宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌和肛门直肠癌。如此,一模型可以是一多癌症模型(或一个多癌症分类器),用于侦测一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、十个或更多个或20个或更多个不同类型的癌症。
下文展示的分类器表现数据是为一个锁定的分类器而报告的,所述锁定的分类器在获得自CCGA2,一个CCGA子研究,的癌症及非癌症样本,及来自STRIVE的非癌症样本上被训练。在所述CCGA2子研究中的数个个体不同于在CCGA1子研究中的数个个体,在CCGA1子研究中的所述数个个体被用以选择数个目标基因组。自所述CCGA2研究,数个血液样本被收集自被诊断有未治疗的癌症(包括20个肿瘤类型及所有癌症阶段)的数个个体及没有癌症诊断的数个健康个体(控制组)。对于STRIVE,数个血液样本在数名女性的扫描乳房造影(screening mammogram)的28天内自所述数名女性被收集。细胞游离DNA(cfDNA)自每个样本被提取并被以亚硫酸氢盐处理,以将未甲基化的胞嘧啶转换为脲嘧啶。所述经亚硫酸氢盐处理的cfDNA使用数个杂合探针富集能提供信息的cfDNA分子,所述数个杂合探针是设计以富集衍生自在一化验检测组合中的数个目标基因组区域中的各者的经亚硫酸氢盐转换的核酸,所述化验检测组合包括列表1至16的所有基因组区域。所述经富集的经亚硫酸氢盐转换的核酸分子使用配对端定序在一Illumina平台(加利福尼亚州圣地亚哥)上被定序,以对所述数个训练样本中的各者获得一组序列读数,且作为结果的数个读数对被对齐到所述参考基因组,组合为数个片段,且甲基化与未甲基化的CpG位点被辨识。
基于混合模型的特征化:
对于每个癌症类型(包括非癌症),一个机率混合模型被训练并应用,以基于一片段多么可能在一给定的样本类型中被观察到,而将一机率指定到来自每个癌症及非癌症样本的每个片段。
片段水平分析:
简言之,对于每个样本类型(癌症及非癌症样本),对于每个区域(其中每个区域若小于1kb(千碱基)则被如其所是(as-is)地使用,否则以相邻区域之间50%的重叠(例如,500碱基重叠)被细分为1千碱基长的数个区域),对于每个类型的癌症及非癌症,一机率模型被拟合至衍生自所述数个训练样本的所述数个片段。为每个样本类型被训练的所述机率模型是一混合模型,其中三个混合成分中的各者是一独立位点模型,在所述独立位点模型中,每个CpG处的甲基化被假定为独立于其他CpG处的甲基化。数个片段自所述模型被排除,若:所述数个片段具有大于0.01的p值(来自一非癌症马可夫模型)、被标示为重复片段、(仅对于目标甲基化样本)所述数个片段具有大于1的袋大小(bag size)、并未覆盖至少一个CpG位点、或所述片段的长度大于1000碱基。若被保留的数个训练片段与来自一区域的至少一个CpG重叠,则所述数个训练片段被分配到该区域。若一个片段与在多个区域中的数个CpG重叠,所述片段被分配到所有的所述多个区域。
局部来源模型:
每个机率模型使用最大可能性估计被拟合,以辨识一组参数,所述一组参数最大化所有衍生自每个样本类型,受到一正规化惩罚的片段的对数可能性。
特定地,在每个分类区域中,一组机率模型被训练,每一个机率模型用于一个训练标签(亦即,每一个用于一个癌症类型及每一个用于非癌症)。每个模型采取具有三个成分的一个伯努利混合模型的形式。数学上是:
Figure BPA0000311201070001121
其中n是混合成分的数量,设定为3、mi∈{0,1}是所述片段在位置i处的观察到的甲基化、fk是对成分k的分数指定值(fk≥0且Σfk=1)且βki是成份k中于CpGi处的甲基化比例。i上的乘积仅包括数个位置,对于该些位置,一甲基化状态可以自所述定序被辨识。每个模型的参数{fk,βki}的最大可能性数值通过使用rprop演算法(例如,如在Riedmiller M,Braun H,RPROP:一种快速适应性学习演算法,计算机和信息科学国际研讨会论文集VII,1992年当中所描述的rprop演算法)以最大化一个训练标签的所述数个片段的,受到采取一β分布先验的形式在βki上的一正规化惩罚的总对数可能性而被估计。数学上,所述最大量值是:
(2)∑j ln(Pr(断片j|{βki,fk}))+∑k,i r ln(βki(1-βki))
其中r是正规化强度,所述正规化强度被设定至1。
特征化:
一旦所述数个机率模型被训练,一组数值化特征对每个样本被计算。特定地,在每个区域中,对于每个癌症类型及非癌症样本,数个特征对来自每个训练样本的每个片段被提取。被提取的数个特征是数个离群值片段(亦即,被异常地甲基化的数个片段)的纪录,所述数个离群值片段被界定为在一第一癌症模型下的对数可能性以至少一阀值的层值(tiervalue)超过在一个第二癌症模型或非癌症模型下的对数可能性的片段。数个离群值片段对于每个基因组区域、样本模型(亦即,癌症类型)及层(对层1、2、3、4、5、6、7、8及9)被分别记录,对于每个样本类型,每个区域收获9个特征。以此方式,每个特征通过三个性质被界定:一基因组区域、一“阳性”癌症类型标签(排除非癌症)、及选自于{1,2,3,4,5,6,7,8,9}的群组的层值。每个特征的数字数值被界定为在该区域中的片段的数量,而使:
Figure BPA0000311201070001131
其中所述数个机率是通过等式(1)使用对应于所述“阳性”癌症类型(在对数的分子中)或对应于非癌症(在分母中)的,所述数个最大可能性估计参数值被界定。
特征排行:
对于成对特征中的每一组,所述数个特征使用互信息被排名,所述互信息是基于所述数个特征区辨所述第一癌症类型(所述第一癌症类型界定所述对数可能性模型,所述特征由所述对数可能性模型衍生)与所述第二癌症类型或非癌症的能力。特定地,数个特征的两个经排名的列表对于数个类别标签的每个独特的配对被编纂:一个列表有被指定为“阳性”的第一标签及被作为“阴性”的第二标签,且另一个列表有被调换的阳性/阴性指定(除了“非癌症”标签,仅被准许作为阴性标签)。对于这些排名的列表中的各者,仅有其阳性癌症类型标签(如在等式(3)中)符合被考虑的所述阳性标签的数个特征被包括在所述排名中。对于每个这样的特征,具有非零特征值的训练样本的比例对于阳性及阴性标签被分别地计算。此比例在所述阳性标签中较大的特征,以其相对于该对类别标签的互信息被排名。
来自每个成对比较的,排名于顶端的256个特征被辨识并添加到每个癌症类型及非癌症的最终特征组。为了避免冗余,如果多于一个特征自相同的阳性类型及基因组区域被选择(亦即,对于多个阴性类型被选择),只有对它的癌症类型对被指定最低(最能提供信息)的排名的特征被保留,通过选择较高层数值而打破数个层。在对每个样本(癌症类型及非癌症)的所述最终特征组中的所述数个特征被二元化(任何大于0的特征值被设为1,而使所有特征是0或1)。
分类器训练:
所述数个训练样本接着被分为不同的5折交叉验证训练组,且一个两阶段分类器对每个折被训练,在每个案例中在所述数个训练样本的4/5上训练并使用剩余的1/5供验证。
在训练的第一阶段中,用于侦测癌症的存在的一个二元(二类别)逻辑回归模型被训练,以自非癌症样本区辨所述数个癌症样本(无论TOO)。当训练此二元分类器时,一个样本权重被指派到雄性非癌症样本以抵销在所述训练组中的性别不平衡。对于每个样本,所述二元分类器输出一预测分数,所述预测分数指示癌症的存在或不存在的可能性。
在训练的第二阶段,用于判定癌症来源组织的一个平行多类别逻辑回归模型以TOO作为目标标签被训练。仅有在所述第一阶段分类器中,收到高于所述非癌症样本的第95百分位的一分数的癌症样本被包括在此多类别分类器的训练中。对于在训练所述多类别分类器中被使用的每个癌症样本,所述多类别分类输出对于被分类的癌症类型的数个预测值,其中每个预测值是给定样本具有一特定癌症类型的一可能性。举例而言,所述癌症分类器可以返回对一检测样本的一癌症预测,所述癌症预测包括对于乳癌的一预测分数、对于肺癌的一预测分数及/或对于无癌症的一预测分数。
二元及多类别分类器两者皆是通过小批量的随机梯度下降(stochasticgradient descent)被训练,且在每个案例中,训练在于所述验证折上的(由交叉熵损失(cross-entropy loss)评估的)表现开始劣化时被提早停止。对于在所述训练组之外的样本上的预测,在每个阶段中,由所述五个交叉验证分类器指定的所述数个分数被平均。被指派到性别不恰当的癌症类型的分数被设定为零,而剩余的数值被重整化(renormalized)以加总至一。
被指派到所述训练组中的所述数个验证折的数个分数被保留,以供在指定截止值(阀值),以针对特定表现度量标准时使用。特定地,被指派到训练组非癌症样本的所述数个机率分数,被用以界定数个对应于特定特异性水平的阀值。举例而言,对于99.4%的一个所希望的特异性目标,所述阀值被设定于被指定到所述训练组中的所述数个非癌症样本的所述数个交叉验证癌症侦测机率分数的第99.4百分位。具有超过一阀值的一机率分数的数个训练样本被呼叫为对癌症为阳性。
随后,对于被判定为对癌症是阳性的每个训练样本,一个TOO或癌症类型评估自所述多类别分类器被做出。首先,所述多类别逻辑回归分类器对每个样本指定一组机率分数,每个预期癌症类型一个机率分数。接下来,这些分数的置信度被评估,作为由所述多类别分类器对每个样本指派的最高与次高分数之间的差异。接着,使用经交叉验证的训练组分数来识别最低阈值,使得训练组中前两个分数的差异超过阈值的癌症样本中,90%被分配了正确的TOO标签作为它们的最高分数。以此方式,在训练时被指定到所述数个验证折的所述数个分数被进一步用以判定一个第二阀值,所述第二阀值用于在置信的与不确定的TOO呼叫之间进行区辨。
于预测时,自所述二元(第一阶段)分类器接收一个低于所述预先决定的特定阀值的分数的样本,被指派一个“非癌症”标签。对于剩余的样本,来自所述第二阶段分类器的头两个TOO分数的差异低于第二预先界定的阀值的样本被指派“不确定癌症”标签。剩余的样本被指派所述TOO分类器指派了最高分数的癌症标签。
示例5:使用列表16至32的目标基因组区域的分类
列表16至32的所述数个目标基因组区域的区辨数值,是通过测试一个癌症分类器根据这些目标基因组区域的甲基化状态侦测癌症及20种不同的癌症类型中的任何癌症类型的能力而被评估。如展示于表4中的,表现横跨未被用于训练所述分类器的1532个癌症样本及1521个非癌症样本被评估。对于每个样本,不同地甲基化的cfDNA使用一个诱饵组被富集,所述诱饵组包括列表16至32的所有目标基因组区域。所述分类器接着被缩限到仅根据被评估的列表的目标基因组区域的甲基化状态提供癌症判断。
表4
cfDNA被用于验证分类器的个体的癌症诊断
Figure BPA0000311201070001161
来自对列表16至32的分类器表现分析的结果被呈现在表5至8中。由一个经训练的分类器产生的一个示例性的接收者操作者曲线(receiver operator curve,ROC)被展示在图13中。所述ROC展现基于对肺癌最佳化的列表23的所述数个目标基因组区域的甲基化状态的,癌症或非癌症的一判定的真阳性结果与伪阳性结果。所述ROC曲线的不对称形状例示了所述分类器是被设计以最小化伪阳性结果。除了列表28(肾癌)以外,曲线下面积在0.77及0.80之间紧密地聚集,如展示于表5中的。这些结果指示,癌症的一侦测不因使用为个别癌症类型的侦测被最佳化的数个检测组合而被严重损害。此外,分类器表现对于列表20(结肠直肠癌)、列表23(肺癌)及列表26(胰脏及胆囊癌)的数个目标基因组区域的随机选择的50%次组合被测试。数个目标基因组区域的这些次组合的ROC曲线下的面积也在0.77及0.80之间紧密地聚集,指示癌症的判定并未由于使用总检测组合尺寸少于75至140kb的少于400至700个目标基因组区域的较小的检测组合而被可侦测地损害。
一旦癌症的一判断被作成,所述分类器将所述癌症指派到二十个不同的癌症类型中的一个。具有0.990的一特异度的这些判定的准确性被以各种格式呈现。表5展示如基于为侦测一特定癌症类型被最佳化的数个目标基因组区域的每个列表的甲基化状态被评分的,真实阳性、伪阳性及伪阴性。一真实阳性在癌症的存在被侦测到且癌症类型被准确地判定时发生。一伪阳性在癌症被侦测到且一个不准确的癌症类型被评分时,对来自被诊断有所述列表为其被最佳化的所述癌症类型的个体的样本发生。一伪阴性在癌症的存在被侦测到且癌症类型被不准确地纪录为所述列表对其被最佳化的所述癌症类型时,对于来自被诊断有不同于所述列表对其被最佳化的所述癌症类型的一癌症类型的数个个体的样本发生。
表5
使用为特定癌症类型的侦测最佳化的目标基因组区域的列表的数据的癌症侦测及癌症类型判定
Figure BPA0000311201070001181
基于为数个特定癌症类型被选择的的数个目标基因组区域的甲基化状态的,由一经训练的分类器进行的癌症侦测的准确度,为表6中列出的各种癌症类型被呈现。当癌症被侦测到时,一癌症类型自癌症类型的二十个可能的类别中的一个被指派。癌症类型判定的准确度被呈现在表7中。所述癌症类型判定结果是对于判断所有的二十个癌症类型的准确度,虽然目标基因组区域的所述数个列表是被最佳化以侦测一单一癌症类型。
表6至7中的结果为各种癌症阶段被分离。癌症侦测及癌症类型判定对于来自被诊断有晚期癌症的个体的样本更加准确。这是被预期到的,因为晚期肿瘤散出更多cfDNA。尽管如此,对早期癌症,侦测癌症及指定一癌症类型的准确率非常高。进一步地,随机消除列表20(结肠直肠癌)、列表23(肺癌)及列表26(胰脏及胆囊癌)的随机50%对分类器准确度基本上没有影响。
通过作用在为要侦测的特定癌症类型的而被选择的列表中的数个目标基因组区域的甲基化状态的一分类器,于0.990的一特异度,侦测各种癌症类型的第一期至第四期的癌症的敏感度被表示在表8中。举例而言,当侦测癌症的所述伪阳性率被限制到1%时。考虑列表16的所述数个目标基因组区域的甲基化状态的一分类器,在收集自被诊断有第一期肛门直肠癌的个体的样本中的50%(4个中的2个)准确侦测到肛门直肠癌。对所有癌症阶段的大于70%的一总体敏感度为肛门直肠癌、头颈癌、肝及胆管癌、卵巢癌、胰脏及胆囊癌及上消化道癌被达成。侦测第一期+第二期癌症的敏感度对肛门直肠癌、膀胱及尿道上皮癌、头颈癌、肝及胆管癌、及胰脏及胆囊癌是大于50%。基于为结肠直肠癌、肺癌或胰脏及胆囊癌的数个目标基因组区域的随机选择的50%的甲基化状态的敏感度与使用所述数个对应目标基因组区域的100%的敏感度基本上相同。
表6:通过仅使用针对所指示的癌症类型的数个目标基因组区域的一分类器,以99.0%特异度的癌症侦测准确度
Figure BPA0000311201070001191
Figure BPA0000311201070001192
Figure BPA0000311201070001201
表6(续)
Figure BPA0000311201070001202
表7:通过仅使用针对所指示的癌症类型的数个目标基因组区域的一分类器,99.0%特异度的癌症类型判定的准确度
Figure BPA0000311201070001203
Figure BPA0000311201070001211
表7(续)
Figure BPA0000311201070001212
Figure BPA0000311201070001213
表8:通过仅使用针对所指示的癌症类型的数个目标基因组区域的一分类器,以99.0%特异度对所述指示的癌症类型的敏感度
Figure BPA0000311201070001221
Figure BPA0000311201070001222
表8(续)
Figure BPA0000311201070001223
Figure BPA0000311201070001231
示例6:使用癌症化验检测组合的癌症侦测
数个血液样本被收集自先前被诊断有一TOO的癌症的数个个体的一群组(“测试组”),及没有一癌症或被诊断有一不同类型的癌症的数个个体的其它群组(“其它组”)。cfDNA片段被自所述数个血液样本提取并以亚硫酸氢盐处理,以将未甲基化的胞嘧啶转换为脲嘧啶。本文中所描述的癌症化验检测组合被应用到所述数个经亚硫酸氢盐处理后的样本。未连结的cfDNA片段被冲洗,且连结到所述数个探针的cfDNA片段被收集。被收集的cfDNA片段被放大并定序。所述数个序列读数证实所述数个探针特定地富集了具有指示一TOO的癌症的甲基化模式的cfDNA片段,与来自相较于其它组,具有显着更多的差异地甲基化的cfDNA片段的测试组的数个样本的cfDNA片段。
虽然在本文中展示并描述了本揭示的数个优选的实施例,对于本领域中的技术人员而言明显的是,这样的数个实施例仅以示例的方式被提供。许多变更、改变及替换现在将为本领域的技术人员所思及,而不脱离本揭示。应被了解的是,本文中描述的本揭示的数个实施例的各种替换可以被应用在实施本揭示。下文的权利要求是意在界定本揭示的范围,且在这些权利要求的范围中的方法及结构与其等同物被该些权利要求所涵盖。

Claims (287)

1.一种组合物,其特征在于:所述组合物包括:数个不同的诱饵寡核苷酸,
其中所述数个不同的诱饵寡核苷酸是配置以集体地杂合至衍生自至少100个目标基因组区域的DNA分子,及
其中所述至少100个目标基因组区域中的每个基因组区域在一个第一癌症类型中,相较于在一个第二癌症类型中或相较于在一非癌症类型中是被差异地甲基化。
2.如权利要求1所述的组合物,其特征在于:所述至少100个目标基因组区域包括在至少一个第一癌症类型中,相较于在一个第二癌症类型中及相较于在一非癌症类型中是被差异地甲基化的至少一个、至少5个、至少10个、至少20个、至少50个或至少100个目标基因组区域。
3.如权利要求1所述的组合物,其特征在于:所述至少100个目标基因组区域包括在所述第一癌症类型中相较于两个或更多个、三个或更多个、四个或更多个、五个或更多个、或十个或更多个、十二个或更多个、或十五个或更多个其它癌症类型被差异地甲基化的至少一个目标基因组区域。
4.如权利要求1所述的组合物,其特征在于:所述至少100个目标基因组区域对一个癌症类型及至少10个、至少12个、至少15个或至少18个其它癌症类型或所述非癌症类型之间的所有可能的配对,包括在数个癌症类型的配对之间被差异地甲基化的至少一个目标基因组区域。
5.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中任一者的所述数个目标基因组区域中的至少20%。
6.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中的所述数个目标基因组区域中的至少20%。
7.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中任一者的所述数个目标基因组区域中的至少20%或至少40%。
8.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中的所述数个目标基因组区域中的至少20%或至少40%。
9.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中任一者的所述数个目标基因组区域中的至少20%。
10.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中的所述数个目标基因组区域中的至少20%。
11.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中任一者的所述数个目标基因组区域中的至少20%。
12.如权利要求1至4中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中的所述数个目标基因组区域中的至少20%。
13.一种组合物,其特征在于:所述组合物包括:数个不同的诱饵寡核苷酸,配置以杂合至数个DNA分子,所述数个DNA分子衍生自列表1至49中任一者的所述数个目标基因组区域中的至少20%。
14.如权利要求13所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至49中的所述数个目标基因组区域中的至少20%。
15.如权利要求13所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中任一者的所述数个目标基因组区域中的至少20%或至少40%。
16.如权利要求13所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至15中的所述数个目标基因组区域中的至少20%或至少40%。
17.如权利要求13所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中任一者的所述数个目标基因组区域中的至少20%。
18.如权利要求13所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中的所述数个目标基因组区域中的至少20%。
19.如权利要求13所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中任一者的所述数个目标基因组区域中的至少20%。
20.如权利要求13所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中的所述数个目标基因组区域中的至少20%。
21.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1的所述数个目标基因组区域中的至少20%。
22.如权利要求21所述的组合物,其特征在于:所述数个DNA分子是衍生自列表1的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
23.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表2的所述数个目标基因组区域中的至少20%。
24.如权利要求23所述的组合物,其特征在于:所述数个DNA分子是衍生自列表2的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
25.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表3的所述数个目标基因组区域中的至少20%。
26.如权利要求25所述的组合物,其特征在于:所述数个DNA分子是衍生自列表3的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
27.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表4的所述数个目标基因组区域中的至少20%。
28.如权利要求27所述的组合物,其特征在于:所述数个DNA分子是衍生自列表4的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
29.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表5的所述数个目标基因组区域中的至少20%。
30.如权利要求29所述的组合物,其特征在于:所述数个DNA分子是衍生自列表5的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
31.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表6的所述数个目标基因组区域中的至少20%。
32.如权利要求31所述的组合物,其特征在于:所述数个DNA分子是衍生自列表6的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
33.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表7的所述数个目标基因组区域中的至少20%。
34.如权利要求33所述的组合物,其特征在于:所述数个DNA分子是衍生自列表7的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
35.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表8的所述数个目标基因组区域中的至少20%。
36.如权利要求35所述的组合物,其特征在于:所述数个DNA分子是衍生自列表8的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
37.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表9的所述数个目标基因组区域中的至少20%。
38.如权利要求37所述的组合物,其特征在于:所述数个DNA分子是衍生自列表9的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
39.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表10的所述数个目标基因组区域中的至少20%。
40.如权利要求39所述的组合物,其特征在于:所述数个DNA分子是衍生自列表10的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
41.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表11的所述数个目标基因组区域中的至少20%。
42.如权利要求41所述的组合物,其特征在于:所述数个DNA分子是衍生自列表11的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
43.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表12的所述数个目标基因组区域中的至少20%。
44.如权利要求43所述的组合物,其特征在于:所述数个DNA分子是衍生自列表12的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
45.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表13的所述数个目标基因组区域中的至少20%。
46.如权利要求45所述的组合物,其特征在于:所述数个DNA分子是衍生自列表13的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
47.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表14的所述数个目标基因组区域中的至少20%。
48.如权利要求47所述的组合物,其特征在于:所述数个DNA分子是衍生自列表14的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
49.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表15的所述数个目标基因组区域中的至少20%。
50.如权利要求49所述的组合物,其特征在于:所述数个DNA分子是衍生自列表15的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
51.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16的所述数个目标基因组区域中的至少20%。
52.如权利要求51所述的组合物,其特征在于:所述数个DNA分子是衍生自列表16的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
53.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表17的所述数个目标基因组区域中的至少20%。
54.如权利要求53所述的组合物,其特征在于:所述数个DNA分子是衍生自列表17的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
55.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表18的所述数个目标基因组区域中的至少20%。
56.如权利要求55所述的组合物,其特征在于:所述数个DNA分子是衍生自列表18的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
57.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表19的所述数个目标基因组区域中的至少20%。
58.如权利要求57所述的组合物,其特征在于:所述数个DNA分子是衍生自列表19的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
59.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表20的所述数个目标基因组区域中的至少20%。
60.如权利要求59所述的组合物,其特征在于:所述数个DNA分子是衍生自列表20的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
61.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表21的所述数个目标基因组区域中的至少20%。
62.如权利要求61所述的组合物,其特征在于:所述数个DNA分子是衍生自列表21的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
63.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表22的所述数个目标基因组区域中的至少20%。
64.如权利要求63所述的组合物,其特征在于:所述数个DNA分子是衍生自列表22的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
65.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表23的所述数个目标基因组区域中的至少20%。
66.如权利要求65所述的组合物,其特征在于:所述数个DNA分子是衍生自列表23的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
67.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表24的所述数个目标基因组区域中的至少20%。
68.如权利要求67所述的组合物,其特征在于:所述数个DNA分子是衍生自列表24的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
69.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表25的所述数个目标基因组区域中的至少20%。
70.如权利要求69所述的组合物,其特征在于:所述数个DNA分子是衍生自列表25的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
71.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表26的所述数个目标基因组区域中的至少20%。
72.如权利要求71所述的组合物,其特征在于:所述数个DNA分子是衍生自列表26的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
73.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表27的所述数个目标基因组区域中的至少20%。
74.如权利要求73所述的组合物,其特征在于:所述数个DNA分子是衍生自列表27的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
75.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表28的所述数个目标基因组区域中的至少20%。
76.如权利要求75所述的组合物,其特征在于:所述数个DNA分子是衍生自列表28的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
77.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表29的所述数个目标基因组区域中的至少20%。
78.如权利要求77所述的组合物,其特征在于:所述数个DNA分子是衍生自列表29的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
79.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表30的所述数个目标基因组区域中的至少20%。
80.如权利要求79所述的组合物,其特征在于:所述数个DNA分子是衍生自列表30的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
81.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表31的所述数个目标基因组区域中的至少20%。
82.如权利要求81所述的组合物,其特征在于:所述数个DNA分子是衍生自列表31的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
83.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表32的所述数个目标基因组区域中的至少20%。
84.如权利要求83所述的组合物,其特征在于:所述数个DNA分子是衍生自列表32的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
85.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33的所述数个目标基因组区域中的至少20%。
86.如权利要求85所述的组合物,其特征在于:所述数个DNA分子是衍生自列表33的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
87.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表34的所述数个目标基因组区域中的至少20%。
88.如权利要求87所述的组合物,其特征在于:所述数个DNA分子是衍生自列表34的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
89.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表35的所述数个目标基因组区域中的至少20%。
90.如权利要求89所述的组合物,其特征在于:所述数个DNA分子是衍生自列表35的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
91.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表36的所述数个目标基因组区域中的至少20%。
92.如权利要求91所述的组合物,其特征在于:所述数个DNA分子是衍生自列表36的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
93.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表37的所述数个目标基因组区域中的至少20%。
94.如权利要求93所述的组合物,其特征在于:所述数个DNA分子是衍生自列表37的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
95.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表38的所述数个目标基因组区域中的至少20%。
96.如权利要求95所述的组合物,其特征在于:所述数个DNA分子是衍生自列表38的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
97.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表39的所述数个目标基因组区域中的至少20%。
98.如权利要求97所述的组合物,其特征在于:所述数个DNA分子是衍生自列表39的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
99.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表40的所述数个目标基因组区域中的至少20%。
100.如权利要求99所述的组合物,其特征在于:所述数个DNA分子是衍生自列表40的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
101.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表41的所述数个目标基因组区域中的至少20%。
102.如权利要求101所述的组合物,其特征在于:所述数个DNA分子是衍生自列表41的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
103.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表42的所述数个目标基因组区域中的至少20%。
104.如权利要求103所述的组合物,其特征在于:所述数个DNA分子是衍生自列表45的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
105.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表43的所述数个目标基因组区域中的至少20%。
106.如权利要求105所述的组合物,其特征在于:所述数个DNA分子是衍生自列表46的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
107.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表44的所述数个目标基因组区域中的至少20%。
108.如权利要求107所述的组合物,其特征在于:所述数个DNA分子是衍生自列表44的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
109.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表45的所述数个目标基因组区域中的至少20%。
110.如权利要求109所述的组合物,其特征在于:所述数个DNA分子是衍生自列表45的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
111.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表46的所述数个目标基因组区域中的至少20%。
112.如权利要求111所述的组合物,其特征在于:所述数个DNA分子是衍生自列表46的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
113.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表47的所述数个目标基因组区域中的至少20%。
114.如权利要求113所述的组合物,其特征在于:所述数个DNA分子是衍生自列表50的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
115.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表48的所述数个目标基因组区域中的至少20%。
116.如权利要求115所述的组合物,其特征在于:所述数个DNA分子是衍生自列表51的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
117.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表49的所述数个目标基因组区域中的至少20%。
118.如权利要求117所述的组合物,其特征在于:所述数个DNA分子是衍生自列表49的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
119.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表16至32中的任两个或更多个、三个或更多个、四个或更多个、或五个或更多个列表的所述数个目标基因组区域中的至少20%。
120.如权利要求119所述的组合物,其特征在于:所述数个DNA分子是衍生自列表16至32中的任两个或更多个、三个或更多个、四个或更多个、或五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个列表的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
121.如权利要求1至4及权利要求13中任一项所述的组合物,其特征在于:所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表33至49中的任两个或更多个、三个或更多个、四个或更多个、或五个或更多个列表的所述数个目标基因组区域中的至少20%。
122.如权利要求121所述的组合物,其特征在于:所述数个DNA分子是衍生自列表33至49中的任两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个列表的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。
123.如权利要求1至122中任一项所述的组合物,其特征在于:所述数个目标基因组区域的总尺寸是少于1100kb、少于750kb、少于270kb、少于200kb、少于150kb、少于100kb或少于50kb。
124.如权利要求1至122中任一项所述的组合物,其特征在于:所述数个目标基因组区域的总数量是少于1700、少于1300、少于900、少于700或少于400。
125.如权利要求119至122中任一项所述的组合物,其特征在于:所述数个目标基因组区域的总尺寸是少于5000kb、少于2500kb、少于2000kb、少于1500kb、少于1000kb、少于750kb或少于500kb。
126.如权利要求119至122中任一项所述的组合物,其特征在于:所述数个目标基因组区域的总数量是少于20000、少于18000、少于16000、少于14000、少于12000、少于10000、少于8000、少于6000、少于4000或少于2000。
127.如权利要求1至126中任一项所述的组合物,其特征在于:所述数个DNA分子是经转换的cfDNA片段。
128.如权利要求127所述的组合物,其特征在于:所述数个目标基因组区域是过甲基化区域、低甲基化区域,或是可以是过甲基化的或是低甲基化的二元区域,如在序列表中所指示的。
129.如权利要求127所述的组合物,其特征在于:所述数个诱饵寡核苷酸是配置以杂合至衍生自每个目标基因组区域的过甲基化经转换DNA分子、低甲基化经转换DNA分子、或过甲基化与低甲基化经转换DNA分子两者,如在序列表中所指示的。
130.如权利要求1至129中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸中的各者是接合至一亲和部分。
131.如权利要求130所述的组合物,其特征在于:所述亲和部分是生物素。
132.如权利要求1至129中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸中的各者是接合至一固态表面。
133.如权利要求132所述的组合物,其特征在于:所述固态表面是一微阵列或芯片。
134.如权利要求1至133中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸各具有45至300个核苷酸碱基的一长度、75至200个核苷酸碱基的一长度、103至150个核苷酸碱基的一长度、或约120个核苷酸碱基的一长度。
135.如权利要求1至134中任一项所述的组合物,其特征在于:所述数个诱饵寡核苷酸包括:两个或更多个诱饵寡核苷酸的数个组,其中在数个诱饵寡核苷酸的一个组中的每个诱饵寡核苷酸配置用以结合至相同的经转换的目标基因组区域或配置用以结合至衍生自所述目标基因组区域的一核酸分子。
136.如权利要求135所述的组合物,其特征在于:每组的诱饵寡核苷酸包括一对或多对的一第一诱饵寡核苷酸及一第二诱饵寡核苷酸,
其中每个诱饵寡核苷酸包括一个5’端及一个3’端,
其中位于所述第一诱饵寡核苷酸的所述3’端的至少X个核苷酸碱基的一序列,与位于所述第二诱饵寡核苷酸的所述5’端的X个核苷酸碱基的一序列相同,且
其中X是至少25、30、35、40、45、50、60、70、75或100。
137.如权利要求136所述的组合物,其特征在于:所述第一诱饵寡核苷酸包括:至少31、40、50或60个核苷酸碱基的一序列,所述序列与所述第二诱饵寡核苷酸的一序列不重叠。
138.如权利要求1至137中任一项所述的组合物,其特征在于:所述组合物进一步包括:来自一检测对象的经转换cfDNA。
139.如权利要求138所述的组合物,其特征在于:来自所述检测对象的所述cfDNA是通过一程序被转换,所述程序包括:以亚硫酸氢盐或一胞嘧啶脱氨酶处理。
140.一种用于富集经转换的cfDNA片段的方法,所述经转换的cfDNA片段可提供一类型的癌症的信息,其特征在于:所述方法包括步骤:
将权利要求1至139中任一项所述的诱饵寡核苷酸组合物与衍生自一检测对象的DNA接触;及
通过杂合捕捉,富集对应于数个基因组区域的cfDNA的样本,所述数个基因组区域与所述类型的癌症相关联。
141.一种用于获得序列信息的方法,所述序列信息可提供一个类型的癌症的存在或不存在的信息,其特征在于:所述方法包括步骤:
(a)通过将来自一检测对象的经转换DNA与权利要求1至139中任一项所述的诱饵寡核苷酸组合物接触,富集所述经转换DNA;及
(b)定序所述富集的经转换DNA。
142.一种用于判定一检测对象具有一类型的癌症的方法,其特征在于:所述方法包括步骤:
(a)以权利要求1至139中任一项所述的一诱饵寡核苷酸组合物捕捉来自所述检测对象的数个cfDNA片段;
(b)定序所述被捕捉的数个cfDNA片段;及
(c)将一经训练的分类器应用到数个cfDNA序列,以判定所述检测对象具有所述类型的癌症。
143.一种用于判定一检测对象具有一类型的癌症的方法,其特征在于:所述方法包括步骤:
(a)以权利要求1至139中任一项所述的一诱饵寡核苷酸组合物捕捉来自所述检测对象的数个cfDNA片段;
(b)通过DNA微阵列侦测所述被捕捉的数个cfDNA片段;及
(c)将一经训练的分类器应用到杂合至所述DNA微阵列的数个DNA片段,以判定所述检测对象具有所述类型的癌症。
144.如权利要求142或权利要求143所述的方法,其特征在于:所述经训练的分类器是一混合模型分类器。
145.如权利要求142至144中任一项所述的方法,其特征在于:所述分类器是在数个经转换的DNA序列之上被训练,所述数个经转换的DNA序列衍生自选自列表1至49中的任一者的至少1000个、至少2000个或至少4000个目标基因组区域。
146.如权利要求145所述的方法,其特征在于:所述经训练的分类器通过下述判定癌症的存在或不存在,或一癌症类型:
(i)为样本产生一组的多个特征,其中在所述一组的多个特征中的每个特征包括一数字数值;
(ii)将所述一组的多个特征输入至所述分类器中,其中所述分类器包括一多项式分类器;
(iii)基于所述一组的多个特征,于所述分类器判定一组机率分数,其中所述一组机率分数包括每个癌症类型类别及每个非癌症类型类别的一个机率分数;及
(iv)基于在所述分类器的训练时被决定的一个或多个数值,以阀值衡量所述一组机率分数,以决定所述样本的一最终癌症分类。
147.如权利要求146所述的方法,其特征在于:所述一组的多个特征包括一组二元化的特征。
148.如权利要求146至147中任一项所述的方法,其特征在于:所述数字数值包括一个单一的二元数值。
149.如权利要求146至148中任一项所述的方法,其特征在于:所述多项式分类器包括一个多项式逻辑回归集成,被训练以为所述癌症预测一来源组织。
150.如权利要求146至149中任一项所述的方法,其特征在于:所述方法进一步包括步骤:相对一最小值,基于一最高两个机率分数差异,判定所述最终癌症分类,其中所述最小值对应于训练癌症样本的一预先界定的百分率,所述训练癌症样本的预先界定的百分率在所述分类器的训练时被指派正确的癌症类型作为最高分数。
151.如权利要求150所述的方法,其特征在于:
(i)依据判定所述最高两个机率分数差异超过所述最小值,指派一癌症标签作为所述最终癌症分类,所述癌症标签对应于由所述分类器判定的最高机率分数;及
(ii)依据判定所述头两个机率分数差异并未超过所述最小值,指派一不确定癌症标签作为所述最终癌症分类。
152.如权利要求142至151中任一项所述的方法,其特征在于:所述癌症类型是选自由肛门直肠癌、膀胱癌、膀胱及尿道上皮癌、乳癌、子宫颈癌、结肠直肠癌、头颈癌、肝胆癌、肝及胆管癌、肺癌、黑色素瘤、卵巢癌、胰腺癌、胰腺及胆囊癌、前列腺癌、肾癌、肉瘤、甲状腺癌、上消化道癌及子宫癌组成的群组。
153.如权利要求152所述的方法,其特征在于:所述被捕捉的数个cfDNA片段是数个经转换的cfDNA片段。
154.一种癌症化验检测组合,其特征在于:所述癌症化验检测组合包括:
至少5对探针,其中所述至少5对探针中的每对包括:两个探针,配置以通过一重叠序列与彼此重叠,
其中所述重叠序列包括至少30个核苷酸的一序列,
其中所述至少30个核苷酸的序列是配置以杂合至一经转换的cfDNA分子,所述经转换的cfDNA分子对应于,或衍生自一个或多个基因组区域,
其中所述数个基因组区域中的各者包括至少五个甲基化位点,
其中所述至少五个甲基化位点在数个第一癌性样本中具有一异常甲基化模式,且
其中所述至少5对探针中的每个探针包括至少31个核苷酸的一非重叠序列。
155.如权利要求154所述的癌症化验检测组合,其特征在于:包括至少10对、至少20对、至少30对、至少50对、至少100对、至少200对或至少500对探针。
156.如权利要求154或权利要求155所述的癌症化验检测组合,其特征在于:
所述数个基因组区域是选自于一列表,及其中:
所述列表是列表1,且所述数个第一癌性样本是来自具有膀胱癌的对象的数个样本;
所述列表是列表2,且所述数个第一癌性样本是来自具有乳癌的对象的数个样本;
所述列表是列表3,且所述数个第一癌性样本是来自具有子宫颈癌的对象的数个样本;
所述列表是列表4,且所述数个第一癌性样本是来自具有结肠直肠癌的对象的数个样本;
所述列表是列表5,且所述数个第一癌性样本是来自具有头颈癌的对象的数个样本;
所述列表是列表6,且所述数个第一癌性样本是来自具有肝胆癌的对象的数个样本;
所述列表是列表7,且所述数个第一癌性样本是来自具有肺癌的对象的数个样本;
所述列表是列表8,且所述数个第一癌性样本是来自具有黑色素瘤的对象的数个样本;
所述列表是列表9,且所述数个第一癌性样本是来自具有卵巢癌的对象的数个样本;
所述列表是列表10,且所述数个第一癌性样本是来自具有胰腺癌的对象的数个样本;
所述列表是列表11,且所述数个第一癌性样本是来自具有前列腺癌的对象的数个样本;
所述列表是列表12,且所述数个第一癌性样本是来自具有肾癌的对象的数个样本;
所述列表是列表13,且所述数个第一癌性样本是来自具有甲状腺癌的对象的数个样本;
所述列表是列表14,且所述数个第一癌性样本是来自具有上消化道癌的对象的数个样本;或
所述列表是列表15,且所述数个第一癌性样本是来自具有子宫癌的对象的数个样本。
157.如权利要求154或权利要求155所述的癌症化验检测组合,其特征在于:
所述数个基因组区域是选自于一列表,及其中:
所述列表是列表16或列表33,且所述数个第一癌性样本是来自具有肛门直肠癌的对象的数个样本;
所述列表是列表17或列表34,且所述数个第一癌性样本是来自具有膀胱或尿道上皮癌的对象的数个样本;
所述列表是列表18或列表35,且所述数个第一癌性样本是来自具有乳癌的对象的数个样本;
所述列表是列表19或列表36,且所述数个第一癌性样本是来自具有子宫颈癌的对象的数个样本;
所述列表是列表20或列表37,且所述数个第一癌性样本是来自具有结肠直肠癌的对象的数个样本;
所述列表是列表21或列表38,且所述数个第一癌性样本是来自具有头颈癌的对象的数个样本;
所述列表是列表22或列表39,且所述数个第一癌性样本是来自具有肝或胆管癌的对象的数个样本;
所述列表是列表23或列表40,且所述数个第一癌性样本是来自具有肺癌的对象的数个样本;
所述列表是列表24或列表41,且所述数个第一癌性样本是来自具有黑色素瘤的对象的数个样本;
所述列表是列表25或列表42,且所述数个第一癌性样本是来自具有卵巢癌的对象的数个样本;
所述列表是列表26或列表43,且所述数个第一癌性样本是来自具有胰腺或胆囊癌的对象的数个样本;
所述列表是列表27或列表44,且所述数个第一癌性样本是来自具有前列腺癌的对象的数个样本;
所述列表是列表28或列表45,且所述数个第一癌性样本是来自具有肾癌的对象的数个样本;或
所述列表是列表29或列表46,且所述数个第一癌性样本是来自具有肉瘤的对象的数个样本;
所述列表是列表30或列表47,且所述数个第一癌性样本是来自具有甲状腺癌的对象的数个样本;
所述列表是列表31或列表48,且所述数个第一癌性样本是来自具有上消化道癌的对象的数个样本;或
所述列表是列表32或列表49,且所述数个第一癌性样本是来自具有子宫癌的对象的数个样本。
158.如权利要求154至157中任一项所述的癌症化验检测组合,其特征在于:所述数个基因组区域包括所述列表中的所述数个基因组区域中的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。
159.如权利要求154至158中任一项所述的癌症化验检测组合,其特征在于:所述数个基因组区域包括所述列表中的至少33个、53个、103个、160个、200个、250个、300个、400个、500个、600个、800个或1000个基因组区域。
160.如权利要求154至158中任一项所述的癌症化验检测组合,其特征在于:所述经转换的cfDNA分子包括被处理以将未甲基化的胞嘧啶C转换为脲嘧啶U的cfDNA分子。
161.如权利要求154至160中任一项所述的癌症化验检测组合,其特征在于:所述至少8对探针中的各者是接合至一非核苷酸亲和部分。
162.如权利要求161所述的癌症化验检测组合,其特征在于:所述非核苷酸亲和部分是一生物素部分。
163.如权利要求154至162中任一项所述的癌症化验检测组合,其特征在于:所述异常甲基化模式在所述数个第一癌性样本中具有至少一阀值的p值稀有度。
164.如权利要求154至163中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者被设计用于与少于20个脱靶基因组区域具有序列同源性或序列互补性。
165.如权利要求164所述的癌症化验检测组合,其特征在于:所述少于20个脱靶基因组区域是使用一k聚体播种策略被辨识。
166.如权利要求165所述的癌症化验检测组合,其特征在于:所述少于20个脱靶基因组区域是使用k聚体播种策略结合到位于数个种子位点处的局部对齐而被辨识。
167.如权利要求154至166中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者包括至少61、78、103或120个核苷酸。
168.如权利要求154至167中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者包括少于300、250、200或160个核苷酸。
169.如权利要求154至168中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者包括103至160个核苷酸。
170.如权利要求154至169中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者包括少于23、18、13、11或9个甲基化位点。
171.如权利要求154至170中任一项所述的癌症化验检测组合,其特征在于:所述至少五个甲基化位点中的至少83、88、93、95、98或98%在所述数个癌性样本中或者是经甲基化的,或者是未甲基化的。
172.如权利要求154至171中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的至少3%、5%、10%、15%或20%不包括鸟嘌呤G。
173.如权利要求154至172中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者包括对所述经转换的cfDNA分子的所述数个甲基化位点的多个结合位点,其中所述多个结合位点的至少83、88、93、95、98或98%仅包括CpG或CpA。
174.如权利要求154至173中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者配置用于与少于18个、13个或11个脱靶基因组区域具有序列同源性或序列互补性。
175.如权利要求154至174中任一项所述的癌症化验检测组合,其特征在于:所述数个基因组区域的至少30%是在外显子或内含子中。
176.如权利要求154至175中任一项所述的癌症化验检测组合,其特征在于:所述数个基因组区域的至少15%是在外显子中。
177.如权利要求154至176中任一项所述的癌症化验检测组合,其特征在于:所述数个基因组区域的至少20%是在外显子中。
178.如权利要求154至177中任一项所述的癌症化验检测组合,其特征在于:所述数个基因组区域的少于10%是在基因间区域中。
179.如权利要求154至178中任一项所述的癌症化验检测组合,其特征在于:包括:至少100个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1200个、1400个、1600个、1800个、2000个、2200个、2400个、2600个、2800个、3000个、3200个、4000个、4500个、5000个、5500个、6000个、6500个、7000个、7500个、8000个、8500个、9000个、10000个、15000个或20000个探针。
180.如权利要求154至179中任一项所述的癌症化验检测组合,其特征在于:所述至少8对探针共包括至少10000个、20000个、30000个、40000个、50000个、60000个、70000个、80000个、90000个、100000个、120000个、140000个、160000个、180000个、200000个、240000个、260000个、280000个、300000个、320000个、400000个、450000个、500000个、550000个、600000个、650000个、700000个、750000个、800000个、850000个、900000个、1百万个、1.5百万个、2百万个、2.5百万个或3百万个核苷酸。
181.一种用于侦测癌症及/或一癌症来源组织TOO的方法,其特征在于:所述方法包括步骤:
(a)接收一样本,所述样本包括数个cfDNA分子;
(b)处理所述数个cfDNA分子,以将未甲基化的胞嘧啶C转换为脲嘧啶U,从而获得数个经转换的cfDNA分子;
(c)将权利要求154至180中任一项所述的癌症化验检测组合应用到所述数个经转换的cfDNA分子,从而富集所述数个经转换的cfDNA分子的一子集;及
(d)定序所述经转换的cfDNA分子的所述富集的子集,从而提供一组序列读数。
182.一种用于侦测癌症及/或一癌症来源组织TOO的方法,其特征在于:所述方法包括步骤:
(a)接收一样本,所述样本包括数个cfDNA分子;
(b)处理所述数个cfDNA分子,以将未甲基化的胞嘧啶C转换为脲嘧啶U,从而获得数个经转换的cfDNA分子;
(c)将权利要求154至180中任一项所述的癌症化验检测组合应用到所述数个经转换的cfDNA分子,从而富集所述数个经转换的cfDNA分子的一子集;及
(d)通过杂合到一DNA微阵列而侦测所述经转换的cfDNA分子的所述被富集的子集。
183.如权利要求181或权利要求182所述的方法,其特征在于:所述方法进一步包括步骤:
通过评估所述一组序列读数判定一健康状况,其中所述健康状况是
(a)一癌症的存在或不存在;
(b)癌症的一阶段;
(c)一癌症来源组织TOO的存在或不存在;
(d)一癌细胞类型的存在或不存在;或
(e)至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个不同类型的癌症的存在或不存在。
184.如权利要求181至183中任一项所述的方法,其特征在于:包括数个cfDNA分子的所述样本是获得自一人类对象。
185.一种用于侦测一癌症的方法,其特征在于:所述方法包括步骤:
(a)通过定序来自一对象的一组核酸片段来获得一组序列读数,其中所述数个核酸片段中的各者是对应于或是衍生自选自列表1至15中的一个或多个列表;列表16至32中的一个或多个列表;或列表33至49中的一个或多个列表的数个基因组区域;
(b)对于所述数个序列读数中的各者,判定于数个CpG位点处的甲基化状态;及
(c)通过评估所述数个序列读数的甲基化状态而判定癌症在所述对象中被侦测到,其中所述癌症的所述侦测包括下述中的一个或多个:
(i)一癌症的存在或不存在;
(ii)癌症的一阶段;
(iii)一癌症来源组织TOO的存在或不存在;
(iv)一癌细胞类型的存在或不存在;或
(v)至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个不同类型的癌症的存在或不存在。
186.如权利要求185所述的方法,其特征在于:
(a)所述数个基因组区域是选自列表1,且癌症的所述侦测包括膀胱癌的一侦测;
(b)所述数个基因组区域是选自列表2,且癌症的所述侦测包括乳癌的一侦测;
(c)所述数个基因组区域是选自列表3,且癌症的所述侦测包括子宫颈癌的一侦测;
(d)所述数个基因组区域是选自列表4,且癌症的所述侦测包括节肠直肠癌的一侦测;
(e)所述数个基因组区域是选自列表5,且癌症的所述侦测包括头颈癌的一侦测;
(f)所述数个基因组区域是选自列表6,且癌症的所述侦测包括肝胆癌的一侦测;
(g)所述数个基因组区域是选自列表7,且癌症的所述侦测包括肺癌的一侦测;
(h)所述数个基因组区域是选自列表8,且癌症的所述侦测包括黑色素瘤的一侦测;
(i)所述数个基因组区域是选自列表9,且癌症的所述侦测包括卵巢癌的一侦测;
(j)所述数个基因组区域是选自列表10,且癌症的所述侦测包括胰腺癌的一侦测;
(k)所述数个基因组区域是选自列表11,且癌症的所述侦测包括前列腺癌的一侦测;
(l)所述数个基因组区域是选自列表12,且癌症的所述侦测包括肾癌的一侦测;
(m)所述数个基因组区域是选自列表13,且癌症的所述侦测包括甲状腺癌的一侦测;
(n)所述数个基因组区域是选自列表14,且癌症的所述侦测包括上消化道癌的一侦测;或
(o)所述数个基因组区域是选自列表15,且癌症的所述侦测包括子宫癌的一侦测。
187.如权利要求185所述的方法,其特征在于:
(a)所述数个基因组区域是选自列表16或列表33,且癌症的所述侦测包括肛门直肠癌的一侦测;
(b)所述数个基因组区域是选自列表17或列表34,且癌症的所述侦测包括膀胱或尿道上皮癌的一侦测;
(c)所述数个基因组区域是选自列表18或列表35,且癌症的所述侦测包括乳癌的一侦测;
(d)所述数个基因组区域是选自列表19或列表36,且癌症的所述侦测包括子宫颈癌的一侦测;
(e)所述数个基因组区域是选自列表20或列表37,且癌症的所述侦测包括结肠直肠癌的一侦测;
(f)所述数个基因组区域是选自列表21或列表38,且癌症的所述侦测包括头颈癌的一侦测;
(g)所述数个基因组区域是选自列表22或列表39,且癌症的所述侦测包括肝或胆管癌的一侦测;
(h)所述数个基因组区域是选自列表23或列表40,且癌症的所述侦测包括肺癌的一侦测;
(i)所述数个基因组区域是选自列表24或列表41,且癌症的所述侦测包括黑色素瘤的一侦测;
(j)所述数个基因组区域是选自列表25或列表42,且癌症的所述侦测包括卵巢癌的一侦测;
(k)所述数个基因组区域是选自列表26或列表43,且癌症的所述侦测包括胰腺或胆囊癌的一侦测;
(l)所述数个基因组区域是选自列表27或列表44,且癌症的所述侦测包括前列腺癌的一侦测;
(m)所述数个基因组区域是选自列表28或列表45,且癌症的所述侦测包括肾癌的一侦测;
(n)所述数个基因组区域是选自列表29或列表46,且癌症的所述侦测包括肉瘤的一侦测;
(o)所述数个基因组区域是选自列表30或列表47,且癌症的所述侦测包括甲状腺癌的一侦测;
(p)所述数个基因组区域是选自列表31或列表48,且癌症的所述侦测包括上消化道癌的一侦测;或
(q)所述数个基因组区域是选自列表32或列表49,且癌症的所述侦测包括子宫癌的一侦测。
188.如权利要求185至187中任一项所述的方法,其特征在于:所述数个基因组区域包括所述列表的所述数个基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。
189.如权利要求185至188中任一项所述的方法,其特征在于:所述数个基因组区域包括所述列表当中的至少30个、50个、100个、150个、200个、250个、或300个、400个、500个、600个、700个、800个或1000个基因组区域。
190.如权利要求185至189中任一项所述的方法,其特征在于:所述数个基因组区域包括所述列表的少于90%、80%、70%、60%、50%、40%、30%或20%的基因组区域。
191.如权利要求185至190中任一项所述的方法,其特征在于:所述数个基因组区域包括所述列表的少于1000个、500个、400个、300个、200个或100个基因组区域。
192.一种包括数个探针的癌症化验检测组合,其特征在于:所述数个探针中的各者配置用于杂合至一经转换的cfDNA分子,所述转换的cfDNA分子对应于选自列表1至49中的任一者的数个基因组区域。
193.如权利要求192所述的癌症化验检测组合,其特征在于:所述经转换的cfDNA分子包括数个被处理以将未甲基化的胞嘧啶转换为脲嘧啶的cfDNA分子。
194.如权利要求192至193中任一项所述的癌症化验检测组合,其特征在于:所述数个探针是配置以杂合至数个核酸分子,所述数个核酸分子对应于或衍生自一列表的所述数个基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%,且所述列表是列表1至49中的一个或多个。
195.如权利要求192至194中任一项所述的癌症化验检测组合,其特征在于:所述数个探针配置用于杂合至数个核酸分子,所述数个核酸分子对应于或衍生自一列表的至少33个、53个、103个、174个、200个、250个、300个、400个、500个、600个、800个或1000个基因组区域,且所述列表是列表1至49中的一个或多个。
196.如权利要求192至195中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的至少3%、5%、10%、15%或20%不包括鸟嘌呤G。
197.如权利要求192至169中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者包括结合至所述经转换的cfDNA分子的数个甲基化位点的多个结合位点,其中所述多个结合位点中的至少80、85、90、92、95或98%仅包括CpG或CpA。
198.如权利要求192至197中任一项所述的癌症化验检测组合,其特征在于:所述数个探针中的各者是接合至一非核苷酸亲和部分。
199.如权利要求198所述的癌症化验检测组合,其特征在于:所述非核苷酸亲和部分是一生物素部分。
200.一种用于判定癌症在一对象中的存在或不存在的方法,其特征在于:所述方法包括步骤:
(i)以包括数个不同的寡核苷酸诱饵的一组合物捕捉来自所述对象的数个cfDNA片段;
(ii)定序被捕捉的数个cfDNA片段;及
(iii)将一经训练的分类器应用到数个cfDNA序列,以判定癌症的存在或不存在。
201.如权利要求200所述的方法,其特征在于:癌症的存在或不存在的一伪阳性判定的可能性是少于1%且癌症的存在或不存在的一准确判定的可能性是至少40%。
202.如权利要求200所述的方法,其特征在于:所述癌症是一第一期癌症,癌症的存在或不存在的一伪阳性判定的可能性是少于1%且癌症的存在或不存在的一准确判定的可能性是至少9%。
203.如权利要求200至202中任一项所述的组合物,其特征在于:所述数个cfDNA片段是经转换的cfDNA片段。
204.一种用于侦测一癌症类型的方法,其特征在于:所述方法包括步骤:
(i)以包括数个不同的寡核苷酸诱饵的一组合物捕捉来自一对象的数个cfDNA片段;
(ii)定序被捕捉的数个cfDNA片段,及
(iii)将一经训练的分类器应用到数个cfDNA序列,以判定一癌症类型;
其中所述数个寡核苷酸诱饵是配置以杂合至衍生自数个目标基因组区域的数个cfDNA片段;
其中所述数个目标基因组区域在一个或多个癌症类型中,相较于在一个不同的癌症类型中或在一个非癌症类型中被差异地甲基化;
其中癌症的一伪阳性判定的可能性是少于1%;且
其中对一癌症类型的一准确的指定的可能性是至少75%、至少80%、至少85%或至少89%或至少90%。
205.如权利要求204所述的方法,其特征在于:进一步包括步骤:将一经训练的分类器应用到数个cfDNA序列,以在判定所述癌症类型之前判定癌症的存在。
206.如权利要求200至205中任一项所述的方法,其特征在于:所述数个cfDNA片段是经转换的cfDNA片段。
207.如权利要求200至206中任一项所述的方法,其特征在于:所述癌症类型是选自于子宫癌、上消化道鳞状细胞癌、所有其它上消化道癌、甲状腺癌、肉瘤、尿道上皮肾癌、所有其它肾癌、前列腺癌、胰腺癌、卵巢癌、神经内分泌癌、多发性骨髓瘤、黑色素瘤、淋巴癌、小细胞肺癌、肺腺癌、所有其它肺癌、白血病、肝细胞癌、肝胆癌、头颈癌、结肠直肠癌、子宫颈癌、乳癌、膀胱癌及肛门直肠癌。
208.如权利要求200至207中任一项所述的方法,其特征在于:所述癌症类型是选自于肛门癌、膀胱癌、结肠直肠癌、食道癌、头颈癌、肝/胆管癌、肺癌、淋巴癌、卵巢癌、胰腺癌、浆细胞瘤及胃癌。
209.如权利要求200至208中任一项所述的方法,其特征在于:所述癌症类型是选自于甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿道上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胆管癌、胰腺癌、胆囊癌、上消化道癌、多发性骨髓瘤、淋巴瘤及肺癌。
210.如权利要求204至209中任一项所述的方法,其特征在于:所述癌症类型是一第一期癌症类型,且一准确的指定的可能性是至少70%或至少75%。
211.如权利要求204至210中任一项所述的方法,其特征在于:所述癌症类型是一第二期癌症类型,且一准确的指定的可能性是至少85%。
212.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是一肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且在具有被侦测到的癌症的数个样本中侦测肛门直肠癌的准确率是至少80%或88%。
213.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肛门直肠癌的准确率是至少75%或85%。
214.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且在具有被侦测到的癌症的数个样本中侦测膀胱及尿道上皮癌的准确率是至少80%或90%。
215.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期膀胱及尿道上皮癌的准确率是至少75%或85%。
216.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是乳癌,所述数个目标基因组区域是选自列表2、18或35,且在具有被侦测到的癌症的数个样本中侦测乳癌的准确率是至少80%或88%。
217.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期乳癌,所述数个目标基因组区域是选自列表2、18或35,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期乳癌的准确率是至少75%或84%。
218.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且在具有被侦测到的癌症的数个样本中侦测子宫颈癌的准确率是至少80%或88%。
219.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期子宫颈癌的准确率是至少75%或85%。
220.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且在具有被侦测到的癌症的数个样本中侦测结肠直肠癌的准确率是至少80%或88%。
221.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期结肠直肠癌的准确率是至少75%或85%。
222.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是头颈癌,所述数个目标基因组区域是选自列表5、21或38,且在具有被侦测到的癌症的数个样本中侦测头颈癌的准确率是至少80%或88%。
223.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期头颈癌,所述数个目标基因组区域是选自列表5、21或38,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期头颈癌的准确率是至少75%或85%。
224.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且在具有被侦测到的癌症的数个样本中侦测肝及胆管癌的准确率是至少80%或88%。
225.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肝及胆管癌的准确率是至少75%或85%。
226.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肺癌,所述数个目标基因组区域是选自列表7、23或40,且在具有被侦测到的癌症的数个样本中侦测肺癌的准确率是至少80%或88%。
227.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肺癌,所述数个目标基因组区域是选自列表7、23或40,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肺癌的准确率是至少75%或85%。
228.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是黑色素瘤,所述数个目标基因组区域是选自列表8、24或41,且在具有被侦测到的癌症的数个样本中侦测黑色素瘤的准确率是至少80%或88%。
229.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期黑色素瘤,所述数个目标基因组区域是选自列表8、24或41,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期黑色素瘤的准确率是至少75%或84%。
230.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是卵巢癌,所述数个目标基因组区域是选自列表9、25或42,且在具有被侦测到的癌症的数个样本中侦测卵巢癌的准确率是至少80%或88%。
231.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期卵巢癌,所述数个目标基因组区域是选自列表9、25或42,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期卵巢癌的准确率是至少75%或85%。
232.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且在具有被侦测到的癌症的数个样本中侦测胰腺及胆囊癌的准确率是至少80%或88%。
233.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期胰腺及胆囊癌的准确率是至少75%、81%或83%。
234.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是前列腺癌,所述数个目标基因组区域是选自列表11、27或44,且在具有被侦测到的癌症的数个样本中侦测前列腺癌的准确率是至少80%或88%。
235.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期前列腺癌,所述数个目标基因组区域是选自列表11、27或44,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期前列腺癌的准确率是至少75%或83%。
236.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肾癌,所述数个目标基因组区域是选自列表12、28或45,且在具有被侦测到的癌症的数个样本中侦测肾癌的准确率是至少80%或88%。
237.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肾癌,所述数个目标基因组区域是选自列表12、28或45,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肾癌的准确率是至少75%或85%。
238.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肉瘤,所述数个目标基因组区域是选自列表29或46,且在具有被侦测到的癌症的数个样本中侦测肉瘤的准确率是至少80%或88%。
239.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肉瘤,所述数个目标基因组区域是选自列表29或46,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期肉瘤的准确率是至少75%或83%。
240.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是甲状腺癌,所述数个目标基因组区域是选自列表13、30或47,且在具有被侦测到的癌症的数个样本中侦测甲状腺癌的准确率是至少80%或88%。
241.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期甲状腺癌,所述数个目标基因组区域是选自列表13、30或47,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期甲状腺癌的准确率是至少75%或87%。
242.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且在具有被侦测到的癌症的数个样本中侦测上消化道癌的准确率是至少80%或88%。
243.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期上消化道癌的准确率是至少75%或83%。
244.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是子宫癌,所述数个目标基因组区域是选自列表15、32或49,且在具有被侦测到的癌症的数个样本中侦测子宫癌的准确率是至少80%或88%。
245.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期子宫癌,所述数个目标基因组区域是选自列表16或33,且在具有被侦测到的癌症的数个样本中侦测第一期或第二期子宫癌的准确率是至少75%或85%。
246.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且对肛门直肠癌的敏感度是至少65%或75%。
247.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肛门直肠癌,所述数个目标基因组区域是选自列表16或33,且对第一期或第二期肛门直肠癌的敏感度是至少65%或55%。
248.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且对膀胱及尿道上皮癌的敏感度是至少50%或40%。
249.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期膀胱及尿道上皮癌,所述数个目标基因组区域是选自列表1、17或34,且对第一期或第二期膀胱及尿道上皮癌的准确率是至少40%或50%。
250.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是乳癌,所述数个目标基因组区域是选自列表2、18或35,且对乳癌的敏感度是至少20%或25%。
251.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期乳癌,所述数个目标基因组区域是选自列表2、18或35,且对第一期或第二期乳癌的敏感度是至少15%或18%。
252.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且对子宫颈癌的敏感度是至少25%或35%。
253.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期子宫颈癌,所述数个目标基因组区域是选自列表3、19或36,且对第一期或第二期子宫颈癌的敏感度是至少17%或22%。
254.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且对结肠直肠癌的敏感度是至少55%或65%。
255.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期结肠直肠癌,所述数个目标基因组区域是选自列表4、20或37,且对第一期或第二期结肠直肠癌的敏感度是至少25%、29%或34%。
256.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是头颈癌,所述数个目标基因组区域是选自列表5、21或38,且对头颈癌的敏感度是至少70%或80%。
257.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期头颈癌,所述数个目标基因组区域是选自列表5、21或38,且对第一期或第二期头颈癌的敏感度是至少70%或79%。
258.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且对肝及胆管癌的敏感度是至少75%或85%。
259.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肝及胆管癌,所述数个目标基因组区域是选自列表6、22或39,且对第一期或第二期肝及胆管癌的敏感度是至少65%或75%。
260.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肺癌,所述数个目标基因组区域是选自列表7、23或40,且对肺癌的敏感度是至少55%或62%。
261.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期肺癌,所述数个目标基因组区域是选自列表7、23或40,且对第一期或第二期肺癌的敏感度是至少20%或25%。
262.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是黑色素瘤,所述数个目标基因组区域是选自列表8、24或41,且对黑色素瘤的敏感度是至少40%或30%。
263.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是卵巢癌,所述数个目标基因组区域是选自列表9、25或42,且对卵巢癌的敏感度是至少70%或80%。
264.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且对胰腺及胆囊癌的敏感度是至少60%、70%或74%。
265.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期胰腺及胆囊癌,所述数个目标基因组区域是选自列表10、26或43,且对第一期或第二期胰腺及胆囊癌的敏感度是至少40%或50%。
266.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是肉瘤,所述数个目标基因组区域是选自列表29或46,且对肉瘤的敏感度是至少40%或50%。
267.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且对上消化道癌的敏感度是至少70%或60%。
268.如权利要求204至211中任一项所述的方法,其特征在于:所述癌症类型是第一期或第二期上消化道癌,所述数个目标基因组区域是选自列表14、31或48,且对第一期或第二期上消化道癌的敏感度是至少35%或45%。
269.如权利要求200至268中任一项所述的方法,其特征在于:包括数个寡核苷酸诱饵的所述组合物是权利要求1至139中任一项所主张权利的组合物,或是权利要求154至180或192至199中任一项的癌症化验检测组合的组合物。
270.如权利要求200至269中任一项所述的方法,其特征在于:所述数个基因组区域包括不多于1700个、1300个、900个、700个或400个基因组区域。
271.如权利要求200至270中任一项所述的方法,其特征在于:所述数个基因组区域的总尺寸是少于4MB、少于2MB、少于1100kb、少于750kb、少于270kb、少于200kb、少于150kb、少于100kb或少于50kb。
272.如权利要求200至271中任一项所述的方法,其特征在于:所述对象具有一个或多个癌症类型的提高的风险。
273.如权利要求200至272中任一项所述的方法,其特征在于:所述对象显现出与一个或多个癌症类型相关联的数个症状。
274.如权利要求200至273中任一项所述的方法,其特征在于:所述对象未被诊断出具有一癌症。
275.如权利要求200至274中任一项所述的方法,其特征在于:所述分类器是在衍生自至少100名具有一第一癌症类型的对象、至少100名具有一第二癌症类型的对象及至少100名不具有癌症的对象的数个经转换的DNA序列上被训练。
276.如权利要求275所述的方法,其特征在于:所述第一癌症类型是卵巢癌。
277.如权利要求275所述的方法,其特征在于:所述第一癌症类型是结肠直肠癌。
278.如权利要求275所述的方法,其特征在于:所述第一癌症类型是选自于甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿道上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胰腺癌、胆囊癌、食道癌、胃癌、多发性骨髓瘤、淋巴瘤、肺癌或自血病。
279.如权利要求200至278中任一项所述的方法,其特征在于:所述分类器在衍生自选自列表1至49中的任一者的至少1000个、至少2000个或至少4000个目标基因组区域的数个经转换DNA序列上被训练。
280.如权利要求279所述的方法,其特征在于:所述经训练的分类器通过下述判定癌症的存在或不存在,或一癌症类型:
(i)为所述样本产生一组的多个特征,其中在所述一组的多个特征中的每个特征包括一数字数值;
(ii)将所述一组的多个特征输入至所述分类器中,其中所述分类器包括一多项式分类器;
(iii)基于所述一组的多个特征,于所述分类器判定一组机率分数,其中所述一组机率分数包括每个癌症类型类别及每个非癌症类型类别的一个机率分数;及
(iv)基于在所述分类器的训练时被决定的一个或多个数值,以阀值衡量所述一组机率分数,以决定所述样本的一最终癌症分类。
281.如权利要求280所述的方法,其特征在于:所述一组的多个特征包括一组二元化的多个特征。
282.如权利要求280至281中任一项所述的方法,其特征在于:所述数字数值包括一个单一的二元数值。
283.如权利要求280至282中任一项所述的方法,其特征在于:所述多项式分类器包括一个多项式逻辑回归集成,被训练以为所述癌症预测一来源组织。
284.如权利要求280至283中任一项所述的方法,其特征在于:所述方法进一步包括步骤:相对一最小值,基于一最高两个机率分数差异,判定所述最终癌症分类,其中所述最小值对应于训练癌症样本的一预先界定的百分率,所述训练癌症样本的预先界定的百分率在所述分类器的训练时被指派正确的癌症类型作为最高分数。
285.如权利要求284所述的方法,其特征在于:
(i)依据判定所述最高两个机率分数差异超过所述最小值,指派一癌症标签作为所述最终癌症分类,所述癌症标签对应于由所述分类器判定的最高机率分数;及
(ii)依据判定所述头两个机率分数差异并未超过所述最小值,指派一不确定癌症标签作为所述最终癌症分类。
286.一种用于在需要的一对象中治疗一个类型的癌症的方法,其特征在于:所述方法包括步骤:
(i)通过权利要求200至285中任一项所述的方法侦测癌症的类型;及
(ii)对所述对象施予一抗癌治疗剂。
287.如权利要求286所述的方法,其特征在于:所述抗癌治疗剂是一化疗剂,选自由烷化剂、抗代谢剂、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉类)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物和铂基试剂组成的群组。
CN202080025351.1A 2019-02-05 2020-02-05 侦测癌症、癌症来源组织及/或一癌症细胞类型 Pending CN114026255A (zh)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US201962801556P 2019-02-05 2019-02-05
US201962801561P 2019-02-05 2019-02-05
US62/801,556 2019-02-05
US62/801,561 2019-02-05
US202062965342P 2020-01-24 2020-01-24
US202062965327P 2020-01-24 2020-01-24
USPCT/US2020/015082 2020-01-24
US62/965,342 2020-01-24
US62/965,327 2020-01-24
PCT/US2020/015082 WO2020154682A2 (en) 2019-01-25 2020-01-24 Detecting cancer, cancer tissue of origin, and/or a cancer cell type
USPCT/US2020/016673 2020-02-04
PCT/US2020/016673 WO2020163403A1 (en) 2019-02-05 2020-02-04 Detecting cancer, cancer tissue of origin, and/or a cancer cell type
PCT/US2020/016684 WO2020163410A1 (en) 2019-02-05 2020-02-05 Detecting cancer, cancer tissue of origin, and/or a cancer cell type

Publications (1)

Publication Number Publication Date
CN114026255A true CN114026255A (zh) 2022-02-08

Family

ID=71947303

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202080022481.XA Pending CN114026254A (zh) 2019-02-05 2020-02-04 侦测癌症、癌症来源组织及/或一癌症细胞类型
CN202080025351.1A Pending CN114026255A (zh) 2019-02-05 2020-02-05 侦测癌症、癌症来源组织及/或一癌症细胞类型

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202080022481.XA Pending CN114026254A (zh) 2019-02-05 2020-02-04 侦测癌症、癌症来源组织及/或一癌症细胞类型

Country Status (7)

Country Link
US (2) US20220098672A1 (zh)
EP (2) EP3921445A4 (zh)
CN (2) CN114026254A (zh)
AU (2) AU2020217719A1 (zh)
CA (2) CA3127894A1 (zh)
IL (2) IL285316A (zh)
WO (1) WO2020163403A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020069350A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
EP3921445A4 (en) * 2019-02-05 2022-10-26 Grail, LLC DETECTION OF CANCER, ORIGIN CANCER TISSUE, AND/OR A CANCER CELL TYPE
IL310441A (en) * 2021-09-20 2024-03-01 Grail Llc A plausible noise model of methylation with filtering of noisy regions
WO2023164713A1 (en) * 2022-02-25 2023-08-31 Tempus Labs, Inc. Probe sets for a liquid biopsy assay
WO2023197004A1 (en) * 2022-04-07 2023-10-12 Guardant Health, Inc. Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
CN116168761B (zh) * 2023-04-18 2023-06-30 珠海圣美生物诊断技术有限公司 核酸序列特征区域确定方法、装置、电子设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003054219A2 (en) * 2001-12-19 2003-07-03 Incyte Corporation Nucleic acid-associated proteins
US7842459B2 (en) * 2004-01-27 2010-11-30 Compugen Ltd. Nucleotide and amino acid sequences, and assays and methods of use thereof for diagnosis
US20070161031A1 (en) * 2005-12-16 2007-07-12 The Board Of Trustees Of The Leland Stanford Junior University Functional arrays for high throughput characterization of gene expression regulatory elements
US7901882B2 (en) * 2006-03-31 2011-03-08 Affymetrix, Inc. Analysis of methylation using nucleic acid arrays
US20090018031A1 (en) * 2006-12-07 2009-01-15 Switchgear Genomics Transcriptional regulatory elements of biological pathways tools, and methods
WO2010037001A2 (en) 2008-09-26 2010-04-01 Immune Disease Institute, Inc. Selective oxidation of 5-methylcytosine by tet-family proteins
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
SG10201705198UA (en) 2012-09-20 2017-07-28 Univ Hong Kong Chinese Non-invasive determination of methylome of fetus or tumor from plasma
WO2014184684A2 (en) * 2013-05-16 2014-11-20 Oslo Universitetssykehus Hf Methods and biomarkers for detection of hematological cancers
US20150197809A1 (en) * 2014-01-13 2015-07-16 Trustees Of Boston University Methods and assays relating to huntingtons disease and parkinson's disease
WO2015116837A1 (en) 2014-01-30 2015-08-06 The Regents Of The University Of California Methylation haplotyping for non-invasive diagnosis (monod)
WO2018204764A1 (en) * 2017-05-05 2018-11-08 Camp4 Therapeutics Corporation Identification and targeted modulation of gene signaling networks
EP3765637A1 (en) 2018-03-13 2021-01-20 Grail, Inc. Anomalous fragment detection and classification
EP4353834A3 (en) * 2019-01-25 2024-05-01 Grail, LLC Detecting nucleic acids from cells of a cancer type
EP3921445A4 (en) * 2019-02-05 2022-10-26 Grail, LLC DETECTION OF CANCER, ORIGIN CANCER TISSUE, AND/OR A CANCER CELL TYPE

Also Published As

Publication number Publication date
CA3127894A1 (en) 2020-08-13
AU2020219853A1 (en) 2021-08-26
IL285316A (en) 2021-09-30
IL285310A (en) 2021-09-30
EP3921445A1 (en) 2021-12-15
US20220098672A1 (en) 2022-03-31
AU2020217719A1 (en) 2021-08-19
CN114026254A (zh) 2022-02-08
EP3921444A4 (en) 2022-10-26
WO2020163403A1 (en) 2020-08-13
EP3921444A1 (en) 2021-12-15
US20220064737A1 (en) 2022-03-03
CA3129043A1 (en) 2020-08-13
EP3921445A4 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
US20210025011A1 (en) Methylation markers and targeted methylation probe panel
EP3914736B1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
US20200365229A1 (en) Model-based featurization and classification
US11685958B2 (en) Methylation markers and targeted methylation probe panel
CN114026255A (zh) 侦测癌症、癌症来源组织及/或一癌症细胞类型
US20210395841A1 (en) Detection and classification of human papillomavirus associated cancers
CN115461472A (zh) 使用合成添加训练样品进行癌症分类
WO2020163410A1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
US20230272486A1 (en) Tumor fraction estimation using methylation variants
US20210134394A1 (en) Endpoint analysis in early cancer detection
KR20240073026A (ko) 노이즈 영역 필터링을 사용한 메틸화 단편 확률론적 노이즈 모델

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Menlo Park, California, USA

Applicant after: GRAIL, Inc.

Address before: Menlo Park, California, USA

Applicant before: SDG OPS Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20220421

Address after: Menlo Park, California, USA

Applicant after: SDG OPS Ltd.

Address before: Menlo Park, California, USA

Applicant before: GRAIL, Inc.

TA01 Transfer of patent application right
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40063166

Country of ref document: HK