CN115956132A - 人乳头瘤病毒相关癌症的检测及分类 - Google Patents

人乳头瘤病毒相关癌症的检测及分类 Download PDF

Info

Publication number
CN115956132A
CN115956132A CN202180050446.3A CN202180050446A CN115956132A CN 115956132 A CN115956132 A CN 115956132A CN 202180050446 A CN202180050446 A CN 202180050446A CN 115956132 A CN115956132 A CN 115956132A
Authority
CN
China
Prior art keywords
hpv
cancer
cell
sequencing
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180050446.3A
Other languages
English (en)
Inventor
罗伯特·安倍·潘恩·卡列夫
M·赛勒斯·马厄
约翰·F·博桑
约格·布登诺
奥利弗·克劳德·维恩
亚历山大·P·菲尔兹
阿拉什·詹姆席狄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail LLC
Original Assignee
Grail LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail LLC filed Critical Grail LLC
Publication of CN115956132A publication Critical patent/CN115956132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • C12Q1/708Specific hybridization probes for papilloma
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oncology (AREA)
  • Virology (AREA)
  • Hospice & Palliative Care (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)

Abstract

本文描述的系统及方法包括检测一生物样品中HPV的存在或不存在,所述生物样品具有来自一对象的无细胞核酸及来自HPV毒株的潜在的无细胞核酸。基于所述生物样品中的HPV病毒核酸的检测,应用一基于HPV的多类分类器,所述分类器预测每种HPV相关癌症类型的评分。所述基于HPV的多类分类器在HPV阳性癌症样品的训练集上进行训练。基于所述HPV多类分类器预测的评分来确定与所述生物样品相关的HPV相关癌症。

Description

人乳头瘤病毒相关癌症的检测及分类
罗伯特·安倍·潘恩·卡列夫
M·赛勒斯·马厄
约翰·F·博桑
约格·布登诺
奥利弗·克劳德·维恩
亚历山大·P·菲尔兹
阿拉什·詹姆席狄
相关申请
本申请主张于2020年6月20日提交的标题为“人乳头瘤病毒相关癌症的检测及分类”的第63/041875号美国临时申请案的优先权,其全部内容以引用方式并入本文。
技术领域及背景技术
一些癌症已知与人乳头瘤病毒(HPV)感染有关,如肛门直肠癌、宫颈癌、外阴癌、阴茎癌及某些类型的头颈癌。HPV癌症(HPV相关癌症)的早期检测及分类可导致早期治疗,从而降低与HPV相关癌症相关的死亡率。因此,本领域需要用于检测及分类HPV相关癌症的改进方法。
发明内容
发明领域
本发明一般涉及癌症检测,更具体地说,涉及使用生物样品中的人乳头瘤病毒(HPV)的检测(例如,通过测序)的癌症检测。
在一些方面,一种用于检测一对象中的一HPV相关癌症的筛选方法,包括:(a)从所述测试对象获得一生物样品,其中所述生物样品包括来自所述测试对象的无细胞核酸及来自至少一种HPV毒株的潜在的无细胞核酸;(b)对所述第一生物样品中的所述无细胞核酸进行测序,以产生来自所述测试对象的多个序列读取(sequence reads);(c)确定映射到对应于一种或多种HPV毒株的一个或多个HPV参考基因组的所述多个序列读取的量,其中所述量包括映射于所述一个或多个HPV参考基因组的独特序列读取的计数;以及(d)当独特序列读取超过一截止值时,检测所述对象中的一HPV相关癌症。
本发明考虑了各种实施例。例如,在一些实施例中,所述独特序列读取(uniquesequence reads)的量包括映射到对应于所述一种或多种HPV毒株的一个或多个HPV参考基因组的独特序列读取的总数。所述一种或多种HPV毒株包括HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一种或多种。
在一些实施例中,测序包括全基因组测序、靶向测序或全基因组亚硫酸氢盐测序。在一些实施例中,所述HPV相关癌症包括宫颈癌、肛门生殖器癌及头颈癌中的至少一种。在一些实施例中,所述截止值是5个以上、10个以上及/或20个以上的独特序列读取。在一些实施例中,所述截止值是与检测HPV相关癌症的一目标特异性相关的一交叉验证的HPV DNA片段计数截止值。在一些实施例中,所述目标特异性是在99.0至99.9%的范围内。
在一些方面,一种用于筛选一对象中的一HPV相关癌症的存在的方法,包括:检测一生物样品中HPV的存在或不存在,所述生物样品包括来自所述对象的无细胞核酸及来自一HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸;基于所述生物样品中的HPV病毒核酸的一检测,应用一基于HPV的多类分类器,所述基于HPV的多类分类器预测多种HPV相关癌症类型中的各者的一评分,其中所述基于HPV的多类分类器在包括HPV阳性癌症样品的一训练集上进行训练;以及基于通过所述HPV多类分类器预测的所述评分,确定与所述生物样品相关的一HPV相关癌症。
本发明考虑了各种实施例,例如,在一些实施例中,检测所述生物样品中的HPV病毒核酸的存在或不存在包括:确定所述生物样品中的HPV片段的量,所述HPV片段源自所述HPV毒株集合中的至少一种HPV毒株的潜在的无细胞核酸;将HPV片段的量与一截止值进行比较;以及当所述量超过所述截止值时,检测所述生物样品中的HPV的存在。
在一些实施例中,确定所述HPV片段的量包括:对来自一种或多种HPV毒株的所述无细胞核酸及潜在的无细胞核酸进行测序,以获得多个序列读取;以及基于映像到对应于所述一种或多种HPV毒株的一个或多个HPV参考基因组的所述多个序列读取的一总计数来确定HPV片段的量。
在一些实施例中,所述测序是通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序来执行。
在一些实施例中,所述截止值是至少6个独特HPV片段的计数,每个独特HPV片段映射到对应于所述HPV毒株集合中的至少一种HPV毒株的一HPV参考基因组。
在一些实施例中,所述HPV毒株集合包括HPV 16或HPV 18中的至少一种。在一些实例中,所述HPV毒株集合包括HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一种或多种。
在一些实施例中,所述基于HPV的多类分类器基于对从所述生物样品中的一HPV毒株集合中的所述至少一种HPV毒株的所述潜在无细胞核酸进行测序得到的特征来预测所述评分,其中所述特征包括甲基化衍生特征、HPV片段的总计数及HPV片段的二进制计数中的一者或多者。在一些实施例中,所述甲基化衍生特征包括区分HPV相关癌症类型及其他癌症类型之间的成对比较的特征,其中所述其他癌症类型包括肺癌。
在一些实施例中,所述测序是通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序来执行。在一些实施例中,通过使用一杂交捕获套组的靶向测序来执行测序,所述杂交捕获套组含有靶向与所述HPV毒株集合相对应的HPV参考基因组的探针。在一些实施例中,所述探针平铺所述靶向HPV参考基因组。
在一些实施例中,所述多种HPV相关癌症包括宫颈癌、肛门生殖器癌及头颈癌。
在一些实施例中,所述基于HPV的多类分类器包括多项逻辑回归分类器。在一些实施例中,所述基于HPV的多类分类器的训练限于HPV阳性癌症样品,其中所述HPV阳性癌症样品包括宫颈癌、肛门直肠癌及头颈癌中的至少一种。
在一些实施例中,所述方法包括:基于检测到所述生物样品中不存在HPV:放弃应用所述基于HPV的多类分类器;或确定所述生物样品中HPV相关癌症的不存在。
在一些方面,一种用于预测含有无细胞核酸的一测试样品中的癌症的存在或不存在的方法,所述无细胞核酸包括来自一测试对象的无细胞核酸以及来自至少一种HPV毒株的潜在的无细胞核酸,所述方法包括:访问具有一第一癌症类型的所述测试样品,其中所述第一癌症类型由一第一多类分类器确定,所述第一多类分类器基于对来自所述测试样品中的所述无细胞核酸进行测序得到的一特征集合,产生所述第一癌症类型的一初始评分;根据确定所述第一癌症类型是一HPV相关癌症类型:将一第二多类分类器应用于所述特征集合以确定对应于一第二癌症类型的一第二评分,其中所述第二多类分类器仅在HPV阳性癌症样品上训练;以及基于所述第二癌症类型,确定所述测试样品的一癌症程度,其中所述癌症程度包括癌症的存在或不存在、癌症类型或起源癌组织。
本发明考虑了各种实施例。例如,在一些实施例中,所述HPV相关癌症类型包括宫颈癌、肛门生殖器癌及头颈癌。在一些实施例中,所述特征集合中的特征包括一个或多个甲基化衍生特征、HPV片段的总计数、HPV片段的二进制计数及/或HPV信号状态。在一些实施例中,所述HPV片段的总计数或所述HPV片段的二进制计数包括映射到HPV 16及/或HPV 18参考基因组的独特序列读取的一量化计数。
在一些实施例中,所述HPV信号状态包括由HPV无细胞核酸片段的存在定义的HPV阳性信号状态或由HPV无核酸片段的不存在定义的HPV阴性信号状态;进一步其中当映射到HPV 16及HPV 18参考基因组的独特序列读取的一定量大于一阈值时,确认所述HPV无细胞核酸片段的存在。
在一些实施例中,所述阈值是映射于HPV 16及HPV 18参考基因组的6个独特序列读取。在一些实施例中,所述测序是通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序来执行。在一些实施例中,所述测序包括所述测试样品中的所述无细胞核酸中的HPV 16及HPV 18的靶向下拉(targeted pulldown)。
在一些实施例中,所述第一多类分类器包括对应于多种HPV相关癌症类型及非HPV相关癌症类型的多个分类。在一些实施例中,所述第二多类分类器包括对应于三种HPV相关癌症类型的至少三个分类,所述三种HPV相关癌症类型包括宫颈癌、肛门生殖器癌及头颈癌。
在一些实施例中,使用从多个HPV相关癌症类型样品及非HPV相关癌类型样品导出的一训练特征集合来训练所述第一多类分类器,所述训练特征集合包括甲基化衍生特征;以及其中使用来自训练的特征集合的一受限训练特征集合来训练所述第二多类分类器,所述受限训练特征集合被限制为源自所述多个HPV相关癌症类型样品的特征。
在一些实施例中,所述方法包括:根据确定所述第一癌症类型不是一HPV相关癌症类型,放弃将所述第二多类分类器应用于所述特征集合;以及基于所述第一癌症类型确定所述测试样品的一癌症程度,其中所述癌症程度包括癌症的存在或不存在、癌症类型或起源癌组织。
在一些实施例中,所述HPV片段的总计数或所述HPV片段的二进制计数包括映射到一个或多个HPV参考基因组的独特序列读取的一量化计数。在一些实施例中,所述HPV信号状态包括由HPV无细胞核酸片段的存在定义的一HPV阳性信号状态或由HPV无核酸片段的不存在定义的一HPV阴性信号状态;进一步其中当映射到一个或多个HPV参考基因组的独特序列读取的一定量大于一阈值时,确认所述HPV无细胞核酸片段的存在。在一些实施例中,所述阈值是映射于一个或多个HPV参考基因组的6个独特序列读取。在一些实施例中,所述HPV参考基因组与HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一种或多种毒株相关。
在一些方面,一种检测及分类癌症的方法,所述方法包括:接受包含无细胞核酸片段的一生物样品的测序数据;从所述测序数据导出一特征集合,其中所述特征集合包括甲基化衍生特征以及以下中的至少一个:HPV片段的总计数、HPV片段的二进制计数或HPV信号状态;将一多类分类器应用于所述特征集合,其中所述多类分类器预测多种癌症类型中的各者的一概率可能性,其中所述多种癌症类型包括HPV相关癌症类型及非HPV相关癌症类型;以及基于所述概率可能性,确定一癌症分类,其中所述癌症分类包括癌症的存在或不存在、癌症类型、起源癌组织、HPV相关癌症的存在或不存在、HPV相关癌症类型或HPV相关癌症的起源癌组织。
本发明考虑了各种实施例,例如上文及本文中进一步描述的众多变化及实例中的任一者。
在一些方面,一种检测一测试样品中的癌症程度的方法,所述测试样品包括来自一测试对象的无细胞核酸及来自一HPV毒株的潜在的无细胞核酸,所述方法包括:获得通过对所述无细胞核酸测序产生的测序数据;基于从所述测序数据确定的甲基化衍生特征产生一第一特征集合;基于所述测序数据中的HPV衍生序列读取的一计数来产生至少一个第二特征;将一第一多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第一癌症分类,其中所述多类分类器在与阳性癌症样品相对应的训练样品上进行训练,所述阳性样品包括HPV相关癌症类型及非HPV相关癌症类型;根据确定所述第一癌症分类是对应于一HPV相关癌症类型:将一第二多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第二癌症分类,其中所述第二多类分类器仅在具有HPV相关癌症类型的阳性样品上进行训练;以及基于所述第一癌症分类及/或所述第二癌症分类,确定一癌症程度。
本发明考虑的各种实施例,例如,上文及本文中进一步描述的众多变化及实例中的任一者。
在各种实施例中,一种系统包括:一计算机处理器及一存储器,所述存储器存储计算机程序指令,当所述程序被处理器执行时,所述程序使所述处理器执行本文所述的任何方法。在各种实施例中,一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括:当被包括一处理器的一电子装置执行时,所述程序使所述装置执行本文所述的任何方法。
附图说明
在说明书附图的图式中,通过实例而非限制的方式说明本文公开的多种实施例。在附图的几个视图中,相同的附图标记表示相应的部分。
图1是根据各种实施例的用于产生分类器以预测疾病状态的方法的流程图。
图2A图解说明根据一个实施例的用于对核酸样品进行测序的装置的流程图。
图2B是根据各种实施例的用于处理序列读取的分析系统的框图。
图3是根据各种实施例的描述核酸测序的过程的流程图。
图4A是根据各种实施例的图3的过程的一部分,对核酸进行测序以获得甲基化信息及甲基化状态载体的图示。
图4B图解说明根据各种实施例来产生对照组的数据结构。
图4C图解说明根据各种实施例的描述确定来自样品的异常甲基化片段的过程的流程图。
图5是根据各种实施例的参考基因组的区块的图示。
图6是根据各种实施例的确定用于训练分类器的特征的过程的图示。
图7A包括根据各种实施例的基于各种模型指示分类器性能的混淆矩阵(confusion matrices)。
图7B包括根据各种实施例的指示在不同训练集上训练的分类器的性能的混淆矩阵。
图7C包括根据各种实施例的指示在不同训练集上训练的分类器的性能的进一步混淆矩阵。
图8是根据各种实施例的基于模型的特征化的方法的流程图。
图9A图解说明根据各种实施例的起源组织分类器对一组癌症的灵敏度。
图9B图解说明根据各种实施例的起源组织分类器对另一组癌症的灵敏度。
图10A图解说明根据各种实施例的在不同的癌症阶段的起源组织分类器的灵敏度。
图10B进一步图解说明根据各种实施例的起源组织分类器在不同癌症阶段的灵敏度。
图11图解说明根据各种实施例的代表起源组织定位的准确性的性能网格。
图12A图解说明根据各种实施例的HPV片段计数与样品分数的图示。
图12B图解说明根据各种实施例的比较各种癌症类型分类的HPV片段计数的各种条形图。
图13A图解说明根据各种实施例的显示各种癌症类型的cfDNA样品中的HPV 16及HPV 18片段计数的条形图。
图13B图解说明根据各种实施例的显示各种癌症类型的组织样品中的HPV 16及HPV 18片段计数的条形图。
图13C图解说明根据各种实施例的显示不同HPV状态的HPV片段计数的条形图。
图13D图解说明根据各种实施例的显示不同癌症样品中按肿瘤类型划分的HPV片段计数的条形图。
图13E图解说明根据各种实施例的显示按肿瘤位置划分的头颈HPV片段计数的条形图。
图14图解说明根据各种实施例的表明一些当前未检测到的癌症高于特定特异性阈值截止值(threshold cutoffs)的图示。
图15A图解说明根据各种实施例的来自所有样品的训练集的特征的UMAP嵌入(UMAP embedding)。
图15B图解说明根据各种实施例的来自评估样品的训练集的特征的UMAP嵌入。
图15C图解说明根据各种实施例的来自所有样品的训练集的选择性特征的UMAP嵌入。
图15D图解说明根据各种实施例的来自评估样品的训练集的选择性特征的UMAP嵌入。
图16图解说明根据各种实施例的显示对HPV阳性患者的头部及颈部特征偏差的各种图示。
图17A图解说明根据各种实施例的表示头部及颈部特征偏差的减小的各种图示。
图17B图解说明根据各种实施例的表示头部及颈部特征偏差的减小的进一步图示。
图18A图解说明根据各种实施例的在头部及颈部特征偏差的减小之后,来自所有样品的训练集的特征的UMAP嵌入。
图18B图解说明根据各种实施例的在头部及颈部特征偏差的减小之后,来自用于评估样品的训练集的特征的UMAP嵌入。
图19A图解说明根据各种实施例的显示多类分类器的分类结果的混淆矩阵。
图19B图解说明根据各种实施例的显示基于HPV的多类分类器的分类结果的混淆矩阵。
图19C图解说明根据各种实施例的显示其他基于HPV的多类分类器的分类结果的混淆矩阵。
图20A图解说明根据各种实施例的显示临床诊断的HPV状态的HPV DNA片段计数的条形图。
图20B图解说明根据各种实施例的显示按组织类型划分的肿瘤活检中的HPV 16与HPV 18DNA片段计数的条形图。
图20C图解说明根据各种实施例的显示按肿瘤位置划分的头颈癌参与者中HPVDNA片段计数的条形图。
图20D图解说明根据各种实施例的显示按癌症类型划分的血浆cfDNA样品中HPVDNA片段计数的条形图。
图20E图解说明根据各种实施例的肛门癌、宫颈癌、肺癌及头颈癌的可检测癌症的UMAP嵌入。
图21图解说明根据各种实施例的用于筛查以检测对象中的HPV相关癌症的实例方法的流程图。
图22是根据各种实施例的用于筛查一对象中HPV相关癌症的存在的实例方法的流程图。
图23是根据各种实施例的用于预测含有无细胞核酸的测试样品中癌症的存在或不存在的实例方法的流程图。
图24是根据各种实施例的用于检测及分类癌症的实例方法的流程图。
图25是根据各种实施例的用于检测测试样品中癌症程度的实例性方法的流程图,所述测试样品包括来自所述测试对象的无细胞核酸及来自HPV毒株的潜在无细胞核酸。
具体实施例
现在将详细参考几个实施例,所述实施例的实例在附图中示出。应当注意,在任何可行的情况下,相似或类似的附图标记可用于附图中并且可指示相似或类似的功能。还应当注意,本文引用的所有公开材料(专利申请案、专利、论文、会议记录等)的内容通过引用其整体的方式并入本文中。
定义
除非另有定义,否则本文使用的所有技术及科学术语具有本说明书所属领域的技术人员通常理解的含义。如本文所用,下述术语具有以下赋予的含义。
术语“个人”是指人类个体。术语“健康个体”指假定未患有癌症或疾病的个体。
术语“对象(subject)”是指DNA被分析的个体。对象可以是测试对象,其DNA将使用本文所述的全基因组测序或靶向小组来评估该对象是否具有疾病状态(例如,癌症、癌症类型或起源的癌症组织)。对象也可以是已知未患有癌症或其他疾病的对照组的一部分。对象也可以是已知患有癌症或另一种疾病的癌症或其他疾病组的一部分。对照组和癌症/疾病组可用于协助设计或验证靶向套组。
术语“参考样品”是指从具有已知疾病状态的对象获得的样品。
术语“训练样品”是指从已知疾病状态获得的样品,该样品可用于产生序列读取。训练样品可应用于概率模型以产生可用于疾病状态分类的特征。
术语“测试样品”是指可能具有未知疾病状态的样品。
术语“序列读取(sequence read)”是指从个体获得的样品中的核苷酸序列读取。序列读取可以从所述样品中的核酸片段产生。序列读取可以是从源自单个原始核酸分子的多个扩增子的多个序列读取产生的折叠序列读取。在一些实施例中,所述序列读取可以是去重复序列读取。序列读取可以通过本领域已知的各种方法获得。
术语“疾病状态”是指疾病的存在或不存在、疾病类型及/或起源的疾病组织。例如,在一个实施例中,本发明提供用于检测癌症(即,癌症的存在或不存在)、癌症类型或起源癌组织的方法、系统及非暂时性计算机可读介质。
术语“起源组织(tissue of origin)”或“TOO”是指疾病状态可能产生或起源的器官、器官组、身体区域或细胞类型。例如,起源组织或癌细胞类型的鉴定通常允许鉴定适当的下一步骤以进一步诊断、分期及决定治疗方式。在某些情况下,起源组织或TOO可与“癌症信号起源(cancer signal origin)”或“CSO”互换使用。
本文中使用的术语“甲基化”是指甲基被添加到DNA分子中的化学过程。DNA的四个碱基中的两个,胞嘧啶(“C”)及腺嘌呤(“A”)可以被甲基化。例如,胞嘧啶碱基的嘧啶环上的氢原子可以被转换为甲基,形成5-甲基胞嘧啶。甲基化倾向于发生在胞嘧啶及鸟嘌呤的二核苷酸上,本文称为“CpG位点”。在其他情况下,甲基化可以发生在不属于CpG位点的胞嘧啶或其他非胞嘧啶的核苷酸上;然而,这些情况比较罕见。在本发明中,为了清楚起见,甲基化参照CpG位点进行讨论。然而,本文描述的原理同样适用于非CpG环境中的甲基化检测,包括非胞嘧啶甲基化。例如,腺嘌呤甲基化已在细菌、植物及哺乳动物的DNA中被观察到,尽管它受到的较少的关注。
在这些实施例中,用于检测甲基化的湿实验室分析可能与本文所述的本领域已知的不同。此外,所述甲基化状态向量可能包含一些元素,这些元素通常是甲基化发生或未发生的位点的向量(即使这些位点不是特定的CpG位点)。通过该替换,本文所述的其余过程可以是相同的,因此本文所述的发明概念可以适用于那些其他形式的甲基化。
术语“CpG位点”是指DNA分子的一个区域,在该区域中胞嘧啶核苷酸之后是鸟嘌呤核苷酸,其碱基的线性序列沿其5’至3’方向排列。“CpG”是5’-C-磷酸-G-3’的简写,它是仅由一个磷酸基团分隔的胞嘧啶及鸟嘌呤;磷酸盐将DNA中的任何两个核苷酸连接在一起。CpG二核苷酸中的胞嘧啶可以被甲基化形成5-甲基胞嘧啶。
术语“甲基化位点”是指DNA分子中可以添加甲基的单个位点。“CpG”位点是最常见的甲基化位点,但甲基化位点不限于CpG位点。例如,DNA甲基化可能发生在CHG及CHH中的胞嘧啶,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。5-羟甲基胞嘧啶形式的胞嘧啶甲基化及其中的特征也可以使用本文公开的方法及程序来评估(参见例如WO 2010/037001及WO 2011/127136,其通过引用整体的方式并入本文中)。术语“低甲基化(hypomethylated)”或“高甲基化(hypermethylated)”是指含有多个CpG位点的DNA分子的甲基化状态(例如,超过3、4、5、6、7、8、9、10个等),其中CpG位点的高百分比(例如,大于80%、85%、90%或95%,或50%至100%的范围内的任何其他百分比)分别为非甲基化(低甲基化)或甲基化(高甲基化)。
术语“无细胞脱氧核糖核酸”、“无细胞DNA(cell free DNA)”或“cfDNA”是指在血液、汗液、尿液或唾液等体液中循环并源自一个或多个健康细胞及/或一个或多个癌细胞的脱氧核糖核酸片段。
术语“循环肿瘤DNA(circulating tumor DNA)”或“ctDNA”是指源自肿瘤细胞或其他类型的癌细胞的脱氧核糖核酸片段,其可通过诸如死亡细胞的凋亡或坏死的生物过程或由活的肿瘤细胞主动释放到个体的体液中,如血液、汗液、尿液或唾液中。
病毒无细胞核酸分子的检测
如本文更详细描述的内容,在一些实施例中,检测及评估病毒无细胞核酸分子以产生癌症分类,例如用于检测癌症程度或从一对象的生物样品中确定癌症类型。在本文中描述在癌症分类期间用于病原体分析的多种系统及方法的实例并且进一步地例如在于2019年4月24日提交的标题为“使用病原体核酸载量来确定对象是否具有癌症症状的系统及方法”的国际专利申请号PCT/US2019/028916以及于2018年7月25日提交的标题为“利用不含细胞的病毒核酸改善癌症筛选”的国际专利申请号PCT/CN2018/097072中描述,其内容通过引用整体的方式并入本文中。
病原体载量的检测
本发明的一些方面提供多种筛选检测对象中的癌症症状的方法,所述方法基于源自诸如人乳头瘤病毒(HPV)的病原体的遗传材料以及在一些实例中特别是最致癌的HPV类型。例如,一种方法可以包括从所述测试对象获得第一生物样品。所述第一生物样品包括来自所述检测对象的无细胞核酸及来自一病原体的集合中的至少一种病原体的潜在无细胞核酸,例如一HPV毒株集合中的至少1种HPV毒株。此类HPV毒株可包括HPV 16及/或HPV 18。在一些实例中,此类HPV毒株包括可被认为是最致癌的毒株,例如以下任何一种HPV毒株:16、18、31、33、35、39、45、51、52、56、58、59、66及68。
在一些实施例中,可以对所述第一生物样品中的无细胞核酸进行测序(例如,通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序等)以从所述对象中产生多个序列读取,并且可以从中检测HPV衍生片段。在其他实施例中,可以使用基于扩增的检测手段检测HPV衍生片段(或HPV序列)(例如,HPV片段或HPV序列读取),例如通过聚合酶链式反应(PCR)、数字PCR(dPCR)、定量PCR(qPCR)、实时PCR(RT-PCR)、定量实时PCR(qRT-PCR)或本领域中其他已知的手段来进行检测。针对所述病原体的集合(例如,HPV毒株)中的每个各自的病原体,可以确定对于各自的病原体的映射到病原体目标参考基因组(如HPV参考基因组)的多个HPV片段或序列读取的对应量,从而获得HPV片段的量,或者在某些情况下,获得跨越多个HPV参考基因组的独特序列读取的总计数(例如,映像到HPV 16及HPV 18参考基因组的序列读取的总计数)。所述序列读取的量可用于确定测试对象是否患有癌症,例如测试对象患有癌症的可能性。这种癌症状况可以是例如癌症的程度及/或癌症类型,例如HPV引起的癌症类型,其可以包括例如肛门直肠癌、宫颈癌、外阴癌、阴茎癌及某些亚型的头颈癌。
应当理解,病原体参考基因组(例如,HPV参考基因组)可以包括几个不同的参考基因组(如,来自几个不同的HPV毒株)或来自一个或多个病原体参考基因组的几个不同区域。在一些实例中,来自所述测试对象的序列读取只需要映像到这些参考基因组中的一者上,以便计数为映像到病原体目标参考的病原体序列(例如,HPV)。因此,来自所述测试对象的第一序列读取映射到第一参考基因组或病原体参考基因组的第一区域,所述第一序列读取将有助于映射到病原体参考基因组的序列读取的量,来自所述测试对象的映射到第二参考基因组或病原体参考基因组的第二区域的第二序列读取也是如此。然而,如果来自所述测试对象的第三序列读取没有映射到几个不同的参考基因组中的任一者或多个病原体参考基因组的几个不同区域中的任一者,则该第三序列读取将不会对映射到病原体参考基因组上的序列读取的量做出贡献。
在一些实例中,所述方法依赖于一套组(即,靶向病毒套组),所述套组包括来自一个或多个病原体基因组(例如,一个或多个HPV基因组)的几个靶向区域。例如,在这样的实施例中,所述靶向套组(targeted panel)可以包括富集探针以富集及下拉来自一个或多个HPV毒株(例如,HPV-16及/或HPV-18)的DNA分子。在一些实例中,针对特定病原体的靶向套组(例如,靶向HPV套组)被限于来自所述病原体的最小或最大数量的区域,例如100个区域或更少,50个区域或更少,或25个区域或更少。在一些实例中,如本文所述,可以基于期望的套组尺寸及其可用空间来确定这样的阈值。
在一些实例中,所述病原体参考基因组包括一病原体参考基因组的集合,来自样品的序列读取被汇集在一起并映射到每个病原体参考基因组。在一些这样的实例中,可以使用单独的计数来追踪映射到每个病原体参考基因组的序列读取。
在一些实例中,来自所述测试对象的序列读取映射到各别HPV毒株的HPV参考基因组中的序列包括:(i)多个序列读取(来自所述测试对象)中的一个或多个序列读取与(ii)所述各别HPV病原体的HPV参考基因组中的序列之间的序列比对。
在一些实例中,来自所述测试对象的序列读取映射到各别病原体的HPV参考基因组中的序列包括:(i)多个序列读取中的一个或多个序列读取中的序列与(ii)各别HPV病原体的HPV参考基因组中的序列之间的甲基化衍生特征或特征的比较。
在一些实例中,所述方法依赖于全基因组测序。在一些这样的实例中,所述病原体参考基因组包括一HPV毒株集合中的每个HPV毒株的HPV参考基因组。然后,对于所述HPV毒株集合中的每个各别HPV毒株,确定映射到每个各别HPV基因组中的序列的多个序列读取的相应量。这种比对可以通过使用所述各别病原体的整体参考基因组或来自所述各别病原体的有限区域集合来比对所述多个序列读取中的每个序列读取来执行。
在一些实例中,各别HPV毒株的HPV参考基因组包括所述各别HPV毒株的参考基因组的至少一部分(例如,小于10%的参考基因组、小于25%的参考基因组,小于50%的参考基因组,小于90%的参考基因组或界于10%至90%的参考基因组等)。在某些情况下,比对可以通过使用所述各别病原体的整体参考基因组或所述参考基因组的一部分来比对所述多个序列读取中的每个序列读取来执行。
在一些实例中,所述方法依赖于全基因组亚硫酸氢盐测序。在这样的实例中,方法可以包括:对于所述HPV毒株集合中的每个各别HPV毒株,所述多个序列读取的对应量映射于所述HPV参考基因组中的各者的序列。在一些实施例中,方法可以包括:对于所述各别HPV毒株,确定一甲基化衍生特征或与所述多个序列读取中的一个或多个序列读取相关的特征。
在一些实例中,所述HPV毒株集合是单一HPV毒株。在替代的实施例中,所述HPV毒株集合是多个HPV毒株,并且针对所述多个HPV毒株中的每个各别HPV毒株,确定映射到HPV参考基因组中的序列的所述多个序列读取的对应量。在一些实施例中,所述HPV毒株集合包括200至500个HPV毒株、2至50个HPV毒株、2至30个HPV毒株或2个HPV毒株。
将反映病原体载量的量与参考/截止值进行比较。
在一些实例中,使用所述序列读取的量以确定所述测试对象是否具有癌症症状或具有癌症症状的可能性包括:确定所述HPV毒株集合中的一HPV毒株的一序列读取的截止值或阈值量,或确定包含所述HPV毒株集合中的所有HPV毒株的截止值或阈值量。在这样的实例中,可以将映射到来自所述测试对象的HPV毒株的HPV参考基因组的多个序列读取的量的定量与截止值进行比较,以确定癌症的程度及/或癌症类型。例如,在一些实例中,如果映像到所述HPV参考基因组的序列读取的总计数超过截止值或阈值,则可认为所述测试对象患有或可能患有HPV衍生癌症。附加地及/或替代地,在一些实例中,如果映射到所述HPV参考基因组的序列读取的总计数超过所述截止值或阈值,则可以通过诸如HPV特异性多类分类器的一个或多个专家分类器进一步分析所述序列读取及/或其数据。在一些实例中,这样的HPV特异性多类分类器可以仅在HPV相关的阳性癌症样品上进行训练,并且在某些情况下可以鉴定及区分多种HPV引起的癌症类型以产生精确的结果。
基于甲基化的测序及多类分类器的概述
在一些实施例中,本系统及方法利用基于甲基化的测序及由此导出的数据来产生使用二进制或多类分类器的癌症分类。本文描述基于甲基化的测序、特征化、分类器及性能的多种系统及方法的多个实例并且进一步地在例如于2020年5月13日提交的标题为“基于模型的特征化和分类”的美国专利申请号15/931,022中以及在于2019年5月13日提交的标题为“异常的片段检测及分类”的国际专利申请号15/931,022中描述,其内容通过引用整体的方式并入本文中。
方法的概述
图1是根据各种实施例的用于鉴定多个特征以产生用于预测疾病状态(例如,疾病的存在或不存在、疾病的类型及/或疾病的起源组织)的分类器的方法100的流程图。图2B是根据各种实施例的用于处理序列读取的分析系统200的框图。在一些实施例中,所述分析系统200执行所述方法100以处理来自核酸样品的片段的序列读取。所述方法100包括但不限于以下步骤:产生序列读取;训练与多个不同疾病状态(例如,不同癌症类型)中的各者相关的概率模型;应用所述概率模型以根据源自与所述多个疾病状态中的各者相关联的样品中的序列读取的概率来确定一数值,所述多个疾病状态与每个概率模型相关联;通过确定具有超过阈值的数值的序列读取的计数来鉴定特征;使用所述特征产生分类器,并且选择性地应用所述分类器以预测与疾病状态相关联的疾病状态及/或起源组织。其中的各者都是关于所述分析系统200的组件并参考图2至6而描述的。在图2B所示的实施例中,所述分析系统200包括序列处理器210、机器学习引擎220、概率模型230及分类器240。
在步骤110中,所述序列处理器210从多个样品中产生第一序列读取集合,每个样品具有已知或疑似的疾病状态,例如疾病的存在或不存在、疾病类型及/或起源的疾病组织。例如,在一些实施例中,所述多个样品可以包括来自已知患有癌症的个体的任何数量的癌症样品及/或来自健康个体的非癌症样品。此外,所述样品可以包括任何无细胞核酸样品(例如,cfDNA)、实体肿瘤样品及/或其他类型的样品。如本领域技术人员将理解的,下一代测序程序可以从单个原始核酸分子产生多个序列读取。因此,在一些实施例中,所述序列处理器210可以使用已知的去重复及/或折叠序列读取的方法,以去除重复的序列读取,并从产生一个或多个原始序列读取的单个原始核酸分子鉴定单个序列读取。
分析方案的实例
图3是描述根据各种实施例的核酸测序的过程300的流程图。在一些实施例中,所述过程300被执行以产生作为图1的方法100的步骤110的一部分的所述序列读取。
在步骤310中,从一对象中提取核酸样品(例如,DNA或RNA)。在本发明中,DNA及RNA可以互换使用,除非另有说明。即,本文描述的实施例可适用于DNA及RNA类型的核酸序列。然而,出于清楚及解释的目的,本文所描述的实例可以聚焦于DNA。所述样品可以包括源自人类基因组的任何子集的核酸分子,包括整个基因组。所述样品可包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中,用于抽取血液样品的方法(例如,注射器或手指穿刺)的侵入性可以比用于获得组织活检的程序更小,用于获得组织活检的程序可能需要手术。所述提取的样品可以包括cfDNA及/或ctDNA。如果一对象具有疾病状态,例如癌症,则从所述对象提取的样品中的无细胞核酸(例如,cfDNA)通常包括可用于评估疾病状态的核酸的可检测水平。
在步骤315中,在一些实施例中(例如,在后续分析及分类需要甲基化衍生特征的情况下),所述提取的核酸(例如,包括cfDNA片段)被选择性地处理以将非甲基化胞嘧啶转化为尿嘧啶。在其他实施例中(例如,在需要至少一种HPV衍生特征用于后续分析及分类的情况下),所述提取的核酸可以或可以不进行处理以将非甲基化胞嘧啶转化为尿嘧啶。在一些实施例中,所述方法300使用所述样品的亚硫酸氢盐处理,其将非甲基化的胞嘧啶转化为尿嘧啶,而不转化甲基化的胞嘧啶。例如,市售的试剂盒,如EZ DNA MethylationTM-Gold,EZDNA MethylationTM-Direct or an EZ DNA MethylationTM-Lightning kit(取自Zymo研究公司(Irvine,CA))可用于亚硫酸氢盐转化。在其他实施例中,非甲基化胞嘧啶转化成尿嘧啶是使用酶促反应完成的。非甲基化胞嘧啶转化为尿嘧啶可以通过酶反应实现。例如,转化可以使用市售试剂盒将非甲基化胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs,Ipswich,MA)。
在步骤320中,制备测序文库。在一些实施例中,所述制备包括至少两个步骤。在一个实例性的测序文库制备方法中,在第一步骤中,可以使用ssDNA连接反应将ssDNA适体添加到亚硫酸氢盐转化的ssDNA分子的3’-OH端。在一些实施例中,所述ssDNA连接反应使用CircLigase II(Epicentre)将所述ssDNA适体连接到亚硫酸氢盐转化的ssDNA分子的3’-OH端,其中适体的5’端被磷酸化以及亚硫酸氢盐转化的ssDNA已被去磷酸化(即,3’端具有羟基)。在另一个实施例中,ssDNA连接反应使用耐热的5’AppDNA/RNA连接酶(可从NewEngland BioLabs(Ipswich,MA)获得)将ssDNA适体连接到亚硫酸氢盐转化的ssDNA分子的3’-OH端。在此实例中,第一个UMI适体在5’端被腺苷酸化并且在3’端被阻断。在另一个实施例中,ssDNA连接反应使用T4 RNA连接酶(可从新英格兰生物实验室获得)将ssDNA适体连接到亚硫酸氢盐转化的ssDNA分子的3’-OH端。
在第二个步骤中,在延伸反应中合成第二链DNA。例如,在引物延伸反应中使用与ssDNA适体中包含的引物序列杂交的延伸引物,以形成双链亚硫酸氢盐转化的DNA分子。选择性地,在一些实施例中,延伸反应使用能够读取亚硫酸氢盐转化的模板链中的尿嘧啶残基的酶。
选择性地,在第三个步骤中,将dsDNA适体添加到双链亚硫酸氢盐转化的DNA分子中。然后,所述双链亚硫酸氢盐转化的DNA可以被扩增以添加测序适体。例如,使用包含P5序列的正向引物及包含P7序列的反向引物的PCR扩增以将P5及P7序列添加到亚硫酸氢盐转化的DNA中。选择性地,在文库制备期间,可以通过适体连接将唯一分子标记(UMI)添加到核酸分子(例如,DNA分子)中。多个UMI是在适体连接期间添加到DNA片段末端的短核酸序列(例如,4至10个碱基对)。在一些实施例中,多个UMI是用作独特标签的简并碱基对(degeneratebase pairs),所述独特标签可用于鉴定源自特定DNA片段的序列读取。在适体连接后的PCR扩增过程中,多个UMI所附接的DNA片段一起被复制,这提供了在下游分析中鉴定来自相同原始片段的序列读取的方式。
在可选的步骤325中,可以将核酸(例如,片段)杂交。杂交探针(在本文中也称为“探针”)可用于靶向及下拉提供疾病状态信息的核酸片段。对于给定的工作过程,所述探针可以被设计成与DNA或RNA的目标(或互补)链进行退火(或杂交)。所述目标链可以是“正”链(例如,转录成mRNA的链,随后被翻译成蛋白质)或互补的“负”链。所述探针的长度范围为10s、100s或1000s碱基对。此外,所述探针可以被平铺(tiled)以覆盖目标区域的重叠部分。
在可选的步骤330中,所述杂交的核酸片段可被捕获并且可被富集,例如,使用PCR扩增。在一些实施例中,靶向DNA核酸片段可以从文库中富集。例如,在对样品进行靶向小组分析时,使用该方法。例如,所述靶核酸可被富集以获得随后可进行测序的富集核酸序列。通常,本领域中的任何已知方法都可以用于分离及富集探针杂交的靶向核酸。例如,如本领域公知的,可以将生物素部分添加到探针的5’端(即,生物素化),以促进使用链霉亲和素包被的表面(例如,链霉亲和素包被的小珠)分离杂交至探针的的靶核酸。
在步骤335中,从所述核酸样品(例如,富集的核酸序列)产生序列读取。测序数据可以通过本领域已知的手段从富集的核酸序列中获得。例如,所述方法可包括:下一代测序(NGS)技术,包括合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(ion Torrent测序)、单分子实时测序(Pacific Biosciences)、连接测序(SOLiD测序)、纳米孔测序(Oxford nanopore Technologies)或双端测序。在一些实施例中,使用合成测序利用可逆染料终止子进行大规模并行测序。在其他实施例中,可以使用基于扩增的检测手段来获取序列数据或检测序列,例如通过聚合酶链式反应(PCR)、数字PCR(dPCR)、定量PCR(qPCR)、实时PCR(RT-PCR)、定量实时PCR(qRT-PCR)或本领域的其他公知手段进行检测。
在步骤340中,所述序列处理器210可以使用所述序列读取产生甲基化信息。然后,可以使用从所述序列读取中确定的甲基化信息来产生甲基化状态向量。图4B是根据一个实施例的从图3的测序cfDNA分子的过程300开始以获得甲基化状态向量352的过程360的图示。作为实例,所述分析系统200接收cfDNA分子312,在该实例中,cfDNA分子包含三个CpG位点。如图所示,所述cfDNA分子312的第一及第三个CpG位点被甲基化314。在处理步骤315期间,所述cfDNA分子312被转化以产生转化的cfDNA分子322。在处理315期间,非甲基化的第二个CpG位点的胞嘧啶被转化为尿嘧啶。然而,所述第一及第三个CpG位点没有被转化。
转化后,制备测序文库330,并且测序以产生序列读取342。所述分析系统200将所述序列读取342与参考基因组344进行比对(未示出)。所述参考基因组344提供cfDNA片段在人类基因组中起源于哪个位置的环境。在该简化实例中,所述分析系统200比对所述序列读取342,使得三个CpG位点与CpG位点23、24及25(为了便于描述而使用的任意参考标识符)相关。因此,所述分析系统200产生关于cfDNA分子312上所有CpG位点的甲基化状态及所述CpG位点映射在人类基因组中的位置的信息。如图所示,序列读取342上被甲基化的所述CpG位点被读取为胞嘧啶。在此实例中,胞嘧啶仅在第一及第三个CpG位点出现在序列读取342中,这允许推断原始cfDNA分子中的第一及第三个CpG位点被甲基化。然而,第二个CpG位点被读取为胸腺嘧啶(在测序过程中U被转化为T),因此,可以推断第二个CpG位点在原始cfDNA分子中未被甲基化。利用甲基化状态及位置这两条信息,所述分析系统200为cfDNA片段312产生160甲基化状态向量352。在此实例中,得到的甲基化状态向量352可以是<M23、U24、M25>,其中M对应于甲基化CpG位点,U对应于非甲基化CpG位点,并且下标数字可以对应于每个CpG位点在参考基因组中的位置。
鉴定异常片段
在一些实施例中,所述分析系统200使用所述样品的甲基化状态向量来确定样品的异常片段。例如,对于样品中的每个核酸分子或片段,相对于使用对应于核酸分子的甲基化状态向量的来自健康样品的预期甲基化状态向量,所述分析系统200确定核酸分子或片段是异常的或不正常的甲基化的分子或片段(通过分析从其衍生的序列读取)。在一些实施例中,所述分析系统200计算每个甲基化状态向量的p值评分,该p值评分描述在健康对照组中观察到该甲基化状态向量或其他甲基化状态向量的概率甚至更低(例如,如在美国专利申请公开号2019/0287652中所描述的内容,其全文通过引用的方式并入本文中)。计算p值评分的过程也将在下文的p值过滤部分中讨论。所述分析系统200可以确定并选择性地过滤出具有低于阈值p值评分的甲基化状态向量的核酸分子或片段的序列读取作为异常片段。在另一个实施例中,所述分析系统200进一步将具有至少一定数量的CpG位点的甲基化或非甲基化超过一定阈值百分比的片段分别标记为高甲基化及低甲基化片段。高甲基化片段或低甲基化片段也可以被称为具有极端甲基化的异常片段(UFXM)。在其他实施例中,所述分析系统200可以实现用于确定异常分子或片段的各种其他概率模型。其他概率模型的实例包括混合模型、深度概率模型等。在一些实施例中,所述分析系统200可以使用以下描述的过程的任意组合来鉴定异常片段。利用鉴定出的异常片段,所述分析系统200可以过滤样品的甲基化状态向量集以用于其他过程,例如,用于训练及设置癌症分类器。
P值过滤
在一个实施例中,所述分析系统200计算与来自健康对照组的片段的甲基化状态向量相比的每个甲基化状态向量的p值评分。所述p值评分描述观察到核酸分子具有与在健康对照组中的甲基化状态向量匹配的甲基化状态的概率。
为了确定异常甲基化的DNA片段,所述分析系统使用健康对照组,其中大部分片段是正常甲基化的。在进行这种确定异常片段的概率分析时,该确定与构成健康对照组的对照对象的组相比具有重要意义。为了确保健康对照组中的稳健性,所述分析系统200可以选择一定阈值数量的健康个体来获得包括DNA片段的样品。下文的图4B描述产生健康对照组的数据结构的方法,其中所述分析系统200可以使用该数据结构来计算p值评分。图4C描述利用所产生的数据结构计算p值评分的方法。
图4B是根据一个实施例的描述产生健康对照组的数据结构的过程400的流程图。为了创建健康对照组数据结构,所述分析系统200从多个健康个体接收多个DNA片段(例如,cfDNA)。例如,经由过程360鉴定每个片段的甲基化状态向量。
利用每个片段的甲基化状态向量,所述分析系统200将所述甲基化状态向量405细分为CpG位点串。在一个实施例中,所述分析系统200细分所述甲基化状态向量,使得得到的串都小于给定长度。例如,长度为11的甲基化状态向量可以细分为长度小于等于3的串,这将产生9个长度为3的串、10个长度为2的串和11个长度为1的串。在另一个实例中,将长度7的甲基化状态向量细分为长度小于或等于4的串将产生4个长度为4的串、5个长度为3的串、6个长度为2的串和7个长度为1的串。如果甲基化状态向量的长度小于或等于指定的串长度,则甲基化状态向量可以转化为包含所述向量的所有CpG位点的单个串。
分析系统200通过针对向量中的每一可能CpG位点和甲基化状态可能性计数存在于对照组中的串数来统计410串,所述对照组具有指定CpG位点作为串中的第一CpG位点且具有甲基化状态可能性。例如,在给定CpG位点处且考虑串长度为3,存在2^3或8种串配置。在给定CpG位点处,对于8种可能串配置中的每一个,分析系统统计410每一甲基化状态向量可能性出现在对照组中的次数。继续该实例,对于参考基因组中的每一初始CpG位点x而言,这可能涉及统计以下量:<Mx,Mx+l,Mx+2>,<Mx,Mx+l,Ux+2>…<Ux,Ux+l,Ux+2>。分析系统产生415储存每一初始CpG位点和串可能性的统计计数的数据结构。
设定串长度上限具有若干益处。首先,根据串的最大长度,分析系统创建的数据结构的大小可显着增加。例如,最大串长度4指,对于长度为4的串而言,每一CpG位点具有最低2^4个统计数。将最大串长度增加至5指,每一CpG位点具有另外的2^4或16个统计数,从而与此前串长度相比使统计数倍增(和需要计算机内存)。减小串大小有助于使数据结构的产生和性能(例如,用于以后访问,如下所述)在计算和存储方面保持合理。其次,限制最大串长度的统计学考虑是避免过度拟合使用串计数的下游模型。如果长CpG位点串并不对结局(例如,预测癌症存在的异常预测)具有强生物效果,则基于加大CpG位点串来计算概率可能会有问题,因为其需要大量可能不可用的数据,因此模型过于稀疏而无法适当执行。例如,计算前100个CpG位点上的条件化异常性/癌症的概率将需要长度为100的数据结构中的串计数,在理想情况下,一些串完全匹配此前的100种甲基化状态。如果长度为100的串仅有稀疏计数可用,则数据不足以判定测试样品中长度为100的给定串是否异常。
图4C是根据一个实施例的描述鉴定来自个体的异常甲基化片段的过程420的流程图。在过程420中,分析系统从对象的cfDNA片段产生甲基化状态向量352。分析系统如下所述来处理每个甲基化状态向量。
对于给定甲基化状态向量而言,分析系统200列举430在甲基化状态向量中具有相同初始CpG位点和相同长度的甲基化状态向量的所有可能性(即,CpG位点集)。因为每个甲基化状态通常是甲基化或未甲基化,所以在每个CpG位点处实际上存在两种可能状态,且由此甲基化状态向量的不同可能性的计数根据2的幂而定,从而长度为n的甲基化状态向量涉及2n个可能的甲基化状态向量。在甲基化状态向量包含一个或多个CpG位点的不确定状态的情况下,分析系统200可列举430个可能的甲基化状态向量,其中仅考虑观察到状态的CpG位点。
通过访问健康对照组数据结构,分析系统200计算440针对所鉴定初始CpG位点和甲基化状态向量长度观察到每个甲基化状态向量可能性的概率。在一个实施例中,计算观察到给定可能性的概率使用马尔可夫链概率对联合概率计算进行建模。在其他实施例中,使用除马尔可夫链概率外的计算方法来确定观察到的每个甲基化状态向量可能性的概率。
分析系统200使用每个可能性的计算概率来计算450甲基化状态向量的p值评分。在一个实施例中,其包括鉴定对应于匹配所论述甲基化状态向量的可能性的计算概率。具体而言,这是与甲基化状态向量具有相同CpG位点集或类似地具有相同初始CpG位点和长度的可能性。分析系统将概率小于或等于鉴定概率的任何可能性的计算概率求和以产生p值评分。
该p值代表观察到片段的甲基化状态向量或健康对照组中可能性极小的其他甲基化状态向量的概率。因此,低p值评分通常对应于甲基化状态向量,该向量在健康个体中很少见,并且导致片段相对于健康对照组被标记为异常甲基化。高p值评分通常与甲基化状态向量在相对意义上预期存在于健康个体中有关。如果健康对照组是非癌性组,则低p值标识,片段相对于非癌症组发生异常甲基化,且由此可能指示在测试对象中存在癌症。
如上所述,分析系统200计算多个甲基化状态向量中的每一个的p值评分,每个甲基化状态向量代表测试样品中的cfDNA片段。为鉴定哪些片段异常甲基化,分析系统可基于p值评分来过滤460甲基化状态向量集。在一个实施例中,过滤是通过将p值评分与阈值进行比较,并仅保留低于阈值的那些片段来进行的。该阈值p值评分可以是0.1、0.01、0.001、0.0001或类似的数量级。
根据来自过程的实例结果,分析系统得出的结果为,在训练中未患癌症的参与者中具有异常甲基化模式的片段的中位数(范围)为2,800(1,500-12,000),且在训练中患有癌症的参与者中具有异常甲基化模式的片段的中位数(范围)为3,000(1,200-220,000)。具有异常甲基化模式的片段的这些过滤集合可用于如下文所述的下游分析。
在一些实施例中,分析系统200使用455滑动窗口来判定甲基化状态向量的可能性并计算p值。分析系统不是针对整个甲基化状态向量枚举可能性和计算p值,而是仅为连续CpG位点的窗口枚举可能性并计算p值,其中窗口的长度(CpG位点)至少比某些片段的长度短(否则,窗口将毫无用处)。窗口长度可以是静态的、由使用者决定、动态的或以其他方式选择。
在计算大于窗口的甲基化状态向量的p值时,该窗口从该窗口内的向量中的第一CpG位点开始鉴定来自该向量的CpG位点的顺序集。分析系统200计算包含第一CpG位点的窗口的p值评分。分析系统然后使窗口“滑动”至向量中的第二CpG位点,并计算第二窗口的另一p值评分。因此,对于窗口大小l和甲基化向量长度m而言,每一甲基化状态向量将产生m-l+1个p值评分。在完成每一向量部分的p值计算之后,所有滑动窗口中的最低p值评分可视为甲基化状态向量的整体p值评分。
在另一个实施例中,分析系统200汇总甲基化状态向量的p值评分以产生整体p值评分。
使用滑动窗口有助于减小甲基化状态向量的所列举可能性和需要另外实施的其相应概率计算的数量。在一个现实实例中,片段可具有54个以上的CpG位点。代替计算2^54(~1.8×10^16)种可能性的概率以产生单一p值评分,分析系统可以改为使用大小为5的窗口(例如),其可针对该片段的50个甲基化状态向量窗口中的每一个计算50个p值。50个计算中的每一个列举2^5(32)种甲基化状态向量可能性,其共计计算50×2^5(1.6×10^3)种概率。这可以大大减少所进行的计算,并且不显着影响异常片段的准确鉴定。
在具有不确定状态的实施例中,分析系统可计算汇总片段的甲基化状态向量中具有不确定状态的CpG位点的p值评分。分析系统鉴定与甲基化状态向量的所有甲基化状态(排除不确定状态)一致的所有可能性。分析系统可以将概率分配给甲基化状态向量作为所鉴定的可能性的概率之和。作为一个实例,分析系统将甲基化状态向量<M1、I2、U3>的概率计算为甲基化状态向量<M1、M2、U3>和<M1、U2、U3>的可能性的概率的总和,因为观察到CpG位点1和3的甲基化状态,并且与CpG位点1和3的片段甲基化状态一致。这种对具有不确定状态的CpG位点求和的方法使用高达2^i的可能性概率的计算,其中i表示甲基化状态向量中不确定状态的数量。在其他实施例中,可以执行动态变成算法来计算具有一个或多个不确定状态的甲基化状态向量的概率。有利地,动态编程算法以现行计算时间运行。
在一些实施例中,通过缓存至少一些计算,可以进一步减小计算概率和/或p值的计算负担。例如,分析系统200可以将甲基化状态向量(或其窗口)的可能性的概率计算缓存在瞬时或永久存储器中。如果其他片段具有相同CpG位点,则缓存可能性概率允许有效计算p评分值而无需再计算潜在可能性概率。同样,分析系统200可计算与来自向量(或其窗口)的CpG位点集有关的甲基化状态向量的每个可能的p值评分。分析系统可缓存p值评分以用于确定包含相同CpG位点的其他片段的p值评分。通常,可使用具有相同CpG位点的甲基化状态向量的可能性的p值评分来确定来自相同CpG位点集的不同可能性的p值评分。
高甲基化片段及低甲基化片段
在一些实施例中,分析系统200将异常片段确定为具有超过阈值数量的CpG位点且具有超过阈值百分比的甲基化CpG位点或具有超过阈值百分比的未甲基化CpG位点的片段;分析系统将此类片段鉴定为高甲基化片段或低甲基化片段。片段(或CpG位点)的长度的示例性阈值包括大于3、4、5、6、7、8、9、10等。甲基化或未甲基化的实例百分比阈值包括大于80%、85%、90%或95%或50%至100%范围内的任一其他百分比。
实例性测序仪及分析系统
图2A及图2B是根据一些实施例的用于对核酸样品进行测序的系统及装置的流程图。该说明性流程图包括诸如测序仪270及处理系统(例如,分析系统200)的设备。所述测序仪270及分析系统200可以协同工作以执行本文描述的过程中的一个或多个步骤。
在各种实施例中,测序仪270接收富集的核酸样品260。如图2A中所示,测序仪270可以包括图形使用者界面275(其实现使用者与特定任务(例如,开始测序或终止测序)互动)以及一个或多个装载站280,以用于装载包含富集片段样品的测序盒和/或用于装载进行测序测定所需的缓冲液。因此,一旦测序仪270的使用者已将所需试剂和测序盒提供给测序仪270的装载站280,使用者即可通过与测序仪270的图形使用者界面275互动来开始测序。一旦开始,测序仪270即进行测序并输出来自核酸样品260的富集片段的序列读取。
在各种实施例中,所述测序仪270以通信方式与分析系统200耦合。分析系统200包括一定数量的计算装置,所述计算装置用于处理用于各种应用(如评估一个或多个CpG位点的甲基化状态、变体调用或质量控制)的序列读取。测序仪270可向分析系统200提供呈BAM文件形式的序列读取。分析系统200可通过无线通信技术、有线通信技术或无线和有线通信技术的组合以通信方式耦合值测序仪270。通常,分析系统200被配置以具有处理器和非暂时性计算机可读存储介质,该存储介质存储在由处理器执行时使得处理器处理序列读取或进行本文所公开的任一方法或过程的一个或多个步骤的计算机指令。
在一些实施例中,可以使用本领域公知的方法比对序列读取与参考基因组以确定比对位置信息。比对位置通常可以描述参考基因组中对应于给定序列读取的起始核苷酸碱基和末端核苷酸碱基的区域的起始位置和末端位置。对应于甲基化测序,比对位置信息可以概括为根据与参考基因组的比对来指示包含在序列读取中的第一个CpG位点和最后一个CpG位点。比对位置信息可以进一步指示给定序列读数中所有CpG位点的甲基化状态和位置。参考基因组中的区域可能与基因或基因的片段相关;因此,分析系统200可以用与序列读取比对的一个或多个基因标记序列读取。在一个实施例中,从起始位置和末端位置来确定片段长度(或大小)。
在各种实施例中,例如在使用配对末端测序方法时,序列读取包括表示为R_1和R_2的读取对。例如,第一读取R_1可以从双链DNA(dsDNA)分子的第一末端测序,而第二读取R_2可以从双链DNA(dsDNA)的第二末端测序。因此,第一读取R_1和第二读取R_2的核苷酸碱基对可以始终与参考基因组的核苷酸碱基对对齐(例如,以相反方向)。来源于读取配对R_1和R_2的比对位置信息可以包括参考基因组中对应于第一读取(例如,R_1)末端的起始位置和参考基因组中对应于第二读取(例如,R_2)末端的末端位置。换言之,参考基因组中的起始位置和末端位置代表参考基因组内对应于核酸片段的可能位置。在一些实施例中,读取对R_1和R_2可组装成片段,并且该片段可用于后续分析和/或分类。可生成具有SAM(序列比对图)形式或BAM(二进制)形式的输出文件并输出以供进一步分析。
再次参考图2B,图2B是根据一个实施例的用于处理DNA样品的分析系统200的框图。分析系统包括一个或多个用于分析DNA样品的计算装置。分析系统200包括序列处理器210、序列数据库215、模型数据库225、一个或多个概率模型230和/或一个或多个分类器240以及参数数据库235。在一些实施例中,分析系统200执行本文所公开的方法或过程中的一个或多个步骤。
序列处理器210产生来自样品片段的甲基化状态向量。在片段上的每一个CpG位点处,序列处理器210通过图4B的过程360产生每个片段的甲基化状态向量,该甲基化状态向量指定该片段在参考基因组中的位置、该片段中的CpG位点数和该片段中每一CpG位点的甲基化状态(甲基化、未甲基化或不确定)。序列处理器210可将片段的甲基化状态向量存储在序列数据库215中。序列数据库215中的数据可以被组织,以使得来自样品的甲基化状态向量彼此相关。
此外,多个不同模型230可以储存在模型数据库225中或者被检索以用于测试样品。在一个实例中,模型是训练的癌症分类器240,其用于使用来源于异常片段的特征向量来确定测试样品的癌症预测。癌症分类器的训练和使用在本文的其他地方讨论。分析系统200可训练一个或多个模型230和/或一个或多个分类器240,并将各种经训练的参数储存在参数数据库235中。分析系统200将模型230和/或分类器以及函数储存在模型数据库225中。
在推理期间,机器学习引擎220使用一个或多个模型230和/或分类器240来返回输出。机器学校引擎访问模型数据库225中的模型230和/或分类器240以及来自参数数据库235的训练参数。根据每个模型,机器学习引擎220接收模型的适当输入,并基于所接收的输入、参数和每个模型的输入和输出相关函数来计算输出。在一些用例中,机器学习引擎220进一步计算与来自模型的计算输出的置信度相关的度量。在其他用例中,机器学习引擎220计算用于模型中的其他中间值。
参考基因组的区块
现在参考图5,图5是根据一些实施例的参考基因组的区块的图示。所述序列处理器210可以将参考基因组(或参考基因组的子集)划分为一个或多个阶段,例如,涉及靶向甲基化测定的用例。举例而言,序列处理器210将参考基因组分成CpG位点的区块。在两个相邻CpG位点间的间隔超过阈值(例如,大于200个碱基对(bp)、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1,000bp以及其他值)时,定义每个区块。因此,区块的碱基对大小可能不同。对于每个区块,序列处理器210可将区块再分成具有某一长度的窗口,所述长度是(例如)500bp、600bp、700bp、800bp、900bp、1,000bp、1,100bp、1,200bp、1,300bp、1,400bp或1,500bp以及其他值。在其他实施例中,窗口的长度可以是200bp至10千碱基对(kbp)、500bp至2kbp或约1kbp。窗口(例如,相邻窗口)的一定数量的碱基对或一定百分比的长度(例如,10%、20%、30%、40%、50%或60%以及其他值)可重叠。窗口中的两个相邻CpG位点的间隔可超过阈值,例如,大于200个碱基对(bp)、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1,000bp以及其他值。
序列处理器210可以使用视窗化程序来分析来源于DNA片段的序列读取。特别地,序列处理器210逐窗口扫描区块,并读取每个窗口内的片段。所述片段可源自组织和/或高信号cfDNA。高信号cfDNA样品可由二进制分类模型、由癌症阶段或由另一度量来确定。通过分割参考基因组(例如,使用区块和窗口),序列处理器210可促进计算并行化。此外,序列处理器210可通过靶向包含CpG位点的碱基对区段而跳过不包含CpG位点的其他区段来减少处理参考基因组的计算资源。
基于模型的特征工程及分类
现在参考图8,根据一些实施例,本公开内容涉及用于导出对疾病状态分类有用的特征的基于模型的特征工程化。如本文其他地方所描述的,疾病状态可以是疾病存在或不存在、疾病类型和/或疾病组织或来源。例如,如本文所述,疾病状态可以是癌症存在或不存在、癌症类型和/或癌症来源组织。癌症类型和/或癌症来源组织可以选择以下,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、上消化道的鳞状细胞癌、除鳞状细胞癌以外的上消化道癌症、头颈癌、肺癌(如肺腺癌、小细胞肺癌、鳞状细胞肺癌以及除腺癌或小细胞肺癌以外的癌症)、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病以及其他癌症类型。
在步骤810中,如本文其他地方所描述的,从具有第一疾病状态的第一参考样品产生第一多个序列读取,和从具有第二疾病状态的第二参考样品产生第二多个序列读取。第一多个序列读取和第二多个序列读取可以是超过10,000、超过50,000、超过100,000、超过200,000、超过500,000、超过1,000,000、超过2,000,000、超过5,000,000或超过10,000,000个序列读取。如本文所用,“参考序列”是从具有已知疾病状态的对象获得的样品。在一些实施例中,可以使用具有一种或多种已知疾病状态的一个或多个参考样品来训练一个或多个概率模型,所述概率模型继而可用于衍生用于对未知测试样品的疾病状态分类的特征。样品可以是基因组DNA(gDNA)样品或无细胞DNA(cfDNA)样品。参考样品可以是血液、血浆、血清、尿液、粪便和唾液样品。或者,参考样品可以是全血、血液成分、组织活检样品、胸膜液、心包液、脑脊液和腹膜液。在一些实施例中,第一参考样品来自已知患有癌症的对象和第二参考样品来自健康对象或非癌对象。在一些实施例中,第一参考样品来自已知患有第一类癌症(例如,肺癌)的对象和第二参考样品来自已知患有第二类癌症(例如,乳腺癌)的对象。在另外其他实施例中,第一参考样品来自已知具有第一疾病来源组织(例如,肺病)的对象和第二参考样品来自已知具有第二疾病状态来源组织(例如,肝病)的对象。
在步骤815中,机器学习引擎220训练分别来自第一多个序列读取和第二多个序列读取(在步骤110中产生)的第一概率模型230和第二概率模型230,每个概率模型与一种或多种可能疾病状态的不同疾病状态相关。如此前所述,疾病状态可以是癌症的存在或不存在、癌症类型和/或癌症来源组织。在各种实施例中,训练数据分成K个子集(折叠)以用于K折叠交叉验证。可针对以下因素来平衡折叠:癌症/非癌症状态、来源组织、癌症阶段、年龄(例如,以10年期分组)、性别、民族和吸烟状况以及其他因素。可使用来自所述折叠中的K-1的数据作为概率模型的训练数据,并且可以将保留的折叠用作测试数据。
对于第一疾病状态和第二疾病状态,机器学习引擎220通过将概率模型230中的每一个分别拟合至第一多个和第二多个序列读取来分别训练第一和第二概率模型230。例如,在一个实施例中,使用衍生自一个或多个来自已知患有癌症的对象的样品的第一多个序列读取来拟合第一概率模型,并使用衍生自一个或多个来自健康对象或非癌症对象的样品的第二多个序列读取来拟合第一概率模型。在其他实施例中,可针对第一类癌症或第一来源组织来训练第一概率模型,并且可针对第二类癌症或第二来源组织来训练第二概率模型。如本领域技术人员将意识到的是,可利用衍生自一个或多个从具有诸多可能疾病状态中的任一者的对象获取的样品的序列读取来训练任一数量的疾病状态概率模型。例如,在一些实施例中,可针对第三、第四、第五、第六、第七、第八、第九、第十等(例如,最多二十、三十或更多)特定癌症类型训练其他癌症特异性概率模型(即,其他类型的癌症和或来源组织模型),并且用于确定来自训练集或未知癌症类型的序列读取较另一癌症类型(或癌症的来源组织)更可能衍生自一种癌症类型(或癌症的来源组织)的概率,如本文其他地方所描述的。
如本文所用,“概率模型”是任何能够基于序列读取上的一个或多个位点处的甲基化状态向该序列读取分配概率的数学模型。在训练期间,机器学习引擎220拟合衍生自一个或多个来自具有已知疾病的对象的样品的序列读取,并且可用于利用甲基化信息或甲基化状态向量(例如,此前针对图3至图4所描述的)来确定指示疾病状态的序列读取概率。特别地,在一个实施例中,机器学习引擎220确定序列读取内的每个CpG位点的观察到的甲基化率。甲基化率表示CpG位点内的甲基化碱基对的分数或百分比。经训练的概率模型230可由甲基化率的乘积参数化。在通常情况下,可使用任何已知概率模型来向来自样品的序列读取分配概率。例如,概率模型可以是二项式模型,其中向核酸片段上的每个位点(例如,CpG位点)分配甲基化概率,或者独立位点模型,其中每个CpG的甲基化是由不同甲基化概率指定并假设在一个位点处的甲基化独立于核酸片段上的一个或多个其他位点处的甲基化。
在一些实施例中,所述概率模型230是马尔可夫模型(Markov model),其中每个CpG位点的甲基化概率取决于序列读取中某些数量的先前CpG位点或从中导出序列读取的核酸分子的甲基化状态。参见例如于2019年3月13日提交的标题为“异常的片段检测及分类”的美国专利申请公开号2019/0287652,其全文通过引用的方式并入本文中。
在一些实施例中,概率模型230是使用来自基础模型的混合分量拟合的“混合模型”。例如,在一些实施例中,可以使用多个独立位点模型来确定混合分量,其中假设每个CpG位点处的甲基化(例如,甲基化率)独立于其他CpG位点处的甲基化。利用独立位点模型,分配至序列读取或衍生其的核酸分子的概率是每个CpG位点处的甲基化概率的乘积(其中序列读取是甲基化的),以及1减去每个CpG位点处的甲基化概率(其中序列读取是未甲基化的)。根据该实施例,机器学习引擎220确定混合分量中的每一个的甲基化率。混合模型由混合分量的总和参数化,每个分量与甲基化率的乘积有关。n个混合分量的概率模型Pr可表示为:
Figure BDA0004080228790000361
对于输入片段,mi∈{0,1}表示在参考基因组的位置i处观察到的片段的甲基化状态,0表示非甲基化,1表示甲基化。每个混合物组分k的分数赋值为fk,其中fk≥0以及
Figure BDA0004080228790000362
混合物组分k的CpG位点中的位置i的甲基化的概率为βki。因此,非甲基化的概率为1-βki。混合物组分的数量n可以是1、2、3、4、5、6、7、8、9、10等。
在一些实施例中,所述机器学习引擎220使用最大似然估计来拟合概率模型230,以鉴定一组参数{βki,fk},所述参数最大限度地提高来自疾病状态的所有片段的对数可能性,并对每个甲基化概率施加正则化强度为r的正则化惩罚项。N个总片段的最大量可以表示为:
Figure BDA0004080228790000371
如本领域技术人员将意识到的是,可以使用其他方式来拟合概率模型以鉴定最大化衍生自参考样品的所有序列读取的对数似然性的参数。例如,在一个实施例中,使用贝叶斯拟合(例如,使用马尔可夫链蒙特卡洛法),其中每个参数并未分配单一值,而与分布相关。在其他实施例中,使用基于梯度的优化,其中使用关于参数值似然性(或对数似然性)的梯度来穿过参数空间朝向最佳步进。在其他实施例中,使用期望最大化,其中将潜在参数集(例如,衍生每个片段的混合分量的属性)设定于其在此前模型参数下的预期值,并且然后分配模型参数以在这些潜在变量的假设条件下最大化似然性。然后,重复两步过程直至收敛。
在步骤820处,从训练样品产生多个训练序列读取。多个训练序列读取可以是超过10,000、超过50,000、超过100,000、超过200,000、超过500,000、超过1,000,000、超过2,000,000、超过5,000,000或超过10,000,000个序列读取。如本文所用,“训练样品”是从已知疾病状态获得的可用于产生序列读取的样品,所述序列读取然后应用于第一和/或第二概率模型以产生可用于疾病状态分类的特征。在步骤825中,分析系统200应用第一和第二概率模型230来确定多个训练序列读取中的每个序列读取的第一概率值和第二概率值。第一和第二概率值是基于序列读取分别源自与第一疾病状态和第二疾病状态相关联的样品的概率来确定的。分析系统200可以针对任何其他概率模型230(例如,从来自第三、第四、第五等参考样品的序列读取进行训练)重复步骤130(未显示)。
在步骤830处,通过比较多个训练序列读取中的每一个的第一概率值和第二概率值来鉴定一个或多个特征。在通常情况下,可以利用很多方法来比较第一概率值和第二概率值并鉴定特征。例如,在一个实施例中,一个或多个特征包括多个训练序列读取中第一概率值大于第二概率值的离群序列读取的计数。该计数可以是二进制计数、离群序列读取的总计数或匿名甲基化序列读取的总计数。在另一个实施例中,一个或多个特征包括含有特定甲基化模式的序列读取或片段的计数。例如,一个或多个特征可以是每个CpG位点处完全甲基化的序列读取或片段的计数、部分甲基化(例如,至少20%、30%、40%、50%、60%、70%、80%、90%或95%甲基化)的序列读取或片段的计数。在另一个实施例中,使用单一基因组区域内训练的鉴别式分类器(例如,鉴别式分类器可以是多层感知器或卷积神经网络模型)的输出来鉴定一个或多个特征。在另一个实施例中,比较第一概率值和第二概率值包括确定第一概率值与第二概率值的比率,并且一个或多个特征包括超过比率阈值的序列读取的序列读取计数。
在另一个实施例中,第一概率值或第二概率值是对数似然性值。例如,分析系统200可以使用分别与第一疾病状态和第二疾病状态有关的拟合概率模型来计算对数似然比R。具体而言,可以使用在与第一疾病状态和第二疾病状态有关的样品的片段上观察到的甲基化模式的概率Pr来计算对数似然比:
Figure BDA0004080228790000381
分析系统200可以使用多个层级的阈值来鉴定特征。例如,所述层级包括阈值1、2、3、4、5、6、7、8和9。在一些实施例中,可以应用平滑函数。例如,响应于确定R是(例如,显着)小于层级值,分析系统200分配约0的特征值;响应于确定R等于层级值,分析系统200分配0.5的特征值;响应于确定R是(例如,显着)大于层级值,分析系统200分配约1的特征值。每个层级指示片段(由其产生序列读取)与来自健康样品相比更可能来自与疾病状态相关的样品的不同阈值。分析系统200可使用阈值来确定离群片段的计数,所述计数可用作特征。
通过使用阈值过滤,分析系统200可将某些片段视为离群值,因为这些片段不太可能存在于健康样品中。因此,可以将离群片段视为更可能与疾病状态或癌症样品相关(例如,源自其)。特征数量可在不同层级之间有所变化,例如,一个层级可与基于相应阈值的另一层级具有不同数量的特征。在其他实施例中,分析系统200使用不同数量的层级或其他阈值。鉴定特征或基于区分不同疾病状态的特征的指标(例如,使用交互信息来确定特征在区分两种疾病状态时的信息含量的指标)来对所鉴定特征排序的其他方式在本文其他地方描述。
在其他实施例中,分析系统200可使用不同类型的比率或方程式来鉴定多个特征。机器学习引擎220可基于针对各种疾病状态考虑的至少一个对数似然比是否高于阈值来确定指示疾病状态(例如,癌症)的片段。
随后,如本文其他地方进一步详细描述的内容,可以使用多个特征来训练疾病状态分类器。例如,在一些实施例中,所述多个特征可用于训练分类器,从而分类癌症的存在或不存在、癌症类型及/或起源癌组织。
疾病状态起源组织分类
再次参考图1,根据另一个实施例,如图1的步骤120所示,机器学习引擎220训练概率模型230,每个概率模型与一组多种不同疾病状态的不同疾病状态相关。为清楚起见,图1描述了用于对疾病状态来源组织分类的分类器的以模型为基础的特征化和训练。然而,如此前所述,在各种实施例中,疾病状态可以是癌症存在或不存在、癌症类型和/或癌症来源组织。此外,疾病状态可以与另一种类型的疾病相关(不必与癌症相关)或是健康状态(不存在癌症或疾病)。
机器学习引擎220使用一个或多个序列读取集来训练概率模型230,其中从一组多种不同疾病状态的不同疾病状态产生(根据步骤110)一个或多个序列读取集中的每一个。疾病状态可以包括任何数量的选择以下的癌症类型或癌症来源组织,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、上消化道的鳞状细胞癌、除鳞状细胞癌以外的上消化道癌症、头颈癌、肺癌(如肺腺癌、小细胞肺癌、鳞状细胞肺癌以及除腺癌或小细胞肺癌以外的癌症)、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病以及其他癌症类型。
对于多种疾病状态中的每一个,机器学习引擎220通过将概率模型230拟合至衍生自对应于每种疾病状态的每个样品的序列读取来训练概率模型230。例如,在一些实施例中,可针对特定类型的癌症来训练概率模型。根据该实施例,可针对第一、第二、第三等特定癌症类型来训练癌症特异性概率模型,并且用于评估癌症类型(例如,关于未知测试样品)。例如,可使用衍生自一个或多个与肺癌有关的样品的序列读取集来拟合肺癌特异性概率模型。作为另一个实例,使用衍生自一个或多个与乳腺癌有关的样品的序列读取集来拟合乳腺癌特异性概率模型。在一些实施例中,可针对第一、第二、第三等组织类型来训练组织特异性概率模型,并用于评估疾病状态来源组织。例如,可使用衍生自第一组织类型(例如,来自肺组织样品,例如肺组织活检)的序列读取集来拟合第一来源组织概率模型,并且可使用衍生自第二组织类型(例如,来自肝组织样品,例如肝组织活检)的序列读取集来拟合第二来源组织概率模型。或者,在一些实施例中,使用衍生自一个或多个来自已知患有癌症的对象的样品的序列读取集来拟合癌症概率模型,并使用衍生自一个或多个来自健康对象或非癌对象的样品的序列读取集来拟合非癌症特异性概率模型。如本领域技术人员将意识到的是,可利用衍生自一个或多个从具有诸多可能疾病状态中的任一者的对象获取的样品的序列读取来训练任一数量的疾病状态概率模型。例如,在一些实施例中,可以从3、4、5、6、7、8、9、10个或更多个参考样品产生多个序列读取,每个参考样品是从一个或多个具有不同疾病状态(例如,不同癌症类型)的对象获得,并使用所述序列读取来训练3、4、5、6、7、8、9、10个或更多个概率模型。
在训练期间,可使用指示疾病状态的序列读取利用甲基化信息或甲基化状态向量(例如,此前针对图3-4所描述的)来训练机器学习引擎220。特别地,机器学习引擎220确定序列读取内的每个CpG位点的观察的甲基化率。甲基化率表示CpG位点内的甲基化碱基对的分数或百分比。训练的概率模型230可由甲基化率的乘积参数化。如此前所描述的,可以使用任何已知的概率模型来向来自样品的序列读取分配概率。例如,概率模型可以是二项式模型,其中向核酸片段上的每个位点(例如,CpG位点)分配甲基化概率;或者是独立位点模型,其中每个CpG的甲基化是由不同甲基化概率指定,并假设一个位点处的甲基化独立于核酸片段上的一个或多个其他位点处的甲基化。
在一些实施例中,使用马尔可夫模型,其中每个CpG位点处的甲基化概率取决于序列读取或衍生序列读取的核酸分子中一定数量的此前CpG位点的甲基化状态。参见例如于2019年3月13日提交的标题为“异常的片段检测及分类”的美国专利申请公开号2019/0287652,其全文通过引用的方式并入本文中。
在一些实施例中,所述概率模型230是使用来自基础模型(如上述概率模型Pr)的成分的混合物拟合的“混合模型”。此外,在一些实施例中,如上所述,所述机器学习引擎220使用最大似然估计来拟合概率模型230。
在步骤130中,所述分析系统200应用概率模型230来计算第二组序列读取的每个序列读取的值,例如,不同于步骤110中产生的第一组序列读取。至少基于所述序列读取(及相应片段)源自与所述概率模型230的疾病状态相关联的样品的概率来计算这些值。所述分析系统200可以针对每个不同的概率模型230重复步骤130。在一些实施例中,所述分析系统200使用对数似然比R及与某些疾病状态相关联的拟合概率模型来计算值,例如如上所述的R_疾病状态。
在其他实施例中,所述分析系统200可以使用不同类型的比率或方程式来计算值。所述机器学习引擎220可以基于针对各种疾病状态考虑的对数似然比中的至少一者是否高于阈值来确定指示疾病状态(例如,癌症)的片段。
特征选择
图6是根据一个实施例的确定用于训练分类器的特征的过程的图示。如前所述,所述机器学习引擎220训练与疾病状态相关联的概率模型230。在图6中所示的实例中,概率模型230(“组织模型”)与非癌症(健康)、乳腺癌和肺癌相关。分析系统200处理一种或多种cfDNA和/或肿瘤样品以获得片段,并使用概率模型230向与非癌症(健康)、乳腺癌和肺癌相关的片段分配某一值。分析系统200可使用来自cfDNA和/或种类样品的序列读取的信息来鉴定分类器的特征。在一些实施例中,分析系统200可以从分区的参考基因组的每个窗口中获得和分配片段,如图5中所示。分析系统200将来自窗口的片段汇总为用于确定分类器的特征的序列。
在步骤140中,所述分析系统200通过确定值超过阈值的所述序列读取的计数来鉴定特征。在值基于对数似然比R的实施例中,阈值是阈值比率。所述分析系统200可以使用多个层级的阈值来鉴定特征。例如,所述层级包括阈值1、2、3、4、5、6、7、8和9。每个层级指示片段(从其产生序列读取)与来自健康样品相比更可能来自与疾病状态相关的样品的不同阈值。分析系统200可使用阈值来确定离群片段的计数,所述计数可用作特征。
通过使用阈值加以过滤,分析系统200可将某些片段视为离群值,因为所述片段不可能存在于健康样品中。因此,离群片段可以被认为更可能与(例如,源自)疾病状态或癌症样品相关。不同层级之间特征数量可能会有所不同。在其他实施例中,分析系统200使用不同数量的层级或其他阈值。在其他实施例中,分析系统200可使用其他方法或评分(如p值)来过滤片段。在一些实施例中,分析系统200计算甲基化状态向量的p值,所述p值描述观察到该甲基化状态向量或健康对照组中可能性极小的其他甲基化状态向量的概率。为了确定异常甲基化的片段,所述分析系统200使用具有大量正常甲基化片段的健康对照组(参见例如于2019年3月13日提交的标题为“异常的片段检测及分类”的美国专利申请号16/352,602,其全文通过引用的方式并入本文中)。
所述分析系统200可以对在步骤120中训练的每个概率模型重复步骤130至140。因此,分析系统200可鉴定一种或多种与概率模型相关的疾病状态的特征。在图6中所示的实例中,分析系统200鉴定乳腺癌和肺癌的一个或多个特征。
在一些实施例中,分析系统200基于区分不同疾病状态的特征的指标来对所鉴定的特征排序。例如,如果特征可区分某些癌症类型与其他癌症类型或健康样品,则特征具有信息性。分析系统200可使用交互信息来确定区分两种疾病状态的特征的信息内容的指标。对于每对不同疾病状态,分析系统200可将一种疾病状态(例如,癌症类型A)指定为阳性类型,并将另一疾病状态(例如,癌症类型B)指定为阴性类型。
可以使用阳性类型和阴性类型(例如,癌症类型A和B)的样品的估计分数来计算交互信息,所述样品的特征预计在最终测定中为非零。例如,如果特征频繁出现在健康cfDNA中,则分析系统200确定所述特征不可能频繁出现在与各种类型癌症有关的cfDNA中。因此,所述特征可为区分疾病状态的较弱指标。在计算交互信息I时,变量X是某一特征(例如,二进制)和变量Y表示疾病状态(例如,癌症类型A或B):
Figure BDA0004080228790000441
p(1|A)=fA+fH-fHfA
X和Y的联合概率质量函数为p(x,y),并且边界概率质量函数为p(x)和p(y)。分析系统200可假设特征缺失是无信息的,并且任何一种疾病状态都是先验概率相等的,例如,p(Y=A)=p(Y=B)=0.5。观察到(例如,在cfDNA中)癌症类型A的给定二进制特征的概率由p(1|A)表示,其中fA是在来自与癌症类型A相关的肿瘤的ctDNA样品(或高信号cfDNA样品)中观察到该特征的概率,并且fH是在健康或非癌症cfDNA样品中观察到该特征的概率。
在一些实施例中,通过cfDNA预计包含非零特征值的癌症患者的分数来估计fA值。在癌症类型A的训练数据由cfDNA样品组成时,该分数可估计为仅为观察到该特征的cfDNA样品的分数。在训练数据包含种类样品时,可进行校正以补偿cfDNA中低于肿瘤的分数的肿瘤源片段。对于确定具有大于阈值的值的种类样品中的N个片段(例如,来自步骤140),分析系统200将在来自该患者的cfDNA中检测到那些片段中的每一个的概率r计算为:
Figure BDA0004080228790000442
在来自该患者的cfDNA中观察到至少一个片段的概率可然后计算为p(NcfDNA>0)=1-(1-r)N。为估计fA,可在癌症类型A的所有训练样品中对p(NcfDNA>0)取平均值,其中该概率可分配为1(对于具有该特征的cfDNA样品)、0(对于缺乏该特征的cfDNA样品)和1-(1-r)N(对于种类样品)。在一些实施例中,估计是基于早期癌症患者的cfDNA中的种类分数的预定假设值(例如,0.1%)、拟应用至患者的最终分析中的cfDNA测序深度(例如,1000x)以及肿瘤测序深度(例如,25x)。为估计fH,分析系统200使用阳性样品的分数来确定有多少其他样品将在较大测序深度下得到阳性检测分类。
分类
在步骤150中,分析系统200使用特征产生分类器。分类器经训练以针对来自测试对象的测试样品的输入序列读取预测与疾病状态相关的来源组织。分析系统200可针对每对疾病状态(例如)基于交互信息计算或另一计算指标来选择预定数量(例如,1024)的定级特征以训练分类器。预定数量可视为基于交叉验证中的性能而选择的超参数。分析系统200还可以从参考基因组的区域中选择经确定在区分疾病状态对方面更具有信息性的特征。在各种实施例中,分析系统200使得每个区域和每种癌症类型对(包括非癌症作为阴性类型)保持最佳性能层级。
在一些实施例中,所述分析系统200通过将具有其特征向量的训练样品的集合输入到分类器中并调整分类参数来训练分类器,从而使分类器的函数将训练特征向量准确地关联到其对应的标签。所述分析系统200可以将训练样品分组为一个或多个训练样品的集合,其用于分类器的迭代批量训练。在输入包括其训练特征向量的所有训练样品的集合并调整分类参数之后,所述分类器可以被充分训练以在一定误差范围内根据其特征向量来标记测试样品。所述分析系统200可以根据多种方法中的任意一种来训练分类器,例如,L1正则化逻辑回归或L2正则化逻辑逻辑回归(例如,具有对数损失函数)、广义线性模型(GLM)、随机森林、多项式逻辑回归、多层感知器、支持向量机、神经网络或任何其他合适的机器学习技术。
在各种实施例中,所述分析系统200通过二值化来转换特征值。特别地,将大于0的特征值设定为1,从而特征值为0或1(指示疾病状态的存在或不存在)。在其他实施例中,可实施平滑函数(例如,用以提供更精细的值)而不是二进制化至0或1。
在各种实施例中,分析系统200使用折叠的训练数据来训练多项式逻辑回归分类器,并产生对保留数据的预测。对于K个折叠中的每一个,分析系统200针对每个超参数组合训练一个逻辑回归。一个实例超参数是L2罚分,即,应用至逻辑回归的权重的正则化形式。另一个实例超参数是topK,即每一组织类型对(包括非癌症)拟保留的高级区域的数量。例如,在topK=16的情况下,分析系统200是每个组织类型对保留排名居前的16个区域,如通过本文所描述的交互信息程序排序。通过根据该程序,分析系统200可以产生训练集中的每个样品的预测,同时确保并不使用产生预测的数据来训练分类器。
在各种实施例中,对于每个超参数集,分析系统200根据完整训练集的经交叉验证的预测来评价性能,并且分析系统200选择具有最佳性能的超参数集来使用完整训练集进行再训练。可基于对数损失度量来确定性能。分析系统200可通过以下方式来计算对数损失:获得每个样品的正确暴击的预测的负对数,并且然后在样品中求和。例如,正确标记的完美预测1.0将得到对数损失0(越低越准确)。为产生新样品的预测,分析系统200可使用上述方法计算特征值,但限于在所选择topK值下选择的特征(区域/正分类组合)。分析系统200可使用所产生特征并且使用训练的逻辑回归模型来产生预测。
在可选步骤160中,分析系统200应用分类器来预测测试样品的来源组织,其中来源组织与疾病状态之一相关。在一些实施例中,分类器可返回一种以上疾病状态或来源组织的预测或似然性。例如,分类器可返回以下预测:测试样品具有乳腺癌来源组织的似然性为65%,具有肺癌来源组织的似然性为25%,并且具有健康来源组织的似然性为10%。分析系统200可进一步处理预测值以产生单一疾病状态确定。
多层感知器模型
在一些实施例中,可使用多层感知器模型(“MLP”)来替代逻辑回归以供分类。对于基于国际回归的分类器而言,MLP分类器可以是单一多分类分类器,其用于检测癌症和确定癌症的来源组织(TOO)或癌症类型两者。例如,多类分类器可被训练以区分两种或更多种、三种或更多种、五种或更多种、十种或更多种、十五种或更多种或者二十种或更多种不同癌症类型。在一个实施例中,多类癌症MPL模型亦可包含非癌症的分类标记,并且可确定癌症检测(例如,以1-非癌症形式)。在另一个实施例中,多层感知器模型可以是两阶段分类器,第一阶段用于二进制分类(例如,癌症或非癌症),和第二阶段多层感知器模型用于多类分类(例如,TOO),例如,具有一个或多个隐藏层。
在一个实施例中,多层感知器包括以下两阶段分类器:第一阶段多层感知器(MLP)二进制分类器,其并无隐藏层;和第二阶段多层感知器(MLP)多类分类器,其具有单一隐藏层。在一个实施例中,使用第一阶段分类器确定为具有癌症的样品随后通过第二阶段分类器进行分析。
在第一训练阶段中,可训练用于检测癌症存在的无隐藏层的二进制(两类)多层感知器模型以区分癌症样品(不论TOO如何)与非癌症。对于每个样品,二进制分类器输出指示癌症的存在或不存在的似然性的预测评分。
在第二训练阶段中,可训练用于确定癌症类型或癌症的来源组织的平行多类多层感知器模型。在一个实施例中,仅评分高于截止阈值的癌症样品(例如,第一阶段分类器中的95%的非癌症样品)可纳入该多类MLP分类器的训练中。对于训练和测试中所使用的每个癌症样品而言,多类MLP分类器输出关于所分类癌症类型的预测值,其中每个预测值是给药样品具有某一癌症类型的似然性。例如,癌症分类器可返回测试样品的癌症预测,该癌症预测包括乳腺癌预测评分、肺癌预测评分和/或无癌症预测评分。
循环无细胞基因组图谱研究
在各种实施例中,使用从循环无细胞基因组图谱(CCGA)研究的患者的训练子集导出的一组训练数据训练每个预测性癌症模型(参见Clinical Trial.gov Identifier:NCT02889978),然后使用从CCGA研究的患者的测试或验证子集导出的测试或验证数据集进行测试。
使用多个来自循环无细胞基因组图谱(CCGA)研究的已知癌症类型来训练本文所述的预测性癌症模型。CCGA样品集包括以下癌症类型:乳腺、肺、前列腺、结肠直肠、肾、子宫、胰腺、食管、淋巴瘤、头颈、卵巢、肝胆管、黑色素瘤、宫颈、多发性骨髓瘤、白血病、甲状腺、膀胱、胃和肛门直肠。因此,模型可以是用于检测一种或多种、两种或更多种、三种或更多种、四种或更多种、五种或更多种、十种或更多种或者20种或更多种不同类型癌症的多癌症模型(或多癌症分类器)。
可使用衍生自CCGA研究的第一患者子集的精修训练数据集来训练预测性癌症模型,并且随后使用衍生自来自CCGA研究的第二患者子集的精修测试数据集进行测试。
癌症检测组(Cancer Assay Panel)
在各种实施例中,本文描述的预测性癌症模型使用由癌症检测组富集的样品,所述癌症检测组包括多个探针或多个探针对。本领域已知多种靶向癌症检测分析(,例如,于2019年4月2日提交的WO 2019/195268、2019年9月27日提交的PCT/US2019/053509及2020年1月24日提交的PCT/US2020/015082中所述的内容(其全文通过引用的方式并入本文中)。例如,在一些实施例中,所述癌症检测组可以被设计为包括多个探针(或探针对),这些探针可以捕获片段,这些片段可以一起提供与癌症诊断相关的信息。在一些实施例中,所述癌症检测组包括至少50、100、500、1000、2000、2500、5000、6000、7500、10000、15000、20000、25000或50000对探针。在其他实施例中,检测组包括至少500、1000、2000、5000、10000、12000、15000、20000、30000、40000、50000或100000个探针。所述多个探针一起可以包括至少10万、20万、40万、60万、80万、100万、200万、300万、400万、500万、600万、700万、800万、900万或1000万个核苷酸。所述探针(或探针对)是专门设计用于靶向癌症及非癌症样品中甲基化差异的一个或多个基因组区域。根据大小预算(由测序预算及期望的测序深度确定),可以选择靶基因组区域以最大化分类精度。
使用癌症检测组富集的样品可以用于靶向测序。使用所述癌症检测组富集的样品可用于检测是否普遍存在癌症及/或提供癌症分类,如癌症类型、癌症分期,如I、II、III或IV,或提供被认为是癌症起源的组织。根据目的,一个检测组可以包括靶向一般癌症(泛癌)样品及非癌症样品之间差异甲基化的基因组区域的探针(或探针对)或仅靶向特定癌症类型的癌症样品(例如,肺癌特异性靶点)。具体而言,根据癌症及/或非癌症个体的无细胞DNA(cfDNA)或基因组DNA(gDNA)产生的亚硫酸氢盐测序数据设计癌症检测组。
在一些实施例中,通过本文提供的方法设计的癌症检测组包括至少1000对探针,每对探针包括两个探针,通过包含30个核苷酸片段的重叠序列,所述两个探针相互重叠。所述30个核苷酸片段包括至少五个CpG位点,其中所述至少五个CpG位点中的至少80%是CpG或UpG。所述30个核苷酸片段被配置为与癌样品中的一个或多个基因组区域结合,其中所述一个或多个基因组区域具有具有至少五个甲基化位点,所述至少五个甲基化位点具有异常甲基化模式。另一个癌症检测组包括至少2000个探针,每个探针都被设计为一个互补于一个或多个基因组区域的杂交探针。基于以下标准选择每个基因组区域,所述标准包括:(i)至少30个核苷酸及(ii)至少五个甲基化位点,其中所述至少五个甲基化位点具有异常甲基化模式并且是低甲基化或高甲基化的。
每个探针(或探针对)被设计用于靶向一个或多个靶基因组区域。基于被设计用于增加相关cfDNA片段的选择性富集、同时减少噪声及非特异性结合的几个标准来选择靶基因组区域。例如,一个检测组可以包括能够选择性地结合并富集癌样本中差异甲基化的cfDNA片段的探针。在这种情况下,富集片段的测序可以提供与癌症诊断相关的信息。此外,所述探针可以被设计成靶向确定具有异常甲基化模式及/或高甲基化或低甲基化模式的基因组区域以提供额外的检测选择性及特异性。例如,根据在一组非癌性样品上训练的马尔可夫模型,当所述基因组区域具有低p值的甲基化模式时,可以选择该基因组区域,该基因组区域另外覆盖至少5个CpG,其中90%是甲基化或非甲基化的。在其他实施例中,如本文所述,可以利用混合物模型选择基因组区域。
每个探针(或探针对)可以靶向包括至少25bp、30bp、35bp、40bp、45bp、50bp、60bp、70bp、80bp或90bp的基因组区域。所述基因组区域可以通过包含少于20、15、10、8或6个甲基化位点而选择。当至少五个甲基化(例如,CpG)位点的80、85、90、92、95或98%在非癌性或癌性样品中甲基化或非甲基化时,可以选择该基因组区域。
基因组区域可以被进一步筛选,以便仅选择那些根据其甲基化模式可能提供信息的区域,例如,癌性及非癌性样品之间差异甲基化的CpG位点(例如,癌症与非癌症中的异常甲基化或非甲基化)。对于选择,可以针对每个CpG位点进行计算。在一些实施例中,第一个计数被确定为包含与该CpG重叠的片段的含癌样品(cancer_count)的数量,第二个计数被决定为包含与CpG重叠的片段的总样品数量(total)。基因组区域可以基于与含癌样品的数量(cancer_count)呈正相关的标准而选择,其中包括与该CpG重叠的片段,并且与含有与该CpG重叠的片段的总样品数量(total)呈负相关。
在一个实施例中,计算具有与CpG位点重叠的片段的非癌样品(n非癌症)及癌样品(n癌症)的数量。然后,估计样品为癌症的概率,例如(n癌症+1)/(n癌症+n非癌症+2)。根据该度量对CpG位点排序,并贪婪地添加到检测组中,直到检测组的大小预算用完为止。
根据检测是用于泛癌检测或单一癌症检测,或者根据在选择哪些CpG位点对检测组有贡献时所需的灵活性,用于癌症计数的样品可能不同。可以使用类似的过程来设计用于诊断特定癌症类型(例如TOO)的检测组。在本实施例中,对于每个癌症类型及每个CpG位点,计算信息增益以确定是否包括靶向该CpG位点的探针。相较于所有其他样品,计算给定癌症类型样品的信息增益。例如,两个随机变量“AF”及“CT”。“AF”是一个二进制变量,其指示特定样品中是否存在与特定CpG位点重叠的异常片段(是或否)。“CT”是一个二进制随机变量,其指示癌症是否属于特定类型(例如,肺癌或除了肺癌以外的癌症)。给定“AF”,可以计算关于“CT”的交互信息。也就是说,如果知道是否存在与特定CpG位点重叠的异常片段,则可以获得关于癌症类型(实例中的肺癌与非肺癌)的信息位数。这可用于根据CpG对特定癌症类型(例如TOO)的特异性对其进行排名。针对多种癌症类型重复此过程。例如,如果某个特定区域通常仅在肺癌中发生差异甲基化(并且不是其他癌症类型或非癌症),则该区域的CpG往往会获得较高的肺癌的信息。对于每一种癌症类型,根据该信息增益度量对CpG位点排序,并贪婪地添加到检测组中,直到用于癌症类型的检测组的大小预算用完为止。
可进一步过滤以选择脱靶基因组区域小于阈值的靶基因组区域。例如,仅选择存在小于15、10或8个脱靶基因组区域的基因组区域。在其他情况下,进行过滤以去除靶基因组区域的序列在基因组出现大于5、10、15、20、25或30次的基因组区域。可进一步过滤以选择与靶基因组区域90%、95%、98%或99%同源的序列在基因组中出现小于15、10或8次的靶基因组区域,或去除与把基因组区域90%、95%、98%或99%同源的序列在基因组中出现大于5、10、15、20、25或30次的靶基因组区域。这是为了排除可以下拉脱靶片段的重复探针,这是不希望的并且可以影响测定效率。
在一些实施例中,需要至少45bp的片段探针重复以实现不可忽略量的下拉(但该数量可能根据测定细节而不同)。另外,已发现,在重叠区域中的探针与片段序列之间具有大于10%的错配率即足以大大破坏结合,并且由此降低效率。因此,可沿至少45bp以至少90%匹配速率与探针对准的序列是脱靶下拉的候选者。因此,在一个实施例中,对此类区域的数量进行评分。最佳探针具有评分1,这意指其仅在一处匹配(预期靶点区域)。具有低评分(即小于5或10)的探针可以接受,但弃去任何高于该评分的探针。可针对特定样品使用其他截止值。
在各种实施例中,所选择的靶基因组区域可以位于基因组中的各个位置中,包括但不限于外显子、内含子、基因间区域和其他部分。在一些实施例中,可添加靶向非人类基因组区域的探针(例如,靶向病毒基因组区域的那些)。
癌症应用
在一些实施例中,本发明的方法、分析系统及/或分类器可用于检测癌症的存在(或不存在)、监测癌症的进展或复发、监测治疗反应或疗效、确定存在或监测微量残留疾病(MRD)或其任意组合。在一些实施例中,所述分析系统及/或分类器可用于鉴定癌症的组织或来源。例如,所述系统及/或分类器可用于将癌症鉴定为以下的任何癌症类型:头颈癌、肝脏/胆管癌、上消化道癌、胰腺/胆囊癌;结直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴瘤、黑色素瘤、肉瘤、乳腺癌及子宫癌。例如,如本文所述,分类器可用于产生样品特征向量来自癌症对象的似然度或概率评分(例如,从0到100)。在一些实施例中,将概率评分与阈值概率进行比较,以确定该对象是否患有癌症。在其他实施例中,可以在不同的时间点(例如,治疗之前或之后)评估似然度(likelihood)或概率评分,以监测疾病进展或监测治疗效果(例如,疗效)。在其他实施例中,所述似然度或概率评分可用于作出或影响临床决策(例如,癌症诊断、治疗选择、治疗有效性评估等)。例如,在一个实施例中。如果似然度或概率评分超过阈值,医生可以开处方进行适当的治疗。在一些实施例中,可以产生测试报告以向患者提供其测试结果,包括例如患者具有疾病状态(例如,癌症)、疾病的类型(例如,癌症类型)及/或起源疾病组织(例如,起源癌症组织)的概率评分。
癌症的早期检测
在一些实施例中,使用本发明的方法和/或分类器来监测疑似患有癌症的对象中癌症的存在或不存在。例如,可使用分类器(如本文所述)来确定样品特征向量是来自患有癌症的对象的似然性或概率评分。
在一个实施例中,大于或等于60的概率评分可以表示所述对象患有癌症。在其他实施例中,大于或等于65、大于或等于70、大于或大于75、大于或等于80、大于或等同85、大于或等于90、或大于或等于95的概率评分表示该对象患有癌症。在其他实施例中,概率评分可以指示疾病的严重程度。例如,与评分低于80(例如,评分为70)相比,概率评分为80可能表示癌症的更严重形式或晚期。类似地,概率评分随着时间的增加(例如,在第二个较晚的时间点)可以指示疾病进展,或者概率评分随着时间的降低(例如,第二个较后的时间点)可以指示治疗成功。
在另一个实施例中,可通过获得癌性概率相对于非癌性概率(即1减去癌性概率)的比率的对数来计算测试对象的癌症对数比值比,如本文所述。根据该实施例,大于1的癌症对数比值比可指示对象患有癌症。在另外其他实施例中,大于1.2、大于1.3、大于1.4、大于1.5、大于1.7、大于2、大于2.5、大于3、大于3.5或大于4的癌症对数比值比指示对象患有癌症。在其他实施例中,癌症对数比值比可指示疾病严重程度。例如,与低于2的评分(例如,评分1)相比,大于2的癌症对数比值比可指示癌症的更严重形式或更晚期。类似地,癌症对数比值比随时间的增加(例如,在第二、后续时间点)可指示疾病进展或癌症对数比值比随时间的降低(例如,在第二、后续时间点)可指示成功治疗。
根据本公开内容的方面,可训练本发明的方法和系统以监测或分类多种癌症适应症。例如,可使用本发明的方法、系统和分类器来检测一种或多种、两种或更多种、三种或更多种、五种或更多种或者十种或更多种不同类型癌症的存在。
在一些实施例中,癌症是头颈癌、肝/胆管癌、上消化道癌、胰腺/胆囊癌、结肠直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴样赘生物、黑色素瘤、肉瘤、乳腺癌和子宫癌中的一种或多种。
癌症及治疗监测
在某些实施例中,第一时间点是在癌症治疗之前(例如,在切除手术或治疗干预之前),第二时间点是在癌症治疗之后(例如,在切除手术或治疗干预之后),并且利用该方法来监测治疗有效性。例如,如果第二似然性或概率评分低于第一似然性或概率评分,则治疗可视为已成功。然而,如果第二似然性或概率评分高于第一似然性或概率评分,则治疗可视为尚未成功。在其他实施例中,第一时间点和第二时间点两者均是在癌症治疗之前(例如,在切除手术或治疗干预之间)。在另外其他实施例中,第一时间和第二时间点两者均在癌症治疗之后(例如,在切除手术或治疗干预之后),并且使用该方法来监测治疗有效性或治疗有效性损失。在另外其他实施例中,可在第一时间点和第二时间点从癌症患者获得cfDNA样品,并且分型以例如监测癌症进展、判定癌症是否在缓解中(例如,在治疗之后)、监测或检测残留疾病或疾病复发或监测治疗(例如,治疗性)效能。
本领域技术人员将容易地意识到,可在任何所需时间点集中从癌症患者获得测试样品,并且根据本发明方法进行分析以监测患者中的癌症状态。在一些实施例中,第一时间点和第二时间点间隔时间量介于约15分钟至约30年之间,例如,约30分钟,例如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或约24小时,如约1、2、3、4、5、10、15、20、25或约30天,或如约1、2、3、4、5、6、7、8、9、10、11或12个约,或如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或约30年。在其他实施例中,可至少每3个月一次、至少每6个月一次、至少每年一次、至少每2年一次、至少每3年一次、至少每4年一次或至少每5年一次从患者获得测试样品。
治疗
在另一个实施例中,可使用从本文所述的任一方法获得的信息(例如,似然性或概率评分)来做出或影像临床决定(例如,癌症诊断、治疗选择、治疗有效性评价等)。例如,在一个实施例中,如果似然性或概率评分超过阈值,则医师可开具适当治疗(例如,切除手术、放射疗法、化学疗法和/或免疫疗法)的处方。在一些实施例中,可将信息(例如,似然性或概率评分)作为读取提供给医师或对象。
可使用分类器(如本文所述)来确定样品特征向量是来自患有癌症的对象的似然性或概率评分。在一个实施例中,在似然性或概率超过阈值时,开具适当治疗(例如,切除手术或治疗措施)的处方。例如,在一个实施例中,如果似然性或概率评分大于或等于60,则开具一种或多种适当治疗的处方。在另一个实施例中,如果似然性或概率评分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90或者大于或等于95,则开具一种或多种适当治疗的处方。在其他实施例中,癌症对数比值比可指示癌症治疗的有效性。例如,癌症对数比值比随时间增加(例如,在第二、后续治疗中)可指示治疗并不有效。类似地,癌症对数比值比随时间降低(例如,在第二、后续治疗中)可指示成功治疗。在另一个实施例中,如果癌症对数比值比大于1、大于1.5、大于2.5、大于3、大于3.5或大于4,则开具一种或多种适当治疗的处方。
在一些实施例中,治疗是一种或多种选自以下的癌症治疗剂,包括化学治疗剂、靶向癌症治疗剂、分化治疗剂、激素治疗剂和免疫治疗剂。例如,治疗可以是一种或多种选自以下的化学治疗剂,包括烷化剂、抗代谢剂、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉烷类)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物、铂类药物及其任何组合。在一些实施例中,治疗是一种或多种选自以下的靶向癌症治疗剂,包括信号转导抑制剂(例如,酪氨酸激酶和生长因子受体抑制剂)、组蛋白去乙酰化酶(HDAC)抑制剂、视黄酸受体激动剂、蛋白酶体抑制剂、血管生成抑制剂和单克隆抗体缀合物。在一些实施例中,治疗是一种或多种分化治疗剂,包括类视黄醇,如维甲酸、阿里维A酸和贝沙罗汀。在一些实施例中,治疗是一种或多种选自以下的激素治疗剂,包括抗雌激素、芳香酶抑制剂、孕激素、雌激素、抗雄激素和GnRH激动剂或类似物。在一个实施例中,治疗是一种或多种选自以下的免疫治疗剂,包括单克隆抗体疗法,如利妥昔单抗(RITUXAN)和阿伦单抗(CAMPATH),非特异性免疫疗法和佐剂,如BCG、白介素-2(IL-2)和干扰素α,免疫调节药物,例如,沙利度胺和来那度胺(REVLIMID)。基于诸如肿瘤类型、癌症分期、此前暴露于癌症治疗或治疗剂的特征以及癌症的其他特征来选择合适的癌症治疗剂在熟练的医师或肿瘤学家的能力范围内。
实例
实例1:全基因组亚硫酸氢盐测序(WGBS)
第一CCGA子研究:从第一CCGA子研究获得图7A-C中所显示的数据,其中从经诊断患有未经治疗癌症(包括20种肿瘤类型和所有癌症阶段)的个体和未诊断有癌症的健康个体(对照)收集训练数据血样(N=1785)以供血浆cfDNA提取。收集另一血液样品集合(N=1,010)以用于验证。除非另有指示,否则对从第一CCGA子研究样品提取的无细胞DNA(cfDNA)和基因组DNA(gDNA)进行全基因组亚硫酸氢盐测序分析。
在分类过程中,分析系统200将片段甲基化状态视为源自潜在甲基化模式的混合物。分析系统200向所观察片段分配源自特定癌症的来源组织的相对概率。
更具体地,如本文所述,将概率模型拟合至衍生自多个来自每个癌症类型(以及针对非癌症或健康样品)的区域(或窗口)的序列读取。在该情况下,使用混合模型,其中每个混合分量是独立位点模型(其中每个CpG处的甲基化独立于其他CpG处的甲基化)。使用最大似然性估计来拟合模型以鉴定最大化所有片段衍生自一种癌症类型(或非癌症)的总对数似然性的参数集。
对于每个区域和每个癌症类型对(包括非癌症作为阴性类型)而言,使用最佳性能层级来训练多项式逻辑回归分类器。对于每个样品(不论标记如何)而言,在每个区域中,对于每个癌症类型和每个片段,如此前所述的来计算对数似然比,并且对于每个“层”值集,量化R癌症类型>层级的片段的数量。将用于每一层级的量化读取二进制化,并用作训练分类器的特征。
最后,在指示的情况下,为产生未知样品的预测,确定特征值(如上文所述),并且使用所产生特征利用经训练多项式逻辑回归分类器来产生癌症和/或来源组织预测。
实例混淆矩阵:图7A、图7B和图7C包含根据各个实施例的指示分类器准确度的混淆矩阵。在一些实施例中,分析系统200使用混淆矩阵来确定分类器的准确度。混淆矩阵包括阐述分类器鉴定每种疾病状态的成功率的信息。
如图7A中所示,矩阵710包括分类器基于使用cfDNA样品集(无组织样品)训练的多项式模型的实例性能。矩阵720包括分类器基于通过处理器200使用相同cfDNA样品集训练的混合模型的实例性能。沿矩阵对角线的评分指示正确预测,即其中所预测片段来源组织匹配真实来源组织。与基于多项式模型的分类器(作为基线)相比,基于混合模型的分类器在预测矩阵中所显示癌症类型的存在方面具有更大整体准确度。
可基于一个或多个准则(例如,特定特异性水平)来过滤训练集的样品。例如,训练集包括根据m评分基于98%特异度确定为具有癌症的样品。为清楚起见,排除剩余(例如,2%)的(错误地)鉴定为具有癌症的非癌症样品而不显示在混淆矩阵。
如图7B中所示,矩阵730包括分类器基于使用cfDNA样品的交叉验证训练集(无组织样品)训练的混合模型的实例性能。矩阵740包括分类器基于使用cfDNA和组织样品的交叉验证训练集训练的混合模型的实例性能。
如图7C所示,矩阵750包括基于使用来自名为“循环细胞基因组图谱研究(“CCGA”)”的临床研究的一组cfDNA样品(无组织样本)训练的混合模型的分类器的实例性能。矩阵740包括分类器基于使用来自CCGA的cfDNA和组织样品集训练的混合模型的实例姓名。使用Clinical Trial.gov Identifier:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978)来描述CCGA研究。
实例2:使用来自第二CCGA子研究的早期突破的靶向亚硫酸氢盐测序对癌症进行分类
第二CCGA子研究:自第二CCGA子研究之早期突破获得图9A至9B、10A至10B及11中所展示之资料,其中自经诊断患有未治疗癌症(包含20个肿瘤类型及所有癌症阶段)之个体及未诊断有癌症之健康个体(对照)收集训练资料血样(N=3,132)以供血浆cfDNA提取。收集另一血样集(N=1,354)以用于验证。在一些实施例中,在指示的情形下,训练集亦包含来自组织样品(即gDNA)的训练资料。为判定分析群体,基于若干因素来筛选训练资料血样。举例而言,因临床解锁而排除105个样品;基于合格性准则排除11个样品;因未证实癌症或治疗状态而排除58个样品(不可评估);排除4个未处理样品及72个不可评估分析(不可分析);且保留581个样品以供将来分析。因此,2,301个样品的分析群体包含1,422个癌症样品及879个非癌症样品。
子研究中的个体的参与者人口统计学展示于下文的表1中。
Figure BDA0004080228790000591
Figure BDA0004080228790000601
表1:参与者人口统计学及阶段分布。癌症及非癌症组在年龄、种族、性别及身体质量指数方面相当(未示出)。*包含肛门直肠癌、膀胱癌、脑癌、乳腺癌、子宫颈癌、结直肠癌、食管癌、胃癌、头颈癌、肝胆管癌、肺癌、淋巴髓系瘤(慢性淋巴球性白血病、淋巴瘤)、多发性骨髓瘤、髓系肿瘤(急性髓系白血病、慢性髓系白血病)、卵巢癌、胰脏癌、前列腺癌、肾癌、肉瘤及子宫癌。
Figure BDA0004080228790000613
排除38名丢失吸烟状态信息的参与者。
Figure BDA0004080228790000611
排除两名丢失BMI值的参与者。§仅侵袭性癌症。
Figure BDA0004080228790000612
无可用分阶段信息。
为鉴定癌症定义性及组织定义性甲基化信号,对所提取cfDNA实施亚硫酸氢盐测序分析以靶向甲基化组之最具信息性区域,如自GRAIL之专属全基因组亚硫酸氢盐测序分析及甲基化数据库所鉴定。
使用甲基化数据库来询问代表21个肿瘤类型(97%的SEER癌症发生率)的811个癌细胞甲基化组中之全基因组片段级甲基化模式。为产生癌症定义性甲基化信号之甲基化数据库,对来自福尔马林(formalin)固定、石蜡包埋(FFPE)肿瘤组织之基因组DNA及来自肿瘤之经分离细胞实施全基因组亚硫酸氢盐测序分析。使用该甲基化数据库进行检测组设计及训练以优化如本文所述分类器之性能。产生癌症及非癌症之较大甲基化序列数据库以使得能够靶向选择能够以高特异度分类多种癌症且鉴定起源组织的单一测试。
靶选择及检测组设计:使用如本文所阐述来自CCGA研究之甲基化序列数据库来选择靶基因组区域。具体而言,使用非癌症分布基于p值来筛选数据库中的cfDNA序列,且仅保留p<0.001的片段。进一步筛选所选cfDNA以仅保留至少90%甲基化或90%未甲基化者。接下来,针对所选片段中的每一CpG位点,计数包含与该CpG位点重叠的片段的癌症样品或非癌症样品的数量。具体而言,计算每一CpG的P(癌症|重叠片段)且选择具有高P值的基因组位点作为一般癌症靶。经由设计,所选片段具有极低噪声(亦即较少非癌症片段重叠)。
为寻找癌症类型特异性靶,实施类似选择程序。基于信息增益来对CpG位点排序,从而比较一种癌症类型与所有其他样品(亦即非癌症+其他癌症类型)。
产生包括靶向所选基因组区域的探针的癌症分析检测组,如本文所阐述。具体而言,所述检测组经设计以通常检测癌症(亦即对非癌症)或特定癌症类型(例如TOO)的存在。所述检测组包含靶向所选基因组区域中的各者的探针集。
探针经设计以与包含于任一靶向区域(例如异常片段)的开端/末端范围内的任一CpG位点重叠。
分类:在分类过程中,所述分析系统200将片段甲基化状态视为源自潜在甲基化模式的混合物。所述分析系统200向所观察片段指派源自癌症的相对概率。对于起源组织分类而言,所述分析系统200向所观察片段指派源自特定组织的相对概率。所述分析系统200组合靶向区域中的癌症及起源组织的片段特性以针对癌症与非癌症进行分类及/或鉴定起源组织。对于二进制癌症分类而言,所述分析系统200估计99%特异度下的灵敏度。
更具体而言,如上述实例中所阐述,将机率模型拟合至衍生自复数个来自每一癌症类型(及对于非癌症或健康样品)、所鉴定特征及经训练多项式逻辑回归分类器的区域(或窗口)的序列读取。为产生未知样品之预测,判定特征值(如上所述)且使用所产生特征利用经训练多项式逻辑回归分类器来产生癌症及/或起源组织预测。
图9A及9B图解说明通过本发明中所阐述方法产生的起源组织分类器的灵敏度。在99%特异度下报告灵敏度,且指示95%置信区间。图9A图解说明预定列表之癌症的模型预测。图9B图解说明CCGA研究中所包含的其他癌症的模型预测。单独人口统计学信息(基线建模)可正确分类<5%的参与者。预定癌症列表(肛门直肠癌、乳腺癌[HR阴性]、结直肠癌、食管癌、胃癌、头颈癌、肝胆管癌、肺癌、淋巴样肿瘤[慢性淋巴球性白血病、淋巴瘤]、多发性骨髓瘤、卵巢癌、胰脏癌)中的整体灵敏度为76.1%(95%CI:73.1-78.9%)。在此小组中,早期(I-III)癌症中的灵敏度为68.8%(95%CI:64.8-72.6%)。所有癌症类型及阶段中的整体灵敏度为55.1%(95%CI:52.5-57.7%)。在早期(I-III)癌症中,灵敏度为43.8%(95%CI:40.7-46.8%)。
图10A及10B图解说明起源组织分类器在不同癌症阶段的灵敏度。在99%特异度下报告预定所关注癌症基于个别阶段(如图例中所指示)的整体灵敏度。框内的数字代表每一阶段所包含样品的总数。指示95%置信区间。“淋巴样肿瘤”包含淋巴瘤(阶段I-IV)及慢性淋巴球性白血病(未分阶段,包含作为“NI”)。
图11图解说明代表起源组织定位的准确度的性能网格。使用起源组织分类器利用阶段I-IV样品中的甲基化数据库获知,每一样品的真实(x轴)起源组织与预测(y轴)起源组织一致。梯度图例对应于预测起源组织(y轴)中正确(x轴)的比例。该分析展示,在使用甲基化数据库下,起源组织定位准确度(所有TOO预测之正确分数)较高(p=0.0066)。此与阶段I-III预测:89.9%(384/427)一致,如在表2中进一步所证实。
Figure BDA0004080228790000631
表2:在包含甲基化数据库时,起源组织性能得以改良。*使用斯图亚特-马克斯韦尔测试(Stuart-Maxwell test)计算之P值。
Figure BDA0004080228790000641
不确定调用定义为检测为并无确信起源组织指派之癌症的样品。
Figure BDA0004080228790000642
将未由起源组织分析调用之样品分类为非癌症。
实例3:病毒无细胞核酸分子的检测及HPV相关癌症的分类
简介:人乳头瘤病毒(HPV)是一组多样化的病毒,其病毒基因组长度约为8.2kb。HPV感染非常普遍,目前有8000万美国人感染某种类型的HPV,其中9/10的感染是暂时性的(即在2年内消除)。某些类型的HPV会大大增加罹患癌症的风险,例如在美国有70%的口咽癌,在美国有90%以上的宫颈癌及肛门直肠癌,以及阴道癌、外阴癌及阴茎癌。HPV 16及HPV18占HPV引起的癌症案例的绝大多数。在本实例中,使用覆盖HPV 16及HPV 18基因组的探针,使用靶向检测组设计(例如,用于二元癌症分类及多类癌症分类的靶向检测组)来提取HPV片段。靶向检测组实现有用的分类信号,并通过大幅提高肛门直肠TOO的准确性,解决HPV轴线的TOO混淆,并且是几乎没有成本。
本研究数据集的初步观察表明,HPV片段在非HPV癌症中非常罕见。例如,图12A图解说明各种癌症类型中HPV片段计数与样品分数(fraction)>X的图示。如图12所示,HPV片段在HPV相关的癌症(例如,肛门直肠癌、头颈癌及宫颈癌)中明显更普遍,而在非HPV相关的癌症(例如,前列腺癌、乳腺癌、肺癌、结直肠癌、上消化道癌及非癌症)中则少得多。此外,约99.2%的非癌症具有0个HPV片段。在图12B的条形图中,比较各种癌症类型中的HPV片段数,并且也显示非HPV癌症中HPV片段的罕见性。举例来说,图12B中最上面的两列条形图显示非HPV相关癌症cfDNA样品中HPV片段的数量,例如,大肠癌、乳腺癌、肺癌、前列腺癌及上消化道癌样品以及非癌症样品。另一方面,图12B中条形图的底部第三列显示,HPV相关癌症cfDNA样品中HPV片段的存在率更高,例如头颈癌、宫颈癌及肛门直肠癌样品。值得注意的是,图12A至12B仅显示可评估的cfDNA样品,并且包括在HPV16及HPV18之间相加的HPV片段计数。
图13A至13D证明,根据本文阐述的各种实施例,CCGA2中HPV片段下拉与预期的生物学一致。举例来说,图13A图解说明的条形图显示各种癌症类型(包括非癌症、头颈癌、宫颈癌及肛门直肠癌)的可评估cfDNA样品中的HPV 16及HPV 18片段计数。图13B图解说明的条形图显示各种癌症类型(包括头颈癌、宫颈部及肛门直肠癌)的组织样品中HPV 16及HPV18片段计数。图13A至13B都图解说明HPV 18比HPV 16更罕见,并且HPV18主要限于宫颈癌。
图13C图解说明的条形图显示不同HPV状态(如阳性、难以判定、阴性及其他/缺失状态)下头颈癌及宫颈癌样品的临床HPV状态的HPV片段计数。图13D图解说明的条形图显示未报告的癌症样品(如外阴、尿道、十二指肠、阴茎、胸膜及睾丸)按肿瘤类型的HPV片段计数。如图13C至13D所示,HPV片段计数在很大程度上与临床状态一致。
图13E图解说明的条形图显示所有样品中按肿瘤位置的头颈癌HPV片段计数,肿瘤位置包括咽(包括舌根)、主要唾液腺、唇及口腔(包括舌头)、喉、鼻腔及鼻窦、头颈部及喉/甲状腺。如图13E所示,具有HPV片段的头颈部样品主要局限于咽部。所有的喉样品都具有0个HPV片段。
现在参考图14,图14提供一些图表,其表明一些当前未检测到的癌症高于特定的特异性阈值截止值。具体而言,关于图14的上方的图,5.8的阈值是4022个非癌症训练样品的99.8%。在图14的下方的图中,134个样品(9个非癌症,125个癌症)高于特异性阈值截止值(虚线),而22个样品(8个非癌症、16个癌症)则保持低于0.994特异性截止值。
头颈癌中的TOO分类混淆:本研究的数据集的进一步观察表明,TOO与头颈癌存在一些混淆。具体而言,大多数检测到的肛门直肠样品被预测为头颈癌(7/9)。例如,高比例的头颈样品被预测为肺癌(7/54),这可能部分由喉癌引起。例如,尽管在二元截止值(binarycutoff)以上的头颈癌中,喉癌约占12/111,但50%的肺癌的错误分类是喉癌。图15A至15D示出UMAP嵌入以说明可以在特征级别看见观察到的TOO混淆。例如,图15A图解说明来自标记为肛门直肠、宫颈、头部及颈部、头颈及喉部以及肺部的所有样品的训练集的特征的UMAP嵌入。图15B图解说明来自也标记为肛门直肠、颈部、头部及颈部、头颈部及喉部以及肺部的评估样品的训练集的特征的UMAP嵌入。如图15A至15B所示,由恶性肿瘤的混合物组成的簇以很少的分离存在。
图15C及15D图解说明从用于所有样品的训练集(图15C)及用于评估样品的训练集合(图15D)中某些选定特征的UMAP嵌入。具体而言,这两个图仅使用HPV阳性类型及HPV阴性类型为肛门直肠、宫颈、头部及颈部或肺的特征。
图16图解说明显示对HPV阳性患者的头部及颈部特征偏差的各种图表。图17A至17B中的各种图表显示分离HPV阳性样品减少特征偏差。例如,HPV阳性样品可以通过将高于HPV截止值的样品重新标记为HPV阳性(或以有HPV存在的其他方式)来分离。在一些实例中,可以在特征选择之前执行这种重新标记。如图17A至17B所示,头部/颈部特征保留对头部/颈部样品的区分,但现在也具有区分HPV阳性头部/颈部癌症的HPV状态特征(例如,HPV阳性特征)。
如图18A至18B所示,与先前的图15A至15D相比,HPV状态特征(即,HPV阳性特征)总体上增加HPV相关癌症的分离。图18A至18B图解说明根据本文公开的各种实施例,在头部及颈部特征偏差减小之后,分别来自用于所有样品的序列集以及用于评估样品的序列集的特征的UMAP嵌入。具体地,图18A至18B中的UMAP嵌入仅使用HPV阳性类型及HPV阴性类型为肛门直肠、宫颈、头部及颈部或肺的特征。
分类性能:图19A图解说明示出正确预测842个样品中的742个样品的TOO多类分类器的分类结果的混淆矩阵。图19B表明,使用HPV状态特征的分类可以提高分类的准确性,尤其是在HPV阳性癌症中。具体地,图19B图解说明示出正确预测842个样品中的749个样品的基于HPV的多类分类器的分类结果的混淆矩阵。基于HPV的多类分类器使用具有作为内部交叉验证预测的HPV状态(例如HPV阳性)的肛门直肠癌、宫颈癌及头颈癌的样品来进行训练。在测试时,任何预测为HPV阳性的样品都可以使用基于HPV的多类分类器进行预测。
图19C进一步证明,将基于HPV的多类分类器应用于与图19A的TOO多类分类器相同的特征化实现比图19A本身更好的结果(例如,图19A的742/842对图19C中的749/842)。例如,图19C图解说明显示基于HPV的多类分类器的分类结果的混淆矩阵,该矩阵使用通过95%特异性截断值的肛门直肠癌、宫颈癌及头颈癌样品进行训练。在测试时,任何被预测为三类之一的样品都可以使用基于HPV的多类分类器进行预测。在一些实施例中,基于HPV的多类分类器可以是根据本文描述的任何方法训练的分类器。此类分类器可以基于逻辑回归算法、神经网络算法、支持向量机算法或决策树算法,这些算法已经在包括患有癌症及/或未患有癌症的对象的训练队列中训练过。
实例4:基于HPV的分类
简介:一种基于非侵入性无细胞DNA(cfDNA)的血液检测,其被设计用于在检测任何处于转移前期(I–III期)的癌症时,可以降低癌症死亡率。为了使这种多癌检测在人群规模上有效,它应该:(i)以固定的低假阳性率(即非常高的特异性,如[>99%])检测高危人群(例如50岁以上)中具有临床意义的癌症,以限制过度诊断及不必要的诊断检查;(ii)鉴定特定的起源组织(TOO),以指导对检测到的癌症进行适当的诊断检查;(iii)通过前瞻性、多中心、纵向、人群规模的研究以及大量对照个体进行验证。
如前所述,循环无细胞基因组图谱研究(CCGA;NCT02889978)是一项前瞻性、多中心、病例对照、观察性研究,其具有纵向随访以支持基于血浆cfDNA的多肿瘤早期检测试验的发展。在CCGA子研究2中,使用靶向基因组区域的甲基化状态进行训练的分类器来检测癌症并使用cfDNA预测TOO,达到99.3%的特异性及55%的灵敏度。在96%具有类癌信号的病例中预测TOO;其中,93%的病例的预测是准确的。
头颈(H&N)癌与其他癌症的一些系统性错误分类表示其生物复杂性。高危型人乳头瘤病毒(HPV)感染与宫颈癌、其他肛门生殖器癌以及上消化道癌的病因有关。同样,CCGA子研究2中的TOO错误分类发生在通常受HPV相关癌症影响的组织之间—肛门、宫颈及临床证实的HPV阳性H&N(头颈部)。此外,外阴癌及阴茎癌的TOO预测为H&N。H&N及肺癌之间也观察到TOO错误分类;这可能是由癌症类型及部位的共性(上呼吸道及喉部鳞状细胞癌)及风险因素(暴露于来自吸烟的致癌物)引起的。
这项针对来自CCGA的参与者的子组的事后分析旨在(a)探讨HPV相关癌症中TOO错误分类是由潜在HPV感染引起的表观遗传相似性驱动的假设,以及(b)提高HPV相关癌症类型的TOO预测准确性。
方法
血浆cfDNA样品中的HPV DNA片段的检测:如前所述进行样品收集、添加、存储及处理。此外,杂交捕获套组包含靶向HPV 16及HPV 18基因组的探针。探针被设计成平铺整个基因组,并靶向每个序列的甲基化及非甲基化拷贝(假设统一的甲基化状态)。HPV16及HPV18是高风险HPV,通常与宫颈癌、肛门生殖器癌及头颈癌等癌症相关。通过计算映射于HPV 16及HPV18基因组的独特片段数量,评估所有参与者的血浆cfDNA样品是否存在HPV DNA片段。对于一部分的参与者(n=57),根据病理报告确定HPV状态。
使用血浆cfDNA样品中的HPV DNA片段与甲基化特征对癌症状态进行分类:使用与样品中HPV 16及HPV 18靶点比对的独特cfDNA片段数量的交叉验证截止值来使用血浆cfDNA样品中的HPV DNA片段对癌症状态进行分类。如前所述,使用基于甲基化的分类器对癌症状态及TOO进行分类。
错误分类组织中甲基化特征的可视化:为创建一个信息嵌入,这项研究首先对分类器选择的甲基化特征进行细分,这些甲基化特征在HPV相关癌症类型之间的成对比较以及与肺癌的成对比较中具有鉴别性。选定的特征用于创建一个具有感兴趣癌症类型的参与者的UMAP嵌入,癌症子集用于训练TOO分类器。
开发用于HPV相关癌症的TOO预测的专业分类器:作为对原始基于甲基化的TOO分类器的补充,使用相同的甲基化特征(但仅限于宫颈癌、肛门癌及头颈癌)训练三类逻辑回归分类器。这种专业分类器被应用于对由基于甲基化的TOO分类器预测为三种癌症中任何一种的样品产生新的预测。
结果
血浆cfDNA样品中HPV DNA片段的检测:在所有人群中(N=3553;癌症,N=1530;非癌症,N=2023),72个人患有HPV相关癌症,3481个人未患有HPV相关癌症。当可取得时,血浆cfDNA样品中的HPV DNA片段计数(HPV 16+HPV 18DNA片段计数)与HPV状态的临床诊断基本一致。例如,图20A图解说明的条形图显示通过临床诊断的HPV状态、高信号血浆cfDNA样品子集以及被检测为患有癌症的HPV DNA片段计数。如图20A所示,与具有HPV阴性状态的参与者相比,更有可能在具有临床确认的HPV阳性状态的参与者的血浆cfDNA样品中存在HPVDNA片段。
在具有HPV DNA片段的肿瘤活检中,HPV 18DNA片段在宫颈癌的肿瘤活检中最常见(84%);这与文献中关于宫颈癌中HPV18感染率高于肛门癌及头颈癌的报道一致。例如,图20B图解说明的条形图显示肿瘤活检中HPV 16与HPV 18DNA片段计数(按组织类型),以及由于来自宫颈癌参与者的血浆cfDNA样品数量较少,因此子集为肿瘤活检样本。HPV18 DNA片段在宫颈癌患者中最常见。84%(16/19)的具有非零的HPV 18DNA片段计数的肿瘤活检是宫颈癌。
在患有头颈癌的参与者中主要在具有口咽部肿瘤的参与者中检测到HPV DNA片段,而不是在喉部及口腔的肿瘤;这与HPV相关的头颈癌在口咽部更常观察到的报告一致。例如,图20C图解说明的条形图显示通过肿瘤位置、高信号血浆cfDNA样品的子集以及检测出患有癌症的头颈癌参与者中的HPV DNA片段计数。患有口咽区肿瘤的参与者的HPV DNA片段计数高于患有喉及口腔肿瘤的参与者。
血浆cfDNA样品中存在HPV DNA片段是HPV相关癌症的高度特异性指标。特别地,只有在1.1%(40/3481)的未报告HPV相关癌症的参与者的血浆cfDNA样品中检测到HPV DNA片段。例如,图20D图解说明的条形图按癌症类型显示血浆cfDNA样品中的HPV DNA片段计数,并显示所有cfDNA样品。cfDNA样品中的HPV DNA片段计数在患有HPV相关癌症(如头颈癌、宫颈癌及肛门直肠癌)的参与者中最高。
使用血浆cfDNA样品中的HPV DNA片段与甲基化特征对癌症状态进行分类:血浆cfDNA样品中HPV DNA片段的数量的交叉验证截止值(5.4±1.2,跨越6倍)证实对HPV相关癌症的高灵敏度,特异性为99.8%,对于这些癌症类型,实现与最初基于甲基化的分类器类似的性能(表3)。尽管美国普遍存在短暂的HPV感染,但血浆cfDNA样品中的HPV DNA片段对HPV相关癌症的特异性很高,这与文献中报道的缺乏HPV病毒血症的情况是一致的。
表3、交叉验证HPV DNA片段截止值及基于甲基化的分类器的特异性及灵敏度的比较。
Figure BDA0004080228790000711
错误分类组织中甲基化特征的可视化:在图20E中的UMAP嵌入中,观察到四组不同的参与者通常被肺癌亚型及HPV信号(定义为血浆中是否存在HPV DNA片段)分隔开。参与者聚集的一些显着例外包括:(i)HPV信号阴性的神经内分泌宫颈癌(n=1)与肺神经内分泌肿瘤(NET;n=39)聚类(簇C);(ii)HPV信号阴性的宫颈腺癌(n=1)及头颈部的HPV信号阴性的唾液腺癌(n=2)与肺腺癌(n=79)及非小细胞肺癌(NSCLC;n=26)聚类(簇D)。
6名HPV信号阴性的头颈癌参与者与HPV相关癌症组(簇A)聚类。其中,3名参与者具有经测序的肿瘤活检,所有的肿瘤活检都具有非零的HPV DNA片段,其表明在血浆cfDNA样品中没有观察到HPV DNA片段的情况下,所选择的甲基化特征为HPV信号提供信息。表4图解说明错误分类组织中甲基化特征的可视化结果,其显示通常按癌症亚型及HPV信号分开的四组不同的参与者。应当注意,表4是用于训练TOO分类器的癌症子集,表述H&N是指头部及颈部,HPV表示人乳头瘤病毒,NET表示神经内分泌肿瘤,NOS表示未另外指定,NSCLC表示非小细胞肺癌,SCC表示鳞状细胞癌。
Figure BDA0004080228790000721
开发用于HPV相关癌症的TOO预测的专业分类器:开发专业分类器的动机是观察到尽管HPV相关癌症形成一个独立于HPV信号阴性样品的单一簇,但HPV相关的簇似乎显示一些子结构,并将头颈癌与肛门及宫颈癌分开。应用专门分类器导致肛门癌的TOO预测准确性增加(表5)。
表5、HPV专业分类器及基于甲基化的分类器的TOO预测准确性的比较
Figure BDA0004080228790000731
示例方法
图21至25图解说明根据本文描述的各种实施例的用于检测基于HPV的癌症的各种方法。应当注意,在图21至25的任何方法中,一些操作可以与本文别处公开的任何操作或实施例相结合,其中一些操作的顺序可以改变,并且可以省略一些操作。
图21是根据各种实施例的用于检测一对象中HPV相关癌症的筛查方法2100的流程图。在框2102处,方法2100可以包括从测试对象获得生物样品。所述生物样品可包括来自测试对象的无细胞核酸及来自至少一种HPV毒株的潜在无细胞核酸。在一些实例中,一种或多种HPV毒株包括HPV 16及/或HPV 18。在一些实施例中,一种或多种HPV毒株包括HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一种或多种毒株。
在框2104处,方法2100可以包括对第一生物样品中的无细胞核酸进行测序以产生来自所述对象的多个序列读取。在一些实例中,所述测序包括全基因组测序、靶向测序或全基因组亚硫酸氢盐测序,如本文别处所述。
在框2106处,方法2100可以包括确定映射到对应于一个或多个HPV毒株的一个或多个HPV参考基因组的多个序列读取的量。该量可以包括映射到一个或多个HPV参考基因组的独特序列读数的计数。例如,独特序列读取的量可以包括映射到对应于一个或多个HPV毒株的一个或多个HPV参考基因组的独特序列读取的总计数。
在框2108处,方法2100可以包括当独特序列读取的量超过截止值时,检测所述对象中的HPV相关癌症。在某些情况下,所述HPV相关癌症是宫颈癌、肛门生殖器癌及/或头颈癌。在一些实例中,截止值是5个独特序列读取、10个以上的独特序列读取或20个以上的独特序列读取。此外,在一些实例中,截止值是与检测HPV相关癌症的靶特异性相关的经交叉验证的HPV DNA片段计数截止值。仅作为实例,目标特异性可以在99.0至99.9%的范围内。
现在参考图22,图22是图解说明根据各种实施例的一种筛选一对象中是否存在HPV相关癌症的方法2200的流程图。在框2202处,方法2200可以包括检测生物样品中的HPV的存在或不存在,所述生物样品包含来自所述对象的无细胞核酸及来自一HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸。在一些实例中,检测生物样品中HPV病毒核酸的存在或不存在包括:确定生物样品中衍生自HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸的HPV片段的量,将该HPV片段的量与截止值进行比较,以及当该量超过截止值时,检测生物样品中HPV的存在。在某些情况下,确定HPV片段的量涉及对来自一种或多种HPV毒株的无细胞核酸及潜在无细胞核酸进行测序以获得多个序列读取,以及基于映像到对应于所述一个或多个HPV毒株的一个或多个HPV参考基因组的多个序列读取的总计数来确定HPV片段的量。测序可以通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序进行。在一些实例中,通过利用杂交捕获套组进行的靶向测序来执行测序,所述杂交捕获套组包含靶向HPV参考基因组的探针,所述HPV参考基因组对应于HPV毒株集合。这样的探针可以平铺所述靶向HPV参考基因组。
在某些情况下,截止值是至少6个独特HPV片段的计数,其中每个独特HPV片段映像到与HPV毒株集合中的至少一个HPV毒株相对应的HPV参考基因组。该HPV毒株集合可包括HPV 16或HPV 18中的至少一种。在某些情况下,该HPV毒株集合包括HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一者或多者。
在框2204处,方法2200可以包括基于生物样品中HPV病毒核酸的检测,应用基于HPV的多类分类器,该多类分类器预测多个HPV相关癌症类型中的各者的评分,其中基于HPV的多类分类器在包含HPV阳性癌症样品的训练集上进行训练。基于HPV的多类分类器可以基于对来自生物样品中的一HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸进行测序得到的特征来预测评分。所述特征可以包括一个或多个甲基化衍生特征、HPV片段的总计数及HPV片段的二值化计数。在一些实例中,甲基化衍生特征是区分HPV相关癌症类型及其他癌症类型(如肺癌)之间的成对比较的特征。
在一些实例中,多种HPV相关癌症类型包括宫颈癌、肛门生殖器癌及头颈癌。基于HPV的多类分类器可以包括多项逻辑回归分类器。在某些情况下,基于HPV的多类分类器的训练仅限于HPV阳性的癌症样品,其中HPV阳性癌症样品与宫颈癌、肛门直肠癌及头颈癌中的至少一种相关。
在框2206处,方法2200可以包括根据HPV多类分类器预测的评分,确定与生物样品相关的HPV相关癌症。此外,在一些实例中,根据检测生物样品中不存在HPV,方法2200可以包括:放弃应用基于HPV的多类分类器,或确定生物样品中不存在HPV相关癌症。
现在参考图23,图23是图解说明根据各种实施例的一种预测含有无细胞核酸(例如来自测试对象的无细胞核酸及来自至少一种HPV毒株的潜在无细胞核酸)的测试样品中癌症的存在或不存在的方法2300的流程图。在框2302处,方法2300可以包括访问具有第一癌症类型的测试样品。可以通过第一多类分类器确定所述第一癌症类型,所述第一多类分类器基于对测试样品中的无细胞核酸进行测序得到的特征集合,产生第一癌症类型的初始评分。测序可以通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序进行。在一些实例中,测序包括测试样品中无细胞核酸中的HPV 16及HPV 18核酸序列的靶向下拉。
在框2304处,方法2300可以包括:根据确定第一癌症类型是HPV相关癌症类型,将第二多类分类器应用于特征集合,以确定对应于第二癌症类型的第二评分,其中所述第二多类分类器仅在HPV阳性癌症样品上训练。仅举个例子,HPV相关癌症类型可以是宫颈癌、肛门生殖器癌或头颈癌。
在一些实例中,第一多类分类器可以包括对应于多个HPV相关癌症类型及非HPV相关癌症类型的多个类别。在一些实例中,第二多类分类器可以包括对应于三种HPV相关癌症类型(例如宫颈癌、肛门生殖器癌及头颈癌)的至少三个类别。第一多类分类器可以使用衍生自多个HPV相关癌症类型的样品及非HPV相关癌症类型的样品的训练特征集合进行训练,所述训练特征集合包括甲基化衍生特征,以及第二多类分类器可以使用来自所述训练特征集合的一受限训练特征集合进行训练,受限训练特征集合仅限于从多个HPV相关癌症类型样品中提取的特征。
在一些实例中,特征集合中的特征包括一个或多个甲基化衍生特征、HPV片段的总计数、HPV片段的二值化计数及/或HPV信号状态。例如,HPV片段的总计数或HPV片段的二值化计数可以包括映射到HPV 16及/或HPV 18参考基因组的独特序列读取的量化计数。HPV信号状态可以包括由HPV无细胞核酸片段的存在定义的HPV阳性信号状态或由HPV无核酸片段的不存在定义的HPV阴性信号状态(例如,相对于检测到的片段的截止值或阈值计数)。例如,在一些实例中,当映像到HPV 16及HPV 18参考基因组的独特序列读取的定量大于阈值时,确认HPV无细胞核酸片段。仅作为示例,阈值可以是映射到HPV 16及HPV 18参考基因组的大约6个独特序列读取,或片段的任何阈值范围,如5至7个独特序列读取、4至8个独特序列读取及/或3至9个独特序列读取之间的阈值。
HPV片段的总计数或HPV片段的二值化计数可以包括映射到一个或多个HPV参考基因组的独特序列读取的量化计数。HPV信号状态可以包括由HPV无细胞核酸片段的存在定义的HPV阳性信号状态或由HPV无核酸片段的不存在定义的HPV阴性信号状态,其中当映射到一个或多个HPV参考基因组的独特序列读取的定量大于阈值时(例如,映像到一个或多个HPV参考基因组的6个独特序列读取的阈值)确认HPV无细胞核酸片段的存在。此类HPV参考基因组可与HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68的毒株中的一种或多种相关。
在框2306处,方法2300可以包括根据第二癌症类型确定测试样品的癌症的程度。癌症的程度可以包括癌症的存在或不存在、癌症类型或癌症的起源组织。在一些实例中,根据确定第一癌症类型不是HPV相关癌症类型,方法2300可以包括放弃对特征集合应用第二多类分类器,并基于第一癌症类型确定测试样品的癌症的程度,其中癌症的程度是癌症的存在或不存在,癌症类型,或者癌症起源组织。
现在参考图24,图24是图解说明根据各种实施例的一种检测及分类癌症的方法2400的流程图。在框2402处,方法2400可以包括接收包含无细胞核酸片段的生物样品的测序数据。在框2404处,方法2400可以包括从测序数据导出一特征集合,其中所述特征集合包括甲基化衍生特征及HPV片段的总计数、HPV片段的二值化计数或HPV信号状态中的至少一者。此外,在框2406处,方法2400可以包括将多类分类器应用于特征集合,其中多类分类器预测多个癌症类型中的各者的概率似然度,其中多个癌症类型包括HPV相关癌症类型及非HPV相关癌症类型。在框2408处,方法2400可以包括基于概率似然度确定癌症分类,其中癌症分类包括癌症的存在或不存在、癌症类型、癌症起源组织、HPV相关癌症的存在或不存在、HPV相关癌症类型或HPV相关的癌症起源组织。
方法2400的各种操作及特征可以与本文别处描述的任何实施例、实例及方面相结合。此外,在某些情况下,可以根据从样品测序中获得的HPV相关特征,动态及/或自动地设置用于调用样品的起源组织或癌症信号源(例如,癌症阳性判定)的阈值。例如,如果在样品中检测到HPV片段的截止数量(例如,至少6个片段),则在一些实施例中,用于确定样品是否为癌阳性的阈值/评分可以低于未检测到HPV片段的样品或未满足HPV片段的截止数量的样品。动态阈值可以应用于二进制癌症分类器,其中阈值是动态的以用于调用样品的癌症与非癌症。动态阈值可以应用于多类癌症分类器,其中阈值是动态的以用于调用某些类型的癌症,如调用HPV相关癌症。
图25是图解说明根据各种实施例的一种检测测试样品中癌症程度的方法2500的流程图,所述测试样品包括来自测试对象的无细胞核酸及来自HPV毒株的潜在无细胞核酸。在框2502处,方法2500可以包括获得通过对无细胞核酸测序产生的测序数据。在框2504处,方法2500可以包括基于从测序数据确定的甲基化衍生特征产生第一特征集合。在框2506处,方法2500可以包括基于测序数据中HPV衍生序列读取的计数产生至少一个第二特征。
在框2508处,方法2500可以包括将第一个多类分类器应用于第一特征集合及至少一个第二个特征以确定第一癌症分类,其中多类分类器在对应于阳性癌症样品的训练样品上进行训练,阳性样品包括HPV相关癌症类型及非HPV相关癌症类型。在框2510处,方法2500可以包括根据确定第一癌症分类对应于HPV相关癌症类型:将第二多类分类器应用于第一特征集合及至少一个第二特征以确定第二癌症分类,其中,第二多类分类器仅在具有HPV相关癌症类型的阳性癌症样品上进行训练。此外,在框2512处,方法2500可以包括根据第一癌症分类及/或第二癌症分类确定癌症的程度。
方法2500的各种操作及特征可以与本文别处描述的任何实施例、实例及方面相结合。
结论
HPV感染可在多种组织类型中诱导类似的表观遗传变化;尽管这可能会导致TOO错误分类,但这表明基于甲基化的分类器已经学会使用反映潜在生物信号及病理过程的表观遗传标记对血浆cfDNA样品进行分类。血浆cfDNA样品中的HPV DNA片段的存在是HPV相关癌症的高特异性指标。理解TOO错误分类的根本原因可以为分类结构的改变提供信息,从而提高总体TOO预测准确性,进一步实现在多种癌症早期检测测试的信号检测后指导有效临床随访的目标。
其他注意事项
应当理解,本发明的附图及描述已经被简化以用于图解说明与清楚理解本发明相关的组件,同时为了清楚起见,删除在典型系统中发现的许多其他组件。本领域普通技术人员可以认知在实施本发明时,其他组件及/或步骤是期望的吉/或需要的。然而,由于这样的组件及步骤在本领域中是公知的,并且因为它们不利于更佳地理解本发明,所以在本文中不提供对这样的组件或步骤的讨论。本文的公开内容针对本领域技术人员已知的这种组件及方法的所有这种变化及修改。
上文描述的一些部分描述关于信息操作的算法及符号表示方面的实施例。数据处理领域的技术人员通常使用这些算法描述及表现形式来向本领域的其他技术人员有效地传达其工作的实质内容。这些操作虽然在功能上、计算上或逻辑上进行描述,但可以理解为通过计算机程序或等效电路、微代码等来实现。所描述的操作及其相关模块可以体现在软件、固件、硬件或其任意组合中。
本发明的方法可以使用计算机控制的机器人来实现。这些方法可以体现在用于控制机器人操作以使它们执行所公开的方法的计算机可读指令中。
如本文所用的任何提及“一个实施例”或“一实施例”是指与该实施例有关的描述的特定组件、特征、结构或特性包括在至少一个实施例中。说明书中不同地方出现的“在一个实施例中”的短语不一定都是指同一个实施例,从而为所描述的实施例的各种可能性提供一个框架,使其能够共同发挥作用。
如本文所用,术语“包括”、“包含”、“含有”、“蕴含”、“具有”、“有”或其任何其他变体旨在涵盖非排他性包含。举例来说,包括组件列表的过程、方法、物品或设备不一定仅限于那些元素,而是可以包括未明确列出的或此类过程、方法或物品或设备固有的其他元素。此外,除非有明确的相反说明,否则“或”指的是包容性的或,而不是排他性的或。例如,条件A或B满足以下任一条件:A为真(或存在),B为假(或不存在),A为假(或者不存在)及B为真(或存在),并且A及B都为真(或存在)。
此外,使用“一”或“一个”来描述本文实施例的组件及组件。这样做仅仅是为了方便并给出本发明的一般意义。本说明书应当被理解为包括一个或至少一个,以及单数也包括复数,除非明显是其他意思。
虽然已经图解说明及描述特定的实施例及应用,但应当理解,所公开的实施例并不限于本文所公开的精确结构及组件。在不脱离所附权利要求书中定义的精神及范围的情况下,可以对本文所揭露的方法及装置的设置、操作及细节进行各种修改、变更及变化,这些修改、变更及变化对于本领域的技术人员来说是显而易见的。

Claims (69)

1.一种用于检测一对象中的一HPV相关癌症的筛选方法,其特征在于:所述方法包括:
(a)从所述测试对象获得一生物样品,其中所述生物样品包括来自所述测试对象的无细胞核酸及来自至少一种HPV毒株的潜在的无细胞核酸;
(b)对所述第一生物样品中的所述无细胞核酸进行测序,以产生来自所述测试对象的多个序列读取;
(c)确定映射到对应于一种或多种HPV毒株的一个或多个HPV参考基因组的所述多个序列读取的量,其中所述量包括映射于所述一个或多个HPV参考基因组的独特序列读取的计数;以及
(d)当独特序列读取超过一截止值时,检测所述对象中的一HPV相关癌症。
2.如权利要求1所述的方法,其特征在于:所述独特序列读取的量包括映射到对应于所述一种或多种HPV毒株的一个或多个HPV参考基因组的独特序列读取的总数。
3.如前述权利要求任一项所述的方法,其特征在于:所述一种或多种HPV毒株包括HPV16及/或HPV 18。
4.如前述权利要求任一项所述的方法,其特征在于:所述一种或多种HPV毒株包括HPV16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一种或多种。
5.如前述权利要求任一项所述的方法,其特征在于:测序包括全基因组测序、靶向测序或全基因组亚硫酸氢盐测序。
6.如前述权利要求任一项所述的方法,其特征在于:所述HPV相关癌症包括宫颈癌、肛门生殖器癌及头颈癌中的至少一种。
7.如前述权利要求任一项所述的方法,其特征在于:所述截止值是5个以上的独特序列读取。
8.如前述权利要求任一项所述的方法,其特征在于:所述截止值是10个以上的独特序列读取。
9.如前述权利要求任一项所述的方法,其特征在于:所述截止值是20个以上的独特序列读取。
10.如前述权利要求任一项所述的方法,其特征在于:所述截止值是与检测HPV相关癌症的一目标特异性相关的一交叉验证的HPV DNA片段计数截止值。
11.如权利要求10所述的方法,其特征在于:所述目标特异性是在99.0至99.9%的范围内。
12.一种用于筛选一对象中的一HPV相关癌症的存在的方法,其特征在于:所述方法包括:
检测一生物样品中HPV的存在或不存在,所述生物样品包括来自所述对象的无细胞核酸及来自一HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸;
基于所述生物样品中的HPV病毒核酸的一检测,应用一基于HPV的多类分类器,所述基于HPV的多类分类器预测多种HPV相关癌症类型中的各者的一评分,其中所述基于HPV的多类分类器在包括HPV阳性癌症样品的一训练集上进行训练;以及
基于通过所述HPV多类分类器预测的所述评分,确定与所述生物样品相关的一HPV相关癌症。
13.如权利要求12所述的方法,其特征在于:检测所述生物样品中的HPV病毒核酸的存在或不存在包括:
确定所述生物样品中的HPV片段的量,所述HPV片段源自所述HPV毒株集合中的至少一种HPV毒株的潜在的无细胞核酸;
将HPV片段的量与一截止值进行比较;以及
当所述量超过所述截止值时,检测所述生物样品中的HPV的存在。
14.如权利要求12至13任一项所述的方法,其特征在于:确定所述HPV片段的量包括:
对来自一种或多种HPV毒株的所述无细胞核酸及潜在的无细胞核酸进行测序,以获得多个序列读取;以及
基于映射到对应于所述一种或多种HPV毒株的一个或多个HPV参考基因组的所述多个序列读取的一总计数来确定HPV片段的量。
15.如权利要求12至14任一项所述的方法,其特征在于:所述测序是通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序来执行。
16.如权利要求12至15任一项所述的方法,其特征在于:所述截止值是至少6个独特HPV片段的计数,每个独特HPV片段映射到对应于所述HPV毒株集合中的至少一种HPV毒株的一HPV参考基因组。
17.如权利要求12至16任一项所述的方法,其特征在于:所述HPV毒株集合包括HPV 16或HPV 18中的至少一种。
18.如权利要求12至17任一项所述的方法,其特征在于:所述HPV毒株集合包括HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一种或多种。
19.如权利要求12至18任一项所述的方法,其特征在于:所述基于HPV的多类分类器基于对从所述生物样品中的一HPV毒株集合中的所述至少一种HPV毒株的所述潜在的无细胞核酸进行测序得到的特征来预测所述评分,其中所述特征包括甲基化衍生特征、HPV片段的总计数及HPV片段的二进制计数中的一者或多者。
20.如权利要求19所述的方法,其特征在于:所述甲基化衍生特征包括区分HPV相关癌症类型及其他癌症类型之间的成对比较的特征,其中所述其他癌症类型包括肺癌。
21.如权利要求12至20任一项所述的方法,其特征在于:所述测序是通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序来执行。
22.如权利要求12至22任一项所述的方法,其特征在于:通过使用一杂交捕获套组的靶向测序来执行测序,所述杂交捕获套组含有靶向与所述HPV毒株集合相对应的HPV参考基因组的探针。
23.如权利要求22所述的方法,其特征在于:所述探针平铺所述靶向HPV参考基因组。
24.如权利要求12至23任一项所述的方法,其特征在于:所述多种HPV相关癌症包括宫颈癌、肛门生殖器癌及头颈癌。
25.如权利要求12至24任一项所述的方法,其特征在于:所述基于HPV的多类分类器包括多项逻辑回归分类器。
26.如权利要求12至25任一项所述的方法,其特征在于:所述基于HPV的多类分类器的训练限于HPV阳性癌症样品,其中所述HPV阳性癌症样品包括宫颈癌、肛门直肠癌及头颈癌中的至少一种。
27.如权利要求12至26任一项所述的方法,其特征在于:所述方法包括:基于检测到所述生物样品中不存在HPV:
放弃应用所述基于HPV的多类分类器;或
确定所述生物样品中HPV相关癌症的不存在。
28.一种用于预测含有无细胞核酸的一测试样品中的癌症的存在或不存在的方法,所述无细胞核酸包括来自一测试对象的无细胞核酸以及来自至少一种HPV毒株的潜在的无细胞核酸,其特征在于:所述方法包括:
访问具有一第一癌症类型的所述测试样品,其中所述第一癌症类型由一第一多类分类器确定,所述第一多类分类器基于对来自所述测试样品中的所述无细胞核酸进行测序得到的一特征集合,产生所述第一癌症类型的一初始评分;
根据确定所述第一癌症类型是一HPV相关癌症类型:
将一第二多类分类器应用于所述特征集合以确定对应于一第二癌症类型的一第二评分,其中所述第二多类分类器仅在HPV阳性癌症样品上训练;以及
基于所述第二癌症类型,确定所述测试样品的一癌症程度,其中所述癌症程度包括癌症的存在或不存在、癌症类型或起源癌组织。
29.如权利要求28所述的方法,其特征在于:所述HPV相关癌症类型包括宫颈癌、肛门生殖器癌及头颈癌。
30.如权利要求28至29任一项所述的方法,其特征在于:所述特征集合中的特征包括一个或多个甲基化衍生特征、HPV片段的总计数、HPV片段的二进制计数及/或HPV信号状态。
31.如权利要求28至30任一项所述的方法,其特征在于:所述HPV片段的总计数或所述HPV片段的二进制计数包括映射到HPV 16及/或HPV 18参考基因组的独特序列读取的一量化计数。
32.如权利要求28至31任一项所述的方法,其特征在于:所述HPV信号状态包括由HPV无细胞核酸片段的存在定义的HPV阳性信号状态或由HPV无核酸片段的不存在定义的HPV阴性信号状态;
进一步其中当映射到HPV 16及HPV 18参考基因组的独特序列读取的一定量大于一阈值时,确认所述HPV无细胞核酸片段的存在。
33.如权利要求32所述的方法,其特征在于:所述阈值是映射于HPV 16及HPV 18参考基因组的6个独特序列读取。
34.如权利要求28至33任一项所述的方法,其特征在于:所述测序是通过全基因组测序、靶向测序或全基因组亚硫酸氢盐测序来执行。
35.如权利要求28至34任一项所述的方法,其特征在于:所述测序包括所述测试样品中的所述无细胞核酸中的HPV 16及HPV 18的靶向下拉。
36.如权利要求28至35任一项所述的方法,其特征在于:所述第一多类分类器包括对应于多种HPV相关癌症类型及非HPV相关癌症类型的多个分类。
37.如权利要求28至36任一项所述的方法,其特征在于:所述第二多类分类器包括对应于三种HPV相关癌症类型的至少三个分类,所述三种HPV相关癌症类型包括宫颈癌、肛门生殖器癌及头颈癌。
38.如权利要求28至37任一项所述的方法,其特征在于:使用从多个HPV相关癌症类型样品及非HPV相关癌类型样品导出的一训练特征集合来训练所述第一多类分类器,所述训练特征集合包括甲基化衍生特征;以及
其中使用来自训练的特征集合的一受限训练特征集合来训练所述第二多类分类器,所述受限训练特征集合被限制为源自所述多个HPV相关癌症类型样品的特征。
39.如权利要求28至38任一项所述的方法,其特征在于:所述方法包括:根据确定所述第一癌症类型不是一HPV相关癌症类型,
放弃将所述第二多类分类器应用于所述特征集合;以及
基于所述第一癌症类型确定所述测试样品的一癌症程度,其中所述癌症程度包括癌症的存在或不存在、癌症类型或起源癌组织。
40.如权利要求30至39任一项所述的方法,其特征在于:所述HPV片段的总计数或所述HPV片段的二进制计数包括映射到一个或多个HPV参考基因组的独特序列读取的一量化计数。
41.如权利要求30至40任一项所述的方法,其特征在于:所述HPV信号状态包括由HPV无细胞核酸片段的存在定义的一HPV阳性信号状态或由HPV无核酸片段的不存在定义的一HPV阴性信号状态;
进一步其中当映射到一个或多个HPV参考基因组的独特序列读取的一定量大于一阈值时,确认所述HPV无细胞核酸片段的存在。
42.如权利要求41所述的方法,其特征在于:所述阈值是映射于一个或多个HPV参考基因组的6个独特序列读取。
43.如权利要求39至42任一项所述的方法,其特征在于:所述HPV参考基因组与HPV 16、18、31、33、35、39、45、51、52、56、58、59、66及68中的一种或多种毒株相关。
44.一种检测及分类癌症的方法,其特征在于:所述方法包括:
接受包含无细胞核酸片段的一生物样品的测序数据;
从所述测序数据导出一特征集合,其中所述特征集合包括甲基化衍生特征以及以下中的至少一个:
HPV片段的总计数、HPV片段的二进制计数或HPV信号状态;
将一多类分类器应用于所述特征集合,其中所述多类分类器预测多种癌症类型中的各者的一概率可能性,其中所述多种癌症类型包括HPV相关癌症类型及非HPV相关癌症类型;以及
基于所述概率可能性,确定一癌症分类,其中所述癌症分类包括癌症的存在或不存在、癌症类型、起源癌组织、HPV相关癌症的存在或不存在、HPV相关癌症类型或HPV相关癌症的起源癌组织。
45.一种检测一测试样品中的癌症程度的方法,其特征在于:所述测试样品包括来自一测试对象的无细胞核酸及来自一HPV毒株的潜在的无细胞核酸,所述方法包括:
获得通过对所述无细胞核酸测序产生的测序数据;
基于从所述测序数据确定的甲基化衍生特征产生一第一特征集合;
基于所述测序数据中的HPV衍生序列读取的一计数来产生至少一个第二特征;
将一第一多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第一癌症分类,其中所述多类分类器在与阳性癌症样品相对应的训练样品上进行训练,所述阳性样品包括HPV相关癌症类型及非HPV相关癌症类型;
根据确定所述第一癌症分类是对应于一HPV相关癌症类型:
将一第二多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第二癌症分类,其中所述第二多类分类器仅在具有HPV相关癌症类型的阳性样品上进行训练;以及
基于所述第一癌症分类及/或所述第二癌症分类,确定一癌症程度。
46.一种存储指令的非暂时性计算机可读存储介质,其特征在于:所述指令在由一硬件处理器执行时使所述硬件处理器执行以下步骤:
(a)从所述测试对象获得一生物样品,其中所述生物样品包括来自所述测试对象的无细胞核酸及来自至少一种HPV毒株的潜在的无细胞核酸;
(b)对所述第一生物样品中的所述无细胞核酸进行测序,以产生来自所述测试对象的多个序列读取;
(c)确定映射到对应于一种或多种HPV毒株的一个或多个HPV参考基因组的所述多个序列读取的量,其中所述量包括映射于所述一个或多个HPV参考基因组的独特序列读取的计数;以及
(d)当独特序列读取超过一截止值时,检测所述对象中的一HPV相关癌症。
47.如权利要求46所述的非暂时性计算机可读存储介质,其特征在于:当所述指令被执行时,所述指令使所述硬件处理器执行权利要求2至11的任何方法。
48.一种存储指令的非暂时性计算机可读存储介质,其特征在于:所述指令在由一硬件处理器执行时使所述硬件处理器执行以下步骤:
检测一生物样品中HPV的存在或不存在,所述生物样品包括来自所述对象的无细胞核酸及来自一HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸;
基于所述生物样品中的HPV病毒核酸的一检测,应用一基于HPV的多类分类器,所述基于HPV的多类分类器预测多种HPV相关癌症类型中的各者的一评分,其中所述基于HPV的多类分类器在包括HPV阳性癌症样品的一训练集上进行训练;以及
基于通过所述HPV多类分类器预测的所述评分,确定与所述生物样品相关的一HPV相关癌症。
49.如权利要求48所述的非暂时性计算机可读存储介质,其特征在于:当所述指令被执行时,所述指令使所述硬件处理器执行权利要求13至27的任何方法。
50.一种存储指令的非暂时性计算机可读存储介质,其特征在于:所述指令在由一硬件处理器执行时使所述硬件处理器执行以下步骤:
访问具有一第一癌症类型的一测试样品,其中所述第一癌症类型由一第一多类分类器确定,所述第一多类分类器基于对来自所述测试样品中的所述无细胞核酸进行测序得到的一特征集合产生所述第一癌症类型的一初始评分;
根据确定所述第一癌症类型是一HPV相关癌症类型:
将一第二多类分类器应用于所述特征集合以确定对应于一第二癌症类型的一第二评分,其中所述第二多类分类器仅在HPV阳性癌症样品上训练;以及
基于所述第二癌症类型,确定所述测试样品的一癌症程度,其中所述癌症程度包括癌症的存在或不存在、癌症类型或起源癌组织。
51.如权利要求50所述的非暂时性计算机可读存储介质,其特征在于:当所述指令被执行时,使所述硬件处理器执行权利要求29至43的任何方法。
52.一种存储指令的非暂时性计算机可读存储介质,其特征在于:所述指令在由一硬件处理器执行时使所述硬件处理器执行以下步骤:
接受包含无细胞核酸片段的一生物样品的测序数据;
从所述测序数据导出一特征集合,其中所述特征集合包括甲基化衍生特征以及以下中的至少一个:
HPV片段的总计数、HPV片段的二进制计数或HPV信号状态;
将一多类分类器应用于所述特征集合,其中所述多类分类器预测多种癌症类型中的各者的一概率可能性,其中所述多种癌症类型包括HPV相关癌症类型及非HPV相关癌症类型;以及
基于所述概率可能性,确定一癌症分类,其中所述癌症分类包括癌症的存在或不存在、癌症类型、起源癌组织、HPV相关癌症的存在或不存在、HPV相关癌症类型或HPV相关癌症的起源癌组织。
53.一种存储指令的非暂时性计算机可读存储介质,其特征在于:所述指令在由一硬件处理器执行时使所述硬件处理器执行以下步骤:
获得通过对所述无细胞核酸测序产生的测序数据;
基于从所述测序数据确定的甲基化衍生特征产生一第一特征集合;
基于所述测序数据中的HPV衍生序列读取的一计数来产生至少一个第二特征;
将一第一多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第一癌症分类,其中所述多类分类器在与阳性癌症样品相对应的训练样品上进行训练,所述阳性样品包括HPV相关癌症类型及非HPV相关癌症类型;
根据确定所述第一癌症分类是对应于一HPV相关癌症类型:
将一第二多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第二癌症分类,其中所述第二多类分类器仅在具有HPV相关癌症类型的阳性样品上进行训练;以及
基于所述第一癌症分类及/或所述第二癌症分类,确定一癌症程度。
54.一种用于检测一对象中的一HPV相关的癌症的筛选系统,其特征在于:所述系统包括一硬件处理器及一种存储指令的非暂时性计算机可读存储介质,其特征在于:所述指令在由一硬件处理器执行时使所述硬件处理器执行以下步骤:
(a)从所述测试对象获得一生物样品,其中所述生物样品包括来自所述测试对象的无细胞核酸及来自至少一种HPV毒株的潜在的无细胞核酸;
(b)对所述第一生物样品中的所述无细胞核酸进行测序,以产生来自所述测试对象的多个序列读取;
(c)确定映射到对应于一种或多种HPV毒株的一个或多个HPV参考基因组的所述多个序列读取的量,其中所述量包括映射于所述一个或多个HPV参考基因组的独特序列读取的计数;以及
(d)当独特序列读取超过一截止值时,检测所述对象中的一HPV相关癌症。
55.如权利要求54所述的系统,其特征在于:当所述指令被执行时,所述指令使所述硬件处理器执行权利要求2至11所述的任何方法。
56.一种用于筛选一对象中的一HPV相关的癌症的存在的系统,其特征在于:所述系统包括:一硬件处理器及一种存储指令的非暂时性计算机可读存储介质,其特征在于:所述指令在由一硬件处理器执行时使所述硬件处理器执行以下步骤:
检测一生物样品中HPV的存在或不存在,所述生物样品包括来自所述对象的无细胞核酸及来自一HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸;
基于所述生物样品中的HPV病毒核酸的一检测,应用一基于HPV的多类分类器,所述基于HPV的多类分类器预测多种HPV相关癌症类型中的各者的一评分,其中所述基于HPV的多类分类器在包括HPV阳性癌症样品的一训练集上进行训练;以及
基于通过所述HPV多类分类器预测的所述评分,确定与所述生物样品相关的一HPV相关癌症。
57.如权利要求56所述的系统,其特征在于:当所述指令被执行时,所述指令使所述硬件处理器执行权利要求13至27所述的任何方法。
58.一种用于预测含有无细胞核酸的一测试样品中的癌症的存在或不存在的系统,其特征在于:所述无细胞核酸包括来自一测试对象的无细胞核酸以及来自至少一种HPV毒株的潜在的无细胞核酸,所述系统包括:一硬件处理器及一种存储指令的非暂时性计算机可读存储介质,所述指令在由所述硬件处理器执行时使所述硬件处理器执行以下步骤:
访问具有一第一癌症类型的所述测试样品,其中所述第一癌症类型由一第一多类分类器确定,所述第一多类分类器基于对来自所述测试样品中的所述无细胞核酸进行测序得到的一特征集合产生所述第一癌症类型的一初始评分;
根据确定所述第一癌症类型是一HPV相关癌症类型:
将一第二多类分类器应用于所述特征集合以确定对应于一第二癌症类型的一第二评分,其中所述第二多类分类器仅在HPV阳性癌症样品上训练;以及
基于所述第二癌症类型,确定所述测试样品的癌症程度,其中所述癌症程度包括癌症的存在或不存在、癌症类型或起源癌组织。
59.如权利要求56所述的系统,其特征在于:当所述指令被执行时,所述指令使所述硬件处理器执行权利要求29至43所述的任何方法。
60.一种检测及分类癌症的系统,其特征在于:所述系统包括:一硬件处理器及一种存储指令的非暂时性计算机可读存储介质,所述指令在由所述硬件处理器执行时使所述硬件处理器执行以下步骤:
接受包含无细胞核酸片段的一生物样品的测序数据;
从所述测序数据导出一特征集合,其中所述特征集合包括甲基化衍生特征以及以下中的至少一个:
HPV片段的总计数、HPV片段的二进制计数或HPV信号状态;
将一多类分类器应用于所述特征集合,其中所述多类分类器预测多种癌症类型中的各者的一概率可能性,其中所述多种癌症类型包括HPV相关癌症类型及非HPV相关癌症类型;以及
基于所述概率可能性,确定一癌症分类,其中所述癌症分类包括癌症的存在或不存在、癌症类型、起源癌组织、HPV相关的癌症的存在或不存在、HPV相关癌症类型或HPV相关的癌症的起源癌组织。
61.一种检测一测试样品中的癌症程度的系统,其特征在于:所述测试样品包括来自一测试对象的无细胞核酸及来自一HPV毒株的潜在的无细胞核酸,所述系统包括:一硬件处理器及一种存储指令的非暂时性计算机可读存储介质,所述指令在由所述硬件处理器执行时使所述硬件处理器执行以下步骤:
获得通过对所述无细胞核酸测序产生的测序数据;
基于从所述测序数据确定的甲基化衍生特征产生一第一特征集合;
基于所述测序数据中的HPV衍生序列读取的一计数来产生至少一个第二特征;
将一第一多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第一癌症分类,其中所述多类分类器在与阳性癌症样品相对应的训练样品上进行训练,所述阳性样品包括HPV相关癌症类型及非HPV相关癌症类型;
根据确定所述第一癌症分类是对应于一HPV相关癌症类型:
将一第二多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第二癌症分类,其中所述第二多类分类器仅在具有HPV相关癌症类型的阳性样品上进行训练;以及
基于所述第一癌症分类及/或所述第二癌症分类,确定一癌症程度。
62.一种电子装置,其特征在于:所述电子装置包括:
一个或多个处理器;
一存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于于执行以下步骤的指令:
(a)从所述测试对象获得一生物样品,其中所述生物样品包括来自所述测试对象的无细胞核酸及来自至少一种HPV毒株的潜在的无细胞核酸;
(b)对所述第一生物样品中的所述无细胞核酸进行测序,以产生来自所述测试对象的多个序列读取;
(c)确定映射到对应于一种或多种HPV毒株的一个或多个HPV参考基因组的所述多个序列读取的量,其中所述量包括映射于所述一个或多个HPV参考基因组的独特序列读取的计数;以及
(d)当独特序列读取超过一截止值时,检测所述对象中的一HPV相关癌症。
63.如权利要求62所述的装置,其特征在于:所述一个或多个程序包括用于执行权利要求2至11的任何步骤的指令。
64.一种电子装置,其特征在于:所述电子装置包括:
一个或多个处理器;
一存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于于执行以下步骤的指令:
检测一生物样品中HPV的存在或不存在,所述生物样品包括来自所述对象的无细胞核酸及来自一HPV毒株集合中的至少一种HPV毒株的潜在无细胞核酸;
基于所述生物样品中的HPV病毒核酸的一检测,应用基于HPV的多类分类器,所述分类器预测多种HPV相关癌症类型中的各者的一评分,其中所述基于HPV的多类分类器在包括HPV阳性癌症样品的一训练集上进行训练;以及
基于通过所述HPV多类分类器预测的所述评分,确定与所述生物样品相关的一HPV相关癌症。
65.如权利要求64所述的电子装置,其特征在于:所述一个或多个程序包括用于执行权利要求13至27的任何步骤的指令。
66.一种电子装置,其特征在于:所述电子装置包括:
一个或多个处理器;
一存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于于执行以下步骤的指令:
访问具有一第一癌症类型的所述测试样品,其中所述第一癌症类型由一第一多类分类器确定,所述第一多类分类器基于对来自所述测试样品中的所述无细胞核酸进行测序得到的一特征集合产生所述第一癌症类型的一初始评分;
根据确定所述第一癌症类型是HPV相关癌症类型:
将一第二多类分类器应用于所述特征集合以确定对应于一第二癌症类型的一第二评分,其中所述第二多类分类器仅在HPV阳性癌症样品上训练;以及
基于所述第二癌症类型,确定所述测试样品的癌症程度,其中所述癌症程度包括癌症的存在或不存在、癌症类型或起源癌组织。
67.如权利要求66所述的电子装置,其特征在于:所述一个或多个程序包括用于执行权利要求29至43的任何步骤的指令。
68.一种电子装置,其特征在于:所述电子装置包括:
一个或多个处理器;
一存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于于执行以下步骤的指令:
接受包含无细胞核酸片段的一生物样品的测序数据;
从所述测序数据导出一特征集合,其中所述特征集合包括甲基化衍生特征以及以下中的至少一个:
HPV片段的总计数、HPV片段的二进制计数或HPV信号状态;
将一多类分类器应用于所述特征集合,其中所述多类分类器预测多种癌症类型中的各者的一概率可能性,其中所述多种癌症类型包括HPV相关癌症类型及非HPV相关癌症类型;以及
基于所述概率可能性,确定一癌症分类,其中所述癌症分类包括癌症的存在或不存在、癌症类型、起源癌组织、HPV相关的癌症的存在或不存在、HPV相关癌症类型或HPV相关的癌症的起源癌组织。
69.一种电子装置,其特征在于:所述电子装置包括:
一个或多个处理器;
一存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于于执行以下步骤的指令:
获得通过对所述无细胞核酸测序产生的测序数据;
基于从所述测序数据确定的甲基化衍生特征产生一第一特征集合;
基于所述测序数据中的HPV衍生序列读取的一计数来产生至少一个第二特征;
将一第一多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第一癌症分类,其中所述多类分类器在与阳性癌症样品相对应的训练样品上进行训练,所述阳性样品包括HPV相关癌症类型及非HPV相关癌症类型;
根据确定所述第一癌症分类是对应于一HPV相关癌症类型:
将一第二多类分类器应用于所述第一特征集合及所述至少一个第二特征以确定一第二癌症分类,其中所述第二多类分类器仅在具有HPV相关癌症类型的阳性样品上进行训练;以及
基于所述第一癌症分类及/或所述第二癌症分类,确定一癌症程度。
CN202180050446.3A 2020-06-20 2021-06-17 人乳头瘤病毒相关癌症的检测及分类 Pending CN115956132A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063041875P 2020-06-20 2020-06-20
US63/041,875 2020-06-20
PCT/US2021/037865 WO2021257854A1 (en) 2020-06-20 2021-06-17 Detection and classification of human papillomavirus associated cancers

Publications (1)

Publication Number Publication Date
CN115956132A true CN115956132A (zh) 2023-04-11

Family

ID=76859786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180050446.3A Pending CN115956132A (zh) 2020-06-20 2021-06-17 人乳头瘤病毒相关癌症的检测及分类

Country Status (7)

Country Link
US (1) US20210395841A1 (zh)
EP (1) EP4168592A1 (zh)
JP (1) JP2023530463A (zh)
CN (1) CN115956132A (zh)
AU (1) AU2021292311A1 (zh)
CA (1) CA3182993A1 (zh)
WO (1) WO2021257854A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4302299A1 (en) * 2021-04-06 2024-01-10 Grail, LLC Conditional tissue of origin return for localization accuracy
WO2023164470A1 (en) * 2022-02-23 2023-08-31 The University Of North Carolina At Chapel Hill Methods of treatment for hpv malignancies
CN116042920A (zh) * 2022-12-20 2023-05-02 南京世和基因生物技术股份有限公司 一种基于靶向hpv的宫颈癌患者治疗后的微小残留病灶的ngs检测方法及试剂盒

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037001A2 (en) 2008-09-26 2010-04-01 Immune Disease Institute, Inc. Selective oxidation of 5-methylcytosine by tet-family proteins
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
AU2017347790A1 (en) * 2016-10-24 2019-05-23 Grail, Inc. Methods and systems for tumor detection
MY197535A (en) * 2017-01-25 2023-06-21 Univ Hong Kong Chinese Diagnostic applications using nucleic acid fragments
WO2019020057A1 (en) * 2017-07-26 2019-01-31 The Chinese University Of Hong Kong ENHANCING CANCER SCREENING WITH ACELLULAR VIRAL NUCLEIC ACIDS
AU2019234843A1 (en) 2018-03-13 2020-09-24 Grail, Llc Anomalous fragment detection and classification
DE202019005627U1 (de) 2018-04-02 2021-05-31 Grail, Inc. Methylierungsmarker und gezielte Methylierungssondenpanels
TW202020165A (zh) * 2018-06-29 2020-06-01 美商格瑞爾公司 核酸重組及整合分析

Also Published As

Publication number Publication date
AU2021292311A1 (en) 2023-02-16
CA3182993A1 (en) 2021-12-23
EP4168592A1 (en) 2023-04-26
JP2023530463A (ja) 2023-07-18
WO2021257854A1 (en) 2021-12-23
US20210395841A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
US20210025011A1 (en) Methylation markers and targeted methylation probe panel
CN113826167A (zh) 基于模型的特征化和分类
CN113286881A (zh) 甲基化标记和标靶甲基化探针板
CN113728115A (zh) 侦测癌症、癌症来源组织及/或癌症细胞类型
CN115956132A (zh) 人乳头瘤病毒相关癌症的检测及分类
CN112218957A (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
EP3973080A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
CN114026255A (zh) 侦测癌症、癌症来源组织及/或一癌症细胞类型
IL300487A (en) Sample validation for cancer classification
US20240060143A1 (en) Methylation-based false positive duplicate marking reduction
CA3167633A1 (en) Systems and methods for calling variants using methylation sequencing data
WO2023043991A1 (en) Methylation fragment probabilistic noise model with noisy region filtration
CN110168099B (zh) 用于疾病和病症分析的无细胞dna甲基化模式
KR20240073026A (ko) 노이즈 영역 필터링을 사용한 메틸화 단편 확률론적 노이즈 모델
CN117063238A (zh) 用于定位准确度的起源组织条件返回
WO2023158711A1 (en) Tumor fraction estimation using methylation variants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40090660

Country of ref document: HK