CN115443507A - 鉴定可鉴别或指示癌症病状的甲基化模式 - Google Patents

鉴定可鉴别或指示癌症病状的甲基化模式 Download PDF

Info

Publication number
CN115443507A
CN115443507A CN202180030453.7A CN202180030453A CN115443507A CN 115443507 A CN115443507 A CN 115443507A CN 202180030453 A CN202180030453 A CN 202180030453A CN 115443507 A CN115443507 A CN 115443507A
Authority
CN
China
Prior art keywords
cancer
methylation
fragments
state
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180030453.7A
Other languages
English (en)
Inventor
科林·梅尔顿
厄尔·哈贝尔
奥利弗·克劳德·维恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail LLC
Original Assignee
Grail LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail LLC filed Critical Grail LLC
Publication of CN115443507A publication Critical patent/CN115443507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明提供一种鉴定可鉴别或指示一癌症病状的甲基化模式的系统及方法。获得第一数据集及第二数据集。各个数据集包括多个片段甲基化模式,所述多个片段甲基化模式是通过从一第一组受试者或一第二组受试者的核酸进行甲基化测序而测定,且包括在一相应多个CpG位点中的各个CpG位点的甲基化状态。多个受试者中的各个具有一各自癌症病状况的第一状态或第二状态。为各自数据集产生第一区间图及第二区间图,各个数据集包括多个节点,其特征在于一起始甲基化位点、一结束甲基化位点、各个不同片段甲基化模式的表征及多个片段的计数。扫描第一区间图及第二区间图,以在一预定范围的CpG位点内限定满足一或多个选择标准的甲基化模式,从而鉴定可鉴别一癌症病状的甲基化模式。

Description

鉴定可鉴别或指示癌症病状的甲基化模式
相关申请交叉引用
本申请要求于2020年2月28日提交美国临时专利申请案第62/983,443的美国专利申请的优先权,标题为“鉴定可鉴别或指示癌症病状的甲基化模式”,通过引用将其并入本文中。
技术领域
本说明书一般涉及使用在生物样本中的甲基化模式来鉴定可鉴别或指示一癌症病状的甲基化模式。
背景技术
癌症的早期检测是改善癌症结果的最人道的方式之一。现状治疗-针对实体瘤的手术、化学疗法及放射疗法的组合,或针对液体肿瘤的化学及骨髓移植-具有包括不令人满意的存活率的缺点。治疗往往使患者痛苦,同时提供不令人满意的生存时间。新的免疫疗法亦有缺点。患者必须在重症监护室接受治疗,且往往会产生致命的副作用。当早期发现癌症时,所有此等治疗皆会更有效。
为了开发更好的治疗方法及癌症诊断方法,已经投入资源来寻找癌症中的单一突变。此种做法已经演变成一种流行的医学努力,称为“精准肿瘤学(precision oncology)”,其中对肿瘤进行测序,以鉴定导致细胞不受控制生长的关键可药化突变(druggablemutation)。例如,由美国国家癌症研究所带头的一项名为“治疗选择的分子分析”(Molecular Analysis for Therapy Choice,MATCH)的临床试验计划于2015年开始。此试验有30多个分支。在此试验中所测试的更常见的肿瘤中,现有药物可解决的“可操作(actionable)”突变最佳在15%的病例中被发现。更令人失望的是,即使将突变与药物进行配对亦无法保证结果-仅有三分之一的匹配患者对治疗有反应,且其中一半的患者反应在六个月内消失。尽管对精准肿瘤学的追求仍在继续,但迄今为止的结果表明,大多数癌症过于复杂,无法使用此种还原论方法来解决。
事实上,最常见的癌症复杂得多-临床试验中高达95%的抗癌药物未能获得食品及药物管理局的批准。在另外5%的抗癌药物中,许多患者的存活率仅提高数个月,及对于一小部分接受治疗的病例。
上述缺点再次突显早期检测的必要。然而,目前的筛查测试并不令人满意。监控方法,例如乳房摄影术、结肠镜检查、子宫颈抹片检查(Pap smear)及前列腺特异性抗原(prostate specific antigen,PSA)的测试已经使用数十年,但并非所有的方法皆取得了一致性成功。有些癌症进展如此缓慢,以至于患者更有可能死于其他疾病,而有些危险的肿瘤直到治愈它们为时已晚时才被发现。此外,迄今为止,对于包括肺癌在内的多种癌症亦无令人满意的筛选测试。
因此,为了开发此种筛选测试,需要定义癌细胞的“生物标志物(biomarker)”。此等几乎可为癌细胞释放的任何物质,例如遗传物质链。美国国家癌症研究所正在支持大型计划,希望此种生物标志物不仅能提供癌症的最早足迹,亦能帮助将侵袭性肿瘤与非危及生命的肿瘤区分开来。生物分子测序的进步,特别是在核酸样本方面,已经彻底改变细胞及分子生物学领域,并为发现此种生物标志物提供有前途的技术。由于自动化测序系统的发展,因此目前可对全基因组进行测序。
一种寻找生物标志物的特定方法是使用此种测序来鉴定异常的DNA甲基化模式。DNA甲基化在调节基因表达中扮演重要角色。异常的DNA甲基化与许多疾病过程有关,包括癌症,且已确定甲基化的特定模式与特定的癌症病状有关。参见,例如,琼斯,2002,Oncogene 21:5358-5360;帕斯卡及哈德勒,2015,Biochemia Medica 25(2):161-176,及杜等人,2010,BMC Bioinformatics 11:587,doi:10.1186/1471-2105-11-587,各篇文献在此全部并入本文中参考。此外,甲基化模式可用于对受试者的癌症病状进行分类(例如,癌症的类型、癌症的阶段、癌症的存在或不存在)。使用甲基化测序(例如,全基因组亚硫酸氢盐测序(whole genome bisulfite sequencing,WGBS)进行DNA甲基化分析,逐渐被认为是检测、诊断及/或监控癌症的有价值的诊断工具。例如,差异甲基化区域的特定模式及/或等位基因特异性甲基化模式可用作使用循环游离DNA(cell-free DNA)进行非侵入性诊断的分子标记。参见,例如,沃顿及萨米米,2015,Front Mol Biosci,2(13)doi:10.3389/fmolb.2015.00013。
虽然新的测序技术使包括甲基化测序的大规模测序成为可能,但使用此等新的测序技术所测序的基因组的数量及复杂性亦相应增加。尽管目前可获得大量的高保真核酸序列,但利用此等序列来获得生物的洞察,并为疾病检测及诊断提供信息仍然存在许多问题。
鉴于上述背景,本领域需要改进的方法以利用逐渐复杂及大规模的核酸测序数据来鉴定生物标志物。此外,本领域需要改进的方法来使用此种生物标志物,以建模及推断跨越基因组的复杂生物模式及非线性,从而开发用于检测、诊断及/或监控诸如癌症的疾病的测试。
发明内容
本公开通过提供稳健的技术来解决现有技术中所确定的缺点,所述稳健的技术用于使用核酸样本鉴定从一受试者所获得的生物样本中鉴别或指示一癌症病状的多个限定甲基化模式,(所述癌症病状例如,一长度的多个限定甲基化模式,所述长度是满足一或多个选择标准的一预定数量的CpG位点或CpG数量范围)。甲基化数据与全基因组或靶向基因组、测序数据的组合,以及使用包含节点的区间图来表示与特定基因组区域相应的甲基化模式,提供超出先前鉴定方法的额外诊断及分析能力。
本公开提供用于解决上述鉴别或指示一癌症病状的甲基化模式的问题的技术解决方案(例如,计算机系统、方法及非暂时性计算机可读存储介质)。
以下呈现本发明的概述,以便提供对本发明的一些方面的基本理解。此概述不是本发明的广泛概述。其不旨在鉴定本发明的重要的/关键性要素或描述本发明的范围。其唯一的目的是以简化的形式呈现本发明的一些概念,作为稍后呈现的更详细描述的前奏。
本公开的一方面提供一种在具有一或多个处理器以及存储一或多个程式,以供所述一或多个处理器执行的鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的方法。所述方法包括步骤:获得电子形式的一第一数据集,其中所述第一数据集包括在一第一多个片段中的各自片段的相应片段甲基化模式。所述各自片段的相应片段甲基化模式是通过从一第一组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。在一些实施例中,所述第一多个片段包括超过500个片段、超过1000个片段、超过10,000个片段、超过100,000个片段、超过500,000个片段、超过100万个片段、超过1000万个片段,或超过1亿个片段。
所述方法进一步包括步骤:获得电子形式的一第二数据集,其中所述第二数据集包括在一第二多个片段中的各自片段的相应片段甲基化模式。所述各自片段的相应片段甲基化模式是通过从一第二组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。所述第一组受试者中的各个受试者具有所述癌症病状的一第一状态,及所述第二组受试者中的各个受试者具有所述癌症病状的一第二状态。在一些实施例中,所述第二多个片段包括超过100个片段、超过500个片段、超过1000个片段、超过10,000个片段、超过100,000个片段、超过500,000个片段、超过100万个片段、超过1000万个片段,或超过1亿个片段。
所述方法进一步包括步骤:使用所述第一数据集为一或多个相应基因组区域产生一或多个第一状态区间图。在所述一或多个第一状态区间图中的各个第一状态区间图包括一相应独立的多个节。在一些实施例中,所述相应独立的多个节点包括超过50个节点、超过100个节点、超过500个节点、超过1000个节点、超过10,000个节点、超过100,000个节点、超过100万个节点或超过100万个节点。在所述一或多个第一状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第一数据集中的第一多个片段中所观察到的各个不同片段甲基化模式,所述不同片段甲基化模式的表征,及在所述第一数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式。
所述方法进一步包括步骤:使用所述第二数据集为一或多个相应基因组区域产生一或多个第二状态区间图。在所述一或多个第二状态区间图中的各个第二状态区间图包括一相应独立的多个节点。在一些实施例中,所述相应独立的多个节点包括超过50个节点、超过100个节点、超过500个节点、超过1000个节点、超过10,000个节点、超过100,000个节点、超过100万个节点或超过100万个节点。在所述一或多个第二状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第二数据集中的第二多个片段中所观察到的各个不同片段甲基化模式,所述不同片段甲基化模式的表征,及在所述第二数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式。
所述方法进一步包括步骤:为多个限定甲基化模式(qualifying methylationpatterns,QMPs)扫描所述一或多个第一区间图及所述一或多个第二区间图,各个此种甲基化模式具有一长度,所述长度是在所述一或多个第一区间图及所述一或多个第二区间图的片段甲基化模式内的一预定的CpG位点数量范围内(例如,长度5是指5个CpG位点,优选地在相同的核酸片段上连续;本文中所公开的典型限定甲基化模式包括介于5个CpG与20个CpG位点之间)。在一些实施例中,所述预定的CpG位点数量范围包括一组不同长度的限定甲基化模式(qualifying methylation patterns,QMPs),例如,所述组中的长度可包括介于3个CpG位点与50个CpG位点之间、介于4个CpG位点与30个之间CpG位点之间,或介于5个CpG位点与25个CpG位点之间。在一些实施例中,所述预定的CpG位点数量范围是一单个CpG数量(例如,l,在一相应初始CpG位点与一相应最终CpG位点之间的所述CpG区间l的长度,其通常可为从初始所述CpG位点开始至最终CpG位点结束的CpG位点的数量)。在一些实施例中,在所述多个限定甲基化模式中的各个限定甲基化模式跨越在一相应初始CpG位点与一相应最终CpG位点之间的一相应长度l。以此方式,鉴别或指示一癌症病状的多个限定甲基化模式被鉴定。在一些实施例中,所述多个限定甲基化模式进一步满足一或多个选择标准(例如,除了长度要求之外)。
在一些实施例中,所述一或多个选择标准指明一甲基化模式是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值、是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足一第一状态深度阈值,以及是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足一第二频率阈值。
在一些此种实施例中,当在所述一或多个第一区间图中的甲基化模式的频率超过所述第一频率阈值时,所述甲基化模式是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值;当在所述一或多个第一区间图中的甲基化模式的覆盖率超过所述第一状态深度阈值时,所述甲基化模式是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足所述第一状态深度阈值,以及当在所述一或多个第二区间图中的甲基化模式的频率低于所述第二频率阈值时,所述甲基化模式是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足所述第二频率阈值。
在一些此种实施例中,所述第一频率阈值是0.2,所述第一状态深度阈值是10,以及所述第二频率阈值是0.001。
在一些实施例中,当表达时,一各自甲基化模式满足所述一或多个选择标准:
Figure BDA0003903892590000071
针对甲基化模式超过3、4、5或6,其中第二计数是在所述一或多个第二状态区间图中的各自甲基化模式的一计数,以及第二状态深度是所述第二数据集在所述一或多个第二状态区间图中由所述各自甲基化模式所表示的基因组的区域中的一覆盖率。
在一些实施例中,所述方法进一步包括步骤:训练一分类器,以使用甲基化模式信息来鉴别或指示所述癌症病状的一状态,所述甲基化模式信息与在所述第一数据集与所述第二数据集中的所述多个限定甲基化模式相关联。在一些此种实施例中,所述训练可包括使用额外的数据集,例如来自个体受试者的细胞游离核酸甲基化数据,各个受试者皆具有所述第一状态或所述第二状态,此等数据已经与一肿瘤活检单独匹配,以便从来自细胞游离核酸甲基化数据中筛选出生殖细胞突变。在其他的实施例中,所述训练可包括一额外的数据集,例如来自个体受试者的细胞游离核酸甲基化数据,各个受试者皆具有所述第一状态或所述第二状态,此等数据尚未与一肿瘤活检单独匹配,因此尚未根据肿瘤匹配筛选出生殖细胞突变。
在一些实施例中,所述方法进一步包括步骤:训练一分类器,以使用甲基化模式信息来鉴别所述癌症病状的一状态,所述甲基化模式信息与在所述第一数据集与所述第二数据集中的所述多个限定甲基化模式相关联。
在一些此种实施例中,所述分类器是逻辑回归。在一些实施例中,所述分类器是一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一决策树算法、一多项逻辑回归算法、一线性模型,或一线性回归算法。
在一些实施例中,所述方法进一步包括步骤:获得电子形式的一第三数据集,其中所述第三数据集包括在一第三多个片段中的各自片段的相应片段甲基化模式。所述各自片段的相应片段甲基化模式是通过从一测试对象中所获得的一生物样本的核酸的甲基化测序而测定,以及所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。所述方法进一步包括步骤:将在所述第三数据集中的第三多个片段中的各个相应片段的片段甲基化模式应用于所述分类器,从而确定在所述测试对象中的癌症病状的状态,所述片段甲基化模式包含或相应于在所述多个限定甲基化模式中的一限定甲基化模式。
在一些实施例中,所述癌症病状的状态是肿瘤分数,所述癌症病状的第一状态是一第一范围的肿瘤分数,以及所述癌症病状的第二状态是一第二范围的肿瘤分数。
在一些此种实施例中,所述第一范围是大于0.001,及所述第二范围是小于0.001。
在一些替代实施例中,所述癌症病状的状态是肿瘤分数;以及所述获得及应用随着时间的推移而不断重复。
在一些实施例中,所述癌症病状的状态是不存在或存在一癌症。在一些实施例中,所述癌症病状的状态是癌症的一个阶段。
在一些公开的实施例中,所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌(renal cancer)、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病,或其组合。
在一些实施例中,从所述测试对象中所获得的生物样本是一液体生物样本。在一些此种实施例中,所述第三多个片段是细胞游离核酸。
在一些实施例中,所述第一多个片段及所述第二多个片段是细胞游离核酸。
在一些实施例中,所述一或多个第一状态区间图是由一单个第一状态区间图所组成;以及所述一或多个第二状态区间图是由一单个第二状态区间图所组成。
在一些实施例中,所述一或多个第一状态区间图包括或是多个第一状态区间图;所述一或多个第二状态区间图包括或是多个第二状态区间图;所述一或多个相应基因组区域包括或是多个基因组区域。例如,在所述多个基因组区域中的各自相应基因组区域是由在所述第一多个区间图中的第一状态区间图及在所述第二多个区间图中的第二状态区间图表示。在一些实施例中,所述多个基因组区域是介于10与30之间。在一些实施例中,所述多个基因组区域中的各个基因组区域是不同的人类染色体。在一些实施例中,所述多个基因组区域是由介于2个与1000个之间的基因组区域、介于500个与5,000个之间的基因组区域、介于1,000个与20,000个之间的基因组区域,或介于5,000个与50,000个之间的基因组区域所组成。在一些实施例中,所述获得第一数据集及所述获得第二数据集的甲基化测序是使用多个探针进行靶向测序,以及在所述多个基因组区域中的各个基因组区域与所述多个探针中的一个探针相关联。
在一些实施例中,在所述一或多个第一区间图中的各自区间图的相应独立的多个节点被设置为代表所述一或多个相应基因组区域中的一相应区域的一相应树,以及在所述各自区间图的相应独立的多个节点中的各自节点代表所述相应基因组区域的一子区域。
在一些此种实施例中,各个相应树将所述相应独立的多个节点排列成相应多个树叶,其中在所述相应多个树叶中的各个树叶的父节点引用一或多个子节点,所述扫描产生多个查询,在所述多个查询中的各自相应查询是针对长度为l的不同候选甲基化模式,以及在所述多个查询中的各自相应查询是用于在一相应树的相应独立的多个节点中的各自节点处与所述各自查询执行一自动匹配,进一步将所述查询传播至所述各自节点的子节点,以进一步将所述各自查询与所述各自节点的子节点进行自动匹配,以及将各个自动匹配的结果传送至所述各自节点的父节点。在一些此种实施例中,所述树是具有一随机表面积启发式的Kd的一维版本。在一些此种实施例中,长度l的各个可能的甲基化模式是由多个查询进行采样。
在一些实施例中,所述预定的CpG位点数量范围是一单个预定数量的CpG位点。在一些实施例中,所述单个预定数量的CpG位点是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40个,或多达50个CpG位点。在一些实施例中,所述预定的CpG位点数量范围是针对连续的CpG位点。在一些实施例中,所述预定的CpG位点数量范围是连续的CpG位点的一单个预定数量。在一些实施例中,所述连续的CpG位点的预定数量是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40个,或多达50个连续的CpG位点。在一些实施例中,所述预定的CpG位点数量范围是在一人类参考基因组中2至100个连续的CpG位点。
在一些实施例中,来自所述第一组一或多个受试者中的相应受试者的各自生物样本的甲基化测序会产生十亿或更多、二十亿或更多、三十亿或更多、四十亿或更多、五十亿或更多、六十亿或更多、七十亿或更多、八十亿或更多、九十亿或更多、或一百亿或更多片段,此等片段被评估为包含在所述第一数据集中的甲基化模式。在一些实施例中,来自所述第一组一或多个受试者中的相应受试者的各自生物样本的甲基化测序会产生少于十亿个片段或少于10,000个片段,此等片段被评估为包含在所述第一数据集中的甲基化模式。
在一些实施例中,跨越所述一或多个相应基因组区域存在超过10,000个CpG位点、超过25,000个CpG位点、超过50,000个CpG位点、超过80,000个CpG位点、超过100,000个CpG位点、超过150,000个CpG位点、超过200,000个CpG位点、超过300,000个CpG位点、超过400,000个CpG位点、超过500,000个CpG位点、超过600,000个CpG位点、超过700,000个CpG位点、超过800,000个CpG位点、超过900,000个CpG位点、超过1,000,000个CpG位点、超过1,200,000个CpG位点、超过1,800,000个CpG位点、超过1,800,000个CpG位点,或超过2,000,000个CpG位点。在一些实施例中,跨越所述一或多个相应基因组区域存在少于10,000个CpG位点、少于25,000个CpG位点、少于50,000个CpG位点、少于80,000个CpG位点、少于100,000个CpG位点、少于150,000个CpG位点、少于200,000个CpG位点、少于300,000个CpG位点、少于400,000个CpG位点、少于500,000个CpG位点、少于600,000个CpG位点、少于700,000个CpG位点、少于800,000个CpG位点、少于900,000个CpG位点、少于1,000,000个CpG位点、少于1,200,000个CpG位点、少于1,500,000个CpG位点、少于1,800,000个CpG位点,或少于2,000,000个CpG位点。
在一些实施例中,通过一各自片段的甲基化测序所获得的一相应多个序列读数的平均序列读数长度是介于100与300个核苷酸之间;例如,介于140与280个核苷酸之间。
在一些实施例中,在所述一或多个相应基因组区域中的各个基因组区域代表介于500个碱基对与10,000个碱基对之间的一人类基因组参考序列。在一些实施例中,在所述一或多个相应基因组区域中的各个基因组区域代表一人类基因组参考序列的介于500个碱基对与2,000个碱基对之间的碱基对。在一些实施例中,在所述一或多个相应基因组区域中的各个基因组区域代表一人类基因组参考序列的不同部分。在一些实施例中,所述一或多个相应基因组区域共同覆盖多达100万个碱基对(million base pair,Mb)、2Mb、3Mb、5Mb、8Mb、10Mb、12Mb、15Mb、20Mb、25Mb、30Mb、40Mb,或50Mb的人类基因组参考序列。
在一些实施例中,当所述CpG位点通过所述甲基化测序而被确定为甲基化时,在所述相应多个CpG位点中的一个CpG位点的甲基化状态为被甲基化,以及当所述CpG位点通过所述甲基化测序而被确定为未甲基化时,在所述相应多个CpG位点中的一个CpG位点的甲基化状态为未甲基化。在一些实施例中,所述甲基化测序是全基因组甲基化测序,或使用多个核酸探针的靶向DNA甲基化测序。在一些实施例中,所述甲基化测序检测在各自片段中的一或多个5-甲基胞嘧啶(5mC)及/或5-羟甲基胞嘧啶(5hmC)。在一些实施例中,所述甲基化测序包括将一或多个未甲基化的胞嘧啶或一或多个甲基化的胞嘧啶转化为相应的一或多个尿嘧啶。在一些实施例中,在所述甲基化测序期间,所述一或多个尿嘧啶被检测为一或多个相应的胸腺嘧啶。在一些实施例中,所述一或多个未甲基化胞嘧啶或所述一或多个甲基化胞嘧啶的转化包括一化学转化、一酶促转化,或其组合。
在一些实施例中,所述各自生物样本是一血液样本。在一些实施例中,所述各自生物样本包括血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液,或腹膜液。
在一些实施例中,所述癌症病状是在一测试对象中的一肿瘤分数,所述第一组受试者是由所述测试对象所组成,所述癌症病状的第一状态是在所述测试对象中的肿瘤分数,所述癌症病状的第二状态是不存在癌症,以及所述第二组癌症受试者是多个未罹患癌症的受试者。在一些实施例中,所述方法进一步包括步骤:使用多个限定甲基化模式来测定在所述测试对象中的肿瘤分数。在一些实施例中,所述方法进一步包括基于为测试对象确定的肿瘤分数来治疗测试对象。在一些实施例中,所述方法进一步包括步骤:根据为所述测试对象所测定的肿瘤分数调整所述测试对象正在进行的治疗方案。
在一些实施例中,所述癌症病状的第一状态是一测试对象独有的,所述第一组受试者是由所述测试对象所组成,所述癌症病状的第二状态是不存在癌症,以及所述第二组癌症受试者是多个未罹患癌症的受试者。在一些实施例中,所述方法进一步步骤:使用多个限定甲基化模式来量化在所述测试对象中的癌症病状的第一状态。在一些实施例中,所述方法进一步包括步骤:根据在所述测试对象中的癌症病状的第一状态的量化来治疗所述测试对象。在一些实施例中,方法进一步包括步骤:根据在所述测试对象中的癌症病状的第一状态的量化来调整所述测试对象正在进行的治疗方案。在一些实施例中,所述测试对象罹患肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾癌(renal cancer)、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病。
在一些实施例中,所述癌症病状是不存在或存在一癌症,所述第一组受试者包括一第一多个受试者,所述癌症病状的第一状态是存在所述癌症,所述癌症病状的第二状态是不存在癌症,以及所述第二组癌症受试者是一第二多个癌症受试者。在一些实施例中,所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌(renal cancer)、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病。
在一些实施例中,所述癌症病状是一癌症的起源,所述第一组受试者包括一第一多个受试者,所述癌症病状的第一状态是一癌症的第一起源,所述癌症病状的第二状态是一癌症的第二起源,以及所述第二组癌症受试者是一第二多个癌症受试者。在一些实施例中,所述第一起源是肾上腺、胆道、膀胱、骨/骨髓、脑、乳房、宫颈、结肠直肠、食道、胃、头/颈、肝胆、肾脏(kidney)、肝、肺、卵巢、胰腺、骨盆、胸膜、前列腺、肾(renal)、皮肤、胃、睾丸、胸腺、甲状腺、子宫、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病中的一者,以及所述第二起源不同于所述第一起源,且所述第二起源是肾上腺、胆道、膀胱、骨/骨髓、脑、乳房、宫颈、结肠直肠、食道、胃、头/颈、肝胆、肾脏、肝、肺、卵巢、胰腺、骨盆、胸膜、前列腺、肾、皮肤、胃、睾丸、胸腺、甲状腺、子宫、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病中的一者。
在一些实施例中,所述癌症病状是一癌症的一阶段,所述第一组受试者包括一第一多个受试者,所述癌症病状的第一状态是所述第一癌症的第一阶段,所述癌症病状的第二状态是所述第一癌症的第二阶段,以及所述第二组癌症受试者是一第二多个癌症受试者。在一些实施例中,所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌(kidney cancer)、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌(renal cancer)、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病。所述第一阶段是所述癌症的阶段I、II、III,或IV,以及所述第二阶段不同于所述第一阶段,且所述第二阶段是所述癌症的阶段I、II、III,或IV。
本公开的另一方面提供一种用于鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的计算机系统,所述计算机系统包括:至少一处理器以及一存储器,存储至少一程式,以供所述至少一处理器执行,所述至少一程式包括用于鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的多个指令。在一些实施例中,至少一程式被配置为由一计算机执行。在一些实施例中,所述至少一程式包括多个指令,所述多个指令用于执行本文所公开的任何方法及实施例,及/或其任何组合,其对于本领域技术人员而言是显而易见的。
本公开的另一方面提供一种存储有程式代码指令的非暂时性计算机可读存储介质,当由一处理器执行时,使所述处理器执行用于鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的方法。在一些实施例中,所述程式代码指令被配置为由一计算机执行。在一些实施例中,所述程式代码指令包括多个指令,所述多个指令用于执行本文所公开的任何方法及实施例,及/或其任何组合,其对于本领域技术人员而言是显而易见的。
在所附权利要求的范围内的系统、方法及装置的各种实施例各自具有数个方面,其中没有一个单独负责本文中所描述的理想属性。在不限制所附权利要求的范围的情况下,本文描述一些突出的特征。在考虑此讨论之后,特别是在阅读标题为“具体实施方式”的部分之后,人们将理解如何使用各种实施例的特征。
通过引用并入
在本说明书中所提及的所有出版物、专利及专利申请案通过引用以其整体并入本文中,其程度与各个单独的出版物、专利或专利申请案被具体地及单独地指示通过引用并入的程度相同。
附图说明
本文所公开的实施方式在附图中以示例的方式而非以限制的方式示出。在附图的数个视图中,相同的附图标记指代相应的部分。
图1说明根据本公开的一些实施例的计算装置的实例框图。
图2A、图2B、图2C、图2D、图2E及图2F共同地说明根据本公开的一些实施例的鉴定可鉴别或指示一癌症病状的甲基化模式的方法的实例流程图,其中虚线框表示可选的步骤。
图3说明根据本公开的一些实施例的针对单个实例参与者的片段甲基化模式(例如,包含5个CpG位点的彼等)的数量与特定片段甲基化模式的程度的图。
图4说明根据本公开的一些实施例的多个甲基化位点处的噪声水平的密度图作为非癌症cfDNA聚集体alt计数(变体计数)+1对非癌症cfDNA聚集体深度+2的函数。
图5说明根据本公开的一些实施例的显示片段统计数据(例如,变体数量、总CpG位点、中值非癌症alt计数、中值非癌症深度)作为噪声水平及甲基化分数的函数的图。
图6说明根据本公开的一些实施例的显示活检样本的QMP分数及cfDNA样本的变异等位基因分数之间的相关性的图。
图7说明根据本公开的一些实施例的用于制备用于测序的核酸样本的方法的流程图。
图8说明根据本公开的一些实施例的用于获得核酸片段的过程的图示。
图9说明根据本公开的一些实施例的用于获得甲基化信息以在一测试对象中筛检癌症病状的方法的实例流程图。
图10A、图10B、图10C、图10D及图10E说明根据本公开的一些实施例的使用整合基因组学查看器(Integrative Genomics Viewer,IGV)对非癌症cfDNA样本、肿瘤活检样本及匹配的cfDNA样本在选定的区间内的CpG位点处的甲基化状态的图形化分析。
图11说明根据本公开的一些实施例,使用甲基化(例如,亚硫酸氢盐)测序所计算的甲基化肿瘤分数估计值与使用cfDNA及肿瘤样本的靶向及全基因组测序所计算的肿瘤分数估计值的比较。
图12说明根据本公开的一些实施例的用于产生区间图的实例方法。
图13A及图13B说明根据本公开的一些实施例的基于小的变体的实例手段。
图14A及图14B说明根据本公开的一WGBS实例,其中取代小的变体,经选定的甲基化模式(例如,限定的甲基化模式或QMP)被用作基于甲基化测序数据评估肿瘤分数的基础,例如当诸如亚硫酸氢盐转化等因素影响小的变异识别时。
图15A及图15B说明根据本公开的一TM测序实例,其中取代小的变体,经选定的甲基化模式(例如,限定的甲基化模式或QMP)被用作基于甲基化测序数据评估肿瘤分数的基础,尤其当诸如亚硫酸氢盐转化等因素影响小的变异识别时。
图16说明根据本公开的实施例的针对匹配的肿瘤活检的经评估的cfDNA肿瘤分数。
具体实施方式
现在将详细参考实施例,其示例在附图中说明。在以下详细描述中,阐述许多具体的细节,以提供对本公开的透彻理解。然而,对于本领域普通技术人员而言显而易见的是,可在无此等具体细节的情况下实施本公开。在其他的情况下,未详细描述众所周知的方法、过程、组件、电路及网络,以免不必要地混淆实施例的方面。
本文描述的实施方式提供各种技术的解决方案,用于鉴定可鉴别或指示癌症病状的甲基化模式。具体地,获得一第一数据集及一第二数据集(例如,以电子形式)。各自数据集包括在一各自第一多个片段或第二多个片段中的各自片段的相应片段甲基化模式。所述各自片段的相应甲基化模式是通过从一各自第一组受试者或第二组受试者中所获得的核酸的甲基化测序而测定,且包括在一相应多个CpG位点中的各个CpG位点的甲基化状态。各自多个受试者具有所述癌症病状的一个别的第一状态及第二状态。为各自数据集产生一第一区间图及一第二区间图,包括多个节点,所述多个节点是以一起始甲基化位点、一结束甲基化位点、各个不同片段甲基化模式的表示及多个片段的计数为特征。扫描所述第一区间图及所述第二区间图,以鉴定在一预定的CpG位点数量范围内的限定片段甲基化模式,其满足一或多个选择标准,从而鉴定可鉴别或指示一癌症病状的片段甲基化模式。
定义:
如本文中所使用,术语“约”及“大约”是指在由本领域普通技术人员所确定的特定数值的可接受误差范围内,其部分取决于如何检测或确定所述数值,例如,检测系统的局限性。例如,在一些实施例中,根据本领域的实施,“约”是指在1或大于1的标准偏差内。在一些实施例中,“约”是指一给定值的±20%、±10%、±5%或±1%的范围。在一些实施例中,术语“约”或“大约”是指在一个数量级内、5倍内或2倍内的数值。在申请书及权利要求中描述特定数值的情况下,除非另有说明,否则可以假定术语“约”在特定数值的可接受误差范围内。术语“约”可具有本领域普通技术人员通常理解的含义。在一些实施例中,术语“约”是指±10%。在一些实施例中,术语“约”是指±5%。
如本文中所使用,术语“分析”是指用于确定一物质,例如核酸、蛋白质、细胞、组织或器官的性质的技术。分析(例如,第一分析或第二分析)可包括用于确定在一样本中的核酸的拷贝数变异、在一样本中的核酸的甲基化状态、在一样本中的核酸的片段大小分布在一样本中的核酸的突变状态,或在一样本中的核酸的片段化模式的技术。任何分析皆可用于检测本文中所提及的核酸的任何特性。核酸的特性可包括在一或多个核苷酸位置处的序列、基因组同一性、拷贝数、甲基化状态、核酸的大小、在一或多个核苷酸位置处的核酸的突变的存在或不存在,以及一核酸的片段化的模式(例如,在核酸片段化的核苷酸位置)。分析或方法可具有特定的灵敏度及/或特异性,且其作为一诊断工具的相对有用性可使用ROC-AUC统计来检测。
如本文中所公开,术语“生物样本”是指取自一受试者的任何样本,其可反映与所述受试者相关的生物学状态,且其包括细胞游离DNA。生物样本的实例包括,但不限于所述受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液,或腹膜液。一生物样本可包括源自一活体或一死体的任何组织或材料。一生物样本可为一细胞游离样本。一生物样本可包括核酸(例如,DNA或RNA)或其片段。术语“核酸”可指脱氧核糖核酸(DNA)、核糖核酸(RNA)或其任何杂合体或片段。样本中的核酸可为细胞游离核酸。一样本可为一液体样本或一固体样本(例如,一细胞样本或一组织样本)。一生物样本可为体液,例如血液、血浆、血清、尿液、阴道液、(例如睾丸的)鞘膜积液、阴道冲洗液、胸水、腹水、脑脊液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、从乳头排出的液体、来自身体不同部位(例如甲状腺、乳房)的抽吸液等。一生物样本可为粪便样本。在各种实施例中,已经富集细胞游离DNA的生物样本(例如,精油一离心方案所获得的血浆样本)中的大部分DNA可为细胞游离的(例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可为细胞游离的)。可处理生物样本,以物理性破坏组织或细胞结构(例如,离心及/或细胞裂解),从而将细胞内的成分释放至一溶液中,所述溶液可进一步包括可被使用来准备样本以进行分析的酶、缓冲液、盐、去污剂等。
如本文所公开,术语“核酸”及“核酸分子”可互换使用。此等术语是指任何组成形式的核酸,例如脱氧核糖核酸(deoxyribonucleic acid,DNA,例如,互补DNA(complementary DNA,cDNA)、基因组DNA(genomic DNA,gDNA)等)、核糖核酸(ribonucleicacid,RNA,例如,信息RNA(message RNA,mRNA)、短抑制性RNA(short inhibitory RNA,siRNA)、核糖体RNA(ribosomal RNA,rRNA)、转移RNA(transfer RNA,tRNA)、微小RNA(microRNA)、胎儿或胎盘高度表达的RNA等),及/或DNA或RNA类似物(例如,含有碱基类似物、糖类似物,及/或非天然骨架等)、RNA/DNA杂合体及聚酰胺核酸(polyamide nucleicacid,PNA),所有此等皆可为单链或双链形式。除非另有限制,核酸可包括已知的天然核苷酸的类似物,其中一些可以与天然存在的核苷酸相似的方式起作用。核酸可为可用于进行本文中的过程的任何形式(例如,线性、环状、超螺旋、单链、双链等)。在一些实施例中,核酸可来自单一染色体或其片段(例如,核酸样本可来自从二倍体生物所获得的样本的一个染色体)。在某些实施例中,核酸包括核小体、核小体的片段或部分或核小体样结构。核酸有时包括蛋白质(例如,组蛋白、DNA结合蛋白等)。通过本文中所述的方法所分析的核酸有时基本上是分离的,且基本上不与蛋白质或其他的分子结合。核酸亦包括从单链(“有义(sense)”或“反义(antisense)”、“正(plus)”链或“负(minus)”链、“正向(forward)”阅读框或“反向(reverse)”阅读框)及双链多核苷酸所合成、复制或扩增的RNA或DNA的衍生物、变体及类似物。脱氧核糖核苷酸包括脱氧腺苷、脱氧胞苷、脱氧鸟苷,及脱氧胸苷。针对RNA,碱基胞嘧啶被尿嘧啶取代,且糖2’位置包括一羟基部分。可使用从一受试者所获得的核酸作为一模板来制备核酸。
如本文所公开,术语“细胞游离核酸(cell-free nucleic acid)”、“细胞游离DNA(cell-free DNA)”及“cfDNA”可互换地指代在一受试者体内(例如,在诸如血流的体液中)循环及源自一或多种健康细胞及/或一或多种癌细胞的核酸片段。所述cfDNA可从一受试者的体液,例如血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、汗液、泪液、胸膜液、心包液,或腹膜液中回收。细胞游离核酸可与循环核酸互换使用。细胞游离核酸的实例包括但不限于RNA、线粒体DNA或基因组DNA。
如本文所公开,术语“循环肿瘤DNA(circulating tumor DNA)”或“ctDNA”是指源自异常组织的核酸片段,所述异常组织例如肿瘤或其他类型的癌症的细胞,其可被释放至一受试者的血流中作为生物过程的结果,所述生物过程例如垂死细胞的凋亡或坏死,或通过活的肿瘤细胞被主动释放。
如本文所公开,术语“参考基因组”是指可用于参考来自一受试者的已鉴定序列的任何生物体或病毒的任何特定已知、测序或表征的基因组,无论是部分的还是完整的。用于人类受试者以及许多其他生物的示例性参考基因组在由国家生物技术信息中心(“National Center for Biotechnology Information,NCBI”)或加州大学圣克鲁斯分校(University of California,Santa Cruz,UCSC)所托管的在线基因组浏览器中提供。“基因组”是指以核酸序列所表达的生物体或病毒的完整遗传信息。如本文中所使用,一参考序列或参考基因组通常是来自一个体或多个个体的组装或部分组装的基因组序列。在一些实施例中,一参考基因组是来自一或多个人类个体的组装或部分组装的基因组序列。所述参考基因组可被视为一物种基因组的代表性实例。在一些实施例中,一参考基因组包括分配给染色体的序列。示例性人类参考基因组包括但不限于NCBI build 34(UCSC等效物:hg16)、NCBI build 35(UCSC等效物:hg17)、NCBI build 36.1(UCSC等效物:hg18)、GRCh37(UCSC等效物:hg19)及GRCh38(UCSC等效物:hg38)。
如本文所公开,术语“参考基因组的区域”、“基因组区域”或“染色体区域”是指参考基因组的任何部分,连续的或非连续的。例如,其亦可称为参考基因组的箱(bin)、分区、基因组部分、一部分、染色体的一部分等。在一些实施例中,基因组部分是基于一特定长度的基因组序列。在一些实施例中,一种方法可包括对多个基因组区域的多个映射的序列读数进行分析。基因组区域可为大致相同的长度,或者基因组部分可为不同的长度。在一些实施例中,基因组区域具有大约相等的长度。在一些实施例中,调整或加权不同长度的基因组区域。在一些实施例中,基因组区域为约10kb至约500kb、约20kb至约400kb、约30kb至约300kb、约40kb至约200kb,有时约50kb至约100KB。在一些实施例中,基因组区域为约100kb至约200kb。基因组区域不限于连续运行的序列。因此,基因组区域可由连续及/或非连续的序列组成。基因组区域不限于单一染色体。在一些实施例中,基因组区域包括一条染色体的全部或部分,或两条或更多条染色体的全部或部分。在一些实施例中,基因组区域可跨越一个、两个或更多个整条染色体。此外,基因组区域可跨越多个染色体的连接的部分或非连接的部分。
如本文中所使用,本文可互换使用的术语“片段”及“核酸片段”是指至少三个连续核苷酸的多核苷酸序列的全部或部分。在对一生物样本中所发现的核酸片段进行测序的上下文中,术语“片段”是指在生物样本中所发现的核酸分子(例如,DNA片段)或其表示(例如,序列的电子表示)。来自一独特片段(例如,细胞游离核酸)的测序数据(例如,来自全基因组测序、靶向测序等的原始或校正序列读数)用于确定核酸片段序列及/或片段的甲基化模式。此种序列读数,实际上可从原始片段的PCR重复的测序中获得,因此“表示”或“支持”所述片段序列。可能有多个序列读数,各个读数代表或支持一生物样本中的特定片段(例如,PCR重复),然而,针对特定的片段,可能有一个片段序列及一个片段甲基化模式。在一些实施例中,为原始片段所产生的重复序列读数被组合或去除(例如,瓦解成单一序列,例如核酸片段序列)。因此,当测定与在一样本中的各个包含一特定基因座的片段群相关的度量时(例如,针对基因座的丰度值或基于片段长度的分布特征的度量),所述核酸可使用片段群的核酸片段序列,而非支持序列读数(例如,其可从群中的核酸片段的PCR重复产生)来测定度量。其是因为,在此种实施例中,序列的一个拷贝用于代表原始(例如,独特的)片段(例如,独特的核酸分子)。应注意,针对一片段群的多个片段可包括具有相同或不同的片段甲基化模式的数个相同序列,各个序列代表不同的原始片段,而非相同原始片段的重复。在一些实施例中,细胞游离核酸被认为是一片段。
本文可互换使用的术语“序列读数”或“读数”是指由本文所述或本领域已知的任何测序过程所产生的核苷酸序列。读数可从核酸片段的一端生成(“单端读数”),且有时亦可从核酸的两端生成(例如,双端读数(paired-end read)、双端读数(double-end read))。在一些实施例中,序列读数(例如,单端读数或双端读数)可从一靶向核酸片段的一条或两条链生成。序列读数的长度通常与特定的测序技术相关联。例如,高通量方法可提供大小从数十个碱基对(base pair,bp)至数百个碱基对(bp)的序列读数。在一些实施例中,所述序列读数的均数、中值或平均长度为约15bp至900bp的长度(例如,约20bp、约25bp、约30bp、约35bp、约40bp、约45bp约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp,或约500bp。在一些实施例中,所述序列读数具有约1000bp、2000bp、5000bp、10,000bp,或50,000bp或更多的均数、中值或平均长度。例如,纳米孔测序可提供大小可从数十至数百至数千个碱基对的数量的序列读数。Illumina平行测序(Illumina parallel sequencing)可提供变化不大的序列读数,例如,大多数的序列读数可小于200bp。一序列读数(sequence read)(或序列的读数sequencing read)可指相应于一核酸分子的序列信息(例如,一串核苷酸)。例如,一序列读数可相应于来自一核酸片段的部分的一串核苷酸(例如,约20个至约150个),可相应于一核酸片段的一端或两端处的一串核苷酸,或者可相应于整个核酸片段的核苷酸。可通过多种方式获得一序列读数,例如,使用测序技术或使用探针,例如在杂交阵列或捕获探针中,或扩增技术,例如聚合酶链式反应(polymerase chain reaction,PCR)或使用单一引物的线性扩增或等温扩增。
如本文中所公开,本文所用的术语“测序”、“序列测定”等通常是指可用于确定诸如核酸或蛋白质的生物大分子的顺序的任何及所有生化过程。例如,测序数据可包括在诸如DNA片段的核酸分子中的全部或部分的核苷酸碱基。
术语“测序深度”、“覆盖率(coverage)”及“覆盖率(coverage rate)”在本文中可互换使用,是指一基因座被与所述基因座对齐的一独特核酸靶分子(“核酸片段”)相对应的一共有序列读数覆盖的次数;例如,所述测序深度等于覆盖所述基因座的独特核酸靶片段(不包括PCR测序重复)的数量。所述基因座可小至一核苷酸,或大至一染色体臂,或者大至一整个基因组。测序深度可表达为“YX”,例如50X、100X等,其中“Y”是指一基因座被相应于一核酸靶标的序列覆盖的次数;例如,获得覆盖特定基因座的独立序列信息的次数。在一些实施例中,所述测序深度相应于已测序的基因组数量。测序深度亦可应用于多个基因座或整个基因组,在此种情况下,Y可指一基因座或单倍体基因组,或整个基因组分别被测序的均数次数或平均次数。当引用一均数深度时,在数据集中所包含的不同基因座的实际深度可跨越一数值的范围。超深度测序可指在一基因座的测序深度至少达到100X。
如本文所公开,术语“单一核苷酸变体(single nucleotide variant)”或“SNV”是指在一核苷酸序列的位置(例如,位点)处,将一个核苷酸替换为不同的核苷酸,例如从一个体的序列读数。从一第一核碱基X至一第二核碱基Y的取代可表示为“X>Y”。例如,胸腺嘧啶至胞嘧啶的单一核苷酸变体(single nucleotide variant,SNV)可表示为“C>T”。
如本文中所使用,术语“甲基化”是指脱氧核糖核酸(deoxyribonucleic acid,DNA)的修饰,其中胞嘧啶碱基的嘧啶环上的氢原子转化为甲基,形成5-甲基胞嘧啶。特别地,甲基化倾向于发生在本文中称为“CpG位点”的胞嘧啶及鸟嘌呤的二核苷酸处。在其他的情况下,甲基化可发生在非为CpG位点的一部分的胞嘧啶或非为胞嘧啶的另一核苷酸上;然而,此等情况很少见。在本公开的内容中,为了清楚起见,甲基化是参考CpG位点进行讨论。异常cfDNA甲基化可被识别为高甲基化或低甲基化,此二者皆可表明癌症状态。如本领域所熟知的,DNA甲基化异常(相较于健康对照)可引起不同的影响,其可能导致癌症。
在异常甲基化cfDNA片段的鉴定中出现各种挑战。首先,测定一受试者的cfDNA异常甲基化仅与一组对照组相比具有一定的权重,因此倘若所述对照组的人数较少,则所述测定对于小的对照组失去信心。此外,在一组对照受试者中,甲基化状态可能会有所不同,其在测定一受试者的cfDNA异常甲基化时可能难以计算。另一方面,CpG位点处的胞嘧啶的甲基化会影响后续的CpG位点的甲基化。
本文中所述的原理同样适用于检测非CpG环境中的甲基化,包括非胞嘧啶甲基化。此外,甲基化状态向量可包括通常是已经发生或未发生甲基化的位点的向量的元件(即使此等位点非为特定的CpG位点)。通过所述取代,本文中所描述的其余过程是相同的,因此,本文中所描述的发明概念适用于那些其他形式的甲基化。
如本文中所使用,术语“甲基化谱”(亦称为甲基化状态)可包括与一区域的DNA甲基化相关的信息。与DNA甲基化相关的信息可包括一CpG位点的甲基化指数、在一区域中的CpG位点的甲基化密度、在一连续区域上的CpG位点的分布、在一区域内的各个单独CpG位点的甲基化模式或水平,所述区域包括多个CpG位点及非CpG甲基化。基因组的实质部分的甲基化谱可被认为等同于甲基化组(methylome)。在哺乳动物基因组中的“DNA甲基化”可指在CpG二核苷酸中的胞嘧啶的杂环的第5位添加甲基(例如,产生5-甲基胞嘧啶)。胞嘧啶的甲基化可发生在其他序列环境中的胞嘧啶中,例如,5’-CHG-3’及5’-CHH-3’,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化亦可为5-羟甲基胞嘧啶的形式。DNA的甲基化可包括非胞嘧啶核苷酸的甲基化,例如N6-甲基腺嘌呤。
如本文中所使用,“甲基化组”可为基因组中的多个位点或基因座处的DNA甲基化的量的量度。所述甲基化组可相应于整个基因组、基因组的实质部分,或基因组的相对较小的部分。“肿瘤甲基化组(tumor methylome)”可为一受试者(例如,人类)的肿瘤的甲基化组。可使用在血浆中的肿瘤组织或细胞游离肿瘤DNA来测定肿瘤甲基化组。肿瘤甲基化组可为感兴趣的甲基化组的一实例。感兴趣的甲基化组可为一器官的甲基化组,其可将诸如DNA的核酸贡献至一体液(例如,脑细胞、骨骼、肺、心脏、肌肉、肾脏等的甲基化组)中。所述器官可为一移植器官。
如本文中所使用,针对各个基因组位点(例如,CpG位点、DNA的区域,其中在碱基的线性序列中沿着其5’→3’方向,胞嘧啶核苷酸之后是鸟嘌呤核苷酸)的术语“甲基化指数”可指在所述位点处显示甲基化的序列读数与覆盖所述位点的读数的总数的比例。一区域的“甲基化密度”可为在一区域内显示甲基化的位点处的读数的数量除以在所述区域中覆盖所述位点的读数的总数。所述位点可具有特定的特征(例如,位点可为CpG位点)。一区域的“CpG甲基化密度”可为显示CpG甲基化的读数除以覆盖在所述区域中的CpG位点(例如,特定的CpG位点、CpG岛内的CpG位点,或更大的区域内的CpG位点)的总读数。例如,在人类基因组中的各个100-kb箱的甲基化密度可从在CpG位点处的未转化的胞嘧啶(其可相应于甲基化胞嘧啶)的总数中测定,作为被映射至100-kb区域的序列读数所覆盖的所有CpG位点的比例。在一些实施例中,针对其他箱的大小进行此分析,例如,50-kb或1-Mb等。在一些实施例中,一区域是一整个基因组或染色体或染色体的一部分(例如,染色体臂)。当所述区域仅包括一CpG位点时,所述CpG位点的甲基化指数可与所述区域的甲基化密度相同。“甲基化胞嘧啶的比例”可指在所述区域中,显示为甲基化(例如在亚硫酸氢盐转化后未转化)的胞嘧啶位点“C”的数量超过所分析的胞嘧啶残基的总数,例如,包括所述CpG内容之外的胞嘧啶。所述甲基化指数、甲基化密度和及甲基化胞嘧啶的比例是“甲基化水平”的实例。
如本文中所使用,“血浆甲基化组”可为从动物(例如,人类)的血浆或血清中所测定的甲基化组。由于血浆及血清可包括细胞游离DNA,因此血浆甲基化组可为细胞游离甲基化组的一实例。由于混合甲基化组可为肿瘤/患者甲基化组的混合物,因此血浆甲基化组可为混合甲基化组的一实例。“细胞甲基化组”可为从诸如一患者的的受试者的细胞(例如,血细胞或肿瘤细胞)所测定的甲基化组。血细胞的甲基化组可称为血细胞甲基化组(或血液甲基化组)。
如本文中所使用,术语“相对丰度”可指具有一特定特征(例如,在一或多个特定坐标/结束位置结束、与基因组的特定区域对齐,或具有特定甲基化状态的特定长度)的第一数量的核酸片段与具有一特定特征(例如,在一或多个特定坐标/结束位置结束,或与基因组的特定区域对齐的特定长度)的第二数量的核酸片段的比率。在一实例中,相对丰度可指在第一组基因组位置处结束的DNA片段的数量与在第二组基因组位置处结束的DNA片段的数量的比率。在一些方面,“相对丰度”可为一种分离值,其将结束于基因组位置的一窗口内的细胞游离DNA分子的数量(一个值)与结束于基因组位置的另一窗口内的细胞游离DNA分子的数量(另一个值)相联系。两个窗口可重叠,但大小可不同。在其他的实施例中,两个窗口不能重叠。此外,在一些实施例中,所述窗口的宽度为一个核苷酸,因此相当于一个基因组位置。
如本文中所使用,术语“甲基化模式”是指一或多个CpG位点的甲基化状态的序列。甲基化状态包括,但不限于甲基化(例如,表示为“M”)及未甲基化(例如,表示为“U”)。例如,跨越5个CpG位点的甲基化模式可表示为“MMMMM”或“UUUUU”,其中各个离散符号代表在单一CpG位点的甲基化状态。甲基化模式可相应于或可不相应于在一参考基因组中的特定基因组位置及/或特定的一或多个CpG位点。
如本文中所使用,术语“片段甲基化模式”是指片段(例如,核酸样本的)或片段的一部分的甲基化模式。在本公开中,除非另有说明,否则术语“片段甲基化模式(fragmentmethylation pattern)”与术语“FMP”可互换使用。所述片段甲基化模式可通过各自核酸样本的甲基化测序而获得。在一些实施例中,将从一核酸样本所获得的一或多个片段与一参考基因组进行比对,使得各自片段甲基化模式包括一或多个CpG位点(例如,CpG位点的跨越或区间),其中各自CpG位点包括各自甲基化状态,且被索引至一参考基因组中的特定位点。因此,在各自片段甲基化模式中的一或多个CpG位点相应于在一参考基因组中的特定位置,且片段甲基化模式是指相应于在一参考基因组中的特定位置的一或多个CpG位点的甲基化状态的序列。在一些实施例中,多个片段中的各个片段具有一相应的片段甲基化模式。片段甲基化模式可通过甲基化状态序列的表示来表示(例如,“MMMMM”或“UUUUU”)。在一些实施例中,针对各自多个片段的多个片段甲基化模式是由一区间图表示,所述区间图包括针对各自多个片段的多个片段甲基化模式中的各个片段甲基化模式(例如,节点)的表示。
如本文中所使用,术语“查询甲基化模式”是指在一预定的CpG位点数量范围内的甲基化状态的序列。查询甲基化模式可为甲基化状态的序列的表示(例如,“MMMMM”或“UUUUU”),其用于查询甲基化模式的表示(例如,针对由一区间图所表示的多个片段甲基化模式)。在一些实施例中,查询甲基化模式相应于一或多个CpG位点(例如,CpG位点的跨越或区间),所述一或多个CpG位点索引至在一参考基因组中的各自一或多个特定位点。在一些实施例中,查询甲基化模式不相应于在一参考基因组中的特定CpG位点或特定位置(例如,其中查询甲基化模式是要在基因组区域及/或参考基因组内的所有位置查询的甲基化状态的序列的表示)。在一些情况下,所述预定的CpG位点数量范围是使用者定义的(例如,5个CpG位点至20个CpG位点的范围)。在一些情况下,所述预定的CpG位点数量范围是单一数字,其意味着在此种情况下,查询甲基化模式是固定的CpG数量长度(例如,5个CpG位点)。在一些实施例中,片段甲基化模式/FMP或其一部分可用作一查询甲基化模式。在一些实施例中,可使用来自先前所产生的查询库的查询甲基化模式。在一些实施例中,可为一特定疾病状况,例如一特定类型的癌症产生一或多个查询库。
如本文中所使用,术语“限定甲基化模式(qualifying methylation pattern)”是指在一预定的CpG位点数量范围内满足一或多个选择标准的甲基化模式。在本公开中,除非另有说明,否则术语“限定甲基化模式(qualifying methylation pattern)”与术语“QMP”可互换使用。在一些实施例中,限定甲基化模式相应于一或多个CpG位点(例如,CpG位点的跨越或区间),其索引至在一参考基因组中的相应的一或多个特定位点。例如,倘若在与一参考基因组比对的多个片段中的相应一或多个片段中鉴定一限定甲基化模式,则所述限定甲基化模式包括一或多个CpG位点,其中各自CpG位点包括各自甲基化状态,且被索引至一参考基因组中的特定位点。因此,在一些此种实施例中,限定甲基化模式是指满足一或多个选择标准的参考基因组中的特定位置处的特定甲基化状态的序列。可在与一参考基因组比对的多个片段中的各自一或多个片段中鉴定限定甲基化模式(例如,限定甲基化模式的各自甲基化状态的序列的表示,例如“MMMMM”或“UUUUU”),其中多个片段的各自片段甲基化模式是由一区间图表示,通过将查询甲基化模式与区间图中的各个节点中的各个片段甲基化模式的表示进行匹配,并确定匹配的甲基化模式是否满足所述一或更个选择标准。在一些实施例中,限定甲基化模式不相应于在参考基因组中的一特定的CpG位点或一特定位置(所述参考基因组例如,倘若在限定甲基化中的一或多个CpG位点的基因组位置是未知及/或倘若在限定甲基化模式中的甲基化状态的序列发生在整个参考基因组的多个位置)。
如本文所公开,术语“受试者”是指任何活的或非活的有机体,包括但不限于人类(例如,男性人类、女性人类、胎儿、怀孕的女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。任何人类或非人类动物皆可作为一受试者,包括但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛(例如,家牛)、马(例如,家马)、山羊(caprine)及绵羊(ovine)(例如绵羊(sheep)、山羊(goat))、猪(例如,毛猪)、骆驼科(例如,骆驼、美洲驼、羊驼)、猴子、猿(例如,大猩猩、黑猩猩)、熊类(例如,熊)、家禽、狗、猫、小鼠、大鼠、鱼、海豚、鲸鱼及鲨鱼。术语“受试者”及“患者”在本文中可互换使用,且是指已知患有或可能患有一医学病症或疾病,例如癌症的人类或非人类动物。在一些实施例中,受试者是任何阶段的男性或女性(例如,男性、女性或儿童)。
从一受试者中提取的样本或通过本文中所述的任何方法或组合物治疗的受试者可为任何年龄,且可为成人、婴儿或儿童。在一些情况下,所述受试者,例如,患者是0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99岁,或在其中的范围内(例如,介于约2岁至约20岁之间、介于约20岁至约40岁之间,或介于约40岁至约90岁之间)。特定类别的受试者,例如,可从本公开的方法中受益的患者是受试者,例如,40岁以上的患者。
另一类特定的受试者,例如可以从本公开的方法中受益的患者是儿科患者,其可能处于慢性心脏症状的较高风险中。此外,一受试者,例如从其采集样本或通过本文所述的任何方法或组合物所治疗的患者,可为男性或女性。
如本文中所使用,术语“标准化(normalize)”是指将一数值或一组数值转换为用于比较目的的参考的共用框。例如,当诊断ctDNA水平与一基线ctDNA水平“标准化”时,将诊断的ctDNA水平与基线ctDNA水平进行比较,以便可测定诊断的ctDNA水平与基线ctDNA水平的差异量。
如本文中所使用,术语“癌症”或“肿瘤”是指异常的组织肿块,其中肿块的生长超过正常组织的生长,且与正常组织的生长不协调。癌症或肿瘤可根据以下特征定义为“良性”或“恶性”:一定程度的细胞分化,包括形态及功能、生长速度、局部侵袭及转移。“良性”肿瘤可分化良好,相较于恶性肿瘤生长缓慢,且仍然局限于原发部位。此外,在某些情况下,良性肿瘤不具备浸润、侵入或转移至远处部位的能力。“恶性”肿瘤可为低度分化(间变性),具有特征性的快速生长,且伴随着周围组织的进行性浸润、侵袭及破坏。此外,恶性肿瘤可具有转移到远处部位的能力。
如本文中所使用,术语“癌症病状”是指一样本相对于癌症的病状,其中所述并状的各个潜在特征及/或检测是指癌症病状的“状态”。例如,一样本可具有“癌症”或“非癌症”的癌症病状。此外,癌症病状可为影响一癌症的预后的状态,例如不存在/存在已知影响一癌症病状的特定突变、诸如吸烟/不吸烟、年龄、性别及/或造血功能等的共变量。或者,癌症病状可为原发部位或起源组织,例如健康的乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、头/颈、卵巢、肝、宫颈、表皮、甲状腺、膀胱、胃或其组合,或乳腺癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头/颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。癌症病状可为癌症类型或某种癌症类型的肿瘤,或其一部分,例如肾上腺皮质癌、儿童肾上腺皮质癌、AIDS相关癌症、卡波西肉瘤(kaposi sarcoma)、与肛门癌相关的肿瘤、与阑尾癌相关的肿瘤、星形细胞瘤、儿童(脑癌)肿瘤、非典型畸胎瘤/横纹肌样肿瘤、中枢神经系统(脑癌)肿瘤、皮肤基底细胞癌、与胆管癌相关的肿瘤、膀胱癌肿瘤、儿童膀胱癌肿瘤、骨癌(例如,尤文肉瘤(ewingsarcoma)及骨肉瘤及恶性纤维组织细胞瘤)组织、脑肿瘤、乳腺癌组织、儿童乳腺癌组织、儿童支气管肿瘤、伯基特淋巴瘤组织(burkitt lymphoma tissue)、类癌肿瘤(胃肠道)、儿童类癌肿瘤、原发性不明的癌、原发性不明的儿童癌、儿童心脏性(心脏)肿瘤、中枢神经系统(例如,诸如儿童非典型畸胎样/横纹肌样的脑癌)肿瘤、儿童胚胎肿瘤、儿童生殖细胞肿瘤、宫颈癌组织、儿童宫颈癌组织、胆管癌组织、儿童脊索瘤组织、慢性骨髓增生性肿瘤、结肠直肠癌肿瘤、儿童结直肠癌肿瘤、儿童颅咽管瘤组织、导管原位癌(ductal carcinoma insitu,DCIS)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童室管膜瘤组织、食管癌组织、儿童食管癌组织、感觉神经母细胞瘤(头部及颈部癌)组织、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、胆囊癌组织、胃的(胃)癌组织、儿童胃的(胃)癌组织、胃肠道类癌、胃肠道间质瘤(gastrointestinalstromal tumor,GIST)、儿童胃肠道视网膜间质瘤、生殖细胞肿瘤(例如,儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤,或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(hepatocellular cancer,HCC)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾或肾细胞癌(kidney or renal cell cancer,RCC)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞及小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨的恶性纤维组织细胞瘤及骨肉瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌(merkel cell carcinoma)、恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发性组织的转移性鳞状颈部癌、具有NUT基因变化的中线道癌(midline tract carcinoma)、口腔癌(头颈癌)组织、多发性内分泌瘤综合征组织、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征组织、骨髓增生异常/骨髓增生性肿瘤、慢性骨髓增生性肿瘤、鼻腔及鼻窦癌组织、鼻咽癌(nasopharyngeal cancer,NPC)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇及口腔癌及口咽癌组织、骨组织的骨肉瘤及恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉)组织、副神经节瘤组织、儿童副神经节瘤组织、鼻窦及鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(central nervous system,CNS)淋巴瘤、原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(例如,儿童血管瘤、骨肉瘤、子宫肉瘤等)、塞扎里症候群(Sézarysyndrome)(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤的鳞状细胞癌、具有隐匿性原发性鳞状细胞癌、皮肤的t细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如,鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂及输尿管组织的移行细胞癌组织、未知的原发性癌组织、输尿管或肾盂组织、移行细胞癌(肾(肾细胞)癌组织、尿道癌组织、子宫内膜的子宫癌组织、子宫肉瘤组织、阴道癌组织、儿童阴道癌组织、血管肿瘤、外阴癌组织、威尔姆氏肿瘤(Wilms tumor)或其他的儿童肾肿瘤。癌症病状可为癌症的阶段,例如乳腺癌的阶段、肺癌的阶段、前列腺癌的阶段、结肠直肠癌的阶段、肾癌的阶段、子宫癌的阶段、胰腺癌的阶段、食道癌的阶段、淋巴瘤的阶段、头/颈癌的阶段、卵巢癌的阶段、肝胆癌的阶段、黑素瘤的阶段、宫颈癌的阶段、多发性骨髓瘤的阶段的阶段、白血病的阶段、甲状腺癌的阶段、膀胱癌的阶段或胃癌的阶段。来自单一受试者的多个样本可具有不同的癌症病状或相同的癌症病状。多个受试者可具有不同的癌症病状或相同的癌症病状。
术语“癌症负载(cancer load)”、“肿瘤负载”(tumor load)、“癌症负荷(cancerburden)”、“肿瘤负荷(tumor burden)”或“肿瘤分数(tumor fraction)”在本文中可互换使用,以指代在源自肿瘤的测试样本中的核酸的分数。例如,在游离核酸的情况下,“肿瘤分数”可指源自肿瘤的游离核酸的分数。因此,术语“癌症负载”、“肿瘤负载”、“癌症负荷”、“肿瘤负荷”及“肿瘤分数”是在一生物样本中的细胞源部分的非限制性实例。
如本文中所使用,术语“组织”相应于作为一功能单元组合在一起的一组细胞。在单一组织中可发现不止一种类型的细胞。不同类型的组织可由不同类型的细胞所组成(例如,肝细胞、肺泡细胞或血细胞),但亦可相应于来自不同生物体的组织(母亲与胎儿)或健康细胞与肿瘤细胞。术语“组织”通常可指在人体中所发现的任何细胞组(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指代细胞游离核酸来源的组织。在一实例中,病毒的核酸片段可源自血液组织。在另一实例中,病毒的核酸片段可源自肿瘤组织。
如本文中所使用,术语“未经训练的分类器”是指尚未在一目标数据集上训练的分类器。因此,在一些实施例中,“训练分类器”是指训练一未经训练的分类器的过程。例如,考虑以下所讨论的甲基化状态向量的第一标准集及甲基化状态向量的第二标准集的情况。将各自甲基化状态向量的标准集作为集体输入,并应用至一未经训练的分类器,以及结合由甲基化状态向量的第一标准集(以下简称“主要训练数据集”)所表示的各自参考对象的细胞源来训练在细胞源上的未经训练的分类器,从而获得一经训练的分类器。此外,应当理解,术语“未经训练的分类器”不排除在未经训练的分类器的此种训练中所使用的转移学习技术的可能性。例如,费尔南德斯等人,2017,“部分可观察性转移学习应用于宫颈癌筛检”,Pattern Recognition and Image Analysis:8th Iberian Conference Proceedings,243-250,其通过引用并入本文中,提供此种转移学习的非限制性实例。在使用的情况下,为上述未经训练的分类器提供了超出主要训练数据集的附加数据。即,在转移学习实施例的非限制性实例中,所述未经训练的分类器接收(i)甲基化状态向量的标准集及由甲基化状态向量的标准集所表示的各个参考对象的细胞源标签(“初级训练数据集”)及(ii)附加数据。通常,此等附加数据采用从另一辅助训练数据集中所学习的系数(例如,回归系数)的形式。
此外,虽然已经公开对单一辅助训练数据集的描述,但是应当理解,并未限制在本公开中的辅助训练数据集的数量,所述辅助训练数据集可用于在训练所述未经训练的分类器时补充主要训练数据集。例如,在一些实施例中,使用两个或更多个辅助训练数据集、三个或更多个辅助训练数据集、四个或更多个辅助训练数据集或五个或更多个辅助训练数据集通过转移学习来补充主要训练数据集,其中各个此种辅助训练数据集是不同于主要训练数据集。在此种实施例中可使用任何方式的转移学习。例如,考虑除主要训练数据集之外还有第一辅助训练数据集及第二辅助训练数据集的情况。可使用转移学习技术(例如,上述的二维矩阵乘法)将从所述第一辅助训练数据集所学习的系数(通过对所述第一辅助训练数据集应用诸如回归的分类器)应用于所述第二辅助训练数据集,其反过来可能会导致一经训练的中间分类器,之后将其系数应用于主要训练数据集,并与主要训练数据集本身结合在一起,及将其应用于未经训练的分类器。或者,从所述第一辅助训练数据集所学习的第一组系数(通过应用分类器,例如回归至所述第一辅助训练数据集)及从所述第二辅助训练数据集所学习的第二组系数(通过应用分类器,例如回归至所述第二辅助训练数据集)可各自单独应用至所述主要训练数据集的单独实例(例如,通过单独的独立矩阵乘法),且之后可将用于分离所述主要训练数据集的实例以及主要训练数据集本身(或所述主要训练数据集的某种简化形式,例如从主要训练集所学习的主成分或回归系数)的系数的此二种应用皆可应用于未经训练的分类器,以训练所述未经训练的分类器。在另一实例中,使用源自所述第一辅助训练数据集及所述第二辅助训练数据集的关于细胞源(例如,癌症类型等)的知识,连同标记为主要训练数据集的细胞源,来训练所述未经训练的分类器。
术语“分类”可指与一样本的特定性质相关联的任何数字或其他特征。例如,“+”符号(或“阳性”一词)可表示一样本被分类为具有缺失或扩增。在另一实例中,术语“分类”是指在所述受试者及/或样本中的肿瘤组织的量、在所述受试者及/或样本中的肿瘤的大小、在所述受试者中的肿瘤的阶段、在所述受试者及/或样本中的肿瘤负载,以及在所述受试者中是否存在肿瘤转移。在一些实施例中,所述分类是二元的(例如,正的或负的)或具有更多级别的分类(例如,从1至10或0至1的等级)。在一些实施例中,术语“截断(cutoff)”及“阈值”是指在一操作中所使用的预定数字。在一实例中,截断大小是指在其上的片段被排除的大小。在一些实施例中,阈值是高于或低于一特定分类应用的数值。此等术语中的任何一者皆可在此等上下文中使用。
如本文中所使用,术语“癌症相关变化”或“癌症特异性变化”可包括癌症衍生的突变(包括单核苷酸突变、核苷酸的缺失或插入、基因或染色体片段的缺失、易位、倒位)、基因的扩增、病毒相关的序列(例如,病毒附加体、病毒插入、进入细胞(例如,通过病毒感染)且随后被细胞释放的病毒DNA,以及循环或细胞游离病毒的DNA)、异常甲基化谱或肿瘤特异性甲基化特征、异常细胞游离核酸(例如,DNA)大小谱、异常组蛋白修饰标记及其他的表观遗传修饰,以及与癌症相关或与癌症特异性游离DNA片段的末端的位置。
如本文中所使用,术语“对照”、“对照样本”、“参考”、“参考样本”、“正常”及“正常样本”描述来自不具有一特定病症的受试者的样本,或在其他方面是健康的。在一实例中,本文中所公开的方法可对患有肿瘤的受试者进行,其中参考样本是取自受试者的健康组织的样本。参考样本可从受试者或数据库中获得。所述参考可为例如一参考基因组,其用于映射序列读数,所述序列读数是通过对来自受试者的样本进行测序而获得。参考基因组可指单倍体或二倍体基因组,从生物样本及组成样本中读数的序列可与其进行比对及比较。组成样本的一实例可为从所述受试者所获得的白细胞的DNA。针对单倍体基因组,在各个位点处仅能有一个核苷酸。针对二倍体基因组,可鉴定杂合基因座;各个杂合基因座可具有两个等位基因,其中任何一个等位基因皆可比对至所基因座并进行匹配。
在本文中所使用的术语仅是为了描述特定情况的目的,而非旨在限制性的。如本文中所使用,除非上下文另有明确指示,单数形式“一(a)”、“一(an)”及“所述”旨在亦包括复数形式。此外,在详细的说明书及/或权利要求书中所使用的术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的范围内,此等术语旨在以类似于“包括(comprising)”一词的方式包含在内。
以下描述参考实例应用的数个方面,以用于说明。应当理解,阐述许多具体细节、关系及方法,以提供对本文所描述的特征的全面理解。然而,相关领域的普通技术人员将容易地认识到,本文中所描述的特征可在无一或多个具体细节的情况下或用其他的方法来实践。本文中所描述的特征不受所示出的动作或事件顺序的限制,因为一些动作可以不同的顺序发生及/或与其他的动作或事件同时发生。此外,并非所有图示的动作或事件皆需要实施根据本文中所描述的特征的方法。
示例性系统实施例:
现在结合图1描述示例性系统的细节。图1是说明根据一些实施方式的系统100的框图。在一些实施方式中,系统100包括一或多个处理单元CPU102(亦称为处理器或处理核心)、一或多个网络接口104、使用者介面106,所述使用者介面106包括一显示器108及输入模块110、非永久性存储器111、永久性存储器112,以及用于互连此等组件的一或多个通信总线114。一或多个通信总线114可选地包括互连及控制在系统组件之间的通信的电路(有时称为芯片组)。非永久性存储器111通常包括高速随机存取存储器,例如DRAM、SRAM、DDRRAM、ROM、EEPROM、闪存,而永久性存储器112通常包括CD-ROM、数字通用磁盘(digitalversatile disk,DVD)或其他的光学存储器、磁带盒、磁带、磁盘存储或其他的磁性存储装置、磁盘存储装置、光盘存储装置、闪存装置,或其他的非易失性固态存储装置。永久性存储器112可选地包括远离CPU 102的一或多个存储装置。永久性存储器112及非永久性存储器112内的非易失性存储器装置包括非瞬态计算机可读存储介质。在一些实施方式中,非永久性存储器111或替代地非暂时性计算机可读存储介质存储以下的程式、模块及数据结构或其子集,有时与永久性存储器112结合:
·与可选的操作系统116相关联的可选的指令、程式、数据或信息,其包括用于处理各种基本系统服务及用于执行硬件相关任务的过程;
·与可选的网络通信模块(或指令)118相关联的可选的指令、程式、数据或信息,用于将所述系统100与其他装置或一通信网络连接;
·与多个数据集(例如,数据集1及2)120-1及120-2相关联的指令、程式、数据或信息,各个数据集包括:
·与多个测试对象122-1-1、…、122-1-J(其中J是正整数)中的各个对象的记录122相关联的指令、程式、数据或信息,各个测试对象包括从相应测试对象所获得的各自生物样本中的一或多个核酸样本的多个片段甲基化模式124-1-1-1、...、124-1-1-K(其中K是正整数),其中针对在各自片段中的相应多个CpG位点中的各个CpG位点,各个片段甲基化模式是由所述一或多个核酸样本的甲基化测序所测定,且包括一甲基化状态126-1-1-1-1、...、126-1-1-1-L,(其中L是正整数);
·与各自数据集的一或多个基因组区域128-1-1、...、128-1-M(其中M是正整数)相关联的指令、程式、数据或信息;以及
·针对使用各自数据集的一或多个相应基因组区域,与一或多个状态区间图130-1-1、130-1-2、...、130-1-N(其中N是正整数)相关联的指令、程式、数据或信息,其中各个状态区间图包括一相应独立的多个节点132-1-1-1、...、132-1-1-P(其中P是正整数),且各个相应节点在多个节点的特征在于一相应起始甲基化位点134-1-1-1-1、一相应结束甲基化位点136-1-1-1-1,以及针对在各自数据集中所观察到的在各自节点的相应起始甲基化位点与相应结束甲基化位点之间的各个不同的片段甲基化模式,在各自数据集中所观察到的不同的片段甲基化模式138-1-1-1-1、...、138-1-1-1-Q的表示(其中Q是正整数)及片段的计数140-1-1-1-1、...、140-1-1-1-R(其中R是正整数),其片段甲基化模式开始于相应起始甲基化位点,且结束于相应结束甲基化位点,及具有不同的片段甲基化模式。
在一些实施方式中,一或多个上述元件被存储在一或多个前述存储器装置中,且相应于用于执行上述功能的一组指令。上述的模块、数据或程式(例如,指令集)可能不以单独的软件程式、过程、数据集或模块来实现,因此此等模块及数据的各种子集可组合或以其他方式重新排列在各种实施方式中。在一些实施方式中,非永久性存储器111可选地存储上述模块及数据结构的子集。此外,在一些实施例中,存储器存储上文未被描述的附加模块及数据结构。在一些实施例中,一或多个上述元件被存储在系统100之外的计算机系统中,其可由系统100寻址,使得系统100可检索所有或部分的此种数据。
尽管图1描绘“系统100”,然而所述图更多地旨在作为可能存在于计算机系统中的各种特征的功能描述,而非作为本文中所描述的实施方式的结构示意图。在实施中,且如本领域普通技术人员所认知,单独显示的项目可被组合,且一些项目可被分开。此外,虽然图1描绘在非永久性存储器111中的某些数据及模块,但此等数据及模块中的一些或全部可在永久存储器112中。
本公开的具体实施例:
虽然已经参见图1公开根据本公开的系统,但现在参见图2详细说明根据本公开的方法。任何公开的方法皆可利用以下所公开的任何分析或演算法:于2017年10月25日所提交的标题为“肿瘤检测的方法及系统”的美国专利申请案第15/793,830号、国际专利公开案第WO 2018/081130号,及/或标题为“使用甲基化信息评估细胞源分数的系统及方法”的美国专利公开案第2020-0385813 A1号,在此通过引用将其全部内容并入本文中,以检测在一测试对象的癌症病状或所述对象患有所述癌症病状的可能性。例如,任何公开的方法可与任何以下所公开的方法或演算法结合使用:于2017年10月25日所提交的美国专利申请案第15/793,830号、国际专利公开案第WO 2018/081130号,及标题为“使用甲基化信息评估细胞源分数的系统及方法”的美国专利公开案第2020-0385813 A1号,及/或于2018年12月18日所提交的美国临时专利申请案第62/781,549号。
参见图2,本公开的一方面提供一种鉴定可鉴别或指示一癌症病状的多个甲基化模式(框202)。
获得数据集:
参见图2A的框204,本公开提供用于鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的系统、方法及计算机可读介质。在此种实施例中,获得一第一数据集(例如,以电子形式)。所述第一数据集包括在一第一多个片段中的各自片段的相应片段甲基化模式。在一些实施例中,各个相应片段的相应片段甲基化模式(i)所述各自片段的相应片段甲基化模式是通过从一第一组的一或多个受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。在一些实施例中,所述第一多个片段包括100个或更多个细胞游离核酸片段、1000个或更多个细胞游离核酸片段、10,000个或更多个细胞游离核酸片段、100,000个或更多个细胞游离核酸片段、1,000,000个或更多个细胞游离核酸片段,或10,000,000或更多个核酸片段。
在所述第一组一或多个受试者中的受试者的数量取决于应用。例如,倘若癌症病状是起源组织(例如,鉴定有助于鉴别一癌症病状的起源的限定甲基化模式),则在所述第一组一或多个受试者中的受试者的数量通常是具有特定癌症起源的多个癌症受试者(例如,他们全都患有肺癌、他们全都患有肝癌等)。在一些此种实施例中,所述多个癌症受试者是具有特定癌症起源的5个或更多受试者、10个或更多个受试者、20个或更多个受试者、30个或更多个受试者、40个或更多个受试者、50个或更多个受试者、100个或更多个受试者、200个或更多个受试者、500个或更多个受试者、1000个或更多个受试者、介于10个与10,000个之间的受试者,或少于25,000个受试者。在一些此种实施例中,所述多个受试者皆具有相同的癌症阶段。在替代实施例中,所述多个受试者具有不同阶段的癌症。在一些实施例中,多个受试者患有已转移的癌症。在一些实施例中,所述多个受试者患有尚未转移的癌症。
作为另一实例,倘若所述癌症病状是不存在或存在癌症(例如,鉴定有助于鉴别一癌症病状的不存在或存在的限定甲基化模式),则在所述第一组一或多个受试者通常是患有癌症的多个癌症受试者(例如,他们都患有癌症,他们都患有正在研究的特定癌症等)。在一些此种实施例中,所述多个癌症受试者是5个或更多个受试者、10个或更多个受试者、20个或更多个受试者、30个或更多个受试者、40个或更多个受试者、50个或更多个受试者、100个或更多个受试者、200个或更多个受试者、500个或更多个受试者、1000个或更多个受试者、介于10个与10,000个之间的受试者,或少于25,000个受试者。在一些此种实施例中,所述多个受试者皆具有相同的癌症阶段。在替代实施例中,所述多个受试者具有不同阶段的癌症。在一些实施例中,所述多个受试者患有已转移的癌症。在一些实施例中,所述多个受试者患有尚未转移的癌症。
作为又另一实例,倘若所述癌症病状是一特定癌症的阶段(例如,鉴定有助于鉴别一受试者是否具有一特定癌症病状的特定阶段的限定甲基化模式),则在所述第一组一或多个受试者通常是多个癌症受试者,此等癌症受试者具有癌症病状的阶段(例如,他们都患有第II期乳腺癌等)。
另一方面,倘若预期所述癌症病状会产生对一特定受试者的癌症病状而言是私有的(唯一的)片段甲基化模式,则所述第一组一或多个受试者中的受试者的数量是单一受试者。预期所述癌症病状会产生对一特定受试者的癌症病状是私有的(独特的)片段甲基化模式的非限制性实例是癌症病状是肿瘤分数的情况。另一非限制性实例,其中预期所述癌症病状会产生对一特定受试者的癌症病状是私有的(独特的)片段甲基化模式是所述癌症病状受到一特定受试者的造血状态影响的情况。在预期所述癌症病状会产生对一特定受试者的癌症病状而言是私有的(独特的)片段甲基化模式的情况下,所述第一组一或多个受试者是在研究中的单一受试者,下文进一步详细讨论的所述第二组一或多个受试者是一参考族群,例如一群健康受试者。
在一些实施例中,所述第一组受试者是单一受试者,及所述第二组受试者是多个受试者,且使用所公开的方法鉴定的QMP是用于检查或评估下游癌症病状分类器。例如,患有癌症的受试者可构成所述第一组受试者,所述第二组受试者可为未患有癌症病状的受试者,且可在下游分类器中检查使用所公开方法所鉴定的QMP的贡献。例如,可重建(重新训练)分类器以包括或不包括一些或所有已鉴定的QMP,并使用具有及不具有癌症病状的受试者的训练群评估其特性。
测试对象:
在一些实施例中,研究中的各个受试者是如上所定义的受试者的任何实例(参见,定义)。在一些实施例中,受试者是人类。在一些实施例中,受试者所述第二组受试者是一研究组,以及所述第一组一或多个受试者是单一测试对象,其亦是在研究组中的多个参与者中的参与者。例如,在一些实施例中,所述第二组受试者是多个受试者,各个受试者皆是来自CCGA研究的参与者(参见例如以下的实例1)。
生物样本:
在一些实施例中,在本公开中所使用的生物样本是如上定义的生物样本的任何实例(参见,定义)。例如,在一些实施例中,所述生物样本是组织(例如,肿瘤活检)。参见图2A的框206至210,在一些实施例中,从一受试者(例如,测试对象)所获得的生物样本是一液体生物样本。例如,在一些实施例中,各自生物样本是一血液样本(例如,血浆、细胞游离DNA,及/或白细胞)。在一些实施例中,所述各自生物样本包括血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液,或腹膜液。在一些实施例中,所述生物样本是衍生自一细胞源。在一些此种实施例中,所述细胞源是在实例中所详细描述的实例细胞源中的任一者(参见例如以下的实例7)。
在一些实施例中,所述生物样本从患有癌症的受试者(例如,测试对象)或从健康的(例如,非癌症)受试者获得。在一些实施例中,所述生物样本从肿瘤组织(例如,癌症)或从健康组织(例如,非癌症)获得。在一些实施例中,所述生物样本是获自一存档样本(例如,冷冻、干燥,或替代地储存的组织活检或血液样本)。
在一些实施例中,所述生物样本是多个生物样本(例如,包括多个样本的汇集样本)。可在获得所述第一数据集之前的任何点汇集多个生物样本。例如,在一些实施例中,汇集所述多个生物样本是发生在核酸提取之前(例如,汇集多个组织及/或液体生物样本)、在核酸提取之后,但在甲基化测序之前(例如,汇集多个核酸样本),或在甲基化测序之后(例如,汇集来自多个测序分析的测序数据)。图7及图9说明根据本公开的一些实施例的用于制备用于测序的核酸样本及用于从生物样本获得甲基化测序数据的方法的实例流程图(参见例如以下的实例2及3)。
从甲基化测序所获得的数据:
在一些实施例中,数据集120可为任何大小以及包括用于在多个片段中的各自片段及/或在多个片段中的任意数量的片段的相应片段甲基化模式124,其取决于所使用的甲基化测序的方法、覆盖率及深度。例如,参见框212,在一些实施例中,来自在所述第一组受试者(其中所述第一组受试者是由单一受试者所组成或包括多个受试者)中的相应受试者的各自生物样本的甲基化测序产生5亿个或更多个、10亿个或更多个、20亿个或更多个、30亿个或更多个、40亿个或更多个、50亿个或更多个、60亿个或更多个、70亿个或更多个、80亿个或更多个、90亿个或更多个,或100亿个或更多个核酸片段,所述核酸片段通过包含在所述第一数据集中评估甲基化模式。在一些替代的实施例中,来自在所述第一组受试者中的相应受试者的各自生物样本的甲基化测序产生少于十亿个片段或少于10,000个片段,此等片段通过包含在所述第一数据集(数据集120)中评估甲基化模式。
在一些实施例中,一相应片段的相应片段甲基化模式通过甲基化测序而被测定,其中所述甲基化测序产生相应于各自片段的一或多个序列读数。在一些实施例中,所述多个片段是细胞游离核酸。在一些实施例中,相应于各自片段的一或多个序列读数是末端配对的序列读数。在一些实施例中,相应于各自片段的一或多个序列读数是单端序列读数。
参见图2A的框214,在一些实施例中,通过甲基化测序所获得的相应多个序列读数的平均序列读数长度是介于140个与280个核苷酸之间。
参见框216,在一些实施例中,所述甲基化测序是(i)全基因组甲基化测序或(ii)使用多个核酸探针的靶向DNA甲基化测序。在一些实施例中,所述甲基化测序是全基因组亚硫酸氢盐测序(whole genome bisulfite sequencing,WGBS)。
参见框218至224,在一些实施例中,所述甲基化测序检测在各自片段中的一或多个5-甲基胞嘧啶(5-methylcytosine,5mC)及/或5-羟甲基胞嘧啶(5-hydroxymethylcytosine,5hmC)。在一些实施例中,所述甲基化测序包括将一或多个未甲基化胞嘧啶或一或多个甲基化胞嘧啶转化为相应的一或多个尿嘧啶。在一些此种实施例中,在甲基化测序期间,将所述一或多个尿嘧啶检测为一或多个相应的胸腺嘧啶。在一些此种实施例中,一或多个未甲基化胞嘧啶或一或多个甲基化胞嘧啶的转化包括一化学转化、一酶促转化,或其组合。
参见图2A的框226,在一些实施例中,当所述CpG位点通过所述甲基化测序而被确定为甲基化时,在相应多个CpG位点中的CpG位点的甲基化状态是被甲基化,以及当所述CpG位点通过所述甲基化测序而被确定为未甲基化时,在相应多个CpG位点中的CpG位点的甲基化状态是未甲基化。在一些实施例中,一甲基化状态表示为“M”,未甲基化状态表示为“U”。例如,在一些实施例中,所述甲基化状态可包括但不限于:未甲基化、被甲基化、模糊(例如,意味着潜在的CpG未被序列读数配对的任何读数覆盖)、变体(例如,意味着所述读数与基于参考序列在其预期位置所发生的CpG不一致,且可能是由在所述位点的真实变异或序列错误所引起)或冲突(例如,当两个读数皆与CpG重叠但不一致)。参见,例如,于2020年12月11日所提交的标题为“使用补丁卷积神经网络的癌症分类”的美国专利申请案第17/119,606号,其通过引用整体并入本文中。
在一些实施例中,所述甲基化测序(例如,WGBS)在跨越所述测试对象的全部或部分基因组中产生至少1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、至少20x、至少30x,或至少40x的覆盖率(例如,测序深度)。
在一些实施例中,所述甲基化测序(例如,WGBS)在跨越所述多个片段中产生至少1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、至少的20x、至少30x,或至少40x的平均覆盖率(例如,测序深度)。在一些实施例中,所述甲基化测序(例如,WGBS)在跨越表示在所述数据集120中的片段中产生至少1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、至少20x、至少30x,或至少40x的平均覆盖率(例如,测序深度)。
在一些实施例中,所述甲基化测序(例如,靶向甲基化或TM测序)具有包括但不限于高达1,000x、2,000x、3,000x、5,000、10,000x、15,000x、20,000x,或约30,000倍的覆盖率。
在一些实施例中,所述甲基化测序(例如,靶向甲基化或TM测序)在跨越多个片段中具有包括但不限于高达1,000x、2,000x、3,000x、5,000、10,000x、15,000x、20,000x、或约30,000x的平均覆盖率。在一些实施例中,所述甲基化测序(例如,WGBS)在跨越表示在所述数据集120中的片段中产生高达1,000x、2,000x、3,000x、5,000、10,000x、15,000x、20,000x,或约30,000x的平均覆盖率(例如,测序深度)。
在一些实施例中,所述甲基化测序具有大于30,000x,例如,至少40,000x或50,000x的覆盖率。参见齐勒等人,2015年,“通过全基因组亚硫酸氢盐测序进行甲基化分析的覆盖率建议”,Nature Methods.12(3):230-232,doi:10.1038/nmeth.3152,及马瑟等人,2015年,“通过下一世代测序进行靶向DNA甲基化分析”,J.Vis.Exp.(96),e52488,doi:10.3791/52488,在此通过引用将其全部并入本文中。
在一些实施例中,所述甲基化测序是双端测序或单端测序。
在一些实施例中,所述甲基化测序是二元的。在一些实施例中,所述甲基化测序是半二元的。如本文中所使用,二元甲基化测序是指使用对甲基化位点及未甲基化位点皆特异的杂交探针,对完全甲基化及/或完全未甲基化的CpG位点进行测序。或者,如本文中所使用,半二元甲基化测序是指使用对甲基化位点或未甲基化位点特异的杂交探针,对甲基化或未甲基化的CpG位点进行测序。
使用二元探针所进行的甲基化测序可提供改进的覆盖深度,并减少在甲基化测序数据集中的偏差。因此,在一些实施例中,使用二元探针进行WGBS。在一些替代的实施例中,使用二元及/或半二元探针进行靶向甲基化(targeted methylation,TM)测序。在一些此种实施例中,通过从所述数据集中移除(例如,过滤)由半二元探针靶向的任何片段的相应片段甲基化模式(例如,过滤相应于使用半二元探针所测序的多个片段的测序读数)来提高覆盖的总体深度。或者,在一些实施例中,使用半二元探针所测序的一或多个片段并未从所述数据集中移除,以及一深度截断是应用至所述第一数据集,使得与具有低于一深度截断的测序深度的(例如,一参考基因组的)一区域重叠的任何片段的相应片段甲基化模式从所述数据集中移除。例如,在二元测序提供较高的覆盖深度,及半二元测序提供较低的覆盖深度的情况下,有效地应用深度截断可确保在所述数据集中的任何剩余区域至少包含最小覆盖深度,从而在数据集中减少总体偏差。在一些实施例中,所述深度截断是由二元测序所提供的最小覆盖深度的估计及/或由半二元测序所提供的最大覆盖深度的估计。
在一些实施例中,所述甲基化测序(例如,WGBS及/或TM测序)是使用组织(例如,肿瘤活检)或血液样本(例如,血浆、细胞游离DNA及/或白细胞)进行。
在一些实施例中,针对所述多个片段的多个片段甲基化模式是通过对来自一组受试者中的相应受试者的各自生物样本的核酸的多个甲基化测序来测定。例如,在一些此种实施例中,使用WGBS及靶向DNA甲基化测序二者,从各自生物样本中获得多个片段甲基化模式。
在一些实施例中,所述方法进一步包括步骤:获得一数据集,所述数据集包括在多个片段中的各自片段的测序数据,其中所述测序数据是通过核酸的一或多个测序分析(例如,WGS、靶向测序)测定,所述核酸是来自从相应受试者所获得的各自生物样本。例如,在一些此种实施例中,使用例如,WGBS、靶向甲基化(targeted methylation,TM)测序、WGS、靶向测序,及/或其任何组合,从一各自生物样本中获得一或多个片段甲基化模式及一或多个测序数据集。多个测序及/或甲基化测序数据集的比较在以下的实例5及图11中进行描述。
关于甲基化测序(例如,WGBS及/或靶向甲基化测序)的更多细节,参见例如,于2019年3月13日提交的标题为“甲基化片段异常检测”的美国专利公开案第US 2019-0287652 A1号,及标题为“使用甲基化信息评估细胞源级分的系统及方法”的美国专利公开案第2020-0385813 A1号,其各个皆通过引用并入本文中。针对甲基化测序的其他方法,包括本文中所公开的彼等方法及/或其任何修饰、替换或组合,可用于获得片段甲基化模式,其对本领域技术人员而言是显而易见的。
片段:
在一些实施例中,如通过本文中所公开的任何甲基化测序方法所测定,在多个片段中的各自片段包括一起始位置、一结束位置,以及一或多个甲基化位点(例如,CpG位点),所述一或多个甲基化位点是位于各自片段内的起始位置与结束位置之间。在一些实施例中,所述起始位置及/或结束位置是甲基化位点或在一参考基因组中的位置。在一些实施例中,在多个片段中的各自片段与一参考基因组进行比对。因此,在一些此种实施例中,在多个片段中的各自片段中的各个甲基化位点被索引至所述参考基因组中的特定位点。相似地,当多个片段中的各自片段包括作为一甲基化位点的起始位置及/或结束位置,及/或位于所述各自片段内的起始位置与结束位置之间的一或多个甲基化位点时,则在所述各自片段中的各个甲基化位点可被索引至一参考基因组中的特定位点。
在一些实施例中,独特片段是通过所述各自片段的一或多个甲基化位点的各自起始位置及结束位置及/或甲基化状态的序列(例如,片段甲基化模式)而测定。例如,在一些实施例中,具有不同起始位置及结束位置的两个片段被认为是独特的,而不管所述片段甲基化模式是相同或是不同。在一些实施例中,即使起始位置或结束位置中的一者在两个片段之间共享(例如,两个片段具有相同的起始位置但不同的结束位置,使得两个片段具有不同的长度),则两个片段亦可被认为是独特的。在一些替代的实施例中,具有相同起始位置及结束位置,但具有不同片段甲基化模式的两个片段被认为是独特的(例如,两个片段比对至一参考基因组的相同区域,但对于在跨越CpG站点的范围内的一或多个CpG位点具有不同的甲基化状态,例如“MMMMM”和“UMMMM”)。
在一些实施例中,各自片段的相应片段甲基化模式包括小于在各自片段中的相应多个CpG位点中的所有CpG位点的甲基化状态,其中在各自一或多个片段中的一或多个CpG位点被认为是“不可靠的”。例如,在一些实施例中,“不可靠的”CpG位点包括具有变异、模糊或冲突甲基化状态的CpG位点,及/或已知导致甲基化测序输出差的CpG位点。在一些此种实施例中,从多个片段中移除(例如,删除)各自一或多个不可靠的CpG位点,以用于所有的后续分析及过程。例如,在一些实施例中,通过从在所述各自数据集中的各自多个片段中的各自片段的相应片段甲基化模式来进行移除各自一或多个CpG位点来执行删除(如通过各自一或多个CpG位点的各自一或多个甲基化状态所表示)。在一些替代的实施例中,各自一或多个不可靠的CpG位点并未从多个片段中移除,而是以其他方式绕过所有后续的分析及过程。例如,在一些实施例中,对于各自不可靠的CpG位点,通过在各自数据集中的各自多个片段中的各自片段的相应片段甲基化模式中的各自CpG位点处插入占位符或代替甲基化状态表示的替代表示来执行绕过。在一些实施例中,占位符或替代表示是例如通配符或空字符。
在一些实施例中,过滤所述多个片段。在一些实施例中,针对例如深度、最小映射质量(minimum mapping quality,MAPQ)、重复片段、未检出的片段、未转换的片段、模糊的检出、变异检出、冲突检出,及/或p值过滤所述多个片段。
在一些实施例中,为包括重叠CpG位点的多个片段,过滤所述多个片段。在一些实施例中,为与替代测序方法共享读数支持的片段,过滤所述多个片段。例如,在使用例如WGBS、TM测序、WGS,及/或靶向测序,从一各自生物样本获得一或多个甲基化测序数据集及一或多个测序数据集的一些实施方案中,比较各自数据集,并且过滤所述一或多个甲基化测序数据集,以移除多个片段,所述多个片段不包括使用一或多个测序数据集所确定的与一癌症病状相关的小变体、已知生物标志物,及/或区域。
第一数据集及第二数据集:
参见图2B的框228,在一些实施例中,以电子形式获得一第二数据集。所述第二数据集包括在一第二多个片段中的各自片段的相应片段甲基化模式。所述各自片段的相应片段甲基化模式(i)是通过从一第二组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。在典型实施例中,所述第二组受试者包括多个受试者(例如,2个或更多个受试者、3个或更多个受试者、5个或更多个受试者、50个或更多个受试者、100个或更多个受试者、500个或更多个受试者或1000个或更多个受试者)。在一些实施例中,所述第二多个片段包括100个或更多个细胞游离核酸片段、1000个或更多个细胞游离核酸片段、10,000个或更多个细胞游离核酸片段、100,000个或更多个细胞游离核酸片段、1,000,000个或更多个细胞游离核酸片段,或10,000,000个或更多个核酸片段。
在一些实施例中,所述第二数据集是使用本文中所公开的任何方法而获得(例如,使用针对所述第一数据集所描述的任何方法及/或实施例)。参见图2B的框230,在一些实施例中,(所述第一数据集的)所述第一多个片段及(所述第二数据集的)所述第二多个片段是细胞游离核酸。
再次参见图2B的框228,在一些实施例中,(所述第一数据集的)所述第一组受试者中的各个受试者具有所述癌症病状的第一状态,以及(所述第二数据集的)所述第二组受试者具有所述癌症病状的第二状态。如以上所定义,在各种实施例中,一癌症病状的状态是依赖于应用的。在一些实施例中,一癌症病状的状态是在一受试者中是否存在一癌症(例如,存在或不存在)。在一些实施例中,一癌症病状的状态是一癌症的阶段、肿瘤的大小、转移的存在或不存在、身体的总肿瘤负荷(例如,肿瘤分数),及/或一癌症的严重程度的另一检测(例如,癌症复发)。在一些实施例中,所述癌症病状的第一状态是一样本病状(例如,一癌性样本),以及所述癌症病状的第二状态是一参考样本(例如,一健康样本)。在一些实施例中,所述癌症病状的第一状态及所述癌症病状的第二状态分别是收集一生物样本的早期时间点及较晚时间点。在一些实施例中,所述癌症病状是一测试对象(例如,在所述第一组一或多个受试者中的受试者)的肿瘤分数。在一些实施例中,一癌症病状是一癌症起源(例如,肺癌、结肠直肠癌、乳腺癌等)。
产生状态区间图:
参见图2C的框232,在一些实施例中,使用所述第一数据集,为一或多个相应基因组区域产生一或多个第一状态区间图。在所述一或多个第一状态区间图中的各个第一状态区间图包括相应独立的多个节点。在一些实施例中,针对所述第一组受试者仅有一个状态区间图,且所述状态区间图代表正在研究的基因组的全部区域(例如,全部或部分的基因组)。在其他的实施例中,针对所述第一组一或多个受试者存在数个状态区间图。在此种情况下,通常各自状态区间图代表所述基因组的不同区域。例如,在一些实施例中,各个状态区间图代表不同的染色体。在一些实施例中,使用在第一数据集中的甲基化数据产生2个、3个、4个、5个、6个、7个、8个、9个、10个、介于2个与30个之间,或超过30个状态区间图。在典型实施例中,各个此种状态区间图代表一参考基因组的不同部分。例如,在一些实施例中,各个此种状态区间图代表不同的染色体。
不管仅存在单一状态区间图或产生数个状态区间图,在所述一或多个第一状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第一数据集中的第一多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第一数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式。
由区间图所表示的基因组区域:
在一些实施例中,在一或多个第一状态区间图中的各自区间图相应于一基因组区域(例如,在一参考基因组中)。因此,针对相应于一各自基因组区域的一各自区间图,在所述第一数据集中的第一多个片段中的具有一片段甲基化模式的各自片段亦相应于相同的各自基因组区域(例如,所述片段与所述区间图相应的参考基因组的相同区域对齐),所述各自片段是表示在所述各自区间图中。
在一些实施例中,一或多个第一状态区间图相应于一或多个独特基因组区域及/或一或多个重叠基因组区域。在一些实施例中,一或多个第一状态区间图相应于相同的基因组区域。在一些实施例中,所述一或多个第一状态区间图是多个第一状态区间图,所述一或多个相应基因组区域是多个基因组区域,以及在所述多个基因组区域中的各自基因组区域是由在所述多个第一状态区间图中的第一状态区间图表示。在一些实施例中,所述多个基因组区域是介于10个与30个之间。在一些此种实施例中,所述多个基因组区域是由介于以下区间的基因组区域所组成:介于2个与1000个基因组区域之间、介于500个与5,000个基因组区域之间、介于1,000个与20,000个基因组区域之间,或介于5,000个与50,000个基因组区域之间。
在一些实施例中,所述一或多个第一状态区间图相应于相同大小或不同大小、数量(number)或总数(amount)的基因组区域(例如,表示为,例如,多个CpG位点的数量及/或碱基对的数量的的长度)。例如,参见框234至238,在一些实施例中,在跨越一或多个相应基因组区域中存在超过10,000个CpG位点、超过25,000个CpG位点、超过50,000个CpG位点,或超过80,000个CpG位点。在一些替代实施例中,在跨越一或多个相应基因组区域中存在少于10,000个CpG位点、少于25,000个CpG位点、少于50,000个CpG位点,或少于80,000个CpG位点。在一些实施例中,在一或多个相应基因组区域中的各个基因组区域表示介于500个碱基对与10,000个碱基对之间的人类基因组参考序列。在一些实施例中,一区间图表示在一参考基因组的预定区域中的所有已知的CpG位点。在一些实施例中,一区间图仅表示在一参考基因组的预定区域中的已知的CpG位点的子集。在一些实施例中,针对一特定区间图,在一或多个相应基因组区域中的各个基因组区域表示介于500个碱基对与2,000个碱基对之间的人类基因组参考序列。在一些替代实施例中,针对一特定区间图,在一或多个相应基因组区域中的各个基因组区域表示少于500个碱基对或多于10,000个碱基对的人类基因组参考序列。
参见图2C的框240,在一些实施例中,针对一特定区间图,在一或多个相应基因组区域中的各个基因组区域表示人类基因组参考序列的不同部分。例如,在一些此种实施例中,针对一特定区间图,在一或多个相应基因组区域中的各个基因组区域是不同的人类染色体。在一些实施例中,人类基因组参考序列的各个部分是由各自一或多个区间图表示。
节点构建:
如上所述,在所述一或多个第一状态区间图中的各个第一状态区间图包括独立的多个节点。各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及在所述第一数据集中的多个片段的各个不同片段甲基化模式的表示及计数,此等片段起始和结束于各自节点的起始甲基化位点及终止甲基化位点。在一些实施例中,独立的多个节点包括2个或更多个节点、3个或更多个节点、4个或更多个节点、5个或更多个节点、10个或更多个节点、20个或更多个节点、50个或更多个节点,或100个或更多个节点。
在一些实施例中,在独立的多个节点中的各自节点的特定起始甲基化位点及结束甲基化位点被索引至一参考基因组中的位置(例如,一基因组区域中的位置及/或一CpG位点)。因此,在一些优选的实施例中,基于所述各自一或多个片段的起始甲基化位点及结束甲基化位点,通过将在所述第一数据集中的多个片段中的一或多个片段进行分组,以构建在各自第一状态区间图中的各自节点(例如,其中片段是与一参考基因组进行比对,以及各自片段包括被索引至一参考基因组中的位置的起始甲基化位点及结束甲基化位点),使得包括在各自节点中的各个片段是完全包含在所述节点内。
在一些优选的实施例中,不包括相应于一各自节点的起始甲基化位点及终止甲基化位点的起始甲基化位点及终止甲基化位点的片段(例如,部分包含在所述各自节点内或与所述各自节点重叠的片段,及/或小于或大于所述各自节点的片段)不是在所述各自节点中表示。
因此,在如本文所述的此等实施方式中,片段被转换为包括CpG位点的序列的片段级节点,其通过例如他们在CpG位点的索引中的基因组坐标或位置来鉴定。
在一些实施例中,被认为是“独特的”(例如,具有不同的起始甲基化位点及结束甲基化位点及/或不同的甲基化模式)的片段被放置于不同的各自节点中。
在一些实施例中,在各自节点中的各个片段中的各个CpG位点的状态(例如,甲基化:“M”,未甲基化:“U”)是额外地由在所述各自节点中所包含的一或多个不同片段甲基化模式表示。在一些优选的实施方式中,在各自节点中所表示的各个不同片段甲基化模式相应于在所述节点中的各自一或多个片段的整个片段甲基化模式(例如,其中各自片段开始及结束于所述节点的起始位置及结束位置处,所述相应片段甲基化模式是完全包含在所述节点中)。
在一些实施例中,基于在各自节点中的各自片段的片段甲基化模式,通过将一或多个片段进行分组来构建节点。
在一些实施例中,通过将具有相同片段甲基化模式的一或多个片段进行分组来构建一节点,所述相同片段甲基化模式是介于所述相应节点的相应起始甲基化位点与所述相应结束甲基化位点之间,及/或包括所述相应起始甲基化位点与所述相应结束甲基化位点。例如,在一些实施例中,将各自包含相应于在一参考基因组中的特定开始及结束位置的第一起始甲基化位点及第一结束甲基化位点的第一组片段进行分组,成为一第一节点。在一些此种实施例中,然而,倘若所述第二多个片段的片段甲基化模式在CpG位点的序列中的一或多个CpG位点处,与所述第一多个片段的片段甲基化模式不同,则将第二多个片段进行分组,成为一第二节点;其中所述第二多个片段包括分别相应于在所述参考基因组中与所述第一起始甲基化位点及第一结束甲基化位点相同的位置的第二起始甲基化位点及第二结束甲基化位点。因此,在一些此种实施例中,仅有在所述各自节点的起始甲基化位点及结束甲基化位点处开始及结束,及包含一特定片段甲基化模式的片段被填充至一节点中。
在一些实施例中,通过将一或多个片段进行分组,以构建一节点,其中所述一或多个片段在介于所述各自节点的相应起始甲基化位点及相应结束甲基化位点之间,及/或包括所述各自节点的相应起始甲基化位点及相应结束甲基化位点具有不同片段甲基化模式。在一些此种实施例中,通过将一或多个片段进行分组,以构建一节点,所述一或多个片段相差1个、2个、3个、4个、5个、6个、7个、8个、9个、10个,或多于10个CpG位点状态(例如,在一或多个CpG位点处具有不同甲基化状态)。在一些此种实施例中,通过对一或多个片段进行分组,以构建一节点,其中所述各自一或多个片段甲基化模式相差10%、20%、30%、40%、50%、60%、70%、80%、90%,或100%。
在一些实施例中,通过将在一或多个CpG位点处具有不同的CpG状态的一或多个片段进行分组,以构建一节点,其中所述各自一或多个CpG位点是位于不相应于所述各自一或多个片段的位置处。在一些替代实施例中,通过将一或多个片段进行分组,以构建一节点,其中所述一或多个片段的CpG状态在一或多个CpG位点处不同,其中所述各自一或多个CpG位点是位于跨越所述一或多个片段的相应位置处。例如,在一些此种实施例中,不管一或多个片段在例如所述第一CpG位点处的甲基化状态如何,一或多个片段可包含在一节点中,然而在所有其余的CpG位点处的甲基化状态必须相同。在一些此种实施例中,跨越所有片段中不同的CpG位点被允许在所述区间图中的一占位符或替代表示(例如,通配符或空字符)表示。
在一些实施例中,针对各自第一状态区间图,所述独立的多个节点亦相应于所述各自第一状态区间图的各自相应基因组区域。在一些此种实施例中,如由所述各自独立的多个节点的特征(例如,起始甲基化位点及结束甲基化位点及/或表示的片段甲基化模式)所测定,针对各自第一状态区间图,一各自独立的多个节点是独特于(例如,独立的)任何其他的第一状态区间图的任何其他独立的多个节点。
在一些实施例中,一节点表示包含一个多个CpG位点的相应基因组区域或亚区域。在一些实施例中,一节点表示一相应基因组区域或亚区域,所述相应基因组区域或亚区域包括3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或超过20个CpG位点。在一些实施例中,一节点表示一相应基因组区域或亚区域,所述相应基因组区域或亚区域包括3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或超过20个连续的CpG位点。在一些实施例中,一节点表示在一人类参考基因组中包括介于2个与100个之间的连续CpG位点的相应基因组区域或亚区域。
图12说明根据本公开的一些实施例的包括两个实例节点的相应区间图。在图12中,四个独立的片段被组织成两个节点。各个节点包括一起始甲基化位点及一结束甲基化位点(例如,节点1:位置0至4,节点2:位置0至5)以及在所述数据集中所观察到的各个甲基化模式在所述各自片段的起始位置与结束位置之间的表示(例如,节点1:UMMU、UMMU;节点2:UMMUM、UMUUU)。在此实例中,表示起始甲基化位点及结束甲基化位点的位置是表示为一区间[起始,结束),其中左括号表示包含性,及右括号表示排他性。因此,如图12所示,一节点跨越位置[0,4)包括位于位置0、1、2及3处的CpG位点,其中位置0、1、2及3中的各个具有一相应基因组位置。相似地,一节点跨越位置[0,5)包括位于位置0、1、2、3及4处的CpG位点,其中位置0、1、2、3及4中的各个具有一相应基因组位置。在一些实施例中,在一节点内的基因组位置相应于连续的CpG位点的位置。
在节点1中的各个片段包括相同的起始甲基化位点及结束甲基化位点(例如,位于位置0及位置3)。在节点2中的各个片段亦包括相同的起始甲基化位点及结束甲基化位点(例如,位于位置0及位置4)。虽然根据一些实施例,在节点1中的各个片段包括相同的片段甲基化模式(例如,UMMU),但根据本发明的一些替代实施例,在节点2中的各个片段包括不同的片段甲基化模式(例如,UMMUM及UMUUU)披露。
各个节点进一步包括多个片段的计数,此等片段包括在所述节点中所存在的各个不同的片段甲基化模式。例如,节点1包括2个片段,其中各个片段包括相同的片段甲基化模式(例如,状态:UMMU,计数:2),及节点2包括2个片段,其中各个片段包括一独特的片段甲基化模式(例如,状态:UMMUM,计数:1;状态:UMUUU,计数:1)。因此,在所述区间图中的各个节点以一简化且易于搜寻的格式,有效地呈现在所述数据集中的甲基化测序信息。
在一些实施例中,在所述第一数据集中的第一多个片段中的各个片段是在所述一或多个第一状态区间图中的节点中表示(例如,作为所述各自片段的片段甲基化模式的表示)。
在一些此种实施例中,因此,所述一或多个区间图提供一数据集(例如,一甲基化测序数据集)的简化表示,所述数据集关于在所述数据集中的多个片段中的所有片段的甲基化状态是无损失的。在一些优选的实施例中,所述一或多个区间图提供用于以计算上易于处理的方式(例如,文本匹配)查询大型数据集,以进行资源发现的简化表示。
用于产生区间图的方法:
虽然以上提供使用来自甲基化测序数据集的片段数据,为区间图构建节点的描述,但是用于产生区间图的多种实现方式是可能的。
例如,在一些实施例中,在所述一或多个第一状态区间图中的各自区间图的相应独立的多个节点被设置为代表所述一或多个相应基因组区域中的一相应区域的一相应树。在所述各自区间图的相应独立的多个节点中的各自节点代表所述相应基因组区域的一子区域。
在一些实施例中,各个相应树将所述相应独立的多个节点排列成相应多个树叶,其中在所述相应多个树叶中的各个树叶的父节点引用一或多个子节点。
在一些实施例中,使用包括一主节点及多个工作节点的客户端/服务器资源发现框架,及/或结构化或非结构化对等资源发现框架(Peer-to-Peer resource discoveryframework)(例如,MAAN、SWORD、Mercury、Brunet、Chord、CAN,及/或Pastry)来构建各自区间图的独立的多个节点,所述结构化或非结构化对等资源发现框架使用分布式哈希表(Distributed Hash Table,DHT),通过将属性值映射至DHT键来管理物件存储及查找。
在一些优选的实施例中,所述树是具有一随机表面积启发式的Kd树的一维版本。参见,例如,沃尔德,2007,“基于SAH的包围体层次结构的快速构建”,IEEE,doi:10.1109/RT.2007.4342588,其通过引用整体并入本文中。在一些实施例中,所述树是一自组织递归分区多播树(self-organizing recursive-partitioning multicast tree)。
在一些实施例中,所述树是使用匹配树(MatchTree)来创建的。匹配树是一非结构化、基于P2P的资源发现框架,其为分布式查询处理(例如,包含甲基化状态模式与基因组序列及/或测序数据集的区间的文本匹配)及结果的聚合(例如,识别包括经查询的甲基化状态模式的区间)创建一自组织树(self-organizing tree)。所述树结构最大限度地降低替代方法的失败,此等方法遭受高昂的管理成本、可扩展性限制,以及由于主节点故障而导致无法访问资源。匹配树通过支持复杂查询、部分字符串(例如,子字符串)匹配,及/或正则表达式匹配(例如,通配符),以及保证查询的完整性(例如,彻底搜索所有可用资源)来进一步提供优于结构化P2P框架的优势)。参见,例如,李等人,2013,“匹配树:灵活、可扩展及容错的广域资源发现与分布式匹配及聚合”,Fut Gen Comp Sys 29,1596-1610,其通过引用整体并入本文中。
在一些实施例中,区间图是使用本文中所述的任何方法及实施例,或者对本领域技术人员显而易见的任何修改、替换或其组合来产生的。值得注意的是,通过提高甲基化模式鉴定的灵敏度(例如,查询完整性)及准确性(例如,匹配),使用区间图来鉴定甲基化模式提供了优于习知方法的优势。此外,通过减少计算负担(例如,与替代框架相比,匹配树需要更少的内存),区间图可在搜索及鉴定甲基化模式期间提高效率及减少延迟,从而在处理大型数据集时提供关键性优势(例如,使用WGS及/或WGBS所产生的大型测序或甲基化测序数据集)。
使用区间图(例如,匹配树)传播查询及聚合结果在本公开的后面部分中详细讨论,以及例如李等人,2013,“匹配树:灵活、可扩展及容错的广域资源发现与分布式匹配及聚合”,Fut Gen Comp Sys 29,1596-1610,其通过引用整体并入本文中。
第一及第二状态区间图:
参见图2D的框242,在一些实施例中,使用所述第二数据集为一或多个相应基因组区域产生一或多个第二状态区间图。在所述一或多个第二状态区间图中的各个第二状态区间图包括一相应独立的多个节点。在所述一或多个第二状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第二数据集的第二多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第二数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式。
在一些实施例中,所述一或多个第二状态区间图是使用本文中所公开的任何方法产生的(例如,使用为所述一或多个第一状态区间图描述的任何方法及/或实施例)。
在一些实施例中,一或多个第一状态区间图及/或一或多个第二状态区间图表示来自一各自数据集的各自多个片段中的一或多个片段甲基化模式,其中所述各自数据集是获自一癌症样本(例如,使用一癌症数据集产生一或多个第一区间图及/或第二区间图)。在一些实施例中,所述一或多个第一状态区间图及/或所述一或多个第二状态区间图表示来自一各自数据集的各自多个片段中的一或多个片段甲基化模式,其中所述各自数据集是获自一非癌症样本(例如,使用一非癌症数据集产生一或多个第一区间图及/或第二区间图)。
在一些实施例中,使用一癌症数据集产生一或多个第一状态区间图,以及使用一非癌症数据集产生一或多个第二状态区间图。或者,在一些实施例中,使用一非癌症数据集产生一或多个第一状态区间图,以及使用一癌症数据集产生一或多个第二状态区间图。在一些实施例中,使用针对一第一癌症病状(例如,癌症/非癌症、癌症亚型、癌症阶段,及/或起源组织)的数据集产生一或多个第一状态区间图,以及使用与所述第一癌症病症不同的第二癌症病症的数据集产生一或多个第二状态区间图。
在一些实施例中,各自生物样本是由各自一或多个区间图表示。在一些实施例中,各自测试对象是由各自一或多个区间图表示。在一些替代实施例中,多个生物样本及/或一组测试对象是由各自一或多个区间图表示(例如,其中多个生物样本及/或在一个研究组中的一组测试对象被汇集)。
例如,参见框244,在一些实施例中,所述一或多个第一状态区间图是由单一第一状态区间图所组成,以及所述一或多个第二状态区间图是由单一第二状态区间图所组成。
参见框246,在一些优选的实施例中,所述一或多个第一状态区间图是多个第一状态区间图。进一步地,所述一或多个第二状态区间图是多个第二状态区间图。更进一步地,所述一或多个相应基因组区域是多个基因组区域。在所述多个基因组区域中的各自相应基因组区域是由在所述第一多个区间图中的第一状态区间图及在所述第二多个区间图中的第二状态区间图表示。
参见图2D的框248至252,在一些此种实施例中,所述多个基因组区域是介于10个与30个之间的基因组区域。在一些此种实施例中,所述多个基因组区域中的各个基因组区域是不同的人类染色体。在一些此种实施例中,所述多个基因组区域是由介于2个与1000个之间的基因组区域、介于500个与5,000个之间的基因组区域、介于1,000个与20,000个之间的基因组区域,或介于5,000个与50,000个之间的基因组区域所组成。
在一些实施例中,相应于所述多个第一状态区间图及/或第二状态区间图的多个基因组区域是使用本文中所公开的任何甲基化测序的方法而获得。例如,参见图2D的框254,在一些优选的实施例中,获得所述第一数据集及获得所述第二数据集的甲基化测序是使用多个探针的靶向测序,且所述多个基因组区域中的各个基因组区域与在所述多个探针中的一探针相关联。
鉴定限定甲基化模式:
参见框256,在一些实施例中,为多个限定甲基化模式扫描所述一或多个第一区间图及所述一或多个第二区间图。在所述多个限定甲基化模式中的各个此种限定甲基化模式:(i)具有一长度,所述长度是在所述一或多个第一区间图及所述一或多个第二区间图的片段甲基化模式内的一预定的CpG位点数量范围内,(ii)满足一或多个选择标准,以及(iii)在一相应初始CpG位点与一相应最终CpG位点之间跨越一相应CpG区间l。作为所述扫描的结果,可鉴别或指示一癌症病状的多个限定甲基化模式被鉴定。以下描述使用选择标准、查询甲基化模式及对经鉴定的甲基化模式的区间图来鉴定可鉴别或指示一癌症病状的甲基化模式的详细实施例。
针对限定甲基化模式的选择标准:
在一些实施例中,可鉴别或指示一癌症病状的多个限定甲基化模式(例如,鉴别一癌症病状的第一状态及一癌症病状的第二状态)的鉴定包括鉴定在第一癌症病状与第二癌症病状之间存在差异的一或多个甲基化模式。换言之,在一些实施例中,限定甲基化模式包括相应于特定基因组区域或亚区域的CpG位点序列,其中在所述CpG位点的序列中的一或多个CpG位点在第一癌症病状与第二癌症病状之间具有不同的甲基化状态。在一些此种实施例中,甲基化模式在第一癌症病状与第二癌症病状之间存在差异的程度(例如,所述选择标准)决定所述甲基化模式是否为一限定甲基化模式。
例如,参见图2E的框258,在一些实施例中,所述一或多个选择标准规定一甲基化模式(i)是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值,(ii)是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足一第一状态深度阈值,以及(iii)是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足一第二频率阈值。
具体地,参见框260,在一些此种实施例中,(i)当在所述一或多个第一区间图中的甲基化模式的频率超过所述第一频率阈值时,所述甲基化模式是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值。此外,(ii)当包含在所述一或多个第一区间图中的甲基化模式的序列读数的覆盖率超过所述第一状态深度时,所述甲基化模式是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足所述第一状态深度。最后,(iii)当在所述一或多个第二区间图中的甲基化模式的频率低于所述第二频率阈值时,所述甲基化模式是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足所述第二频率阈值。
例如,在一些此种实施例中,一甲基化模式必须以高于一给定的第一阈值的频率,存在于所述第一数据集的第一多个片段中(例如,如由所述一或多个第一区间图表示),其中所述第一数据集在相应于所述各自甲基化模式的基因组区域处(例如,跨越所述各自甲基化模式的各自一或多个CpG位点)的覆盖深度(例如,测序深度)是高于一给定的深度。相反地,相同的甲基化模式必须以低于一给定的第二阈值的频率,存在于所述第二数据集的第二多个片段中(例如,如由所述一或多个第二区间图表示)。在一些实施例中,满足此等约束的甲基化模式将被认为是一限定甲基化模式。
在一些实施例中,频率是在各自数据集中的多个片段中所观察到的甲基化模式的次数,通过在包括所述各自甲基化模式的多个片段中的片段的数量进行标准化(例如,在相应于所述各自甲基化模式的基因组区域处的覆盖深度)。在一些实施例中,在一各自数据集中观察到一甲基化模式的频率及/或一甲基化模式的次数,各个皆通过为在所述各自相应基因组区域中的各个CpG位点分配一个标识符来进行统计。
在某些示例性实施例中,上述计算是用于定义针对选择标准的约束。例如,参见框262,在一些实施例中,所述第一频率阈值是0.2,所述第一状态深度是10,以及所述第二频率阈值是0.001。
在一些实施例中,所述第一频率阈值是介于0.05与0.40之间的值(例如,0.05、0.06、0.07、0.08、0.09、0.10、0.11、0.12、0.13、0.14、0.15、0.16、0.17、0.18、0.19、0.20、0.21、0.22、0.23、0.24、0.25、0.26、0.27、0.28、0.29、0.30、0.31、0.32、0.33、0.34、0.35、0.36、0.37、0.39,或0.40),所述第一状态深度是介于2与100之间,及所述第二频率阈值是小于0.05(例如,小于0.05、0.04、0.03、0.02.、0.01、0.0.005、0.004、0.001、0.0001等)。
在一些实施例中,在各自第一数据集及/或第二数据集中的第一多个片段及/或第二多个片段的覆盖深度是已知的。在一些实施例中,在各自第一数据集及/或第二数据集中的第一多个片段及/或第二多个片段具有为正整数的覆盖深度。
在一些实施例中,参见框264,在一些实施例中,当表达时,一各自甲基化模式满足所述一选择标准:
Figure BDA0003903892590000661
针对甲基化模式超过3、4、5或6,其中第二计数是在所述一或多个第二状态区间图中的各自甲基化模式的一计数,以及第二状态深度是所述第二数据集在所述一或多个第二状态区间图中由所述各自甲基化模式所表示的基因组的区域或多个区域中的一覆盖率。
在存在一单一第二状态区间图的情况下,所述单一第二状态区间图代表由一相应初始CpG位点及一相应最终CpG位点所界定的基因组的单一区域,所述第二计数是在所述单一第二状态区间图中的各自甲基化模式的一计数,以及所述第二状态深度是在所述第二数据集中的片段的总数,其跨越所述单一第二状态区间图的相应初始CpG位点及相应最终CpG位点。
在存在多个第二状态区间图的情况下,各个第二状态区间图代表由一相应初始CpG位点及一相应最终CpG位点所界定的基因组的相应区域,所述第二计数是跨越所述多个单一第二状态区间图的各自甲基化模式的计数的总和。此外,所述第二状态深度是在所述第二数据集中的片段的总数,其跨越与在所述多个第二状态区间图中的任何第二状态区间图相关联的相应初始CpG位点及相应最终CpG位点的片段的总数。
在一些实施例中,存在单一状态区间图。在一些实施例中,存在2个至100个状态区间图。在一些实施例中,针对各个不同的染色体,存在不同的状态区间图。
在一些实施例中,例如,当第一数据集及/或第二数据集包括一或多个合并的甲基化测序数据集及/或具有一固定或非限制性覆盖深度的已建立对照数据集时,所述覆盖深度无需超过甲基化模式的深度阈值,以满足选择标准。
限定甲基化模式的其他特征:
在一些实施例中,一限定甲基化模式是相应于一特定基因组区域或亚区域(例如,在一参考基因组中)的非连续的CpG位点的差异甲基化序列。在一些实施例中,限定甲基化模式是相应于特定基因组区域或亚区域的连续CpG位点的差异甲基化序列。
在一些实施例中,一限定甲基化模式被认为等同于一变体等位基因。例如,在一些实施例中,相应于一特定基因组区域或亚区域的限定长度l的CpG位点的区间可在所述一或多个数据集中具有多个不同的甲基化模式。在一些此种实施例中,一变异等位基因是针对一pG区间l的第一甲基化模式,其不同于各自区间(例如,在一特定基因座处)的第二甲基化模式。在一些此种实施例中,针对CpG区间l的第一甲基化模式被定义为一参考等位基因,以及与第一甲基化模式不同的针对相同CpG区间l的第二甲基化模式被定义为一变异等位基因。
在一些实施例中,针对第一数据集及/或第二数据集的各自CpG区间l观察到3个或更多个不同的甲基化模式(例如,多个变体等位基因)。在一些此种实施例中,当针对各自CpG区间l观察到3个或更多个甲基化模式时,调整所述选择标准的严格性,以在所述各自CpG区间仅选择一个限定甲基化模式(例如,罕见的变种)。在一些实施例中,倘若在多个限定甲基化模式中的各个甲基化模式满足所述选择标准,则不调整所述选择标准的严格性,且在所述相应基因组区域处,针对各自CpG区间鉴定多个限定甲基化模式。
在一些替代实施例中,当一甲基化模式为以下情况时,所述多个甲基化模式满足所述选择标准:所述甲基化模式是(i)表示在具有满足一第一速率阈值的第一速率的一或多个第一区间图中,(ii)表示在具有满足一第一状态深度阈值的覆盖率的一或多个第一区间图中,以及(iii)表示在具有满足一第二速率阈值的第二速率的一或多个第二区间图中,其中所述速率是由覆盖率深度、下拉偏差、估计的肿瘤分数,以及在特定基因座处的CpG区间的位置(例如,泊松率(Poisson rate))进行标准化。
查询甲基化模式:
在一些实施例中,针对多个限定甲基化模式,扫描所述一或多个第一区间图及所述一或多个第二区间图包括步骤:扫描多个查询甲基化模式,各个查询甲基化模式具有一长度,所述长度是在一预定的CpG位点数量范围内,及测定一或多个查询甲基化模式是否满足所述一或多个选择标准。在一些实施例中,所述预定的CpG位点数量范围是介于5个CpG位点与20个CpG位点之间。在一些实施例中,所述预定的CpG位点数量范围是一单一CpG数量(例如,5个CpG位点)。在多个查询甲基化模式中的各个查询甲基化模式包括在所述预定的CpG位点数量范围内的甲基化状态的序列,以及针对多个查询甲基化模式,扫描所述一或多个第一区间图及所述一或多个第二区间图包括步骤:在一各自一或多个基因组区域或亚区域(例如,在一特定基因座或多个基因座处)鉴定与所述查询甲基化模式匹配的甲基化模式。
在一些实施例中,一查询甲基化模式包括一或多个甲基化状态的表示。例如,在一些实施例中,针对构成总长度为5个甲基化位点的5个甲基化位点(例如,5个CpG位点),在M及U甲基化状态的任何组合中,长度l=5的查询甲基化模式可为MMMMM、MMUMM或M/U。一般而言,针对长度为l的甲基化模式,其中l是一正整数,表示在甲基化模式中唯一甲基化位点(例如,CpG)的数量,以及当针对各个此种甲基化位点,仅考虑甲基化(M)与非甲基化(U)时,则有2l种可能的甲基化模式。因此,例如,针对8个甲基化位点(例如,CpG)甲基化模式,则有2×2×2×2×2×2×2×2种或256种不同的可能甲基化模式。
在一些优选的实施例中,扫描所述一或多个第一区间图及所述一或多个第二区间图包括步骤:扫描一或多个查询甲基化模式,所述一或多个查询甲基化模式完全包含在一相应多个节点中所表示的多个片段甲基化模式中。在一些实施例中,一各自查询甲基化模式包括在一各自节点中的各自片段甲基化模式的一部分。在一些实施例中,一各自查询甲基化模式是由在一相应的节点中的各自片段甲基化模式所组成。
在一些替代实施例中,在多个查询甲基化模式中的各个查询甲基化模式包括一组长度为l的甲基化状态,其中l是一正整数,其是指CpG位点的数量,以及针对多个查询甲基化模式,扫描所述一或多个第一状态区间图及所述一或多个第二状态区间图包括步骤:鉴定与甲基化状态查询集匹配的甲基化状态集。在一些此种实施例中,在各自一或多个基因组区域或亚区域处(例如,在一特定基因座或多个基因座处)的一组甲基化状态相对于在所述查询甲基化模式中的一组甲基化状态是连续的、不连续的、依序排列的或非依序排列的。
在一些实施例中,扫描所述一或多个第一状态区间图及所述一或多个第二状态区间图在一各自基因组区域或亚区域处,鉴定一限定甲基化模式,所述各自基因组区域或亚区域与一相应查询甲基化模式匹配,其中在所述限定甲基化模式中的一或多个甲基化状态不同于在所述查询甲基化模式中的各自一或多个甲基化状态。在一些此种实施例中,在所述限定甲基化模式中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个,或多于10个甲基化状态不同于所述查询甲基化模式。
在一些实施例中,在与所述查询甲基化模式不同的所述限定甲基化模式中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个,或多于10个甲基化状态是位于所述查询甲基化模式的起始位置或结束位置处(例如,摆动)。在一些实施例中,在与所述查询甲基化模式不同的所述限定甲基化模式中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个,或多于10个甲基化状态是位于在所述查询序列中的特定位置处(例如,通配符)。例如,可使用一符号(例如,“*”、“/”)在所述查询甲基化模式中预先确定所述特定位置。在一些实施例中,从一查询甲基化模式中的CpG位点的序列中去除一或多个特定的CpG位点(例如,一或多个不可靠的CpG位点)。在一些实施例中,通过在所述各自查询甲基化模式中的甲基化状态的序列中插入一占位符或替代表示(例如,“*”、“/”),来绕过在一查询甲基化模式中的CpG位点的序列中的一或多个特定的CpG位点。
在一些实施例中,所述多个查询甲基化模式包括介于一或多个查询甲基化模式之间的一或多种组合、串接、空间及/或结构关系。例如,在一些此种实施例中,扫描所述一或多个第一状态区间图及所述一或多个第二状态区间图,以搜寻一或多个查询甲基化模式及/或其任何组合(例如,使用布林(Boolean)搜寻)。在一些实施例中,一查询甲基化模式包括查询甲基化模式的正则表达式。
在一些实施例中,针对多个限定甲基化模式,扫描所述一或多个第一状态区间图及所述一或多个第二状态区间图,以搜寻多个查询甲基化状态,所述多个查询甲基化状态包括一预定数量的CpG位点(或预定的CpG位点数量范围)的所有可能的甲基化状态的组合。例如,在一些实施例中,所述预定的CpG位点数量范围是单一数字-CpG长度l,并且长度l=3的多个所有可能的查询甲基化模式包括MMM、MMU、MUM、MUU、UMM、UMU、UMM,及UUU。在一些实施例中,多个可能的查询甲基化模式进一步包括甲基化状态的组合,所述甲基化状态包括甲基化、未甲基化、模糊、变异,及/或冲突的表示。在一些实施例中,模糊、变异,及/或冲突的甲基化位点被视为通配符位点。也就是说,倘若一候选模式符合条件,但针对模糊、变异及/或冲突的甲基化位点,则所述候选模式被认为符合条件。
在一些实施例中,所述多个查询甲基化模式包括一组预定的查询甲基化模式。在一些此种实施例中,所述多个查询甲基化模式包括与所述第一状态及/或所述第二状态相关的甲基化模式(例如,一或多个癌症病状的生物标志物)。在一些实施例中,所述预定的一组查询甲基化模式包括从一甲基化数据库(例如,MethHC、MethHC 2.0、MethDB、PubMeth、IMETHYL等)、实验结果,及/或出版物所获得的已知甲基化模式。例如,参见黄等人,2021,“MethHC 2.0:在人类癌症中的DNA甲基化及基因表达的信息库”,Nucleic Acids Research49(D1),D1268-D1275;格鲁瑙等人,2001,“MethDB-DNA甲基化数据的公共数据库”,NucleicAcids Research 29(1),270-274;翁格纳尔特等人,“PubMeth:结合文本挖掘及专业注释的癌症甲基化数据库”,Nucleic Acids Research:doi:10.1093/nar/gkm788;及哈奇雅等人,2017年,“个体间可变DNA甲基化位点的全基因组鉴定提高表观遗传关联研究的功效,”NPJGenom Med.2017.2:11,各个皆通过引用并入本文中。在一些实施例中,扫描多个甲基化模式,以在一特定预定的基因座(例如,被索引至在一参考基因组中的特定位置的特定一或多个CpG位点)处搜寻一组预定的甲基化状态。在一些实施例中,为各自测试对象及/或各自生物样本产生各自一或多个区间图的各自测试对象及/或各自生物样本,获得一组预定的查询甲基化模式及/或一预定的一或多个基因座。在一些实施例中,使用单一预定的一组查询甲基化模式及/或一预定的一或多个基因座来扫描跨多个测试对象及/或生物样本的多个区间图。
在一些实施例中,过滤多个查询甲基化模式,以去除一或多个查询甲基化模式,所述一或多个查询甲基化模式满足与第二个一或多个查询甲基化模式的相似性阈值。此种过滤可确保各个模式皆具有某种程度的独特性。例如,在一些实施例中,此种过滤去除一甲基化模式,所述甲基化模式与在多个甲基化模式中的第二个一或多个查询甲基化模式具有50%、60%、70%、80%、90%,或超过95%的相似度。例如,考虑实例甲基化模式MMMMM及MMUMM,其中相似度阈值为70%,其意味着当在两个模式中的至少70%的甲基化位点相同时,认为满足所述相似度阈值。在此实例中,两种甲基化模式在其6个甲基化位点中的5个具有相同的甲基化数值,因此具有5/6或83%的相似度。因此,在此实例中,从所述查询甲基化模式中去除两个甲基化模式中的一者。
参见框266至270,在一些实施例中,长度为l个甲基化位点的各个可能的甲基化模式是由多个查询进行采样。在一些实施例中,l是3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个,或20个CpG位点。在一些实施例中,所述CpG位点数量范围是l个连续的CpG位点。在一些实施例中,l是3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个,或20个连续的CpG位点。在一些实施例中,在一人类参考基因组中,所述预定的CpG数量范围是介于2个与100个连续的CpG位点之间。
在一些实施例中,所述预定数量的CpG位点是可调性。在一些实施例中,CpG位点的预定数目是从一界定的CpG位点数量+/-A的范围,其中整数(例如,1、2、3、4、5等)。
扫描区间图:
在一些实施例中,在扫描之前,过滤所述一或多个第一区间图及/或所述一或多个第二区间图,以去除相应的基因组区域及/或子区域,从而减少扫描及鉴定的计算负担。在一些实施例中,所述过滤去除被排除的基因组区域(例如,列入黑名单的区域及/或差的区分的区域)。在一些实施例中,所述过滤去除具有高噪声水平的基因组区域。例如,在一些实施例中,具有高噪声的区域可通过人为地对肿瘤分数估计值施加一下限,来歪曲结果(参见,例如以下的实例4,以进一步讨论甲基化状态区间中的噪声的计算及分析)。
参见框272,在一些实施例中,在所述一或多个第一区间图中的各自区间图的相应独立的多个节点被设置为一相应树(例如,在沃尔德,2007,“基于SAH的包围体层次结构的快速构建”IEEE,doi:10.1109/RT.2007.4342588中所描述的具有一随机表面积启发式的Kd树的一维版本、利用在李等人,2013,“匹配树:灵活、可扩展及容错的广域资源发现与分布式匹配及聚合”,Fut Gen Comp Sys 29,1596-1610/j.future.2012.08.009等所创建的树),其表示在一或多个相应基因组区域中的相应区域。针对各自区间图的相应独立的多个节点中的各自节点代表所述相应基因组区域的子区域。
参见图2F的框274,在一些此种实施例中,各个相应树将所述对应独立的多个节点设置成一相应的多个树叶,其中在相应多个树叶中的各个树叶的父节点引用一或多个子节点。扫描所述一或多个第一区间图及所述一或多个第二区间图产生多个查询,其中在所述多个查询中的各自查询是针对长度为l的不同的候选甲基化模式。此外,在所述多个查询中的各自查询是用于(i)在一相应树的相应独立的多个节点中的各自节点处与所述各自查询执行一自动匹配,(ii)进一步将所述查询传播至所述各自节点的子节点,以进一步将所述各自查询与所述各自节点的子节点进行自动匹配,以及(iii)将各个自动匹配的结果传送至所述各自节点的父节点。
例如,参见图12,为包含在CpG位点位置0、1、2(例如,[0,3))处的甲基化状态的序列“UMM”的查询甲基化模式扫描所述区间图,会返回所有节点,所述节点包括一或多个包含所述查询甲基化模式的一或多个片段。因此,所述查询在各个节点执行一自动匹配,并传播结果(例如,返回节点1及2)。使用在各自节点中的片段的计数,从传播的结果计算查询甲基化模式的频率,其中所述各自节点的片段甲基化模式包括所述查询甲基化模式。例如,在节点1及2中的CpG位点位置0、1、2处的甲基化模式UMM的频率被计算为75%(如图12所示,针对位置0、1,及2,在节点1处的2个UMM计数、在节点2处的1个UMM计数,以及在节点2处的1个UMU计数,在跨越节点1及2的位置0、1,及2处所计数的4个模式中,总共有3个UMM计数)。
在一些实施例中,为一查询甲基化模式扫描所述区间图,会在所述节点内的任何可能的起始甲基化位置扫描各自节点。例如,在一些此种实施例中,即使当一查询甲基化模式并非从所述节点的第一甲基化位点开始时,则所述查询会返回一节点。例如,参见图12,在节点1中,在一些实施例中,当搜寻查询是MMU时,节点1及2皆将被鉴定,即使模式不在各自节点1及2的第一甲基化位点开始。类似地在一些实施例中,为一查询甲基化模式扫描所述区间图,会扫描一节点的起始、中间及/或结束。在一些实施例中,为一查询甲基化模式扫描所述区间图,会针对查询甲基化模式扫描各自节点,所述查询甲基化模式包括甲基化、未甲基化、模糊、变异及/或冲突状态。
参见框276,在一些实施例中,在一节点内的长度为l的各个可能的甲基化模式是由多个查询进行采样。因此,例如,考虑图12的节点1的片段UMMU的情况及UM的搜寻查询(以及搜寻无需所述模式从节点的第一甲基化位点开始)。在此实例中,搜寻查询将检查UMMU的位置1及2是否与搜寻查询UM匹配,检查UMMU的位置2及3是否与搜寻查询UM匹配,以及检查UMMU的位置3及4是否与所述搜寻查询匹配。
参见框278,在一些优选的实施例中,所述树是具有一随机表面积启发式的K维树的一维版本。参见,例如,沃尔德,2007,“基于SAH的包围体层次结构的快速构建”,IEEE,doi:10.1109/RT.2007.4342588,其通过引用整体并入本文中。在一些替代实施例中,所述树是自组织递归分区多播树。在一些此种实施例中,使用匹配树来执行扫描区间图。
在一些此种实施例中,将匹配的结果传递至相应树中的父节点以递归方式发生,从而将来自所有子节点的结果聚合至父节点。在一些此种实施例中,待匹配的查询是通过匹配树演算法作为资源要求而获得的。在一些实施方式中,获得返回结果所需的附加参数(例如,最佳拟合、精确匹配、覆盖深度、最小或最大VAF、起始位置、结束位置及/或确定排序或过滤的其他数值)作为排名标准。满足资源要求的节点依照排名标准进行排名,以及给定一指定的所需k个数量的结果(例如,节点),匹配树返回依照排名标准所排名的前k个节点。
在一些实施例中,使用启发法来修改查询,以定义查询响应时间及/或通过估计在所述树中所包括的响应节点的数量,来设置对产生响应的数量的限制,以便减少计算负担。例如,在一些此种实施例中,来自扫描的先前实现的缓存结果分布是用于预测包括所需资源(例如,甲基化模式)的可能结果(例如,节点)。
在一些实施例中,查询包括使用超时值(例如,具有聚合进度的动态超时、自主超时,及/或具有输入的静态超时)及/或冗余拓扑,以避免网络故障,并提供一致的性能。例如,在一些此种实施例中,首先适合的资源发现通过在满足阈值期望数量k的结果时,而非在聚合所有可能的结果之后,将聚合的结果从子节点返回至父节点,来改善延迟。此外,在一些实施例中,冗余拓扑是用于在正向和反向两个方向传播查询及聚合结果,以确保在节点故障的情况下查询的完整性。
参见,例如,李等人,2013,“匹配树:灵活、可扩展及容错的广域资源发现与分布式匹配及聚合”,Fut Gen Comp Sys 29,1596-1610;doi:10.1016/j.future.2012.08.009,以及王等人,2015,“基于句法的短文本的深度匹配”,arXiv:1503.02427v6[cs.CL],各篇皆通过引用全部并入本文中。
在一些替代实施例中,使用不同于区间图的方法来鉴定可鉴别或指示一癌症病状的多个限定甲基化模式。在一些实施例中,使用本文中所述的任何方法及实施例(例如,扫描区间图)或其任何修改、替换、替代或组合来进行鉴定多个限定甲基化模式,其对于本领域技术人员来说是显而易见的。
鉴别癌症病状:
在一些实施例中,扫描鉴定了多个限定甲基化模式,其将第一癌症病状(例如,癌症/非癌症、癌症亚型、癌症的阶段及/或起源组织)与第二癌症病状区分开来,第二癌症病状不同于第一种癌症病状。例如,在一些实施例中,多个限定甲基化模式包括甲基化模式库,所述甲基化模式库鉴别癌症与非癌症(例如,健康对照)、癌症亚型及/或起源组织(例如,肺癌特异性生物标志物),及/或癌症的阶段。在一些实施例中,多个限定甲基化模式是用于对特定癌症病状(例如癌症/非癌症、癌症亚型、癌症的阶段,及/或起源组织)的存在/不存在进行阳性验证。
在一些实施例中,使用组织样本及/或血液样本(例如,cfDNA)鉴定多个限定甲基化模式。在一些实施例中,对于各自一或多个测试对象,使用组织样本所鉴定的多个限定甲基化模式及使用血液样本所鉴定的多个限定甲基化模式是相同的。在一些实施例中,使用血液样本鉴定多个限定甲基化模式,以及基于介于肿瘤频率与肿瘤衍生的cfDNA之间的正相关,计算肿瘤分数估计值。例如,参见以下的实例4,以进一步讨论使用cfDNA及组织样本所执行的肿瘤分数估计值之间的一致性。
在一些实施例中,使用从来自单一各自测试对象的一或多个生物样本所获得的第一数据集及第二数据集,来鉴定多个限定甲基化模式。例如,在一些此种实施例中,第一多个限定甲基化模式为第一测试对象鉴别肿瘤与健康组织,第二多个限定甲基化模式为第二测试对象鉴别肿瘤与健康组织,其中第一多个限定甲基化模式及第二多个限定甲基化模式是不同的。在一些此种实施例中,各自多个限定甲基化模式是用于在特定时间段内,为各自测试对象监控在癌症治疗之前及之后的肿瘤分数(例如,对于最小残留疾病及/或复发监控)。
在一些实施例中,使用从单一各自测试对象的一或多个生物样本所获得的第一数据集,及从一或多个对照测试对象(例如,对照健康群组)的一或多个生物样本所获得的第二数据集,来鉴定多个限定甲基化模式。
在一些实施例中,使用从一或多个测试对象(例如,测试群组)的一或多个生物样本所获得的第一数据集,及从一或多个对照测试对象(例如,对照健康群组)的一或多个生物样本所获得的第二数据集,来鉴定多个限定甲基化模式。
在一些实施例中,使用从第一个一或多个测试对象(例如,第一测试群组)的一或多个生物样本所获得的第一数据集,及从第二个一或多个测试对象(例如,第二测试群组)的一或多个生物样本,来鉴定多个限定甲基化模式。在一些此种实施例中,使用第一测试群组及第二测试群组所鉴定的限定甲基化模式是用于提供关于在患者之间或大型研究组内的共性的信息,或可用于鉴定可鉴别两种或更多种癌症的限定甲基化模式的分层特征条件。
在一些实施例中,使用第一区间图来鉴定多个限定甲基化模式,所述第一区间图从第一数据集构建,所述第一数据集从第一个一或多个测试对象(例如,测试群组)的一或多个生物样本所获得,以及第二区间图的表示,其表示满足选择标准的第二区间图的区域。在一些此种实施例中,在不使用从来自第一组受试者中的各自受试者的各自生物样本所获得的第二数据集的情况下,鉴定多个甲基化模式。相反,在一些此种实施例中,可通过使用已知或估计满足选择标准的多个查询甲基化模式,仅扫描第一区间图来满足选择标准。例如,已知或估计在第二癌症病状中表现不佳(例如,通过实验或先前知识)的一组甲基化状态区间,可用于扫描包括片段甲基化模式、计数(例如,频率)及第一数据集的覆盖深度的第一区间图,而无须扫描第二个区间图。或者,在一些实施例中,定义选择标准,其假定与第二癌症病状相比,在第一癌症病状中存在异常值片段甲基化模式(例如,假设变异等位基因在肿瘤样本中比在非癌症样本中富集)。例如,在一些此种实施例中,选择标准可定义为在第一(例如,肿瘤)癌症病状中高于预定阈值(例如,大于0.5)的甲基化模式频率(例如,有时亦称为变异等位基因频率)。在一些实施例中,预定阈值是由实验发现或先前知识所确定。在一些实施例中,预定阈值是由使用者或从业者设置。
在一些实施例中,多个限定甲基化模式是在基因组的2个或更多个不同区域处的2个或更多个甲基化模式。在一些实施例中,多个限定甲基化模式是3个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或超过20个甲基化模式,其中各个此种甲基化模式映射到参考基因组的独特部分,因此代表一组独特的甲基化位点。在一些实施例中,多个限定甲基化模式超过30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200个,或更多个甲基化模式,其中各个此种甲基化模式映射到参考基因组的独特部分,因此代表一组独特的甲基化位点。在一些实施例中,各个甲基化模式映射到标题为“检测癌症、癌症组织或起源或癌症类型”的国际专利公开案第WO2020154682A3号中所描述的基因组区域,其通过引用的方式并入本文中,包括其中引用的序列表。在一些实施例中,一些或所有的甲基化模式独特地映射到标题为“甲基化标记及靶向甲基化探针组”的国际专利公开案第WO2020/069350A1号中所描述的基因组区域,其通过引用并入本文中,包括其中引用的序列表。在一些实施例中,一些或所有的甲基化模式独特地映射到标题为“甲基化标记及靶向甲基化探针组”的国际专利公开案第WO2019/195268A2号中所描述的基因组区域,标题为“Methylated Markers and TargetedMethylation Probe Panels”,其通过引用并入本文中,包括其中引用的序列表。
在一些实施例中,过滤多个限定甲基化模式,以去除由变体调用演算法所鉴定的甲基化模式,所述变体调用演算法例如FreeBayes、VarDict、MuTect、MuTect2、MuSE、FreeBayes、VarDict,及/或MuTect(参见拜恩,2018,“使用合成数据及基因组分割比较选定变体调用者的性能”,BMC Bioinformatics 19:429,在此通过引用并入本文中),将甲基化模式识别为种系变体。
在一些实施例中,过滤多个限定甲基化模式,以去除在从受试者群组(例如,健康受试者群组)所获得的生物样品的甲基化测序中的参考中出现至少两次(例如,在两个不同片段中)的甲基化模式。在一些实施例中,受试者群组中的各个受试者是由第一数据集表示。在一些实施例中,在受试者群组中的各个受试者是由第二数据集表示。在一些实施例中,在受试者群组中的各个受试者并非由第一数据集或第二数据集表示。
在一些实施例中,过滤多个限定甲基化模式,以去除在跨越受试者参考群组(例如,健康受试者群组)的独特测试片段中,以大于最小频率出现的甲基化模式。例如,在一些实施例中,在映射到与来自受试者群组(例如,健康受试者群组)的各自限定甲基化模式相关的基因组区域的核酸片段的至少20%中出现的各自限定甲基化模式,用作用于从多个限定甲基化模式中去除各自限定甲基化模式的基础。在一些实施例中,不是强加20%的阈值,而是至少3%、至少5%、至少10%、至少15%、至少25%、至少30%、至少35%、至少40%、至少45%,或至少50%的来自群组的核酸片段具有各自限定甲基化模式(在限定甲基化模式的基因组区域)的一病状(阈值),作为从多个限定甲基化模式中去除各自限定甲基化模式的基础。在一些实施例中,在受试者群组中的各个受试者是由第一数据集表示。在一些实施例中,在受试者群组中的各个受试者是由第二数据集表示。在一些实施例中,在受试者群组中的各个受试者不是由第一数据集或第二数据集表示。
在一些实施例中,过滤多个限定甲基化模式,以去除在跨越参考受试者群组(例如,具有特定癌症病状的受试者群组)的独特测试片段中,以小于最小频率出现的甲基化模式。例如,在一些实施例中,从具有特定癌症病状的受试者群组中去除映射到与各自限定甲基化模式相关的基因组区域的少于20%的核酸片段中出现的各自甲基化模式。在一些实施例中,不是强加20%的阈值,而是小于8%、小于15%、小于20%、小于30%、小于40%、小于50%、小于60%、小于70%,或小于80%的来自群组的核酸片段具有各自限定甲基化模式(在限定甲基化模式的基因组区域处)的一病状(阈值),作为从多个限定甲基化模式中去除相应的限定甲基化模式的基础。在一些实施例中,在受试者群组中的各个受试者是由第一数据集表示。在一些实施例中,在受试者群组中的各个受试者是由第二数据集表示。在一些实施例中,在受试者群组中的各个受试者不是由第一数据集或第二数据集表示。
在一些实施例中,过滤多个限定甲基化模式,以去除在诸如gnomAD及dbDNP数据集的公共数据库中所发现的等位基因(甲基化模式)。有关此种数据集的信息,参见卡尔切夫斯基等人,2019,“141,456个人类外显子组及基因组的变异揭示跨越人类蛋白质编码基因的功能丧失不耐受的谱”,bioRxiv doi.org/10.1101/531210及雪莉等人,2011,“dbSNP:遗传变异的NCBI数据库”Nuc.Acids.Res.29,308-311。
使用方法:
在一些实施例中,本公开中提供的方法是用于鉴定可鉴别或指示一癌症病状的限定甲基化模式,以供输入下游应用。用于限定甲基化模式的用途包括,但不限于,估计肿瘤分数、探测分类器行为、研究替代特征、分类疾病(例如,癌症病状),及/或确定最小残留疾病。
分类器:
在一些实施例中,所述方法进一步包括步骤:训练一分类器,以至少使用甲基化模式信息来鉴别或指示所述癌症病状的一状态,所述甲基化模式信息与使用第一数据集及第二数据集所识别的多个限定甲基化模式相关联。
例如,在一些实施例中,未经训练的分类器是在训练集上进行训练,所述训练集包括一或多个限定甲基化模式,使用除了区间图之外的任何替代方法,所述一或多个限定甲基化模式鉴定可鉴别或指示一癌症病状。在一些实施例中,未经训练的分类器是在训练集上进行训练,所述训练集包括一或多个限定甲基化模式,使用本文中所公开的产生及扫描区间图的方法,所述一或多个限定甲基化模式鉴定可鉴别或指示一癌症病状。
在一些实施例中,所述分类器是逻辑回归。在一些实施例中,所述分类器是一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一决策树算法、一多项逻辑回归算法、一线性模型,或一线性回归算法。
分类器在以下的资料中有更详细的描述,例如,于2020年12月11日所提交的标题为“使用补丁卷积神经网络的癌症分类”的美国专利申请案第17/119,606号,以及于2019年12月18日所提交的标题为“使用甲基化信息估计细胞源级分的系统及方法”的美国专利公开案第2020-0385813 A1号,其各篇皆通过引用整体并入本文中。
在一些实施例中,在一或多个限定甲基化模式上进行训练的训练分类器是用于通过对第一数据集及/或第二数据集的癌症病状的状态进行分类,来验证训练,所述一或多个限定甲基化模式可鉴别或指示癌症病状。在一些替代实施例中,在一或多个限定甲基化模式上进行训练的训练分类器进一步用于通过以下方法对第三数据集(例如,未知样本或测试对象)的癌症病状的状态进行分类,所述一或多个限定甲基化模式可鉴别或指示癌症病状,所述方法评估在鉴定甲基化模式处的各自基因组区域或亚区域中第三数据集的甲基化状态。
因此,在一些实施例中,获得电子形式的第三数据集,其中第三数据集包括在一第三多个片段中的各自片段的相应片段甲基化模式。所述各自片段的相应片段甲基化模式(i)是通过从一测试对象中所获得的一生物样本的核酸的甲基化测序而测定,以及(ii)包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。所述方法进一步包括不皱:将在第三数据集中的第三多个片段中的各自片段的片段甲基化模式应用于所述分类器,从而确定在所述测试对象中的癌症病状的状态,所述片段甲基化模式包含或相应于在所述多个限定甲基化模式中的一限定甲基化模式。因此,例如,考量多个限定甲基化模式是映射到20个不同的基因组区域的一组20个特定甲基化模式的情况。在此种情况下,将来自一生物样本的核酸的甲基化测序的测试对象在此等20个不同的基因组区域展现的甲基化模式输入到此种实施例中的分类器中,以确定测试对象的癌症病状的状态。可以理解,在此等20个不同的基因组区域的甲基化模式可能不是同源模式。事实上,测试对象的测序数据可表明在与20个限定甲基化模式相关联的20个不同的基因组区域处存在数种不同的甲基化模式。在一些此种实施例中,将在20个不同的基因组区域处为测试对象所观察到的甲基化模式输入到分类器中。例如,考量一非限制性实例,其中针对与多个限定甲基化模式中的与第一限定甲基化模式相关联的基因组区域,测试对象的甲基化测序产生35个片段映射到具有甲基化模式A的基因组区域,以及70个片段映射到具有甲基化模式B的基因组区域。在此实例中,将甲基化模式A及B二者的指示与一指示一起输入分类器,所述指示为在映射到第一基因组位置的35/105的片段中观察到甲基化模式A,在映射到第一基因组位置的70/105的片段中观察到甲基化模式B。在其他的实施例中,分类器不考虑多个限定甲基化模式映射到的基因组区域的模式的比例,而是仅考虑关于是否已在所述基因组位置处(例如,至少两个片段等)发现具有甲基化模式的片段的阈值数量的二元指示。在其他的实施例中,分类器不考虑多个限定甲基化模式映射到的基因组区域的模式的比例,而是仅考虑关于各个以阈值覆盖率进行测序的片段的阈值数量是否具有已在基因组位置处(例如,至少两个片段,各个片段的阈值覆盖率为至少20等)发现甲基化模式的阈值数量的二元指示。
在一些实施例中,使用本文公开的任何方法(例如,使用针对第一数据集及第二数据集描述的任何方法及/或实施例)获得第三数据集。
在一些实施例中,使用本文公开的任何方法(例如,使用针对第一数据集及第二数据集描述的任何方法及/或实施方案)获得生物样本及/或测试对象。
在一些实施例中,从测试对象所获得的生物样本是液体生物样本(例如,血液及/或cfDNA)。在一些实施例中,生物样本是组织生物样本(例如,肿瘤样本)。
在一些实施例中,第三多个片段是细胞游离核酸。例如,在一些优选的实施例中,获得第三数据集以确定测试对象的癌症病状的状态无需获得组织样本(例如,活检样本)。在一些实施例中,来自测试对象的第三多个片段包括100个或更多个细胞游离核酸片段、1000个或更多个细胞游离核酸片段、10,000个或更多个细胞游离核酸片段、100,000个或更多个细胞游离核酸片段核酸片段、1,000,000个或更多个细胞游离核酸片段,或10,000,000个或更多个核酸片段。
在一些此种实施例中,所述方法进一步包括步骤:获得除了第一数据集及第二数据集之外的多个数据集,其中多个数据集中的各自数据集包括在各自多个片段中的各自片段的相应片段甲基化模式。各自片段的相应片段甲基化模式(i)是通过对来自测试对象的生物样本的核酸进行甲基化测序而确定的,以及(ii)包括在各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态。所述方法进一步包括步骤:将在各自数据集中的各自多个片段中的各自片段的片段甲基化模式应用于所述分类器,从而确定在所述测试对象中的癌症病状的状态,所述片段甲基化模式包含或相应于在所述多个限定甲基化模式中的一限定甲基化模式。
在一些此种实施例中,多个数据集中的各自数据集在一段时间内,从单一测试对象依序获得。在一些实施例中,各自多个片段是细胞游离核酸。例如,在一些优选的实施例中,获得在多个数据集中的各自数据集,以确定在测试对象的癌症病状的状态不需要获得组织样本(例如,活检样本)。
在一些实施例中,癌症病状的状态是不存在或存在癌症。在一些实施例中,癌症病状的状态是癌症的阶段。在一些实施例中,癌症病状的状态是癌症亚型或癌症的起源组织。例如,在一些实施例中,所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病,或其组合。
肿瘤分数估计:
在一些实施例中,癌症病状的状态是肿瘤分数。例如,在一些实施例中,基于在血液(例如,cfDNA及/或血浆)中的一或多个甲基化状态模式是肿瘤衍生的,以及此种肿瘤衍生的变异等位基因的频率是与癌细胞与正常细胞的比例(例如,肿瘤分数)成正比。在一些实施例中,使用来自WGBS的测序数据、靶向甲基化测序(targeted methylationsequencing,TM测序)、WGS,及/或靶向测序(例如,使用小变体)进行肿瘤分数估计的方法。图13A及图13B说明一些基于小变体的方法。图14及图15说明2个实例,显示此等基于小变体的方法的替代方法。在此等实施例中,取代小变体,经选择的甲基化模式(例如,限定甲基化模式或QMPs)是用作基于甲基化测序数据来估计肿瘤分数的基础,尤其是当小变体鉴定受到诸如亚硫酸氢盐转化等因素的影响时。基于QMP的方法可应用于WGBS(例如,图14A及图14B)及TM测序数据(例如,图15A及图15B)二者。
在一些实施例中,所述癌症病状的状态是肿瘤分数,所述癌症病状的第一状态是一第一范围的肿瘤分数,以及所述癌症病状的第二状态是一第二范围的肿瘤分数。
例如,在一些实施例中,所述第一范围是大于0.001,及所述第二范围是小于0.001。
在一些实施例中,肿瘤分数估计是用于绘制癌症的概率(例如,使用分类器)。
在一些实施例中,癌症的概率是用于确定检测限。在一些此种实施例中,检测限为0.1%。
在一些实施例中,肿瘤分数是从多个限定甲基化模式(QMP;参见,例如图14及图15的公开内容)来计算。在一示例性实施例中,使用包含限定甲基化模式的片段的计数及不包含限定甲基化模式的片段的计数来产生后验肿瘤分数估计,所述限定甲基化模式是在相应于各自限定甲基化模式的各自基因组区域处(例如,覆盖各个变异位点的变体-匹配及非匹配的片段)。
在一些此种实施例中,在已经使用靶向甲基化测序的情况下,使用各个位点(例如,各个基因组位点相应于各自限定甲基化模式“QMP基因组位点”)的泊松似然模型(Poisson likelihood model)。在一些实施例中,所述泊松似然模型计算一速率常数,以作为肿瘤分数的函数,下拉偏差(在QMP基因组位点处,以校正通过使用具有特定等位基因模式的探针所引入的下拉偏差,以排除替代等位基因模式)、估计的总测序深度,以及背景噪声率。
例如,在一些实施例中,从后验似然计算来计算肿瘤分数估计值:
Figure BDA0003903892590000851
xi=在cfDNA中的QMP基因组位点i处的异常计数,
tf=肿瘤分数,
Figure BDA0003903892590000861
Qfi=在活检样本中,针对QMP基因组位点i的QMP分数,
Figure BDA0003903892590000862
以及
其中深度是根据深度函数调整的:
Figure BDA0003903892590000863
在一些实施例中,根据QMP基因组位点i估计下拉偏差(biasi),其中(biasi)是在QMP基因组位点i处的下拉偏差,如下所示:
pc1=对平滑下拉偏差估计的伪计数,
Figure BDA0003903892590000864
biasi=在QMP基因组位点i处的下拉偏差,以及
biasi=α*(xi,TMct+pc1)/(xi,WGBSct+pc1)。
上述的下拉偏差使用WGBS对照数据及TM对照数据,在QMP基因组位点i处校正靶向在甲基化测序中的下拉偏差。特别是,此种控制数据是用于计算α。即,为了计算α,获得来自WGBS对照的多个QMP基因组位点(研究中)中的各个位点的异常计数(“对照(WGBS计数)异常计数”)。因此,存在多个WGBS异常计数,各个计数用于使用WGBS对照所获得的不同的QMP基因组位点。对此WGBS对照的癌症状态并无特别的要求。换言之,WGBS对照可具有特定的癌症状态或不具有特定的癌症状态。在一些实施例中,WGBS对照是工程化细胞系,其具有使用WGBS所测序的预定已知百分比的甲基化基因组DNA。在一些实施例中,在预定组成,WGBS对照是0%甲基化及100%甲基化基因组DNA(例如,0%及100%甲基化基因组DNA的50/50或40/60或30/70混合物)。此外,获得来自目标甲基化测序的多个QMP基因组位点中的各个位点的异常计数(“TM对照(TM计数)异常计数”)。在典型的实施例中,针对TM对照的DNA来源与针对WGBS对照的DNA来源相同,唯一的区别是,针对TM对照,对照DNA是使用靶向测序及在TM中所使用的下拉探针进行测序,而非通过WGBS。在此种实施例中,量α是表示拟合到对照(WGBS计数)异常计数/TM对照(TM计数)异常计数的散点图的线的斜率。在散点图中的各自点是针对所研究的多个QMP基因组位点中的不同的QMP基因组位点j,其中各自点的x坐标是(WGBs计数)在基因组位点j处的异常计数,以及各自点的y坐标是(TM计数)在基因组位点j处的异常计数。此外,如在α的等式中所示,在典型实施例中,在散点图中仅使用来自WGBS对照(WGBS计数)异常计数的第75个分位数的数据及来自TM对照(TM计数)的第75个分位数的数据,从中计算α。量α是拟合散点图数据的直线的斜率。应当理解,第75个分位数的使用是示例性的,以及在与应用有关的事项中可向上(例如,第85个分位数)或向下(例如,第65个分位数)进行调整。例如,其可被视为一超参数,所述超参数作为下游分类器的优化的一部分进行优化。此外,在使用散点图计算α之前,可使用其他的方法去除异常值,而非进行分位数切割。
此外,上述的方法需要计算在第二数据集中的QMP(xi,TMct)的给定QMP基因组位点i处的估计噪声率(具有癌症病状的第二状态(例如,非癌症)。在一些实施例中,xi,TMct是估计如下:
Figure BDA0003903892590000871
Figure BDA0003903892590000872
Figure BDA0003903892590000873
pc2=对平滑噪声估计的伪计数,
Figure BDA0003903892590000874
Figure BDA0003903892590000875
Figure BDA0003903892590000876
Figure BDA0003903892590000881
为了计算β,获得具有第二癌症状态的一或多个受试者的多个QMP基因组位点(研究中)中的各个位点的非异常计数(“WGBS第二状态(WGBS SS)非异常计数”)。因此,存在多个WGBS非异常计数,各个用于使用第二数据集所获得的不同的QMP基因组位点。此外,获得来自靶向甲基化测序的在多个QMP基因组位点中的各个位点的非异常计数(“TM第二状态(TM SS)非异常计数”)。在典型的实施例中,针对TM第二状态的DNA来源与针对WGBS对照的DNA来源是相同的(且通常来自对第二数据集有贡献及/或患有第二癌症病状的受试者),唯一的区别是,对于在TM SS中,使用具有在TM中而非WGBS使用的下拉探针的靶向测序,对DNA进行测序。在此种实施例中,量β表示拟合到“TM第二状态(TM SS)非异常计数”/“WGBS第二状态(WGBS SS)非异常计数”的散点图的线的斜率。在散点图中的各自点是针对所研究的多个QMP基因组位点中的不同的QMP基因组位点j,其中在基因组位点处j,针对各自点的x坐标是TM第二状态(TM SS)的非异常计数,以及在基因组位点处j,针对各自点的y坐标是WGBSSS(WGBS NC),的非异常计数。此外,如β等式所示,在典型实施例中,仅来自TM第二状态(TMSS)的第75个分位数的非异常计数的数据,以及仅来自WGBS第二状态(WGBS SS)的第75个分位数的非异常计数的数据是用于计算β的散点图中。量β是拟合到所述散点图数据的直线的斜率。应当理解,第75个分位数的使用,如在α的情况下,是示例性的,且其可在与应用有关的事项中向上(例如,第85个分位数)或向下(例如,第65个分位数)调整。例如,其可被视为一超参数,所述超参数作为下游分类器优化的一部分进行优化。此外,在使用散点图计算β之前,可使用其他的方法来去除异常值,而非进行分位数切割。
在一些实施例中,估计深度
Figure BDA0003903892590000891
计算为:
Figure BDA0003903892590000892
Figure BDA0003903892590000893
Figure BDA0003903892590000894
Figure BDA0003903892590000895
Figure BDA0003903892590000896
为了计算γ,获得具有第二癌症状态的一或多个受试者的多个QMP基因组位点(研究中)中各个位点的非异常计数(“WGBS第二状态(WGBS SS)非异常计数”)。因此,存在多个WGBS非异常计数,各个用于使用第二数据集所获得的不同的QMP基因组位点。此外,获得来自靶向甲基化测序的多个QMP基因组位点中的各个位点的非异常计数(“TM第一状态(TMFS)非异常计数”)。在典型的实施方案中,针对TM FS的DNA来源是来自一或多个对第一数据集有贡献及/或具有第一癌症病状的受试者。在典型的实施例中,WGBS SS的DNA来源是来自一或多个对第二数据集有贡献及/或患有第二癌症病状的受试者。在此种实施例中,量γ表示拟合到“TM第一状态(TM FS)非异常计数”/“WGBS第二状态(WGBS SS)非异常计数”的散点图的线的斜率。在散点图中的各自点是针对所研究的多个QMP基因组位点中的不同的QMP基因组位点j,其中在基因组位点j处,针对各自点的x坐标是TM第一状态(TM FS)非异常计数,以及在基因组位点j处,针对各自点的y坐标是WGBS第二状态(WGBS SS)非异常计数。此外,如γ等式所示,在典型实施例中,仅来自TM第一状态(TM FS)的第75个分位数的非异常计数数据,以及仅来自WGBS第二状态(WGBS SS)的第75个分位数的非异常计数数据是用于计算γ的散点图中。量γ是拟合到所述散点图数据的直线的斜率。应当理解,第75个分位数的使用,如在α的情况下,是示例性的,且其可在与应用有关的事项中向上(例如,第85个分位数)或向下(例如,第65个分位数)调整。例如,其可被视为一超参数,所述超参数作为下游分类器优化的一部分进行优化。此外,在使用散点图计算γ之前,可使用其他的方法去除异常值,而非进行分位数切割。
在一些实施例中,可产生各种噪声或偏差模型来解释诸如非癌症噪声率、分析类型之间的偏差(例如,WGBS对TM)的因素:由于在TM测序分析中,异常甲基化片段被探针富集,因此基于在此等片段内的QMP所计算的肿瘤分数可能是有偏差的。在一些实施例中,在肿瘤分数估计之前,过滤多个限定甲基化模式,以包括具有0%或100%甲基化CpG位点的甲基化模式的彼等。在一些替代实施例中,在肿瘤分数估计之前,过滤多个限定甲基化模式,以包括在对照实验中通过靶向甲基化分析有效降低的彼等,所述对照实验具有预定组成的0%甲基化及100%甲基化基因组DNA的混合物(例如,0%及100%甲基化基因组DNA的50/50或40/60或30/70混合物)。例如,可以对50/50的0%及100%甲基化基因组DNA的混合物进行平行WGBS及TM分析,以评估富集探针对感知测序深度的影响。在一些替代实施例中,在肿瘤分数估计之前,过滤多个限定甲基化模式,以包括形成非重叠的一组限定甲基化模式的彼等,从而减轻重复计数。
在一些此种实施例中,使用合成稀释液进一步优化及验证后验肿瘤分数估计值。在一些实施例中,使用与匹配样本所产生的估计值的比较来进一步优化后验肿瘤分数估计值(例如,将来自肿瘤活检WGBS样本的肿瘤分数估计值与来自患者匹配的cfDNA WGBS样本的肿瘤分数估计值进行比较)。
用于计算肿瘤分数估计的替代方法及实施例详细描述:例如,于2019年12月18日所提交的标题为“使用甲基化信息评估细胞源分数的系统及方法”的美国专利公开案第2020-0385813 A1号,其通过引用并入本文中,且如以下实例4所述。
监控最小残留疾病及其他应用:
在一些实施例中,癌症病状的状态是肿瘤分数,且随着时间的推移,重复获得第三数据集,并将第三数据集的片段甲基化模式应用于分类器。例如,在一些实施例中,在重复发生的基础上进行应用,以用于最小残留疾病及复发监控。在一些此种实施例中,在癌症治疗之前及之后执行使用第三数据集的获得及应用,以评估癌症治疗的功效(例如,其中第三数据集是在癌症治疗之前及之后,从来自测试对象的生物样本中所获得的)。
在一些此种实施例中,肿瘤分数的测定是从在癌症治疗之前所获得的第一样本及在癌症治疗之后所获得的第二样本进行的,以评估癌症治疗对受试者的功效。
在一些实施例中,所述方法在一时期的多个时间点中的各自时间点重复估计测试对象的肿瘤分数估计值,从而针对各自时间点的测试对象,在多个肿瘤分数估计值中获得相应肿瘤分数估计值。在一些实施例中,所述多个肿瘤分数估计值是用于确定在所述时期的期间,测试对象的疾病病状的状态或进展,其是以肿瘤分数在所述时期内的增加或减少的形式。
在一些实施例中,各个时期是数个月的时期,以及多个时间点中的各个时间点是数个月时期中的不同时间点。在一些实施例中,数个月的时期是少于4个月。在一些实施例中,各个时期是1个月长。在一些实施例中,各个时期是2个月长。在一些实施例中,各个时期是3个月长。在一些实施例中,各个时期是4个月长。在一些实施例中,各个时期是5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个月。
在一些实施例中,各个时期是年周期,以及多个时间点中的各个时间点是年周期中的不同时间点。在一些实施例中,年周期是介于1年与10年之间。在一些实施例中,年周期是1年、2年、3年、4年、5年、6年、7年、8年、9年,或10年。在一些实施例中,时期是介于1年与30年之间。在一些实施例中,时期是小时周期,以及多个时间点中的各个时间点是小时周期中的不同时间点。在一些实施例中,小时周期是介于1小时与24小时之间。在一些实施例中,小时周期是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23,或24小时。
在一些实施例中,所述方法进一步包括步骤:当观察到受试者的肿瘤分数估计(或克隆扩增估计)在整个时期内改变阈值量时,改变测试对象的诊断。例如,在一些实施例中,诊断是从患有癌症改变为处于缓解状态。
作为另一实例,在一些实施例中,诊断是从未患有癌症改变为患有癌症。作为另一实例,在一些实施例中,诊断从是从患有第一阶段的癌症改变为患有第二阶段的癌症。作为另一实例,在一些实施例中,诊断是从患有癌症的第二阶段改变为患有癌症的第三阶段。作为又另一实例,在一些实施例中,诊断是从患有癌症的第三阶段改变为患有癌症的第四阶段。作为又另一实例,在一些实施例中,诊断是从患有未转移的癌症改变为患有已转移的癌症。
在一些实施例中,当观察到受试者的肿瘤分数估计在整个时期内改变阈值量时,测试对象的预后改变。例如,在一些实施例中,预后涉及预期寿命,以及预后从第一预期寿命改变为第二预期寿命,其中在一些实施例中第一预期寿命与第二预期寿命的持续时间不同。在一些实施例中,预后的改变增加了受试者的预期寿命。在一些实施例中,预后的改变降低了受试者的预期寿命。
在一些实施例中,当观察到受试者的肿瘤分数估计在整个时期内改变阈值量时,改变测试对象的治疗。在一些实施例中,治疗的改变包括起始抗癌药物、增加抗癌药物的剂量、停止抗癌药物,或减少抗癌药物的剂量。在一些实施例中,治疗的改变包括起始或终止使用以下药物来治疗受试者:来那度胺、派姆单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(第6、11、16型18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼、尼罗替尼、地诺单抗、醋酸阿比特龙、普罗马克塔、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等效物。在一些实施例中,改变治疗包括增加或减少以下药物的剂量:来那度胺、派姆单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(第6、11、16及18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼、尼洛替尼、地诺单抗、醋酸阿比特龙、普罗马克塔、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米或其通用等效物。在一些实施例中,阈值是大于10%、大于20%、大于30%、大于40%、大于50%、大于2倍、大于3倍,或大于五倍。
在一些实施例中,测试对象的肿瘤分数估计值是介于0.003与1.0之间。在一些实施例中,测试对象的肿瘤分数估计值是介于0.005与0.80之间。在一些实施例中,测试对象的肿瘤分数估计值是介于0.01与0.70之间。在一些实施例中,测试对象的肿瘤分数估计值是介于0.05与0.60之间。
在一些实施例中,所述方法进一步包括步骤:至少部分地基于测试对象的肿瘤分数估计值(或克隆扩增估计值),对测试对象施用治疗方案。在一些实施例中,治疗方案包括将癌症药剂施用于测试对象。在一些实施例中,癌症药剂是激素、免疫疗法、放射线照相,术或抗癌药物。在一些实施例中,癌症药剂是来那度胺、派姆单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(第6、11、16及18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼、尼罗替尼、地诺单抗、醋酸阿比特龙、普罗马克塔、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米,或其通用等效物。
在一些实施例中,测试对象已经使用癌症药剂进行治疗,以及所述方法进一步包括步骤:使用测试对象的肿瘤分数估计值,来评估受试者对癌症药剂的反应。在一些实施例中,癌症药剂是激素、免疫疗法、放射线照相术,或抗癌药物。在一些实施例中,癌症药剂是来那度胺、派姆单抗、曲妥珠单抗、贝伐单抗、利妥昔单抗、依鲁替尼、人乳头瘤病毒四价(第6、11、16和18型)疫苗、帕妥珠单抗、培美曲塞、尼罗替尼、尼罗替尼、地诺单抗、醋酸阿比特龙、普罗马克塔、伊马替尼、依维莫司、帕博西尼、厄洛替尼、硼替佐米、硼替佐米,或其通用等效物。
在一些实施例中,测试对象已经使用癌症药剂进行治疗,以及测试对象的肿瘤分数估计是用于确定是否在测试对象中强化或停止癌症药剂。例如,在一些实施例中,至少观察肿瘤分数估计值(例如,大于0.05、0.10、0.15、0.20、0.25,或0.30等)被用作强化(例如,增加剂量,增加放射治疗中的放射水平)测试对象的癌症药剂的基础。在一些实施例中,观察小于阈值肿瘤分数估计(例如,小于0.05、0.10、0.15、0.20、0.25,或0.30等)被用作在受试者中停止使用癌症药剂的基础。
在一些实施例中,测试对象已经接受外科干预以解决癌症,以及所述方法进一步包括步骤:使用测试对象的肿瘤分数估计值来评估响应于外科干预的测试对象的病状。在一些实施例中,病状是基于使用本公开中所提供的方法的肿瘤分数估计的度量。
在一些实施例中,鉴别或指示一癌症病状的甲基化模式是用于标记从cfDNA所获得的片段。例如,在一些此种实施例中,分离包含一或多个甲基化模式的一或多个片段,所述一或多个甲基化模式与一癌症病状(例如,肿瘤)相关联的鉴定甲基化模式匹配,以及检查其他的表征特征。在一些此种实施例中,此种替代特征的研究可提供额外的用途,例如进一步了解定义及/或与肿瘤衍生的核酸片段相关的特征。
在一些实施例中,使用一或多个合成稀释液,来验证肿瘤分数估计的准确性。例如,在一些实施例中,包含高肿瘤分数的样本被合成稀释成非癌症cfDNA。计算各个连续稀释的肿瘤分数估计值,并与预期的肿瘤分数估计值进行比较,以确保一致性。
在一些实施例中,通过在计算机中将癌症信号(例如,测序读出数据)进行稀释成非癌症信号。在一些实施例中,湿实验室稀释是通过将癌症cfDNA样本稀释成非癌症cfDNA样本来进行。在一些实施例中,稀释是在测序之前,通过将来自第一测试对象的癌症cfDNA样本稀释成来自第二测试对象的非癌症cfDNA来进行。
在一些实施例中,使用合并的测试对象进行稀释。在一些实施例中,稀释是通过将从第一癌症病状(例如,癌症/非癌症、癌症类型/亚型、阶段及/或起源组织)所获得的样本稀释成从第二癌症病状所获得的样本来进行,所述第二癌症病状与第一癌症病状不同。
在一些实施例中,可进行通过肿瘤分数估计值的合成稀释(例如,使用甲基化模式进行计算)的验证,来评估分类器性能及/或探测分类器的行为。
本公开的其他方面:
本公开的另一方面提供一种用于鉴定可鉴别或指示一癌症病状的多种甲基化模式的计算机系统。在此方面,计算机系统包括至少一处理器及存储至少一个程式的存储器,以供所述至少一处理器执行。在一些实施例中,所述至少一程式包括用于执行本文所述的任何方法及实施例及/或其任何组合或替代方案的指令,其对于本领域技术人员来说是显而易见的。
本公开的另一方面提供了一种存储有程式代码指令的非暂时性计算机可读存储介质,当由一处理器执行时,使所述处理器执行用于鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的方法。在一些实施例中,程式代码指令使处理器执行本文所述的任何方法及实施例及/或其任何组合或替代方案,其对于本领域技术人员来说是显而易见的。
实例:
实例1-细胞游离基因组图谱研究(Cell-Free Genome Atlas Study,CCGA)。
来自CCGA[NCT02889978]的受试者被用于本公开的实例中。
CCGA是一项前瞻性、多中心、观察性的基于cfDNA的早期癌症检测研究,在141个地点招募了15,254位人口统计学平衡的参与者。从在招募时已确定的新诊断的未接受过治疗的癌症的受试者(C,病例)及未诊断出癌症(非癌症[NC],对照)的受试者(56%癌症,44%非癌症)中收集血液样本。
在第一群组(预先指定的子研究)(CCGA1)中,血浆cfDNA提取物是从3,583位CCGA及STRIVE参与者(CCGA:1,530位癌症参与者及884位非癌症参与者;STRIVE 1,169位非癌症参与者)中获得。STRIVE是一项多中心、前瞻性、群组研究,招募接受乳房X光检查的女性(招募99,259位参与者)。从984位新诊断的未治疗癌症(20种肿瘤类型,所有阶段)的CCGA参与者及749位未诊断出癌症的参与者(对照)中采集血液(n=1,785)以用于血浆cfDNA提取。此项预先计划的子研究包括20种肿瘤类型及所有临床阶段的878例病例、580例对照及169例分析对照(n=1627)。
对从各个参与者抽取的血液进行了三种测序分析:(1)单核苷酸变体/插入缺失的配对cfDNA及白细胞(white blood cell,WBC)靶向测序(60,000X,507基因组)(ART测序分析);联合调用者(joint caller)去除了WBC衍生的体细胞变异及残留的技术噪音;(2)配对cfDNA及WBC全基因组测序(WGS;35X)用于拷贝数变异;一种新的机器学习算法产生癌症相关的信号分数;联合分析确定共享事件;(3)cfDNA全基因组亚硫酸氢盐测序(WGBS;34X)用于甲基化;使用异常甲基化片段产生标准化分数。此外,组织样本仅从患有癌症的参与者处获得,因此,(4)对配对的肿瘤及WBC gDNA进行全基因组测序(WGS;30X),以识别肿瘤变体,并进行比较。
在CCGA-1研究的背景下,开发数种方法来估计cfDNA样本的肿瘤分数。参见,国际专利公开案第WO/2019/204360号,标题为“用于确定在细胞游离核酸中的肿瘤分数的系统及方法”;国际专利公开案第WO 2020/132148号,标题为“使用甲基化信息估计细胞源级分的系统及方法”;以及美国专利公开案第US 2020-0340064 A1号,标题为“从小变体估计肿瘤分数的系统及方法”,其各个皆通过引用并入本文中。例如,其中一种方法在图13A中被示为方法1300。在此种方法中,来自福尔马林固定、石蜡包埋(formalin-fixed,paraffin-embedded,FFPE)肿瘤组织(例如,1304)的核酸样本,以及来自匹配患者(例如,1306)的白细胞(WBC)的核酸样本,通过全基因测序(whole-genome sequencing,WGS)进行测序。基于测序数据(例如,1308)所鉴定的体细胞变体与来自同一患者(例如,1310)的匹配cfDNA测序数据进行分析,以确定肿瘤分数估计值(例如,1312)。
在第二预先指定的子研究(CCGA-2)中,使用靶向而非全基因组亚硫酸氢盐测序分析,来开发基于靶向甲基化(TM)测序方法的癌症与非癌症及起源组织的分类器。对于CCGA2,使用3,133位培训参与者及1,354个验证样本(在确认癌症与非癌症状态之前,775位患有癌症;579位在招募时确定未患有癌症)。对血浆cfDNA进行亚硫酸氢盐测序分析(COMPASS分析),针对甲基化组中信息量最大的区域,从独特的甲基化数据库及先前的原型全基因组及靶向测序分析中确定,以鉴定癌症及组织定义的甲基化信号。在保留用于训练的原始3,133个样本中,仅有1,308个样本被认为可进行临床评估及分析。对主要分析族群n=927(654位癌症及273位非癌症)及次要分析族群n=1,027(659位癌症及373位非癌症)进行分析。最后,对来自福尔马林固定、石蜡包埋(FFPE)肿瘤组织及从肿瘤分离的细胞的基因组DNA进行全基因组亚硫酸氢盐测序(WGBS),以产生一大型癌症定义的甲基化信号数据库,并用于组设计及在训练中优化性能。
参见,例如,克莱因等人,2018,“开发用于早期检测多种肿瘤类型的综合细胞游离DNA(cfDNA)分析:循环细胞游离基因组图谱(CCGA)研究”,J.Clin.Oncology 36(15),12021-12021,以及刘等人,2019,“全基因组细胞游离DNA(cfDNA)甲基化特征及对组织起源(TOO)性能的影响”,J.Clin.Oncology 37(15),3049-3049,各篇在此通过引用整体并入本文中。
实例2-获得多个序列读数:
图7是根据一实施例用于制备用于测序的核酸样本的方法700的流程图。方法700包括,但不限于以下的步骤。例如,方法700的任何步骤可包括用于量化控制或本领域技术人员已知的其他实验室分析程式的定量子步骤。
在框702中,从受试者中提取核酸样本(DNA或RNA)。样本可为包括整个基因组的人类基因组的任何子集。样本可从已知患有或怀疑患有癌症的受试者中提取。样本可包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液,或其任何组合。在一些实施例中,用于抽取血液样本的方法(例如,注射器或手指点刺)可较用于获得组织活检的程序的侵入性更小,其可能需要手术。提取的样本可包括cfDNA及/或ctDNA。对于健康的个体,人体可自然清除cfDNA及其他的细胞碎片。倘若受试者患有癌症或疾病,提取的样本中的ctDNA可以可检测的水平存在,以进行诊断。
在框704中,制备测序文库。在文库制备过程中,通过接头连接,将独特分子标识符(unique molecular identifiers,UMI)添加到核酸分子(例如,DNA分子)中。UMI是在接头连接过程中添加到DNA片段的末端的短核酸序列(例如,4至10个碱基对)。在一些实施例中,UMI是简并碱基对,其用作独特标签,所述独特标签可用于鉴定源自特定DNA片段的序列读数。在接头连接后的PCR扩增过程中,UMI与连接的DNA片段一起复制。其提供一种在下游分析中鉴定来自同一原始片段的序列读数的方法。
在框706中,从文库中进行富集靶DNA序列。在富集过程中,杂交探针(在本文中亦称为“探针”)是用于靶向及提取核酸片段,此等核酸片段可提供有关癌症(或疾病)的存在或不存在、癌症状态,或癌症分类(例如,癌症类别或起源组织)的信息。对于给定的工作流程,探针可设计为与DNA的目标(互补)链进行粘合(或杂交)。目标链可为“正”链(例如,转录成mRNA,及随后转译成蛋白质的链)或互补的“负”链。探针的长度的范围可为从10s、100s或1000s碱基对。在一实施例中,探针是基于甲基化位点组设计的。在一实施例中,探针是基于一组靶向基因设计的,以分析怀疑相应于某些癌症或其他类型疾病的基因组(例如,人类或另一生物体)的特定突变或靶区域。此外,探针可覆盖靶区域的重叠部分。在方框708中,此等探针用于核酸样本的一般序列读数。
图8是根据一实施例获得序列读数的过程的图形表示。图8描绘来自样本的核酸片段800的一实例。核酸片段800可为单链核酸片段。在一些实施例中,核酸片段800是双链cfDNA片段。图示的实例描述可被不同探针靶向的核酸片段的三个区域805A、805B及805C。具体地,三个区域805A、805B及805C中的各个包括在核酸片段800上的重叠位置。实例重叠位置在图8中描绘为胞嘧啶(“C”)核苷酸碱基802。胞嘧啶核苷酸碱基802是位于邻近区域805A的第一边缘、在区域805B的中心处,以及邻近区域805C的第二边缘。
在一些实施例中,一或多个(或所有)探针是基于基因组或甲基化位点组设计的,以分析基因组(例如,人类或另一生物体)的特定突变或靶区域,此等区域是怀疑与某些癌症或其他类型的疾病相对应。通过使用靶向基因组或甲基化位点组,而非对基因组的所有表达基因进行测序,亦称为“全外显子组测序”,方法800可用于增加靶区域的测序深度,其中深度是指在样本中的给定靶序列被测序的次数。增加测序深度会降低所需的核酸样本输入量。
使用一或多个探针对核酸样本800的杂交会导致对靶序列870的理解。如图8所示,靶序列870是通过杂交探针靶向的区域805的核苷酸碱基序列。靶序列870亦可称为杂交核酸片段。例如,靶序列870A相应于由第一杂交探针靶向的区域805A,靶序列870B相应于由第二杂交探针靶向的区域805B,以及靶序列870C相应于由第三杂交探针靶向的区域805C。假定胞嘧啶核苷酸碱基802是位于杂交探针靶向的各个区域805A至C内的不同位置,则各个靶序列870包括相应于靶序列870上的特定位置的胞嘧啶核苷酸碱基802的核苷酸碱基。
在杂交步骤之后,杂交的核酸片段被捕获,且亦可使用PCR进行扩增。例如,可富集靶序列870,以获得可随后进行测序的富集序列880。在一些实施例中,各个富集序列880从靶序列870进行复制。分别从靶序列870A及870C扩增的富集序列880A及880C亦包括位于邻近各个序列读数880A或880C边缘的胸腺嘧啶核苷酸碱基。如下文所用,在富集序列880中相对于参考等位基因(例如,胞嘧啶核苷酸碱基802)发生突变的突变核苷酸碱基(例如,胸腺嘧啶核苷酸碱基)被认为是替代等位基因。此外,从靶序列870B扩增的各个富集序列880B包括位于邻近各个富集序列880B或中心的胞嘧啶核苷酸碱基。
在框708中,从富集的DNA序列产生序列读数,例如图8中所示的富集序列880。可通过本领域已知的方法从富集的DNA序列中获取测序数据。例如,方法800可包括下一世代测序(next generation sequencing,NGS)技术,包括合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(Ion Torrent测序)、单分子实时测序(PacificBiosciences)、通过连接测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies)或双端测序。在一些实施例中,使用具有可逆染料终止剂的合成测序进行大规模平行测序。
在一些实施例中,可使用本领域已知的方法将序列读数与参考基因组比对,以确定比对位置信息。比对位置信息可指示在参考基因组中相应于给定序列读数的起始核苷酸碱基及结束核苷酸碱基的区域的起始位置及结束位置。比对位置信息亦可包括序列读数长度,其可从起始位置及结束位置确定。参考基因组中的一区域可与一基因或一基因片段相关联。
在各种实施例中,序列读数是由表示为R1及R2的读数对所组成。例如,第一读数R1可从核酸片段的第一端进行测序,而第二读数R2可从核酸片段的第二端进行测序。因此,第一读数R1及第二读数R2的核苷酸碱基对可与参考基因组的核苷酸碱基一致地(例如,以相反的方向)对齐。源自读数对R1及R2的比对位置信息可包括在参考基因组中相应于第一读数(例如,R1)的末端的起始位置及在参考基因组中相应于第二读数(例如,R2)的末端的结束位置。换言之,在参考基因组中的起始位置及结束位置可代表在参考基因组中的核酸片段对应的可能位置。可产生及输出具有SAM(序列比对图)格式或BAM(二进制)格式的输出文件,以用于进一步分析,例如甲基化状态确定。
实例3-甲基化状态向量的产生
图9是描述根据本公开的一实施例,对cfDNA片段进行测序,以获得甲基化状态向量的过程900的流程图。
参见步骤902,从生物样本中获得cfDNA片段(例如,如上文结合实例2所讨论的)。参见步骤920,cfDNA片段被处理,以将未甲基化的胞嘧啶转化为尿嘧啶。在一实施例中,对DNA进行亚硫酸氢盐处理,在不转化甲基化胞嘧啶下,将cfDNA片段的未甲基化胞嘧啶转化为尿嘧啶。例如,在一些实施例中,商业试剂盒,例如EZ DNA MethylationTM-Gold、EZ DNAMethylationTM-Direct或EZ DNA MethylationTM-Lightning试剂盒(可从齐莫研究公司(Zymo Research Corp)(Irvine,CA)获得)是用于亚硫酸氢盐转化。在其他的实施例中,未甲基化胞嘧啶转化成尿嘧啶是使用酶促反应完成的。例如,转化可使用市售的用于将未甲基化胞嘧啶转化为尿嘧啶的试剂盒,例如APOBEC-Seq(NEBiolabs,伊普斯维奇,MA)。
从转化的cfDNA片段制备测序文库(步骤930)。任选地,使用多个杂交探针,使测序文库富集935cfDNA片段或基因组区域,其可提供癌症状态的信息。杂交探针是短寡核苷酸,其能够与特别指定的cfDNA片段或靶区域进行杂交,并富集此等片段或区域,以供后续测序及分析。杂交探针可用于对一组研究人员感兴趣的特定CpG位点进行有针对性的高深度分析。一旦制备完成,可对测序文库或其一部分进行测序,以获得多个序列读数(940)。通过计算机软件,序列读数可为用于计算机软件处理及解释的计算机可读数字格式。
根据序列读数,基于序列读数与参考基因组的比对,确定各个CpG位点的位置及甲基化状态(950)。各个片段的甲基化状态向量指定所述片段在参考基因组中的位置(例如,由各个片段中第一CpG位点的位置或另一相似度量所指定)、片段中的多个CpG位点,以及片段中各个CpG位点的甲基化状态(960)。
有关WGBS的详细信息,参见,例如,标题为“异常片段检测与分类”的美国专利公开案第US 2019-0287652 A1号及标题为“使用甲基化信息估计细胞源级分的系统及方法”的美国专利公开案第No.2020-0385813 A1号,各皆通过引用并入本文中。
实例4-具有高肿瘤分数的测试案例
使用具有高肿瘤分数的样本(靶向测序(ART)估计的肿瘤分数:15%;参与者ID2737),从CCGA研究中获得一测试案例。出于概念验证的目的,高肿瘤分数在组织(例如,肿瘤)样本及源自肿瘤的cfDNA样本中提供相对大量的核酸片段。此外,测试案例包括来自cfDNA的靶向甲基化数据。使用以特异性阈值为99%的分类为非癌症的所有片段,从CCGA数据中选择对照非癌症数据集。参见刘等人,2019,“全基因组细胞游离DNA(cfDNA)甲基化特征及对组织起源(TOO)性能的影响”,J.Clin.Oncology 37(15),3049-3049,其全文通过引用方式并入本文中。过滤片段,以获得最小映射质量(minimum mapping quality,MAPQ),以及重复、未调用及未转换的片段。片段未经过p值过滤。使用具有以下参数的公开方法的示例性实施例,对来自参与者2737的肿瘤样本及对照非癌症数据集,进行差异甲基化状态区间的鉴定:肿瘤样本的最小覆盖深度=10、肿瘤样本的最小变异等位基因分数(VAF)=0.2、非癌症样本的最小覆盖深度=0、非癌症样本的最大VAF=0.001,区间中的CpG数=5。如本文中所公开,VAF可指分数一或多个限定甲基化模式(QMP)与在限定甲基化模式的相应基因座(或多个基因座)所观察到的片段甲基化模式的总数的分数。
差异甲基化状态区间的特征
基于从高肿瘤分数测试案例样本所获得的测序数据的可能的限定甲基化模式(QMP)是基于各个可能的限定甲基化模式被甲基化的程度进行评估(图3)。在此处,可能的QMP被定义为5个连续CpG位点的甲基化状态的序列,此等位点是由测试案例样本的甲基化测序数据所支持。此图显示,具有低甲基化分数的可能QMP很少(例如,在测试案例中的大多数可能的QMP是高度甲基化的),突显甲基化模式在QMP鉴定中的高潜在功能。
评估非癌症样本,以确定合适的区间(例如,包括5个CpG位点),并用于进一步分析。例如,图4显示来自非癌症受试者的衍生自cfDNA的非癌症核酸片段中所包含的所有区间的密度图,显示聚合QMP计数(“非癌症cfDNA聚合Alt计数+1”)相对于在各自候选区间的覆盖的深度(“非癌症cfDNA聚集深度+2”)。密度显示在变异计数与覆盖深度之间的各个交叉区域的区间数,而各个候选区间的噪声水平是由颜色图例表示(例如,浅灰色:高噪声;黑色:低噪声)。噪声是计算为基于对照非癌症数据集的频率,使用公式:噪声=(alt_计数+1)/(深度_覆盖+2),其中“alt_计数”是在区间内具有变异甲基化模式的片段的数量,“深度_覆盖”是覆盖所述区间的片段的数量。使用以上所定义的用于鉴别差异甲基化模式的参数,在测试案例中进一步分析的优选的区间包括彼等具有高深度值及低alt(变异)计数值的区间。例如,对于在控制条件中具有高稳定性的区间,测试条件的变化将很明显(x:cpg跨越QMP位点,y表示包含与最终QMP匹配的模式的片段)。
评估测试案例样本,以验证组分区间作为差异甲基化的标识符(例如,生物标志物)的适用性。例如,图5说明通过甲基化分数与噪声水平所绘制的测试案例等位基因。此外,测试案例数据及控制数据的统计在各个相交区域的组件间隔进行比较。各个候选区间的非癌症对照数据集中的覆盖深度表示为阴影(浅灰色:高覆盖率;黑色:低覆盖率),而为各组区间提供的其他统计数据包括:测试案例样本的变异等位基因计数(“vars”)、CpG的总数(“cpgs”)、非癌症对照样本中的变异等位基因计数中值及非癌症对照样本中的覆盖深度中值(在各个网格的括号中以数字表示)。图5突显非癌症对照样本中具有低噪声及高覆盖深度的选定区间,以及测试案例样本中的甲基化的高比例。
值得注意的是,由于低的覆盖深度,因此尽管在对照数据集中缺乏变异等位基因,但用于噪声水平计算的方法导致将高噪声值分配给一些区间。因此,在一些实施例中,某些特定CpG位点的覆盖深度提供比噪声水平更适合鉴定甲基化模式的指示。在一些实施例中,覆盖深度是由在获得序列读数期间所使用的测序探针的类型确定。例如,相较于为半二元测序所设计的探针,设计用于二元测序的探针(例如,甲基化及非甲基化CpG位点的扩增)可展现更低的噪声、更少的偏差,及更大的覆盖深度(例如,甲基化或非甲基化的扩增)。
介于cfDNA与活检组织之间的QMP分数是相关的:
图6说明使用来自测试案例样本的cfDNA衍生的核酸片段或组织活检(例如,肿瘤)衍生的核酸片段所计算的QMP分数的比较。图表上的各个点代表正在研究的差异甲基化区间。对于噪声率<10-4的区间进行预过滤,深度等级被确定为pmin(底部(正常_真度/100000)*100000,300000)。x轴表示活检QMP分数(深度覆盖率的QMP计数),而y轴表示cfDNAQMP分数。在两个样本类型之间的相关性表现为图中点之间的线性关系。例如,在肿瘤中经常观察到的差异甲基化区域是在cfDNA中以相关频率被观察到,其中一部分的cfDNA来源于肿瘤。利用在非癌症对照样本(例如,由二元探针锁扩增的区域)中具有更高的覆盖深度及低噪声的区间,斜率(在此种情况下等于肿瘤分数)通过线性拟合而稳定。
cfDNA QMP分数与肿瘤活检QMP分数的观察结果证明cfDNA衍生的核酸样本可用于确定变异等位基因分数(以及随后支持下游应用,例如计算肿瘤分数估计值、监测疾病进展,及/或确定最小残留疾病)。其为诸如癌症的疾病的检测、诊断及/或治疗提供一种侵入性较小的途径。肿瘤分数估计的计算在以下的资料中描述:例如,美国专利公开案第2020-0385813A1号,标题为“使用甲基化信息评估细胞源级分的系统及方法”;国际专利公开案第WO/2019/204360号,标题为“用于确定在细胞游离核酸中的肿瘤分数的系统及方法”;国际专利公开案第WO 2020/132148号,标题为“使用甲基化信息估计细胞源级分的系统及方法”;以及美国专利公开案第US 2020-0340064 A1号,标题为“从小变体估计肿瘤分数的系统及方法”,其各个皆通过引用并入本文中。
差异甲基化状态的验证:
图10A、10B、10C、10D及10E说明相较于对照非癌症样本,从高肿瘤分数测试案例样本所获得的核酸片段中的多个CpG位点处的差异甲基化。使用以上所定义的参数来确定差异甲基化状态区间:肿瘤样本的最小覆盖深度=10,肿瘤样本的最小变异等位基因分数(VAF)=0.2,非癌症样本的最小覆盖深度=0,非癌症样本的最大VAF=0.001,以及在区间中的CpG的数量=5。如本文所公开,VAF用作速记来指限定甲基化模式(QMP)的分数值。
使用对照非癌症样本(包括靶向甲基化(COMPASS)样本)、测试病例肿瘤活检样本,以及与肿瘤活检样本匹配的测试病例cfDNA样本比较差异甲基化状态。汇总表列出各个区间的统计信息,包括:区间的开始及结束位置(“浏览_范围”)、定义的甲基化状态(“状态”,例如MMMMM、MUMMM等)、在各自区间处的组织活检样本的变异等位基因计数(“肿瘤_alt”),在各自区间处的组织活检样本的覆盖深度(“肿瘤_深度”)、在各自区间处的对照非癌症样本的变异等位基因计数(“正常_alt”)、在各自区间处的对照非癌症样本的覆盖深度(“正常_深度”)、匹配测试案例cfDNA样本的变异等位基因计数(“样本_alt”),以及匹配测试案例cfDNA样本的覆盖深度(“样本_深度”)。例如,在图10A中,组织活检样本包括6个定义甲基化状态MMMMM的实例以及可能的13个实例中的7个替代甲基化状态的实例,而对照非癌症样本包括在可能的82,581个实例中的2个定义甲基化状态的实例。因此,活检样本的变异等位基因分数相对于对照非癌症样本的变异等位基因分数显着更高。
交互式基因组学查看器(IGV)提供用于查看基因组数据(例如,BAM文件)的工具,包括,但不限于甲基化模式。例如,在图10A中的各个组相应于一基因组区域,包括来自测试案例肿瘤活检样本(“活检”)或测试案例cfDNA样本(“匹配cfDNA”)的5个连续的CpG位点。各行代表一核酸片段的读取对(例如,正向及反向链)。各列,例如由各个组的顶部的聚合条所表示的列,是基因组中的一核苷酸碱基。核酸序列是以正向链方向从左到右呈现,因此CpG位点在各个组中被读取为正向链的C-G,以及反向链的G-C。对于读取对中的各条链,灰色及黑色线分别表示甲基化及未甲基化的胞嘧啶。灰色线表示非胞嘧啶(例如,不适用)碱基,而棕色线表示单核苷酸多态性(SNP)。各个组的顶部的聚合条表示所有片段中所有读数的所有调用的总和(例如,甲基化胞嘧啶、未甲基化胞嘧啶,及其他/不适用)。值得注意的是,根据覆盖深度,由于介于多个核酸片段之间存在甲基化及/或未甲基化胞嘧啶,以及在交替读数中存在互补鸟嘌呤,因此给定核苷酸的聚合表示可包括1个、2个或3个调用。
图10A、10B、10C、10D及10E中所示的IGV组揭示各种CpG区间的变异甲基化模式,其中测试案例肿瘤活检及匹配的测试案例cfDNA同样不同于非癌症cfDNA对照样本。此等实施例表明,根据一些实施例,使用所公开的方法所鉴定的CpG区间包括介于测试样本与对照样本之间的差异甲基化状态,其可进一步用于下游鉴定及/或分类目的。
实例5-比较甲基化及ART肿瘤分数估计
组织及白细胞样本(ART)的靶向测序数据,以及组织及cfDNA(甲基化)的全基因组亚硫酸氢盐测序数据是从来自CCGA研究的多个参与者样本中获得。ART测序数据是用于识别小的变体,此等变体又用于计算肿瘤分数估计值。由于其特有的高覆盖深度(例如,各个小变体高达2000至3000X),因此ART肿瘤分数估计用于建立基线,以供后续比较。
使用具有95%可信区间的中值后验估计,甲基化数据类似地用于计算各个参与者的肿瘤分数估计。具体来说,组织WGBS数据是用于识别及调用差异甲基化位点,而cfDNAWGBS数据是用于评估各个位点的甲基化状态,并确定肿瘤分数估计值。
用于计算肿瘤分数估计的系统及方法在例如标题为标题为“使用甲基化信息估计细胞源级分的系统及方法”的美国专利公开案第2020-0385813 A1号中有详细描述,此专利在此并入引用。简而言之,肿瘤分数估计是根据在获得的各个样本的序列读数中所观察到的变异频率计算的。对在样本中的所有变异位点的变异计数数据进行建模,以提供对肿瘤分数的后验估计。
图11说明甲基化肿瘤分数估计值(y轴)与ART肿瘤分数估计值(x轴)的图,其中个体参与者样本是由图中的各个点表示,以及如上所述,使用在各个参与者样本中所包含的所有变异位点来确定各个参与者的肿瘤分数估计值。只有在靶向(ART)测序分析中显示出小变异的阅读证据的参与者被包括在图中。包括此限制,以确认肿瘤分数估计的真实性,并排除尽管缺乏小变异的证据,但肿瘤分数估计仍由后验分布所确定的参与者。
所述图展现介于两个估计之间的线性关系,揭示当使用来自靶向测序或甲基化测序方法的数据时,在肿瘤分数估计之间的一致性。对于低至10-4的估计肿瘤分数,观察到此种一致性,表明相关性是稳健的。因此,可得出结论,甲基化测序为肿瘤分数估计及任何后续下游的应用提供与小变异靶向测序同样准确及可靠的基础。
实例6-检测癌症作为cfDNA分数的函数的能力
本文所描述的A评分分类器是基于非同义突变的靶向测序分析的肿瘤突变负荷分类器。例如,可使用对肿瘤突变负荷数据的逻辑回归来计算分类分数(例如,“A分数”),其中各个个体的肿瘤突变负荷估计值是从靶向cfDNA分析所获得的。在一些实施例中,肿瘤突变负荷可估计为各个个体的变体的总数:在cfDNA中被称为候选变体,通过噪声建模及联合调用,及/或在任何基因注释重叠中发现为非同义变体。可将训练集的肿瘤突变负荷数输入到惩罚逻辑回归分类器中,以确定使用交叉验证所实现95%特异性的临界值。例如,可在乔杜里等人,2017,Journal of Clinical Oncology,35(5),suppl.e14529,预印本在线出版物中找到关于A分数的其他详细信息,在此通过引用将其全部内容并入本文中。
B分数分类器在标题为“用于选择、管理及分析高维数据的方法及系统”的美国专利公开案第US 2019-0287649 A1号中进行描述,此专利通过引用并入本文中。根据B评分方法,分析来自健康受试者参考组中的健康受试者的核酸样品的第一组序列读数的低变异性区域。因此,来自各个健康受试者的核酸样本的第一组序列读数中的各个序列读数可与在参考基因组中的一区域进行比对。由此,可从来自训练组中的受试者的核酸样本的序列读数中选择序列读数的训练组。训练集中的各个序列读数皆与从参考集中所鉴定的参考基因组中的低变异性区域中的一区域对齐。训练集包括来自健康受试者的核酸样本的序列读数以及来自已知患有癌症的患病受试者的核酸样本的序列读数来自。训练组的核酸样本与来自健康受试者的参考组的核酸样本相同或相似。由此,使用源自训练集的序列读数的数量确定一或多个参数,此等参数反映在训练组内来自健康受试者的核酸样本的序列读数与来自患病受试者的核酸样本的序列读数之间的差异。然后,接收与包含来自癌症状态未知的测试对象的cfDNA片段的核酸样品相关联的序列读数的测试集,并且基于一或多个参数来确定测试对象患有癌症的可能性。
M分数分类器是描述于2019年3月13日提交的标题为“甲基化片段异常检测”的美国专利公布案第US 2019-0287652 A1号,以及标题为“使用甲基化信息评估细胞源分数的系统及方法”的美国专利公开案第2020-0385813 A1号,各篇通过引用将其并入本文中。
实例7-估计肿瘤分数的实例方法
对于非甲基化测序数据,开发数种方法来估计cfDNA样本的肿瘤分数。参见,国际专利公开案第WO/2019/204360号,标题为“用于确定在细胞游离核酸中的肿瘤分数的系统及方法”;国际专利公开案第WO 2020/132148号,标题为“使用甲基化信息估计细胞源级分的系统及方法”;以及美国专利公开案第US 2020-0340064 A1号,标题为“从小变体估计肿瘤分数的系统及方法”,其各个皆通过引用并入本文中。例如,其中一种方法在图13A中被示为方法1300。在此种方法中,来自福尔马林固定、石蜡包埋(FFPE)肿瘤组织(例如,1304)的核酸样本,以及来自匹配患者(例如,1306)的白细胞(WBC)的核酸样本通过基因组测序(WGS)进行测序。基于测序数据(例如,1308)所鉴定的体细胞变体与来自同一患者(例如,1310)的匹配cfDNA测序数据进行分析,以确定肿瘤分数估计(例如,1312)。
针对甲基化测序数据,开发数种方法以用于基于甲基化数据(通过靶向甲基化或WGBS而获得)来估计cfDNA样本的肿瘤分数。参见国际专利公开案第WO/2019/204360号,标题为“用于确定在细胞游离核酸中的肿瘤分数的系统及方法”;国际专利公开案第WO 2020/132148号,标题为“使用甲基化信息估计细胞源级分的系统及方法”;以及美国专利公开案第US 2020-0340064 A1号,标题为“从小变体估计肿瘤分数的系统及方法”,其各个皆通过引用并入本文中。例如,方法之一是如图13B中的方法1302所示。在所述方法中,通过全基因组亚硫酸氢盐测序(WGBS)分析来自福尔马林固定、石蜡包埋(FFPE)肿瘤组织(例如1314)的核酸样本。基于测序数据(例如,1316)所鉴定的体细胞变体与来自同一患者(例如,1318)的匹配cfDNA WGBS测序数据进行分析,被用于确定肿瘤分数估计值(例如,1320)。
诸如亚硫酸氢盐转化的过程使得基于甲基化测序数据的变体的鉴定更具挑战性。因此,需要替代基于变体的方法来基于甲基化测序数据,以估计肿瘤分数。本实例详细介绍基于WGBS测序数据的肿瘤分数分析的实例。
图14及图15说明使用限定甲基化模式(QMP)的两种方式。在此等实例中,QMP是用于量化肿瘤衍生的核酸,以代替传统的变异突变,例如SNP及/或SNV。
在二个实例中,CCGA数据被用来检验含有cfDNA的肿瘤DNA甲基化模式、TF,以及癌症分类性能之间的关系。CCGA分类器接受全基因组亚硫酸氢盐测序(WGBS)及靶向甲基化(TM)测序数据的训练,以检测癌症与非癌症。822个样本进行活检WGBS;其中,231位亦进行cfDNA靶向甲基化(TM)以及cfDNA全基因组测序(WGS)。活检WGBS鉴定体细胞单核苷酸变异(SNV)及限定甲基化模式(QMP;定义为在活检中常见,但在非癌症对照的cfDNA中很少[<1/10,000]观察到的测序DNA片段中的甲基化模式[n=898])。在本公开的某些情况下,QMPs亦被称为“甲基化变体”或MV。观察到的肿瘤片段计数(在WGS中的SNV;在TM中的QMP)被建模为泊松过程,其速率取决于TF。TF及分类器检测限(LOD)分别使用贝叶斯逻辑回归进行评估。
结果:在活检样本中,2,635个QMP的中值在整个基因组中,与≥1位参与者共享的中值为86.8%,通过TM检测靶向的中值为69.3%。来自QMP的TF LOD为0.00050(95%可信区间[CI]:0.00041至0.00061);QMP及SNV估计值是一致的(斯皮尔曼的Rho:0.820)。QMPs TF估计解释分类器性能(斯皮尔曼的Rho:0.856),并允许确定分类器LOD(0.00082[95% CI:0.00057至0.00115])。
结论:此等数据证明肿瘤来源的cfDNA片段中存在甲基化模式,而这在没有癌症的个体中很少见;其丰度直接检测TF,且是影响分类性能的主要因素。最后,低分类器LOD(~0.1%)促进基于甲基化的癌症检测分析的进一步临床的开发。
图14A说明使用QMP的实例过程1400,以基于例如WGBS测序数据来估计肿瘤衍生核酸的丰度水平。在此图及图15A中,数据由椭圆形框(例如,1402、1404及1410)表示,而分析结果是以矩形框(例如,1406及1420)表示。特别地,使用全基因组亚硫酸氢盐测序(WGBS)对来自癌症受试者x的活检核酸样本(例如,来自福尔马林固定、石蜡包埋(FFPE)肿瘤组织)进行测序。将测序数据与参考数据集(例如,1404,来自一组非癌症对照组的血浆cfDNA样本的WGBS数据)进行比较,以鉴定一组QMP(例如,1406)。在此特定的实例中,在1404处的数据集包括898个非癌症样本。在一些替代实施例中,1404可为非癌症对照组的血浆cfDNA的靶向甲基化数据,而非WGBS数据。在一些实施例中,在步骤1410,来自同一癌症受试者x的另一样本(例如,cfDNA样本)是用于产生新的WGBS数据集。在一些实施例中,1410的样本是在相对于步骤1402的样本较晚的时间从受试者收集的,例如在利用针对其癌症病状的治疗来治疗受试者之后。各个先前鉴定的QMP的丰度水平都是根据这个新的WGBS数据集确定的。在一些实施例中,丰度水平可用于计算肿瘤分数估计值。在一些替代实施例中,在步骤1402及1410皆使用相同的癌症样本。
在被图示为可选1408的一些实施例中,来自1410的WGBS数据集可与来自1402的WGBS数据组合使用,以促进在1406处的QMP鉴定。
图14B图示用于鉴定一组已鉴定QMP中的各个的丰度水平的实例方法1430。在步骤1440,基于甲基化测序数据(例如,基于WGBS),从癌症受试者(例如,来自福尔马林固定的石蜡包埋(FFPE)肿瘤组织的活检样本)获得多个片段甲基化模式(FMP)。在一些实施例中,FMP代表在完整核酸片段或其部分中CpG位点的甲基化状态。例如,包含7个CpG位点(例如,FMP的预定长度)的核酸片段的FMP可为MUMUMUU,其中各个M表示甲基化CpG位点,U表示未甲基化CpG位点,由M或U表示的各个CpG具有相应基因组坐标。在一些实施例中,FMP的预定长度可短于在核酸片段中的CpG位点的总数,且可改变为6个或5个。因此,核酸片段可相应于多个FMP。当预定长度为6时,核酸片段可对应至MUMUMU(相应至在片段中的CpG位点1至6)或UMMUMUU(相应至在片段中的CpG位点2至7)。当预定长度为5时,核酸片段可对应至MUMUM(相应至在片段中CpG位点1至5)、UMMUMU(相应至在片段中CpG位点2至6),或MUMUU(相应至在CpG位点3至7)。需要注意的是,当片段中的CpG位点的总数远大于FMP的预定长度时,则有可能基于单一核酸片段衍生出多个“明显相同”的FMP。例如,对于包含11个CpG位点的片段:MMUMMUMMUMM来说,这是正确的。当FMP的预定长度为5时,可能有至少3个明显相同:MMUMM(相应至在片段中的CpG位点1至5)、MMUMM(相应至在片段中的CpG位点4至8),以及MMUMM(相应至在片段中的CpG位点7至11)。虽然这三组不同的CpG位点的甲基化状态序列是相同的,但其可代表三种不同的FMP,因为在各组中所包含的CpG位点相应于不同的基因组坐标。在一些实施例中,对于预定长度,可基于癌症受试者的甲基化测序数据集为所有的核酸片段鉴定FMP的集合。在一些实施例中,可鉴定多个FMP集合,各个集合具有一预定长度。
在一些实施例中,FMP的集合是源自WGBS数据。
在步骤1445,癌症受试者的限定甲基化模式(QMP)是使用参考数据集,基于上一步中所鉴定的FMP来确定(例如,基于来自一组非癌症受试者的WGBS测序数据;例如,阴性对照)。鉴定QMP的方法可为图2中所描述的方法。
在一些实施例中,QMP被鉴定为仅存在于癌症受试者而不存在于对照非癌症受试者中的彼等FMP。在一些实施例中(例如图2中所描述的彼等),可将来自多个癌症受试者的FMP与非癌症对照的甲基化测序数据进行比较,以便鉴定多个癌症受试者的一组AMP。在一些实施例中,来自非癌症患者的cfDNA是用于建立1404的参考WGBS甲基化数据。
在步骤1450,额外的甲基化测序数据(例如,来自相同癌症受试者的匹配cfDNA样本的WGBS数据1410)可用于估计肿瘤分数。
在可选的步骤1452,额外的甲基化测序数据(例如,来自相同癌症受试者的匹配cfDNA样本的WGBS数据1410)可与来自步骤1430的匹配活检甲基化测序数据结合使用,以协助对癌症受试者的QMPs的鉴定。
一旦为癌症受试者鉴定一组QMP,可基于来自步骤1450的甲基化测序数据来确定各个经鉴定的QMP的丰度水平。例如,含有特定QMP的独特核酸片段的数量可被视为其丰度水平的一指标。在一些实施例中,在经鉴定的QMP集合中各个QMP的丰度水平可用于基于适用的方法,包括但不限于使用等式(1)的方法,来估计癌症受试者的肿瘤分数。
在一些实施例中,图14A及图14B中所示的过程可被应用于一组癌症受试者。在一些实施例中,可基于特定癌的症类型来细分癌症受试者组。从此等细分组中所提取的特征可组合在一整体模型中,以用于计算不同癌症类型的肿瘤分数。或者,可针对不同的癌症类型确定单独的肿瘤分数模型。
图15A及图15B描绘使用靶向甲基化(TM)数据,来估计肿瘤分数的基于QMP的方法。如图15A所示,总体设置1500大体上类似于图14A所示的彼等(例如,参见1502、1504及1506)。此外,需要额外的步骤来解决靶向甲基化测序的影响:例如,(i)使用来自癌症受试者的TM测序数据(例如,1510),(ii)使用来自非癌症样本的额外TM测序数据(例如,1512),以及(iii)选定区域的富集会影响覆盖率或测序深度。因此,TM测序数据的测序深度在用于估计肿瘤分数(例如,1520)之前,必须进行相应的校准(例如,基于1515)。例如,可对50/50的0%及100%甲基化基因组DNA的混合物进行平行WGBS及TM分析,以评估富集探针对感知测序深度的影响。
图15B说明相应于图15A的方法步骤。总体方法类似于图14B中所示的方法。例如,在步骤1540,类似于步骤1440,基于源自癌症受试者的肿瘤组织的核酸样本的活检WGBS数据获得FMP。
在步骤1545,基于在先前步骤所获得的活检WGBS数据及来自非癌症受试者的WGBScfDNA数据,来鉴定一组QMP。此处,非癌症受试者的测序数据是用作阴性对照;例如,排除某些片段甲基化模式或FMP或将其列入黑名单。此外,在来自活检衍生的核酸及cfDNA样本的WGBS数据中的相对丰富的FMP往往对癌症分类的用处不大,特别是对于起源组织分析;因此,在一些实施例中亦可排除此等。
在步骤1550,在先前步骤中所鉴定的QMP可在用于许多应用之前被进一步细化及校准,所述应用包括但不限于肿瘤分数估计、癌症评估或起源组织分类,以及更多的。在一些实施例中,在步骤1550-1,从来自同一受试者的匹配cfDNA样本获得靶向甲基化(TM)测序数据。例如,来自步骤1545的cfDNA样本的亚硫酸氢盐制备可分为两部分:一部分可用于WGBS测序,及另一部分在富集样品洗涤、洗脱、PCR扩增、标准化、合并及进行甲基化测序分析之前,进行靶向富集(例如,通过与核酸探针的一或多轮杂交)。来自1550-1的数据集将用作基础,例如,用于估计TF。在一些实施例中,如1550-2所示,来自非癌症受试者的cfDNA样本的另一TM测序数据集可用于从最终的QMP集合中排除FMP或将其列入黑名单。在步骤1550之后,可以获得一组细化的QMP,以用于后续分析。
因为基因组的某些区域是富集的,所述富集区域的覆盖或深度将大于它们的实际值,因此应该进行校准(例如,1550-3)。在一些实施例中,已知的校准样本可在具有和无富集的情况下进行测序。例如,可通过将完全甲基化的核酸与完全未甲基化的核酸混合,来产生起始材料。随后创建两个样本,其核酸含量相互校准;例如,第一样本与起始材料相同,而第二样本已使用为TM测序分析所设计的探针进行富集。之后对两个样本进行甲基化测序分析。然后使用两个样本的测序数据比较某些CpG位点的覆盖率及深度,以减少下拉偏差。
在步骤1555,可在使用来自1550-1的TM甲基化数据估计肿瘤分数之前,评估细化组的QMP中的各个QMP的丰度水平。
实例8-基于QMP的靶向甲基化分数估计
在此实例中公开根据甲基化变体(y轴,更多细节见下文)与短遗传变体的肿瘤活检特征脱落率所估计的cfDNA肿瘤分数。针对231位训练集参与者,在对测序错误及群体变异进行建模后,从FFPE肿瘤活检样本的30倍全基因组亚硫酸氢盐测序中鉴定出变异(参见补充方法)。参与者cfDNA肿瘤分数估计是由黑色圆圈表示;95%的可信区间是由水平或垂直灰线表示。对角灰线表示两种方法之间的完美一致性。
肿瘤分数亦由甲基化模式计算如下。甲基化变体被定义为在肿瘤活检WGBS数据样本中发生的一组5个连续的CpG及其甲基化状态(例如,CpG10至CpG14 MMMMM)(≥0.2变异等位基因分数,≥10X跨越所述位点的片段的总深度),以及在聚合的非癌症cfDNA WGBS数据中很少发生(≤0.001变异等位基因分数)。在匹配的活检样本中所鉴定的甲基化变体被过滤为据以有以下特征的彼等:(1)具有0%或100%甲基化CpG,(2)在利用以预定的组成(例如,50/50、40/60、30/70、20/80,或10/90比率)的0%甲基化及100%甲基化基因组DNA的混合物的对照实验中,通过我们的靶向甲基化分析有效地将其拉下,以及(3)形成非重叠组(以减少重复计数)。使用各种控制数据来估计各个站点的下拉偏差。使用覆盖各个变异位点的变异匹配片段及非匹配片段的计数,来产生后部肿瘤分数估计。采用各个位点的泊松似然模型,其中速率常数被计算为肿瘤分数、下拉偏差、估计的总测序深度及背景噪声率的函数。此方法经过严格开发及验证,使用合成稀释液,并与患者匹配的cfDNA WGBS(准备中的原稿)所产生的估计值进行比较。
从观察到的cfDNA中具有肿瘤特征的片段计数估计肿瘤分数。从肿瘤组织活检的WGBS确定遗传小核苷酸变异及甲基化变异肿瘤特征。231位参与者的一子集,在训练集中匹配了肿瘤活检及cfDNA测序,并用于肿瘤分数估计。此组参与者排除彼等的活检用于靶选择的参与者。
更具体地,为了从SNV计算肿瘤分数,对肿瘤组织的WGBS及cfDNA的WGS进行联合分析,以鉴定肿瘤相关的体细胞小核苷酸变体。参见,例如,于2020年2月28日提交的标题为“使用甲基化测序数据来调用变体的系统及方法”的美国临时专利申请案第62/983,404号,其通过引用并入本文中。此过程首先使用自定义变体调用程序,调用在WGBS组织内的SNV,所述调用程序通过使用链特异性堆积及贝叶斯基因型模型,来解释亚硫酸氢盐转化(未甲基化C至T的转化)的影响。由于使用此等个体的匹配正常参考进行过滤是不可用的,因此,一旦产生SNV的候选列表,则进行一系列过滤步骤,以丰富体细胞变异。此等过滤器包括最小及最大变异等位基因频率(VAF)、最小深度、已知噪声位点的自定义黑名单、去除在样本匹配WGS cfDNA中由freebayes所标记的个体私有的种系变体,以及使用gnomAD及dbSNP,将已知的种系变体列入黑名单。支持和不支持各个变体的片段计数是从相应cfDNA样本的匹配WGS测序中产生的。使用对肿瘤分数的网格搜索,及使用定义为二项式似然的混合的各个变体似然,来计算后部肿瘤分数估计值。混合成分解释(1)由于肿瘤脱落而观察到的片段,以及(2)包括种系变体的各种错误模式,及错误地称为变体。计算各个参与者的肿瘤分数的中值及95%可信区间。
实例9-实例细胞源
在一些实施例中,本公开的任何实施例的细胞源(从第一、第二或第三组受试者中的各自受试者或靶受试者所获得的相应生物样本)是共同原发部位的第一癌症。在一些实施例中,第一癌症是乳腺癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头/颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌,或其组合。
在一些实施例中,本公开的任何实施例的细胞源是某种癌症类型的肿瘤或其一部分。在一些实施例中,所述肿瘤是肾上腺皮质癌、儿童肾上腺皮质癌、AIDS相关癌症的肿瘤、卡波西肉瘤、与肛门癌相关的肿瘤、与阑尾癌相关的肿瘤、星形细胞瘤、儿童(脑癌)肿瘤、非典型畸胎瘤/横纹肌瘤、中枢神经系统(脑癌)肿瘤、皮肤基底细胞癌、与胆管癌相关的肿瘤、膀胱癌肿瘤、儿童膀胱癌肿瘤、骨癌(例如,尤文肉瘤及骨肉瘤及恶性纤维组织细胞瘤)组织、脑肿瘤、乳腺癌组织、儿童乳腺癌组织、儿童支气管肿瘤、伯基特淋巴瘤组织、类癌瘤(胃肠道)、儿童类癌肿瘤、原发性不明的癌、原发性不明的儿童癌、儿童心脏(心脏)肿瘤、中枢神经系统(例如,诸如儿童非典型畸胎样/横纹肌样的脑癌)肿瘤、儿童胚胎肿瘤、儿童生殖细胞肿瘤、宫颈癌组织、儿童宫颈癌组织、胆管癌组织、儿童脊索瘤组织、慢性骨髓增生性肿瘤、结直肠癌肿瘤、儿童结直肠癌肿瘤、儿童颅咽管瘤组织、导管癌原位(DCIS)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童室管膜瘤组织、食管癌组织、儿童食管癌组织、感觉神经母细胞瘤(头颈癌)组织、儿童颅外生殖细胞肿瘤、性腺外胚芽细胞瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、胆囊癌组织、胃的(胃)癌组织、儿童胃的(胃)癌组织、胃肠道类癌、胃肠道间质瘤(GIST)、儿童胃肠道间质瘤、生殖细胞肿瘤(例如,儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤,或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(HCC)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾或肾细胞癌(RCC)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞及小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨的恶性纤维组织细胞瘤及骨肉瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发性组织的转移性鳞状颈部癌、具有NUT基因变化的中线道癌、口腔癌(头颈癌)组织、多发性内分泌瘤综合征组织、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征组织骨髓增生异常/骨髓增生性肿瘤、慢性骨髓增生性肿瘤、鼻腔及鼻窦癌组织、鼻咽癌(NPC)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇及口腔癌及口咽癌组织、骨组织的骨肉瘤及恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉)组织、副神经节瘤组织、儿童副神经节瘤组织、鼻窦及鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(CNS)原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(例如,儿童血管瘤、骨肉瘤、子宫肉瘤等)、塞扎里症候群(Sézarysyndrome)(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤的鳞状细胞癌、具有隐匿性原发性鳞状细胞癌、皮肤的t细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如,鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂及输尿管组织的移行细胞癌组织、未知的原发性癌组织、输尿管或肾盂组织、移行细胞癌(肾(肾细胞)癌组织、尿道癌组织、子宫内膜的子宫癌组织、子宫肉瘤组织、阴道癌组织、儿童阴道癌组织、血管肿瘤、外阴癌组织、威尔姆氏肿瘤(Wilms tumor)或其他的儿童肾肿瘤。
在一些实施例中,本公开的任何实施例的细胞源是第一癌症。在一些此种实施例中,第一癌症是乳腺癌的阶段、肺癌的阶段、前列腺癌的阶段、结肠直肠癌的阶段、肾癌的阶段、子宫癌的阶段、胰腺癌的阶段、食道癌的阶段、淋巴瘤的阶段、头/颈癌的阶段、卵巢癌的阶段、肝胆癌的阶段、黑素瘤的阶段、宫颈癌的阶段、多发性骨髓瘤的阶段的阶段、白血病的阶段、甲状腺癌的阶段、膀胱癌的阶段或胃癌的阶段。
在一些实施例中,本公开的任何实施例的细胞源是乳腺癌的预定阶段、肺癌的预定阶段、前列腺癌的预定阶段、结肠直肠癌的预定阶段,肾癌的预定阶段、子宫癌的预定阶段、胰腺癌的预定阶段、食道癌的预定阶段、淋巴瘤的预定阶段、头/颈癌的预定阶段、卵巢癌的预定阶段、肝胆癌的预定阶段、黑色素瘤的预定阶段、宫颈癌的预定阶段、多发性骨髓瘤的预定阶段、白血病的预定阶段、甲状腺癌的预定阶段、膀胱癌的预定阶段,或胃癌的预定阶段。
在一些实施例中,本公开的任何实施例的细胞源是来自非癌性组织。在一些实施例中,本公开的任何实施例的细胞源是来自源自健康组织的细胞。在一些实施例中,本公开的任何实施例案的细胞源是来自健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃,或其组合。
在一些实施例中,本公开的任何实施案的细胞源是源自一种组织类型。在一些实施例中,本公开的任何实施例的细胞源是源自两种或更多种组织类型。在一些实施例中,组织类型包括一或多种细胞类型(例如,健康的非癌细胞及癌细胞的组合)。在一些实施例中,组织类型包括一种细胞类型(例如,癌细胞或健康的非癌细胞中的一者)。
在一些实施例中,本公开的任何实施案的细胞源是构成一种细胞类型、两种细胞类型、三种细胞类型、四种细胞类型、五种细胞类型、六种细胞类型、七种细胞类型、八种细胞类型、九种细胞类型、十种细胞类型,或十种以上的细胞类型。
在一些实施例中,本公开的任何实施任何实施案的细胞源是肝细胞。在一些此种实施例中,细胞源是肝细胞、肝星状脂肪储存细胞(ITO细胞)、枯否细胞(Kupffer cell)、血窦内皮细胞(sinusoidal endothelial cell),或其任何组合。
在一些实施例中,本公开的任何实施例的细胞源是胃细胞。在一些此种实施例中,第一细胞源是壁细胞。
在一些实施例中,本公开的任何实施例的细胞源是一种或多种类型的人类细胞。在一些此种实施例中,细胞源是适应性NK细胞、脂肪细胞、肺泡细胞、阿尔茨海默症第II型星形胶质细胞、无轴突细胞、成釉细胞、星形胶质细胞、B细胞、嗜碱性粒细胞(basophil)、嗜碱性粒细胞活化细胞、嗜碱性粒细胞(basophilia cell)、Betz细胞、双层细胞(bistratified cell)、Boettcher细胞、心肌细胞、CD4+T细胞、成牙骨质细胞(cementoblasts)、小脑颗粒细胞(cerebellar granule cell)、胆管细胞(cholangiocyte)、胆囊细胞(cholecystocyte)、嗜铬细胞(chromaffin cell)、雪茄细胞(cigar cell)、棒状细胞、促肾上腺皮质细胞(orticotropic cell)、细胞毒性T细胞、树突状细胞、肠嗜铬细胞(enterochromaffin cells)、肠嗜铬样细胞(enterochromaffin-likecells)、嗜酸性粒细胞、肾小球系膜外细胞(extraglomerular mesangial cell)、fagot细胞、脂肪垫细胞(faggot cells,fat pad cell)、胃主细胞(gastric chief cell)、杯状细胞(goblet cell)、促性腺细胞(gonadotropic cell)、肝星状细胞(hepatic stellatecell)、肝细胞、高分节中性粒细胞(hypersegmented neutrophil)、肾小球系膜细胞(intraglomerular mesangial cell)、肾小球旁细胞(juxtaglomerular cell)、角质形成细胞(keratinocyte)、肾近端小管刷状缘细胞(kidney proximal tubule brush bordercell)、Kupffer细胞、催乳细胞(lactotropic cell)、间质细胞(s,Leydig cell)、巨噬细胞、致密斑细胞(macula densa cell)、肥大细胞、巨核细胞(megakaryocytes)、黑素细胞(melanocytes)、微皱细胞(microfold cell)、单核细胞、自然杀伤细胞(natural killercell)、自然杀伤T细胞、闪光细胞(glittercell)、中性粒细胞、成骨细胞(osteoblast)、破骨细胞(osteoclast)、骨细胞(osteocyte)、嗜酸细胞(oxyphil cell)(甲状旁腺)(parathyroid)、paneth细胞、滤泡旁细胞(parafollicular cell)、阳伞细胞(parasolcell)、甲状旁腺主细胞(parathyroid chief cells)、壁细胞(parietal cell)、小细胞神经分泌细胞(parvocellular neurosecretory cell)、peg细胞、周细胞(pericyte)、管周肌样细胞(peritubular myoid cell)、血小板、足细胞(podocyte)、调节性T细胞、网织红细胞(reticulocytes)、视网膜双极细胞(retina bipolar cell)、视网膜水平细胞(retinahorizontal cell)、视网膜神经节细胞(retinal ganglion cell)、视网膜前体细胞(retinal precursor cell)、前哨细胞(sentinel cell)、支持细胞(sertoli cell)、生长乳腺细胞(somatomammotrophic cell)、促生长细胞(somatotropic cell)、星状细胞(stellate cell)、支柱细胞(sustentacular cell)、T细胞、T辅助细胞、端粒细胞(telocyte)、腱细胞(tendon cells)、促甲状腺细胞(thyrotropic cell)、移行性B细胞(transitional B cell)、毛细胞(trichocyte)(人类)、簇细胞(tuft cell)、单极刷细胞(unipolar brush cell)、白细胞、泽尔巴伦(zellballen),或其任何组合。在一些此种实施例中,第一细胞源的此种细胞是健康的。在替代实施例中,第一细胞源的此类细胞患有癌症。
在一些实施例中,本公开的任何实施例的细胞源是细胞类型的任何组合,条件是此等细胞类型源自单一器官。在一些此种实施例中,所述单一器官是乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱,或胃。在一些实施例中,此单一器官是健康的。在替代实施例中,此单一器官患有起源于所述单一器官的癌症。在更进一步的替代实施例中,此单一器官患有癌症,所述癌症起源于除了所述单一器官之外的器官,且转移至所述单一器官。
在一些实施例中,本公开的任何实施例的细胞源是细胞类型的任何组合,条件是此等细胞类型源自预定的一组器官。在一些此种实施例中,所述预定的一组器官是在所述组中的任何两个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱,及胃。在一些实施例中,此预定的一组器官是健康的。在替代实施例中,此预定的器官组患有癌症,所述癌症起源于预定的一组器官中的一个器官。在更进一步的替代实施例中,预定器官组患有癌症,所述癌症起源于除了预定的一组器官之外的器官,且转移到预定的一组器官。
在一些实施例中,本公开的任何实施例的细胞源是细胞类型的任何组合,条件是此等细胞类型源自预定的一组器官。在一些此类实施例中,此预定的一组器官是所述组中的任何三个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱,及胃。在一些实施例中,此预定的一组器官是健康的。在替代实施例中,此预定的器官组患有癌症,所述癌症起源于预定的一组器官中的一个器官。在更进一步的替代实施例中,预定器官组患有癌症,所述癌症起源于除了预定的一组器官之外的器官,且转移到预定的一组器官。
在一些实施例中,本公开的任何实施例的细胞源是细胞类型的任何组合,条件是此等细胞类型源自预定的一组器官。此预定的一组器官是所述组中的任何四个器官、五个器官、六个器官或七个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱,及胃。在一些实施例中,此预定的一组器官是健康的。在替代实施例中,此预定的器官组患有癌症,所述癌症起源于预定的一组器官中的一个器官。在更进一步的替代实施例中,预定器官组患有癌症,所述癌症起源于除了预定的一组器官之外的器官,且转移到预定的一组器官。
在一些具体实施例中,本公开的任何实施例的细胞源是白细胞。在一些此种实施例中,细胞源是嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、B淋巴细胞、T淋巴细胞、细胞毒性T细胞、单核细胞,或其任何组合。
结论:
可为本文所描述的组件、操作或结构提供多个实例作为单一实例。最后,各种组件、操作及数据存储之间的边界在某种程度上是任意的,且在特定说明性配置的上下文中说明特定操作。功能的其他分配被设想,且可能落入实施的范围内。通常,在实例配置中呈现为单独组件的结构及功能可实现为组合结构或组件。类似地,作为单一组件呈现的结构及功能可实现为单独的组件。此等及其他变化、修改、添加及改进落入实施的范围内。
亦应当理解,尽管术语第一、第二等以在本文中用于描述各种元件,但是此等元件不应受此等术语的限制。此等术语仅用于区分一元素与另一元素。例如,第一对象可称为第二对象,且类似地,第二对象可称为第一对象,而不脱离本公开的范围。第一受试者及第二受试者二者皆为受试者,但其非为相同的受试者。
本公开中所使用的术语仅出于描述特定实施例的目的,并不旨在限制本发明。如在本发明的描述及所附权利要求中使用的,除非上下文另有明确说明,单数形式“a(一)”、“an(一)”及“所述”旨在亦包括复数形式。亦将理解,如本文中所使用的术语“及/或”是指并涵盖一或多个相关列出的项目的任何及所有可能的组合。将进一步理解的是,当在本说明书中使用时,术语“包括(comprises)”及/或“包括(comprising)”指定所述特征、整数、步骤、操作、元件及/或组件的存在,但不排除存在或添加一或多个其他的特征、整数、步骤、操作、元素、组件及/或它们的组。
如本文中所使用,根据上下文,术语“倘若”可解释为表示“何时”或“在”或“响应于确定”或“响应于检测”。类似地,短语“倘若确定”或“倘若检测到[规定的条件或事件]”可解释为表示“在确定时”或“响应于确定”或“在检测到(规定的条件或事件(”或“响应于检测(所述条件或事件)”,具体取决于上下文。
前述描述包括体现说明性实现的实例系统、方法、技术、指令序列及计算机程式产品。为了解释的目的,阐述许多具体细节,以便提供对本发明主题的各种实施方式的理解。然而,对于本领域技术人员显而易见的是,可在无此等具体细节的情况下实践本发明标的的实现。一般来说,众所周知的指令实例、协议、结构及技术并未详细的显示。
出于解释的目的,以上描述已经参照具体实施方式进行描述。然而,上述说明性讨论并非旨在详尽无遗或将实施方式限制为所公开的精确形式。鉴于上述教导,许多修改及变化都是可能的。选择及描述实施方式是为了最好地解释原理及其实际应用,从而使本领域的其他技术人员能够最好地利用实施方式及具有适合于预期的特定用途的各种修改的各种实施方式。

Claims (69)

1.一种鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的方法,其特征在于:所述方法包括步骤:
(A)获得电子形式的一第一数据集,其中所述第一数据集包括在一第一多个片段中的各自片段的相应片段甲基化模式,其中(i)所述各自片段的相应片段甲基化模式是通过从一第一组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,及其中所述第一多个片段包括超过1000个片段;
(B)获得电子形式的一第二数据集,其中所述第二数据集包括在一第二多个片段中的各自片段的相应片段甲基化模式,其中(i)所述各自片段的相应片段甲基化模式是通过从一第二组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,其中所述第一组受试者中的各个受试者具有所述癌症病状的一第一状态,及所述第二组受试者中的各个受试者具有所述癌症病状的一第二状态,以及其中所述第二多个片段包括超过1000个片段;
(C)使用所述第一数据集为一或多个相应基因组区域产生一或多个第一状态区间图,其中:
在所述一或多个第一状态区间图中的各个第一状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及
在所述一或多个第一状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第一数据集中的第一多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第一数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;
(D)使用所述第二数据集为一或多个相应基因组区域产生一或多个第二状态区间图,其中:
在所述一或多个第二状态区间图中的各个第二状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及
在所述一或多个第二状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第二数据集中的第二多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第二数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;以及
(E)为多个限定甲基化模式扫描所述一或多个第一区间图及所述一或多个第二区间图,其中在所述多个限定甲基化模式中的各个限定甲基化模式:
(i)具有一长度,所述长度是在所述一或多个第一区间图及所述一或多个第二区间图的片段甲基化模式内的一预定的CpG位点数量范围内,
(ii)满足一或多个选择标准,以及
(iii)在一相应初始CpG位点与一相应最终CpG位点之间跨越一相应CpG区间l,
从而鉴定可鉴别或指示一癌症病状的多个限定甲基化模式。
2.根据权利要求1所述的方法,其特征在于:所述一或多个选择标准规定一甲基化模式:
(i)是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值,
(ii)是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足一第一状态深度阈值,以及
(iii)是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足一第二频率阈值。
3.根据权利要求2所述的方法,其特征在于:
(i)当在所述一或多个第一区间图中的甲基化模式的频率超过所述第一频率阈值时,所述甲基化模式是表示在具有一第一频率的所述一或多个第一区间图中,所述第一频率满足一第一频率阈值,
(ii)当在所述一或多个第一区间图中的甲基化模式的覆盖率超过所述第一状态深度阈值时,所述甲基化模式是表示在具有一覆盖率的所述一或多个第一区间图中,所述覆盖率满足所述第一状态深度阈值,及
(iii)当在所述一或多个第二区间图中的甲基化模式的频率低于所述第二频率阈值时,所述甲基化模式是表示在具有一第二频率的所述一或多个第二区间图中,所述第二频率满足所述第二频率阈值。
4.根据权利要求3所述的方法,其特征在于:所述第一频率阈值是0.2,所述第一状态深度阈值是10,以及所述第二频率阈值是0.001。
5.根据权利要求1所述的方法,其特征在于:当表达时,一各自甲基化模式满足所述一或多个选择标准:
Figure FDA0003903892580000041
针对甲基化模式超过3、4、5或6,其中:
第二计数=在所述一或多个第二状态区间图中的各自甲基化模式的一计数,以及
第二状态深度=所述第二数据集在所述一或多个第二状态区间图中由所述各自甲基化模式所表示的基因组的区域中的一覆盖率。
6.根据权利要求1至5中任一项所述的方法,其特征在于:所述方法进一步包括步骤:
(F)训练一分类器,以使用甲基化模式信息来鉴别所述癌症病状的一状态,所述甲基化模式信息与在所述第一数据集与所述第二数据集中的所述多个限定甲基化模式相关联。
7.根据权利要求6所述的方法,其特征在于:所述分类器是逻辑回归。
8.根据权利要求6所述的方法,其特征在于:所述分类器是一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一决策树算法、一多项逻辑回归算法、一线性模型,或一线性回归算法。
9.根据权利要求6至8中任一项所述的方法,其特征在于:所述方法进一步包括步骤:
(G)获得电子形式的一第三数据集,其中所述第三数据集包括在一第三多个片段中的各自片段的相应片段甲基化模式,其中(i)所述各自片段的相应片段甲基化模式是通过从一测试对象中所获得的一生物样本的核酸的甲基化测序而测定,以及(ii)所述各自片段的相应片段甲基化模式包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态;以及
(H)将在所述第三数据集中的第三多个片段中的各个相应片段的片段甲基化模式应用于所述分类器,从而确定在所述测试对象中的癌症病状的状态,所述片段甲基化模式包含或相应于在所述多个限定甲基化模式中的一限定甲基化模式。
10.根据权利要求6至9中任一项所述的方法,其特征在于:所述癌症病状的状态是一肿瘤分数,所述癌症病状的第一状态是一第一范围的肿瘤分数,以及所述癌症病状的第二状态是一第二范围的肿瘤分数。
11.根据权利要求10所述的方法,其特征在于:所述第一范围是大于0.001,及所述第二范围是小于0.001。
12.根据权利要求9所述的方法,其特征在于:所述癌症病状的状态是肿瘤分数;以及
所述(G)的获得及(H)的应用随着时间的推移而不断重复。
13.根据权利要求6至9中任一项所述的方法,其特征在于:所述癌症病状的状态是不存在或存在一癌症。
14.根据权利要求6至9中任一项所述的方法,其特征在于:所述癌症病状的状态是癌症的一个阶段。
15.根据权利要求13或14所述的方法,其特征在于:所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤、白血病,或其组合。
16.根据权利要求9所述的方法,其特征在于:从所述测试对象中所获得的生物样本是一液体生物样本。
17.根据权利要求16所述的方法,其特征在于:所述第三多个片段是细胞游离核酸。
18.根据权利要求1至17中任一项所述的方法,其特征在于:所述第一多个片段及所述第二多个片段是细胞游离核酸。
19.根据权利要求1至18中任一项所述的方法,其特征在于:所述一或多个第一状态区间图是由一单个第一状态区间图所组成;以及所述一或多个第二状态区间图是由一单个第二状态区间图所组成。
20.根据权利要求1至18中任一项所述的方法,其特征在于:所述一或多个第一状态区间图是多个第一状态区间图;所述一或多个第二状态区间图是多个第二状态区间图;所述一或多个相应基因组区域是多个基因组区域;以及在所述多个基因组区域中的各自相应基因组区域是由在所述第一多个区间图中的第一状态区间图及在所述第二多个区间图中的第二状态区间图表示。
21.根据权利要求20所述的方法,其特征在于:所述多个基因组区域是介于10与30之间。
22.根据权利要求20所述的方法,其特征在于:所述多个基因组区域中的各个基因组区域是不同的人类染色体。
23.根据权利要求20所述的方法,其特征在于:所述多个基因组区域是由介于2个与1000个之间的基因组区域、介于500个与5,000个之间的基因组区域、介于1,000个与20,000个之间的基因组区域,或介于5,000个与50,000个之间的基因组区域所组成。
24.根据权利要求20所述的方法,其特征在于:所述(A)的获得及(B)的获得的甲基化测序是使用多个探针进行靶向测序,以及在所述多个基因组区域中的各个基因组区域与所述多个探针中的一个探针相关联。
25.根据权利要求1至24中任一项所述的方法,其特征在于:在所述一或多个第一区间图中的各自区间图的相应独立的多个节点被设置为代表所述一或多个相应基因组区域中的一相应区域的一相应树,以及
在所述各自区间图的相应独立的多个节点中的各自节点代表所述相应基因组区域的一子区域。
26.根据权利要求25所述的方法,其特征在于:各个相应树将所述相应独立的多个节点排列成相应多个树叶,其中在所述相应多个树叶中的各个树叶的父节点引用一或多个子节点,
所述(E)的扫描产生多个查询,
在所述多个查询中的各自相应查询是针对长度为l的不同候选甲基化模式,以及
在所述多个查询中的各自相应查询是用于(i)在一相应树的相应独立的多个节点中的各自节点处与所述各自查询执行一自动匹配,(ii)进一步将所述查询传播至所述各自节点的子节点,以进一步将所述各自查询与所述各自节点的子节点进行自动匹配,以及(iii)将各个自动匹配的结果传送至所述各自节点的父节点。
27.根据权利要求26所述的方法,其特征在于:所述树是具有一随机表面积启发式的k维树的一维版本,其中k是2或更大的正整数。
28.根据权利要求26所述的方法,其特征在于:长度l的各个可能的甲基化模式是由多个查询进行采样。
29.根据权利要求28所述的方法,其特征在于:l是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个CpG位点。
30.根据权利要求1至29中任一项所述的方法,其特征在于:所述CpG位点数量范围是l个连续的CpG位点。
31.根据权利要求30所述的方法,其特征在于:l是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续的CpG位点。
32.根据权利要求1所述的方法,其特征在于:所述预定的CpG数量范围是在一人类参考基因组中2至100个连续的CpG位点。
33.根据权利要求1至32中任一项所述的方法,其特征在于:来自所述第一组受试者中的相应受试者的各自生物样本的甲基化测序会产生十亿或更多、二十亿或更多、三十亿或更多、四十亿或更多、五十亿或更多、六十亿或更多、七十亿或更多、八十亿或更多、九十亿或更多、或一百亿或更多片段,此等片段被评估为包含在所述第一数据集中的甲基化模式。
34.根据权利要求1至32中任一项所述的方法,其特征在于:来自所述第一组受试者中的相应受试者的各自生物样本的甲基化测序会产生少于十亿个片段或少于10,000个片段,此等片段被评估为包含在所述第一数据集中的甲基化模式。
35.根据权利要求1至34中任一项所述的方法,其特征在于:跨越所述一或多个相应基因组区域存在超过10,000个CpG位点、超过25,000个CpG位点、超过50,000个CpG位点,或超过80,000个CpG位点。
36.根据权利要求1至34中任一项所述的方法,其特征在于:跨越所述一或多个相应基因组区域存在少于10,000个CpG位点、少于25,000个CpG位点、少于50,000个CpG位点,或少于80,000个CpG位点。
37.根据权利要求1至36中任一项所述的方法,其特征在于:通过一各自片段的甲基化测序所获得的一相应多个序列读数的平均序列读数长度是介于140与280个核苷酸之间。
38.根据权利要求1至37中任一项所述的方法,其特征在于:在所述一或多个相应基因组区域中的各个基因组区域代表介于500个碱基对与10,000个碱基对之间的一人类基因组参考序列。
39.根据权利要求1至37中任一项所述的方法,其特征在于:在所述一或多个相应基因组区域中的各个基因组区域代表一人类基因组参考序列的介于500个碱基对与2,000个碱基对之间的碱基对。
40.根据权利要求1至37中任一项所述的方法,其特征在于:在所述一或多个相应基因组区域中的各个基因组区域代表一人类基因组参考序列的不同部分。
41.根据权利要求1至40中任一项所述的方法,其特征在于:在所述相应多个CpG位点中的一个CpG位点的甲基化状态为:
当所述CpG位点通过所述甲基化测序而被确定为甲基化时,所述甲基化状态为被甲基化,以及
当所述CpG位点通过所述甲基化测序而被确定为未甲基化时,所述甲基化状态为未甲基化。
42.根据权利要求1至41中任一项所述的方法,其特征在于:所述甲基化测序是(i)全基因组甲基化测序,或(ii)使用多个核酸探针的靶向DNA甲基化测序。
43.根据权利要求1至42中任一项所述的方法,其特征在于:所述甲基化测序检测在各自片段中的一或多个5-甲基胞嘧啶(5mC)及/或5-羟甲基胞嘧啶(5hmC)。
44.根据权利要求1至42中任一项所述的方法,其特征在于:所述甲基化测序包括将一或多个未甲基化的胞嘧啶或一或多个甲基化的胞嘧啶转化为相应的一或多个尿嘧啶。
45.根据权利要求44中任一项所述的方法,其特征在于:在所述甲基化测序期间,所述一或多个尿嘧啶被检测为一或多个相应的胸腺嘧啶。
46.根据权利要求44所述的方法,其特征在于:所述一或多个未甲基化胞嘧啶或所述一或多个甲基化胞嘧啶的转化包括一化学转化、一酶促转化,或其组合。
47.根据权利要求1至46中任一项所述的方法,其特征在于:所述各自生物样本是一血液样本。
48.根据权利要求1至46中任一项所述的方法,其特征在于:所述各自生物样本包括血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液,或腹膜液。
49.根据权利要求1至48中任一项所述的方法,其特征在于:所述预定的CpG位点数量范围是介于5个CpG位点与20个CpG位点之间。
50.根据权利要求1至48中任一项所述的方法,其特征在于:所述预定的CpG位点数量范围是一单个CpG数量。
51.根据权利要求50所述的方法,其特征在于:所述单个CpG数量是l。
52.根据权利要求1所述的方法,其特征在于:所述癌症病状是在一测试对象中的一肿瘤分数,所述第一组受试者是由所述测试对象所组成,所述癌症病状的第一状态是在所述测试对象中的肿瘤分数,所述癌症病状的第二状态是不存在癌症,以及所述第二组癌症受试者是多个未罹患癌症的受试者。
53.根据权利要52所述的方法,其特征在于:所述方法进一步包括步骤:
使用多个限定甲基化模式来测定在所述测试对象中的肿瘤分数。
54.根据权利要求53所述的方法,其特征在于:所述方法进一步包括步骤:根据为所述测试对象测定的肿瘤分数治疗所述测试对象。
55.根据权利要求53所述的方法,其特征在于:所述方法进一步包括步骤:根据为所述测试对象所测定的肿瘤分数调整所述测试对象正在进行的治疗方案。
56.根据权利要求1所述的方法,其特征在于:所述癌症病状的第一状态是一测试对象独有的,所述第一组受试者是由所述测试对象所组成,所述癌症病状的第二状态是不存在癌症,以及所述第二组癌症受试者是多个未罹患癌症的受试者。
57.根据权利要求56所述的方法,其特征在于:所述方法进一步包括步骤:使用多个限定甲基化模式来量化在所述测试对象中的癌症病状的第一状态。
58.根据权利要求57所述的方法,其特征在于:所述方法进一步包括步骤:根据在所述测试对象中的癌症病状的第一状态的量化来治疗所述测试对象。
59.根据权利要求57所述的方法,其特征在于:所述方法进一步包括步骤:根据在所述测试对象中的癌症病状的第一状态的量化来调整所述测试对象正在进行的治疗方案。
60.根据权利要求56所述的方法,其特征在于:所述测试对象罹患肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌、肝癌、肺癌、卵巢癌、胰腺癌、骨盆癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病。
61.根据权利要求1所述的方法,其特征在于:所述癌症病状是不存在或存在一癌症,所述第一组受试者包括一第一多个受试者,所述癌症病状的第一状态是存在所述癌症,所述癌症病状的第二状态是不存在癌症,以及所述第二组癌症受试者是一第二多个癌症受试者。
62.根据权利要求61所述的方法,其特征在于:所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病。
63.根据权利要求1所述的方法,其特征在于:所述癌症病状是一癌症的起源,所述第一组受试者包括一第一多个受试者,所述癌症病状的第一状态是一癌症的第一起源,所述癌症病状的第二状态是一癌症的第二起源,以及所述第二组癌症受试者是一第二多个癌症受试者。
64.根据权利要求63所述的方法,其特征在于:所述第一起源是肾上腺、胆道、膀胱、骨/骨髓、脑、乳房、宫颈、结肠直肠、食道、胃、头/颈、肝胆、肾脏、肝、肺、卵巢、胰腺、骨盆、胸膜、前列腺、肾、皮肤、胃、睾丸、胸腺、甲状腺、子宫、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病中的一者,以及所述第二起源不同于所述第一起源,且所述第二起源是肾上腺、胆道、膀胱、骨/骨髓、脑、乳房、宫颈、结肠直肠、食道、胃、头/颈、肝胆、肾脏、肝、肺、卵巢、胰腺、骨盆、胸膜、前列腺、肾、皮肤、胃、睾丸、胸腺、甲状腺、子宫、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病中的一者。
65.根据权利要求1所述的方法,其特征在于:所述癌症病状是一癌症的一阶段,所述第一组受试者包括一第一多个受试者,所述癌症病状的第一状态是所述第一癌症的第一阶段,所述癌症病状的第二状态是所述第一癌症的第二阶段,以及所述第二组癌症受试者是一第二多个癌症受试者。
66.根据权利要求65所述的方法,其特征在于:所述癌症是肾上腺癌、胆道癌、膀胱癌、骨癌/骨髓癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头/颈癌、肝胆癌、肾脏癌、肝癌、肺癌、卵巢癌、胰腺癌、盆腔癌、胸膜癌、前列腺癌、肾癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌、淋巴瘤、黑色素瘤、多发性骨髓瘤,或白血病,所述第一阶段是所述癌症的阶段I、II、III,或IV,以及
所述第二阶段不同于所述第一阶段,且所述第二阶段是所述癌症的阶段I、II、III,或IV。
67.根据权利要求1至66中任一项所述的方法,其特征在于:所述(A)的获得、所述(B)的获得、所述(C)的产生,及所述(D)的产生是在一计算机系统上执行,所述计算机系统具有一或多个处理器以及存储器,所述存储器存储一或多个程式,以供所述一或多个处理器执行。
68.一种用于鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的计算机系统,其特征在于:所述计算机系统包括:
至少一处理器;以及
一存储器,存储至少一程式,以供所述至少一处理器执行,所述至少一程式包括用于以下的多个指令:
(A)获得电子形式的一第一数据集,其中所述第一数据集包括在一第一多个片段中的各自片段的相应片段甲基化模式,其中所述各自片段的相应片段甲基化模式(i)是通过从一第一组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,及其中所述第一多个片段包括超过1000个片段;
(B)获得电子形式的一第二数据集,其中所述第二数据集包括在一第二多个片段中的各自片段的相应片段甲基化模式,其中所述各自片段的相应片段甲基化模式(i)是通过从一第二组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,其中所述第一组受试者中的各个受试者具有所述癌症病状的一第一状态,及所述第二组受试者中的各个受试者具有所述癌症病状的一第二状态,以及其中所述第二多个片段包括超过1000个片段;
(C)使用所述第一数据集为一或多个相应基因组区域产生一或多个第一状态区间图,其中:
在所述一或多个第一状态区间图中的各个第一状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及
在所述一或多个第一状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第一数据集中的第一多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第一数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;
(D)使用所述第二数据集为一或多个相应基因组区域产生一或多个第二状态区间图,其中:
在所述一或多个第二状态区间图中的各个第二状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及
在所述一或多个第二状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第二数据集的第二多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第二数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;以及
(E)为多个限定甲基化模式扫描所述一或多个第一区间图及所述一或多个第二区间图,其中在所述多个限定甲基化模式中的各个限定甲基化模式:
(i)具有一长度,所述长度是在所述一或多个第一区间图及所述一或多个第二区间图的片段甲基化模式内的一预定的CpG位点数量范围内,
(ii)满足一或多个选择标准,以及
(iii)在一相应初始CpG位点与一相应最终CpG位点之间跨越一相应CpG区间l,
从而鉴定可鉴别或指示一癌症病状的多个限定甲基化模式。
69.一种存储有程式代码指令的非暂时性计算机可读存储介质,当由一处理器执行时,使所述处理器执行用于鉴定可鉴别或指示一癌症病状的多个限定甲基化模式的方法,其特征在于:所述方法包括步骤:
(A)获得电子形式的一第一数据集,其中所述第一数据集包括在一第一多个片段中的各自片段的相应片段甲基化模式,其中所述各自片段的相应片段甲基化模式(i)是通过从一第一组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,及其中所述第一多个片段包括超过1000个片段;
(B)获得电子形式的一第二数据集,其中所述第二数据集包括在一第二多个片段中的各自片段的相应片段甲基化模式,其中所述各自片段的相应片段甲基化模式(i)是通过从一第二组受试者中的一相应受试者所获得的一各自生物样本的核酸的甲基化测序而测定,以及(ii)包括在所述各自片段中的一相应多个CpG位点中的各个CpG位点的甲基化状态,其中所述第一组受试者中的各个受试者具有所述癌症病状的一第一状态,及所述第二组受试者中的各个受试者具有所述癌症病状的一第二状态,以及其中所述第二多个片段包括超过1000个片段;
(C)使用所述第一数据集为一或多个相应基因组区域产生一或多个第一状态区间图,其中:
在所述一或多个第一状态区间图中的各个第一状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及
在所述一或多个第一状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第一数据集中的第一多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第一数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;
(D)使用所述第二数据集为一或多个相应基因组区域产生一或多个第二状态区间图,其中:
在所述一或多个第二状态区间图中的各个第二状态区间图包括一相应独立的多个节点,其中所述相应独立的多个节点包括超过50个节点,以及
在所述一或多个第二状态区间图中的各个相应独立的多个节点中的各自节点的特征在于一相应起始甲基化位点、一相应结束甲基化位点,以及针对跨越在所述各自节点的相应起始甲基化位点与所述相应结束甲基化位点之间的所述第二数据集的第二多个片段中所观察到的各个不同片段甲基化模式,(i)所述不同片段甲基化模式的表征,及(ii)在所述第二数据集中的多个片段的计数,所述多个片段的片段甲基化模式在所述相应起始甲基化位点开始,及在所述相应结束甲基化位点结束,且具有不同片段甲基化模式;以及
(E)为多个限定甲基化模式扫描所述一或多个第一区间图及所述一或多个第二区间图,其中在所述多个限定甲基化模式中的各个限定甲基化模式:
(i)具有一长度,所述长度是在所述一或多个第一区间图及所述一或多个第二区间图的片段甲基化模式内的一预定的CpG位点数量范围内,
(ii)满足一或多个选择标准,以及
(iii)在一相应初始CpG位点与一相应最终CpG位点之间跨越一相应CpG区间l,
从而鉴定可鉴别或指示一癌症病状的多个限定甲基化模式。
CN202180030453.7A 2020-02-28 2021-02-26 鉴定可鉴别或指示癌症病状的甲基化模式 Pending CN115443507A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062983443P 2020-02-28 2020-02-28
US62/983,443 2020-02-28
PCT/US2021/020012 WO2021174072A1 (en) 2020-02-28 2021-02-26 Identifying methylation patterns that discriminate or indicate a cancer condition

Publications (1)

Publication Number Publication Date
CN115443507A true CN115443507A (zh) 2022-12-06

Family

ID=75223401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180030453.7A Pending CN115443507A (zh) 2020-02-28 2021-02-26 鉴定可鉴别或指示癌症病状的甲基化模式

Country Status (7)

Country Link
US (1) US20210292845A1 (zh)
EP (1) EP4111457A1 (zh)
JP (1) JP2023514851A (zh)
CN (1) CN115443507A (zh)
AU (1) AU2021228737A1 (zh)
CA (1) CA3169488A1 (zh)
WO (1) WO2021174072A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007205A1 (zh) * 2022-07-06 2024-01-11 何肇基 评估组织微环境的恶性程度的指标的建立与使用方法及其系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240003888A1 (en) 2022-05-17 2024-01-04 Guardant Health, Inc. Methods for identifying druggable targets and treating cancer

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ706269A (en) * 2012-09-20 2016-08-26 Univ Hong Kong Chinese Non-invasive determination of methylome of fetus or tumor from plasma
WO2018027176A1 (en) * 2016-08-05 2018-02-08 The Broad Institute, Inc. Methods for genome characterization
EP3535415A4 (en) 2016-10-24 2020-07-01 The Chinese University of Hong Kong TUMOR DETECTION METHODS AND SYSTEMS
CA3092998A1 (en) 2018-03-13 2019-09-19 Grail, Inc. Anomalous fragment detection and classification
WO2019178289A1 (en) 2018-03-13 2019-09-19 Grail, Inc. Method and system for selecting, managing, and analyzing data of high dimensionality
GB2587939B (en) 2018-04-02 2023-06-14 Grail Llc Methylation markers and targeted methylation probe panels
CN112218957A (zh) 2018-04-16 2021-01-12 格里尔公司 用于确定在无细胞核酸中的肿瘤分数的系统及方法
AU2019261597A1 (en) * 2018-04-24 2020-11-19 Grail, Llc Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
AU2019351130A1 (en) 2018-09-27 2021-04-08 Grail, Llc Methylation markers and targeted methylation probe panel
WO2020132148A1 (en) 2018-12-18 2020-06-25 Grail, Inc. Systems and methods for estimating cell source fractions using methylation information
PT3914736T (pt) 2019-01-25 2024-03-27 Grail Inc Deteção de cancro, tecido do cancro de origem e/ou um tipo de celula de cancro
US20200340064A1 (en) 2019-04-16 2020-10-29 Grail, Inc. Systems and methods for tumor fraction estimation from small variants

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024007205A1 (zh) * 2022-07-06 2024-01-11 何肇基 评估组织微环境的恶性程度的指标的建立与使用方法及其系统

Also Published As

Publication number Publication date
WO2021174072A1 (en) 2021-09-02
CA3169488A1 (en) 2021-09-02
EP4111457A1 (en) 2023-01-04
AU2021228737A1 (en) 2022-09-22
US20210292845A1 (en) 2021-09-23
JP2023514851A (ja) 2023-04-11

Similar Documents

Publication Publication Date Title
JP7458360B2 (ja) 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法
KR102237923B1 (ko) 암 검출을 위한 혈장 dna의 돌연변이 분석
JP2024019413A (ja) ゲノムワイド統合による循環腫瘍dnaの超音波感受性検出
US20200202224A1 (en) Identification of somatic or germline origin for cell-free dna
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
WO2020132148A9 (en) Systems and methods for estimating cell source fractions using methylation information
CN115443507A (zh) 鉴定可鉴别或指示癌症病状的甲基化模式
US20230140123A1 (en) Systems and methods for classifying and treating homologous repair deficiency cancers
EP4150113A1 (en) Homologous recombination repair deficiency detection
US20210285042A1 (en) Systems and methods for calling variants using methylation sequencing data
US20210125685A1 (en) Methods and systems for analysis of ctcf binding regions in cell-free dna
US20210295948A1 (en) Systems and methods for estimating cell source fractions using methylation information
KR20200044123A (ko) 암 환자에서의 향상된 정밀도를 위한 포괄적 게놈 트랜스크립톰 종양-정상 유전자 패널 분석 (comprehensive genomic transcriptomic tumor-normal gene panel analysis for enhanced precision in patients with cancer)
Tang Allelic Imbalance Detection in Crohn’s Disease Patients
JPWO2021127565A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40085819

Country of ref document: HK