CN109072300B

CN109072300B - 区分复杂生物样品中的甲基化水平

Info

Publication number: CN109072300B
Application number: CN201680082163.6A
Authority: CN
Inventors: J.唐; L.刘; M-J.R.沈; R.张
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2015-12-17
Filing date: 2016-12-15
Publication date: 2023-01-31
Anticipated expiration: 2036-12-15
Also published as: WO2017106481A9; AU2016370835A1; CN115881230A; CN109072300A; EP3390657B1; WO2017106481A1; US11319593B2; EP3390657A1; US20170175205A1; AU2020200571B2; CA3008623A1; EP3798321A1; US20220170113A1; CA3008623C; AU2016370835B2; CA3168463A1; AU2020200571A1

Abstract

本文提供一种用于区分来自第一细胞类型的DNA的异常甲基化水平的方法，其包括以下步骤：(a)提供测试数据集，其包括(i)来自至少一个测试生物体的测试基因组DNA的多个位点的甲基化状态，和(ii)用于检测所述甲基化状态的每个所述位点处的覆盖；(b)提供来自一个或多个参考个体生物体的参考基因组DNA中的所述多个位点的甲基化状态，(c)针对每个所述位点确定所述测试基因组DNA与所述参考基因组DNA之间的甲基化差异，从而提供每个位点的归一化甲基化差异；以及(d)通过每个所述位点处的所述覆盖对每个位点的所述归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数。本文还提供用于使用基因组DNA甲基化水平来从正常细胞区分癌细胞并且根据其起源组织分类不同癌症类型的灵敏方法。

Description

区分复杂生物样品中的甲基化水平

相关申请的交叉引用

本申请要求2016年9月29日提交的美国临时申请序列号62/401,591和2015年12月17日提交的美国临时申请序列号62/268,961的权益，所述申请中的每一个以引用的方式并入本文。

背景技术

本公开涉及确定基因组DNA中的甲基化模式。特定实施方案涉及基于基因组甲基化模式进行的各种病状的预测、诊断、预后和监测。

细胞遗传信息的变化，诸如可影响基因表达和/或蛋白质序列的基因序列的突变，与许多疾病和病状相关联。然而，基因也可能发生影响基因表达的变化；由除了遗传突变以外的机制导致的变化。表观遗传学是研究由除了潜在DNA序列的变化以外的机制导致的基因表达的变化，DNA的甲基化是这些机制中的一种。DNA的甲基化，例如向胞嘧啶嘧啶环的5位置或腺嘌呤嘌呤环的位置第六氮添加甲基是普遍的，并且在调节疾病(诸如多发性硬化症、糖尿病、精神分裂症、衰老和癌症)的发育和分化方面的基因表达中发挥关键作用。在成人体细胞中，DNA甲基化通常发生在发现胞嘧啶核苷酸(C)与鸟嘌呤核苷酸(G)相邻的区域中，其中C和G通过磷酸基团(p)连接，线性构建体被称为“CpG”位点。特定基因区域中(例如，基因启动子区域中)的甲基化可能增加或抑制这些基因的表达。

DNA甲基化是普遍的，并且在调节发育、分化和疾病方面的基因表达中发挥关键作用。基因的特定区域(例如，它们的启动子区域)中的甲基化可能抑制这些基因的表达(Baylin和Herman(2000)DNA hypermethylation in tumorigenesis:epigenetics joinsgenetics.Trends Genet,16,168-174.；Jones和Laird(1999)Cancer epigenetics comesof age.Nat Genet,21,163-167.)。已显示甲基化区域的基因沉默效应通过甲基胞嘧啶结合蛋白与染色质的其他结构化合物的相互作用实现(Razin(1998)CpG methylation,chromatin structure and gene silencing-a three-way connection.Embo J,17,4905-4908.；Yan等人(2001)Role of DNA methylation and histone acetylation in steroidreceptor expression in breast cancer.J Mammary Gland Biol Neoplasia,6,183-192.)，这进而通过组蛋白脱乙酰化和染色质结构变化而使DNA不能触及转录因子(Bestor(1998)Gene silencing.Methylation meets acetylation.Nature,393,311-312.)。印记基因优先地从母本或父本等位基因表达的基因组印记也涉及DNA甲基化。印记的失调已牵涉到若干发育病症(Kumar(2000)Rett and ICF syndromes:methylation moves intomedicine.J Biosci,25,213-214.；Sasaki等人(1993)DNA methylation and genomicimprinting in mammals.Exs,64,469-486.；Zhong等人(1996)A survey of FRAXE allelesizes in three populations.Am J Med Genet,64,415-419.)。以上引用的参考文献以引用的方式并入本文。

在脊椎动物中，DNA甲基化模式在胚胎发育早期建立，并且5-甲基胞嘧啶(5mC)沿着染色体的分布通常在生物体的寿命期间维持(Razin和Cedar(1993)DNA methylationand embryogenesis.Exs,64,343-357.；Reik等人(2001)Epigenetic reprogramming inmammalian development.Science,293,1089-1093，所述文献中的每一个以引用的方式并入本文)。稳定的转录沉默对于正常发育是重要的，并且与若干表观遗传修饰相关联。如果甲基化模式未适当地建立或维持，可能出现各种病症，像智力迟钝、免疫缺陷和散发的或遗传的癌症。

DNA甲基化的变化已被认为是人类瘤形成中最常见的分子改变中的一种。位于肿瘤抑制基因的启动子区域中的CpG位点的过甲基化是癌症中基因失活的常见机制。在肿瘤细胞中观察到基因组DNA的甲基化不足。此外，已针对许多致癌基因报道了甲基化不足与增加的基因表达之间的相关性。监测甲基化模式的整体变化已应用于癌症的分子分类，例如，基因过甲基化与成神经细胞瘤的临床风险组和乳腺癌中响应于他莫昔芬的激素受体状态相关性相关联。

除在癌症检测中发挥重要作用之外，对遗传甲基化模式的适当理解已用于检测其他病状。发现雌性真兽亚纲动物中的失活X染色体的启动和维持取决于甲基化(Goto和Monk(1998)Regulation of X-chromosome inactivation in development in mice andhumans.Microbiol Mol Biol Rev,62,362-378，所述文献以引用的方式并入本文)。Rett综合征(RTT)是由MeCP2基因的突变导致的X连锁显性疾病，所述疾病被X染色体灭活(XCI)模式进一步复杂化。当前的模型预测MeCP2通过结合甲基化的CpG残基并且介导染色质重构来抑制转录(Dragich等人(2000)Rett syndrome:a surprising result of mutation inMECP2.Hum Mol Genet,9,2365-2375，所述文献以引用的方式并入本文)。

若干技术挑战阻碍了将甲基化检测技术发展成稳健且成本高效的筛查工具。例如，当前可用技术的准确性和可承受性可能由于待测试的样品中的杂质而受到影响。因此，经常采用麻烦且昂贵的纯化技术来从背景核酸纯化基因组样品。例如，采用肿瘤活检技术来从健康组织物理地分离肿瘤组织。取决于个体体内组织的深度，活检可能需要令人不适且有风险的采集程序，诸如针活检、内镜检查、支气管镜检查、结肠镜检查或外科手术。血液中循环肿瘤DNA的存在为此类活检技术提供有吸引力的替代方案。然而，循环肿瘤DNA通常以较低的量存在并且存在于相对大量的非肿瘤DNA的背景中。

因此，需要区分经常在来自其他组织的其他基因组材料(例如，循环DNA)的背景中的来自特定感兴趣的组织的复杂基因组样品(例如，肿瘤DNA)中的甲基化模式的方法。本文列出的方法和设备满足此需求并且还提供其他优点。

发明内容

本公开提供一种用于区分来自第一细胞类型的DNA的异常甲基化水平的方法。所述方法可包括以下步骤：(a)提供测试数据集，其包括(i)来自至少一个测试生物体的测试基因组DNA的多个位点的甲基化状态，和(ii)用于检测所述甲基化状态的每个所述位点处的覆盖；(b)提供来自一个或多个参考个体生物体的参考基因组DNA中的所述多个位点的甲基化状态，(c)针对每个所述位点确定所述测试基因组DNA与所述参考基因组DNA之间的甲基化差异，从而提供每个位点的归一化甲基化差异；以及(d)通过每个所述位点处的所述覆盖对每个位点的所述归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数。

还提供一种用于区分含有来自多种不同细胞类型的DNA的样品的DNA的异常甲基化水平的方法，其包括以下步骤：(a)提供含有来自至少一个测试生物体的多种不同细胞类型的基因组DNA的混合物的样品，从而提供测试基因组DNA；(b)检测所述测试基因组DNA中的多个位点的甲基化状态；(c)确定用于检测所述甲基化状态的每个所述位点处的覆盖；(d)提供来自至少一个参考个体的参考基因组DNA中的所述多个位点的甲基化状态，所述至少一个测试生物体和所述参考个体任选地是相同物种；(e)针对每个所述位点确定所述测试基因组DNA与所述参考基因组DNA之间的甲基化差异，从而提供每个位点的归一化甲基化差异；以及(f)通过每个所述位点处的所述覆盖对每个位点的所述归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数。

在具体实施方案中，本公开提供一种用于检测诸如癌症的病状的方法。所述方法可包括以下步骤：(a)提供来自怀疑患有所述病状(例如，癌症)的个体的血液的基因组DNA的混合物，其中所述混合物包含来自所述个体的多种不同细胞类型的基因组DNA，从而提供测试基因组DNA；(b)检测所述测试基因组DNA中的多个位点的甲基化状态；(c)确定用于检测所述甲基化状态的每个所述位点处的覆盖；(d)提供来自至少一个参考个体的参考基因组DNA中的所述多个位点的甲基化状态，所述参考个体已知患有所述病状(例如，癌症)或已知未患有所述病状(例如，癌症)；(e)针对每个所述位点确定所述测试基因组DNA与所述参考基因组DNA之间的甲基化差异，从而提供每个位点的归一化甲基化差异；(f)通过每个所述位点处的所述覆盖对每个位点的所述归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数；以及(g)基于所述合计的覆盖加权的归一化甲基化差异分数来确定所述个体患有或未患有所述病状(例如，癌症)。

本公开还提供一种用于区分来自第一细胞类型的DNA的异常甲基化水平的替代性灵敏方法。所述方法可包括：建立甲基化基线的第一阶段，其包括以下步骤：(a)提供来自两个或更多个正常个体生物体的基线基因组DNA中的多个位点的甲基化状态；以及(b)针对每个所述位点确定所述基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差；确定多个训练样品的合计甲基化分数的第二阶段，其包括以下步骤：(c)提供来自两个或更多个正常个体生物体的正常基因组DNA样品的训练集，其包括(i)正常基因组DNA样品的所述训练集中的多个位点的甲基化状态，和任选地(ii)用于检测所述甲基化状态的每个所述位点处的覆盖；(d)针对每个所述位点确定所述训练集的每个正常基因组DNA样品与所述基线基因组DNA之间的甲基化差异，从而提供每个位点处的所述训练集的每个正常基因组DNA样品的归一化甲基化差异；(e)将每个位点处的所述训练集的每个正常基因组DNA样品的所述归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率，并且任选地对这种事件的所述概率进行加权；(f)确定所述训练集的每个正常基因组DNA样品的合计甲基化分数以获得训练集甲基化分数；以及(g)计算所述训练集甲基化分数的平均甲基化分数和标准偏差；确定给定测试样品的合计甲基化分数的第三阶段，其可在所述第二阶段之前、之后或与所述第二阶段同时实施，包括以下步骤：(h)提供测试数据集，其包括(i)来自至少一个测试生物体的测试基因组DNA的所述多个位点的甲基化状态，和任选地(ii)用于检测所述甲基化状态的每个所述位点处的覆盖；(i)针对每个所述位点确定所述测试基因组DNA与所述基线基因组DNA之间的甲基化差异，从而提供所述测试基因组DNA的归一化甲基化差异；(j)将每个所述位点处的所述测试基因组DNA的所述归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率，并且任选地对这种事件的所述概率进行加权；以及(k)确定所述测试基因组DNA的合计甲基化分数；以及第四阶段，其包括(l)将所述测试基因组DNA的所述甲基化分数与正常基因组DNA的所述训练集中的平均甲基化分数和甲基化分数的标准偏差进行比较，以确定所述测试基因组DNA的所述甲基化分数与正常基因组DNA的所述训练集中的甲基化分数的分布的标准偏差的数目。

还提供一种用于区分含有来自多种不同细胞类型的DNA的样品的DNA的异常甲基化水平的替代的敏感方法。所述方法可包括：建立甲基化基线的第一阶段，其包括以下步骤：(a)提供来自两个或更多个正常个体生物体的基线基因组DNA中的多个位点的甲基化状态；以及(b)针对每个所述位点确定所述基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差；确定多个训练样品的合计甲基化分数的第二阶段，其包括以下步骤：(c)提供来自两个或更多个正常个体生物体的正常基因组DNA样品的训练集，其包括(i)正常基因组DNA样品的所述训练集中的多个位点的甲基化状态，和任选地(ii)用于检测所述甲基化状态的每个所述位点处的覆盖；(d)针对每个所述位点确定所述训练集的每个正常基因组DNA样品与所述基线基因组DNA之间的甲基化差异，从而提供每个位点处的所述训练集的每个正常基因组DNA样品的归一化甲基化差异；(e)将每个位点处的所述训练集的每个正常基因组DNA样品的所述归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率，并且任选地对所述概率进行加权；(f)确定所述训练集的每个正常基因组DNA样品的合计甲基化分数以获得训练集甲基化分数；以及(g)计算所述训练集甲基化分数的平均甲基化分数和标准偏差；确定给定测试样品的合计甲基化分数的第三阶段，其可在所述第二阶段之前、之后或与所述第二阶段同时实施，包括以下步骤：(h)提供来自怀疑患有与异常DNA甲基化水平相关联的病状的测试生物体的基因组DNA的混合物，其中所述混合物包含来自所述测试生物体的多种不同细胞类型的基因组DNA，从而提供测试基因组DNA；(i)检测所述测试基因组DNA中的所述多个位点的甲基化状态，并且任选地确定用于检测所述甲基化状态的每个所述位点的覆盖；(j)针对每个所述位点确定所述测试基因组DNA与所述基线基因组DNA之间的甲基化差异，从而提供所述测试基因组DNA的归一化甲基化差异；(k)将每个所述位点处的所述测试基因组DNA的所述归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率，并且任选地对这种事件的所述概率进行加权；以及(l)确定所述测试基因组DNA的合计甲基化分数；以及第四阶段，其包括(m)将所述测试基因组DNA的所述甲基化分数与正常基因组DNA的所述训练集中的平均甲基化分数和甲基化分数的标准偏差进行比较，以确定所述测试基因组DNA的所述甲基化分数与正常基因组DNA的所述训练集中的甲基化分数的分布的标准偏差的数目。

在具体实施方案中，本公开提供一种用于检测诸如癌症的病状的方法。所述方法可包括：建立甲基化基线的第一阶段，其包括以下步骤：(a)提供来自至少一个正常个体生物体的基线基因组DNA中的多个位点的甲基化状态；以及(b)针对每个所述位点确定所述基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差；确定多个训练样品的合计甲基化分数的第二阶段，其包括以下步骤：(c)提供来自两个或更多个正常个体生物体的正常基因组DNA样品的训练集，其包括(i)正常基因组DNA样品的所述训练集中的多个位点的甲基化状态，和任选地(ii)用于检测所述甲基化状态的每个所述位点处的覆盖；(d)针对每个所述位点确定所述训练集的每个正常基因组DNA样品与所述基线基因组DNA之间的甲基化差异，从而提供每个位点处的所述训练集的每个正常基因组DNA样品的归一化甲基化差异；(e)将每个位点处的所述训练集的每个正常基因组DNA样品的所述归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率，并且任选地对这种事件的所述概率进行加权；(f)确定所述训练集的每个正常基因组DNA样品的甲基化分数以获得训练集甲基化分数；以及(g)计算所述训练集甲基化分数的平均甲基化分数和标准偏差；确定给定测试样品的合计甲基化分数的第三阶段，其可在所述第二阶段之前、之后或与所述第二阶段同时实施，包括以下步骤：(h)提供来自怀疑患有所述病状的测试生物体的基因组DNA的混合物，其中所述混合物包含来自所述测试生物体的多种不同细胞类型的基因组DNA，从而提供测试基因组DNA；(i)检测所述测试基因组DNA中的所述多个位点的甲基化状态，并且任选地确定用于检测所述甲基化状态的每个所述位点处的覆盖；(j)针对每个所述位点确定所述测试基因组DNA与所述基线基因组DNA之间的甲基化差异，从而提供所述测试基因组DNA的归一化甲基化差异；(k)将每个所述位点处的所述测试基因组DNA的所述归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率，并且任选地对这种事件的所述概率进行加权；以及(l)确定所述测试基因组DNA的甲基化分数；以及第四阶段，其包括(m)将所述测试基因组DNA的所述甲基化分数与正常基因组DNA的所述训练集中的平均甲基化分数和甲基化分数的标准偏差进行比较，以确定所述测试基因组DNA的所述甲基化分数与正常基因组DNA的所述训练集中的甲基化分数的分布的标准偏差的数目。

本公开提供一种用于使用甲基化水平来识别或分类测试生物体中的特定癌症类型的方法。所述方法可包括：识别可用作癌症类型的特定癌症的第一阶段，其包括：(a)提供包括来自已知包括特定癌症的临床样品的基因组DNA的多个位点的甲基化状态的数据集；选择过甲基化位点的第二阶段，其包括：(b)识别癌症类型特有的过甲基化位点，所述识别包括(i)确定已知包括所述特定癌症的所述临床样品的所述甲基化DNA中的每个位点的平均甲基化水平，(ii)确定哪些位点满足第一阈值、第二阈值或其组合，其中确定所述第一阈值包括(1)确定每个位点的所述平均甲基化水平的绝对值；(2)从低到高对每个位点的所述平均甲基化水平进行排序，以及(3)选择具有在百分等级上大于或等于第一预选值的平均甲基化水平的那些位点，并且其中确定所述第二阈值包括(1)确定每个位点的所述平均甲基化水平的绝对值；以及(2)选择具有大于第二预选值的平均甲基化水平的那些位点，以及(iii)编译所述癌症类型特有的过甲基化位点的列表；以及(c)针对每种特定癌症重复(a)和(b)，以产生另外的癌症类型特有的过甲基化位点的多个列表；包括分析来自测试生物体的测试基因组DNA样品的第三阶段，其通过以下进行：(d)提供包括来自个体测试生物体的测试基因组DNA的每个过甲基化位点的甲基化水平的测试数据集，其中所述过甲基化位点来自在步骤(b)和(c)中识别的癌症类型特有的过甲基化位点的所述列表中的一个；(e)对所述过甲基化位点中的每一个的甲基化水平进行平均，以产生在步骤(b)和(c)中识别的所述癌症类型的所述测试基因组DNA的单个平均甲基化水平；(f)针对每种癌症类型重复步骤(e)，以产生每种癌症类型的平均甲基化水平；以及(g)从低到高对每种癌症类型的所述平均甲基化水平进行排序，其中对应于最高平均甲基化水平的癌症类型是存在于所述个体测试生物体中的癌症。

附图说明

图1示出用于设计对于具有甲基化位点的基因组的区域的探针的准则。

图2示出靶向循环肿瘤DNA(ctDNA)甲基化测序的工作流。

图3示出在各种滴定水平下针对各种癌症样品如本文所述确定的合计的覆盖加权的归一化甲基化差异(z分数)。

图4示出在各种滴定水平下针对结肠直肠癌样品如本文所述确定的覆盖加权的甲基化分数。

图5示出来自晚期癌症患者的66个样品和来自正常个体的25个样品的甲基化分数，这证明甲基化分数算法从正常样品区分晚期癌症样品的能力。

图6示出图5所示的甲基化分数的制表汇总。

图7示出来自癌症患者的血浆与组织DNA样品之间的甲基化图谱的相关性。

图8示出肿瘤组织样品的癌症类型分类结果，这证明癌症类型分类算法以高度准确性基于DNA甲基化数据识别大多数肿瘤的能力。

图9描绘来自癌症患者的血浆DNA样品的癌症类型分类结果，这显示对于结肠直肠癌和乳腺癌的高临床敏感性。

具体实施方式

当独立地或与其他信息诸如基因型或基因表达模式组合评估时，DNA甲基化数据可提供有价值的信息。本文列出的方法的一个目的是确定此信息，例如与参考样品或数据集相比，基因组中的一个或多个位点在测试样品中是否有差异地甲基化。

具体实施方案可用于使用循环血浆/血清DNA的甲基化分析来检测、筛查、监测(例如，针对复发、缓解或对治疗的应答)、分级、分类(例如，用于帮助选择最适当的治疗形式)以及预测癌症。

已知癌症DNA证明异常DNA甲基化(参见例如，Herman等人2003N Engl J Med 349:2042-2054，所述文献以引用的方式并入本文)。例如，与非癌细胞相比，基因例如肿瘤抑制基因的CpG位点启动子是过甲基化的，而基因体中的CpG位点是甲基化不足的。在本文列出的方法的具体实施方案中，从怀疑患有癌症的个体的血液检测到的甲基化模式指示潜在癌性组织的甲基化状态，使得当与没有癌症的那些健康个体相比时或当与癌症已治愈的那些个体相比时，期待所述模式在患有癌症的个体之间是不同的。

因为异常甲基化在大多数癌症中发生，所以本文所述的方法可应用于检测具有异常甲基化的各种恶性肿瘤中的任一种，例如肺、乳腺、结肠直肠、前列腺、鼻咽、胃、睾丸、皮肤、神经系统、骨、卵巢、肝脏、血液组织、胰腺、子宫、肾、淋巴组织等中的恶性肿瘤。恶性肿瘤可具有各种组织学亚型，例如癌、腺癌、肉瘤、纤维腺癌、神经内分泌的或未分化的。

在具体实施方案中，用于确定甲基化模式的方法可用于监测胎儿的发育(例如，以确定发育异常的存在或不存在)或确定特定疾病或病状的存在。在此类情况下，所述方法可使用从妊娠女性获得的样品(例如血液、组织或羊水)实施，并且所述样品可针对胎儿核酸的甲基化水平进行评估。胎盘组织的DNA甲基化图谱可用于评估妊娠相关或发育相关疾病诸如先兆子痫和宫内生长迟缓的病理生理学。基因组印记中的病症与发育病症诸如普-威综合征(Prader-Willi syndrome)和安格曼综合征(Angelman syndrome)相关联，并且可使用本公开的方法来识别或评估。胎盘和胎儿组织中的基因组印记和整体DNA甲基化的改变图谱已在由辅助生殖技术产生的妊娠中观察到(参见例如，Hiura等人2012Hum Reprod；27:2541-2548，以引用的方式并入本文)并且可使用本文列出的方法来检测。可进行修改以便与本公开的方法一起使用的示例性方法列于美国专利申请公布号2013/0189684 A1或2014/0080715 A1，所述文献中的每一个以引用的方式并入本文。

根据母体血浆确定胎盘或胎儿甲基化模式的能力提供一种确定、检测并监测妊娠相关病状诸如先兆子痫、宫内生长迟缓、早产和其他病状的非侵入性方法。例如，检测疾病特异性异常甲基化特征允许筛查、诊断并监测此类妊娠相关病状。

另外，本文列出的方法获得其他病状的诊断或预后信息。例如，可分析肝脏组织以确定对于肝脏特异性的甲基化模式，所述甲基化模式可用于识别肝脏病变。也可进行分析的其他组织包括脑细胞、骨、肺、心脏、肌肉和肾等。DNA可从血液样品获得并且在本文列出的方法中进行分析以便确定向血液贡献DNA的各种组织中的任一种的状态。

此外，移植器官的甲基化模式可根据器官移植受体的血浆DNA确定。根据血浆的移植物分析可以是根据血浆的移植物基因组分析的协同技术，诸如在以下中列出的技术：Zheng等人2012Clin Chem 58:549-558；Lo等人1998Lancet 351:1329-1330；或Snyder等人2011Proc Natl Acad Sci USA；108:6229-6234，所述文献中的每一个以引用的方式并入本文)。

例如由于发育、衰老、疾病进展(例如，炎症、癌症或肝硬化)或治疗，各种组织的甲基化模式可随时间改变。DNA甲基化的动态性质使得此类分析对于监测生理和病理过程是潜在地非常有价值的。例如，如果检测个体的血浆甲基化模式与当所述个体健康时获得的基线值相比的变化，则可检测贡献血浆DNA的器官中的疾病过程。

除非另有说明，否则本文所用的术语将被理解为具有它们在相关技术中的普通含义。本文所用的若干术语及其含义在以下列出。

如本文所用，在关于DNA使用时，术语“无细胞的”旨在意指已从体内细胞去除的DNA。去除DNA可以是自然过程，诸如坏死或凋亡。无细胞DNA通常从血液或其部分诸如血浆获得。无细胞DNA可从其他体液或组织获得。

如本文所用，术语“细胞类型”旨在基于形态学、表型、发育起源或其他已知的或可辨别的区别性细胞特征来识别细胞。各种不同的细胞类型可从单个生物体(或来自生物体的相同物种)获得。示例性细胞类型包括但不限于膀胱、胰腺上皮细胞、胰腺α、胰腺β、胰腺内皮细胞、骨髓淋巴母细胞、骨髓B淋巴母细胞、骨髓巨噬细胞、骨髓成红细胞、骨髓树突细胞、骨髓脂肪细胞、骨髓骨细胞、骨髓软骨细胞、早幼粒细胞、骨髓成巨核细胞、膀胱、大脑B淋巴细胞、大脑神经胶质、神经元、大脑星形胶质细胞、神经外胚层、大脑巨噬细胞、大脑小神经胶质细胞、大脑上皮细胞、皮质神经元、大脑成纤维细胞、乳房上皮细胞、结肠上皮细胞、结肠B淋巴细胞、乳腺上皮细胞、乳腺肌上皮细胞、乳腺成纤维细胞、结肠上皮细胞、宫颈上皮细胞、卵巢上皮细胞、卵巢成纤维细胞、乳腺管上皮细胞、舌上皮细胞、扁桃体树突细胞、扁桃体B淋巴细胞、外周血淋巴母细胞、外周血T淋巴母细胞、外周血皮肤T淋巴细胞、外周血自然杀伤细胞、外周血B淋巴母细胞、外周血单核细胞、外周血成髓细胞、外周血成单核细胞、外周血早幼粒细胞、外周血巨噬细胞、外周血嗜碱性粒细胞、肝脏内皮细胞、肝脏肥大细胞、肝脏上皮细胞、肝脏B淋巴细胞、脾内皮细胞、脾上皮细胞、脾B淋巴细胞、肝脏肝细胞、肝脏亚历山大细胞(liver Alexander)、肝脏成纤维细胞、肺上皮细胞、支气管上皮细胞、肺成纤维细胞、肺B淋巴细胞、肺雪旺细胞(lung Schwann)、肺鳞状细胞、肺巨噬细胞、肺成骨细胞、神经内分泌细胞、肺泡、胃上皮细胞以及胃成纤维细胞。在一些实施方案中，两个细胞可被认为是相同类型的细胞，尽管所述细胞中的一个已被病状或疾病诸如癌症在表型上或形态学上改变。出于比较的目的，已被疾病或病状改变的第一细胞可基于在被改变之前第一细胞的已知的或怀疑的状态与第二细胞进行比较。例如，癌性胰腺导管上皮细胞可被认为是与非癌性胰腺导管上皮细胞相同类型的细胞。

如本文所用，在关于DNA使用时，术语“循环的”旨在意指现在或之前移动通过生物体的循环系统的DNA，无论是呈无细胞形式或是在循环细胞内。

如本文所用，在关于遗传基因座使用时，术语“覆盖”旨在意指与基因座对齐或“覆盖”基因座的检测事件(例如，序列读取)的数目。在一些实施方案中，所述术语是指与多个基因座对齐或“覆盖”多个基因座的检测事件(例如，序列读取)的平均数目。通常，从测序方法获得的覆盖水平与在特定碱基位置或遗传基因座处确定的调用准确性(例如，核苷酸类型或甲基化状态)的置信度直接相关。在较高的覆盖水平下，基因座被更多数目的对齐序列读取覆盖，所以调用可以较高的置信度进行。

如本文所用，术语“CpG位点”旨在意指核酸分子中的位置或所述分子的序列表示，其中胞嘧啶核苷酸和鸟嘌呤核苷酸发生，胞嘧啶核苷酸的3'氧共价地连接到鸟嘌呤核苷酸的5'磷酸盐。所述核酸通常是DNA。胞嘧啶核苷酸可任选地在嘧啶环的5位置上含有甲基部分、羟甲基部分或氢部分。

如本文所用，当关于DNA使用时，术语“衍生的”旨在是指DNA从其获得的来源或DNA合成的起源。在生物衍生DNA的情况下，所述术语可用于是指DNA从其获得的体内来源或DNA合成的体内起源。示例性起源包括但不限于细胞、细胞类型、组织、组织类型、生物体或生物体的物种。在合成衍生DNA的情况下，所述术语可用于是指DNA从其获得的体外来源或DNA合成的体外起源。然而，衍生自特定来源或起源的DNA分子可随后进行拷贝或扩增。所得的拷贝或扩增子的序列可被称为衍生自所述来源或起源。

如本文所用，在关于项目的集合使用时，术语“每个”旨在识别集合中的个体项目，但不一定是指集合中的每个项目。如果明确的公开或上下文清楚地另外指示，则可出现例外情况。

如本文所用，术语“甲基化差异”旨在意指两个核苷酸或核酸不具有相同甲基化状态的定性或定量标记。甲基化差异可针对在不同核酸上的对齐位置处的核苷酸进行指示。在一些情况下，甲基化差异可以是多个对齐位置的总和或合计。当两个或更多个核酸对齐时，甲基化差异可以是跨一个或多个对齐位置的平均值。

如本文所用，当关于跨具有此基因座的若干分子的基因座(例如，CpG位点或多核苷酸片段)使用时，术语“甲基化状态”是指与甲基部分的存在或不存在相关的基因座的一个或多个特征。此类特征的非限制性实例包括基因座内的任何胞嘧啶(C)碱基是否甲基化、甲基化C碱基的位置、特定基因座处的甲基化C碱基的百分比以及由于例如等位基因的起源的差异而引起的甲基化的等位基因差异。核酸分子中特定CpG位点的甲基化状态的提及涉及胞嘧啶的嘧啶环的5位置处甲基部分的存在或不存在。所述术语可应用于一个或多个胞嘧啶核苷酸(或其表示，例如化学式)或一个或多个核酸分子(或其表示，例如序列表示)。所述术语还可以是指核酸中特定基因座处的甲基化C或非甲基化C的相对或绝对量(例如，浓度)。甲基化状态有时是过甲基化的，并且有时是甲基化不足的。例如，如果基因座内的全部或大部分C碱基被甲基化，则甲基化状态可被称为“过甲基化的”。在另一个实例中，如果基因座内的全部或大部分C碱基未被甲基化，则甲基化状态可被称为“甲基化不足的”。同样，如果与参考相比，基因座内的全部或大部分C碱基被甲基化，则与参考相比，甲基化状态被认为是过甲基化的。可替代地，如果与参考相比，基因座内的全部或大部分C碱基未被甲基化，则与参考相比，甲基化状态被认为是甲基化不足的。

“甲基化位点”是核酸中的甲基化已发生或具有发生的可能性的基因座。甲基化位点有时是区域中的C碱基或多个C碱基，有时甲基化位点是基因座中的CpG位点。基因座中的每个甲基化位点可能被甲基化或可能未被甲基化。由于体内天然存在的事件或由于使核苷酸体外化学地甲基化的事件，甲基化位点可易于受甲基化影响。

如本文所用，在关于两种或更多种组分使用时，术语“混合物”旨在意指两种或更多种组分同时存在于流体或容器中。所述组分通常能够通过扩散或搅动彼此接触。所述组分可以是单独的分子(例如，两个或更多个核酸片段)，或者所述组分可以是单个分子的一部分(例如，长核酸分子上的序列区)。

如本文所用，术语“组织”旨在意指一起作用来在生物体中执行一种或多种特定功能的细胞的集合或聚集。细胞可任选地在形态学上是相似的。示例性组织包括但不限于眼睛、肌肉、皮肤、肌腱、静脉、动脉、血液、心脏、脾、淋巴结、骨、骨髓、肺、支气管、气管、肠、小肠、大肠、结肠、直肠、唾液腺、舌头、胆囊、阑尾、肝脏、胰腺、脑、胃、皮肤、肾、输尿管、膀胱、尿道、性腺、睾丸、卵巢、子宫、输卵管、胸腺、垂体、甲状腺、肾上腺或甲状旁腺。组织可衍生自人体或其他身体的各种器官中的任一种。

根据以上定义可理解以下列出并且在权利要求书中列举的实施方案。

本公开提供一种用于区分来自第一细胞类型的DNA的异常甲基化水平的方法。所述方法可包括以下步骤：(a)提供测试数据集，其包括(i)来自至少一个测试生物体的测试基因组DNA的多个位点(例如，CpG位点)的甲基化状态，和(ii)用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(b)提供来自一个或多个参考个体生物体的参考基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，(c)针对每个位点(例如，CpG位点)确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)的归一化甲基化差异；以及(d)通过每个位点(例如，CpG位点)处的覆盖对每个位点(例如，CpG位点)的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数。任选地，来自测试基因组DNA的位点衍生自来自个体测试生物体的多种不同细胞类型，并且作为另外的选择，每个位点所衍生自的细胞类型是未知的。在另一个任选的实施方案中，个体测试生物体和一个或多个参考个体生物体是相同的物种。

还提供一种用于区分含有来自多种不同细胞类型的DNA的样品的DNA的异常甲基化水平的方法，其包括以下步骤：(a)提供含有来自至少一个测试生物体的多种不同细胞类型的基因组DNA的混合物的样品，从而提供测试基因组DNA；(b)检测测试基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；(c)确定用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(d)提供来自至少一个参考个体的参考基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，所述至少一个测试生物体和所述参考个体任选地是相同物种；(e)针对每个位点(例如，CpG位点)确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)的归一化甲基化差异；以及(f)通过每个位点(例如，CpG位点)处的覆盖对每个位点(例如，CpG位点)的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数。

本发明还提供一种用于区分来自第一细胞类型的DNA的异常甲基化水平的替代性灵敏方法。

此方法的第一阶段涉及建立甲基化基线，其包括以下步骤：(a)提供来自两个或更多个正常个体生物体的基线基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；以及(b)针对每个位点(例如，CpG位点)确定基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差。在一些实施方案中，提供基线基因组DNA的正常个体生物体的数目是至少3个、至少5个、至少10个、至少20个、至少50个、或至少100个。

此方法的第二阶段涉及确定多个训练样品的合计甲基化分数，其包括以下步骤：(c)提供来自两个或更多个正常个体生物体的正常基因组DNA样品的训练集，其包括(i)正常基因组DNA样品的训练集中的多个位点(例如，CpG位点)的甲基化状态，和任选地(ii)用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(d)针对每个位点(例如，CpG位点)确定训练集的每个正常基因组DNA样品与基线基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)处的训练集的每个正常基因组DNA样品的归一化甲基化差异；(e)将每个位点(例如，CpG位点)处的训练集的每个正常基因组DNA样品的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对这种事件的概率进行加权；(f)确定训练集的每个正常基因组DNA样品的合计甲基化分数以获得训练集甲基化分数；以及(g)计算训练集甲基化分数的平均甲基化分数和标准偏差。在一些实施方案中，提供训练集的基因组DNA的正常个体生物体的数目是至少3个、至少5个、至少10个、至少20个、至少50个、或至少100个。

此方法的第三阶段(其可在第二阶段之前、之后或与第二阶段同时实施)涉及确定给定测试样品的合计甲基化分数，其包括以下步骤：(h)提供测试数据集，其包括(i)来自至少一个测试生物体的测试基因组DNA的多个位点(例如，CpG位点)的甲基化状态，和任选地(ii)用于检测甲基化状态的所述位点(例如，CpG位点)处的覆盖；(i)针对每个位点(例如，CpG位点)确定测试基因组DNA与基线基因组DNA之间的甲基化差异，从而提供测试基因组DNA的归一化甲基化差异；(j)将每个位点(例如，CpG位点)处的测试基因组DNA的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对这种事件的概率进行加权；以及(k)确定测试基因组DNA的合计甲基化分数。

此方法的第四阶段涉及以下步骤：(l)将测试基因组DNA的甲基化分数与正常基因组DNA的训练集中的平均甲基化分数和甲基化分数的标准偏差进行比较，以确定测试基因组DNA的甲基化分数与正常基因组DNA的训练集中的甲基化分数的分布的标准偏差的数目。在标准偏差的数目超过预先确定的阈值(例如，2.0、2.5、3.0、3.5、4.0、4.5、5.0等)的事件中，测试样品被认为具有异常DNA甲基化水平。

任选地，来自测试基因组DNA的甲基化位点(例如，CpG位点)衍生自来自个体测试生物体的多种不同细胞类型，并且作为另外的选择，每个位点(例如，CpG位点)所衍生自的细胞类型是未知的。在另一个任选的实施方案中，个体测试生物体和一个或多个基线个体生物体、训练个体生物体或其组合是相同的物种。

还提供一种用于区分含有来自多种不同细胞类型的DNA的样品的DNA的异常甲基化水平的替代的敏感方法。

此方法的第二阶段涉及确定多个训练样品的合计甲基化分数，其包括以下步骤：(c)提供来自两个或更多个正常个体生物体的正常基因组DNA样品的训练集，其包括(i)正常基因组DNA样品的训练集中的多个位点(例如，CpG位点)的甲基化状态，和任选地(ii)用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(d)针对每个位点(例如，CpG位点)确定训练集的每个正常基因组DNA样品与基线基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)处的训练集的每个正常基因组DNA样品的归一化甲基化差异；(e)将每个位点(例如，CpG位点)处的训练集的每个正常基因组DNA样品的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对所述概率进行加权；(f)确定训练集的每个正常基因组DNA样品的合计甲基化分数以获得训练集甲基化分数；以及(g)计算训练集甲基化分数的平均甲基化分数和标准偏差。在一些实施方案中，提供训练集的基因组DNA的正常个体生物体的数目是至少3个、至少5个、至少10个、至少20个、至少50个、或至少100个。

此方法的第三阶段(其可在第二阶段之前、之后或与第二阶段同时实施)涉及确定给定测试样品的合计甲基化分数，其包括以下步骤：(h)提供来自怀疑患有与异常DNA甲基化水平相关联的病状(例如，癌症)的测试生物体的基因组DNA的混合物，其中所述混合物包含来自测试生物体的多种不同细胞类型的基因组DNA，从而提供测试基因组DNA；(i)检测测试基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，并且任选地确定用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(j)针对每个位点(例如，CpG位点)确定测试基因组DNA与基线基因组DNA之间的甲基化差异，从而提供测试基因组DNA的归一化甲基化差异；(k)将每个位点(例如，CpG位点)处的测试基因组DNA的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对这种事件的概率进行加权；以及(l)确定测试基因组DNA的合计甲基化分数。

此方法的第四阶段涉及以下步骤：(m)将测试基因组DNA的甲基化分数与正常基因组DNA的训练集中的平均甲基化分数和甲基化分数的标准偏差进行比较，以确定测试基因组DNA的甲基化分数与正常基因组DNA的训练集中的甲基化分数的分布的标准偏差的数目。在标准偏差的数目超过预先确定的阈值(例如，1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0等)的事件中，测试样品被认为具有异常DNA甲基化水平。

本文列出的方法可针对各种测试生物体中的任一种来实施。示例性生物体包括但不限于真核(单细胞或多细胞)生物体。示例性真核生物体包括哺乳动物诸如啮齿类动物、小鼠、大鼠、兔、豚鼠、有蹄类动物、马、羊、猪、山羊、牛、猫、狗、灵长类动物、人类或非人类灵长类动物；植物诸如拟南芥(Arabidopsis thaliana)、玉米(玉米(Zea mays))、高粱、燕麦(水稻(Oryza sativa))、小麦、大米、油菜、或大豆；藻类诸如莱茵衣藻(Chlamvdomonasreinhardtii)；线虫诸如秀丽隐杆线虫(Caenorhabditis elegans)；昆虫诸如黑尾果蝇(Drosophila melanogaster)、蚊、果蝇、蜜蜂或蜘蛛；鱼诸如斑马鱼(斑马鱼(Daniorerio))；爬行动物：两栖动物诸如蛙或非洲蟾蜍(Xenopus laevis)；盘基网柄菌(Dictyostelium discoideum)；真菌诸如卡氏肺囊虫(Pneumocystis carinii)、红鳍东方鲀(Takifugu rubripes)、酵母诸如酿酒酵母(Saccharamoyces cerevisiae)或粟酒裂殖酵母(Schizosaccharomyces pombe)；或恶性疟原虫(Plasmodium falciparum)。本公开的方法还可用于评估生物体中的甲基化，所述生物体诸如原核生物，其实例包括细菌、大肠杆菌(Escherichia coli)、葡萄球菌(Staphylococci)或肺炎支原体(Mycoplasmapneumoniae)；古细菌；病毒，其实例包括丙型肝炎病毒或人类免疫缺陷病毒；或类病毒。

当应用于多细胞生物体时，本文列出的方法的具体实施方案可提供优点，因为所述方法提供确定在衍生自其他细胞或组织的核酸的背景中的衍生自特定细胞或组织的基因组DNA的甲基化状态。因此，本文列出的方法对于哺乳动物诸如人类可以是特别有用的。在一些情况下，所述方法可在含有来自若干不同细胞类型或组织类型的核酸混合物的样品上实施，诸如从多细胞生物体的血液或其他生物流体获得的样品。此外，本文列出的方法可有利地用于评估从妊娠雌性哺乳动物(诸如妊娠雌性人类)的体细胞获得的基因组DNA的甲基化状态和/或从由雌性所怀的一个或多个产前后代的体细胞获得的基因组DNA的甲基化状态。

在一些实施方案中，所述方法可针对来自混合物生物体环境(例如，宏基因组样品)(诸如生态学样品(例如，池塘、海洋、散热口等)或消化系统样品(例如，口、肠、结肠等))的若干不同细胞类型的基因组DNA的混合物来实施。因此，所述方法可针对其中个体物种不是分离的或培养的混合生物体样品来实施。

如从本文列出的若干示例性实施方案显而易见的是，来自在本公开的方法中评估的测试基因组DNA的CpG位点可任选地衍生自来自个体测试生物体的多种不同细胞类型。作为另一个选择，每个所述CpG位点所衍生自的细胞类型不需要是已知的。当用于所述方法的样品衍生自血液或另一种生物液体或宏基因组样品时，经常是这种情况。

在具体实施方案中，用于本文列出的方法的测试样品可包含循环肿瘤DNA和循环非肿瘤DNA。当测试样品包含从例如来自已知或怀疑患有癌症的个体的血液获得的DNA时，可以是这种情况。

本文列出的方法的具体实施方案可使用来自个体测试生物体的测试基因组DNA的多个位点的甲基化状态来实施。在一些情况下，向实施所述方法的个体或系统提供所述数据。可替代地，所述方法的实施方案可包括用于检测测试基因组中的多个位点的甲基化状态的一个或多个步骤。

位点(诸如CpG二核苷酸序列)的甲基化可使用分析此类位点的领域中使用的各种技术中的任一种来测量。例如，甲基化可通过采用基于限制酶的技术来测量，所述技术利用甲基化敏感型限制性核酸内切酶来在甲基化胞嘧啶与非甲基化胞嘧啶之间进行区别。基于限制酶的技术包括例如用甲基化敏感型限制酶进行限制性消化，接着进行核酸测序(例如，大规模平行测序或下一代测序)、Southern印迹分析、实时PCR、限制性标记基因组扫描(RLGS)或差异甲基化杂交(DMH)。

在识别特定序列或识别长度通常在4至8个碱基之间的基序时和/或之后，限制酶特征性地水解DNA。在此类酶中，甲基化敏感型限制酶通过以下事实来区分：根据识别基序中存在的、具体地CpG序列的胞嘧啶甲基化状态，它们使DNA裂解或不能使DNA裂解。在采用此类甲基化敏感型限制酶的方法中，消化的DNA片段可有差异地分离(例如，基于大小或对互补探针的杂交亲和力)、有差异地扩增(例如，基于对扩增引物的亲和力)、或有差异地检测(例如，通过微阵列检测技术或核酸测序技术)，使得可因此推导所述序列的甲基化状态。

在采用甲基化敏感型限制酶的一些实施方案中，添加消化后PCR扩增步骤，其中使用一组两个寡核苷酸引物(甲基化敏感型限制位点的每一侧上各一个)来扩增消化的基因组DNA。产生PCR产物并且检测不受限制的模板(例如，由于甲基化限制位点的存在)，而在对向的甲基化敏感型限制酶位点的消化发生时不产生PCR产物。用于基因组甲基化的基于限制酶的分析的技术在本领域中是熟知的，并且包括以下：差异甲基化杂交(DMH)(Huang等人,1999,Human Mol.Genet.8,459-70)；基于非I的差异甲基化杂交(例如，WO02/086163Al)；限制性标记基因组扫描(RLGS)(Plass等人,1999,Genomics 58:254-62)；甲基化敏感型任意引物PCR(AP-PCR)(Gonzalgo等人,1997,Cancer Res.57:594-599)；甲基化CpG位点扩增(MCA)(Toyota等人,1999,Cancer Res.59:2307-2312)。用于检测基因组甲基化的其他可用的方法例如描述于美国专利申请公布2003/0170684 A1或WO 04/05122。以上引用的参考文献以引用的方式并入本文。

CpG二核苷酸序列的甲基化还可通过以下来测量：采用基于胞嘧啶转化的技术，所述技术依赖于分离的基因组DNA或其片段内的CpG序列的甲基化状态依赖性化学修饰，接着进行DNA序列分析。能够在甲基化与非甲基化CpG二核苷酸序列之间进行区分的化学试剂包括使核酸裂解的肼和亚硫酸氢盐。亚硫酸氢盐处理、接着进行碱水解特异性地将非甲基化胞嘧啶转化为尿嘧啶，不对5-甲基胞嘧啶进行修饰，如以下描述的：Olek A.,1996,NucleicAcids Res.24:5064-6或Frommer等人,1992,Proc.Natl.Acad.Sci.USA 89:1827-1831，所述文献中的每一个以引用的方式并入本文。亚硫酸氢盐处理的DNA随后可通过分子技术进行分析，诸如PCR扩增、测序和包括寡核苷酸杂交的检测(例如，使用核酸微阵列)。

用于分析亚硫酸氢盐处理的DNA的技术可采用甲基化敏感型引物以用于分析分离的基因组DNA的CpG甲基化状态，例如，如以下描述的：Herman等人,1996,Proc.Natl.Acad.Sci.USA 93:9821-9826或美国专利号5,786,146或6,265,171，所述文献中的每一个以引用的方式并入本文。甲基化敏感型PCR(MSP)允许检测例如基因的调节区内的特定甲基化的CpG位置。对感兴趣的DNA进行处理，使得甲基化和非甲基化的胞嘧啶例如通过亚硫酸氢盐处理以通过其杂交行为可辨别的方式有差异地进行修饰。在PCR扩增中使用对DNA的甲基化和非甲基化状态中的每一个特异性的PCR引物。然后检测扩增反应的产物，从而允许推导基因组DNA内的CpG位置的甲基化状态。用于分析亚硫酸氢盐处理的DNA的其他方法包括甲基化敏感型单核苷酸引物延伸(Ms-SNuPE)(参见例如，Gonzalgo和Jones,1997；Nucleic Acids Res.25:2529-2531或美国专利6,251,594，所述文献中的每一个以引用的方式并入本文)，或使用基于实时PCR的方法，诸如本领域公认的基于荧光的实时PCR技术MethyLight^TM(参见例如，Eads等人,1999；Cancer Res.59:2302-2306,美国专利号6,331,393或Heid等人,1996,Genome Res.6:986-994，所述文献中的每一个以引用的方式并入本文)。应理解，各种甲基化测定方法可用于确定特定基因组CpG位置的甲基化状态。采用亚硫酸氢盐转化的方法包括例如亚硫酸氢盐测序、甲基化特异性PCR、甲基化敏感型单核苷酸引物延伸(Ms-SnuPE)、MALDI质谱和甲基化特异性寡核苷酸阵列，例如，如描述于美国专利号7,611,869或国际专利申请WO2004/051224，所述文献中的每一个以引用的方式并入本文。

在具体实施方案中，样品中的基因组CpG位置的甲基化可使用探针的阵列进行检测。在此类实施方案中，多个不同的探针分子可连接到底物或以其他方式在阵列中在空间上进行区分。可在本发明中使用的示例性阵列包括但不限于载玻片阵列、硅晶片阵列、液体阵列、基于珠的阵列以及本领域已知的或在本文中另外详细列出的其他阵列。在优选的实施方案中，本发明的方法可使用组合小型化阵列平台、高水平的测定多重复用以及用于样品处理和数据处理的可扩展自动化的阵列技术来实践。特别有用的阵列描述于美国专利号6,355,431；6,429,027；6,890,741；6,913,884或7,582,420；或美国专利申请公布号2002/0102578 A1；2005/0053980 A1；2005/0181440 A1；或2009/0186349 A1，所述文献中的每一个以引用的方式并入本文。可用的阵列的其他实例包括描述于以下中的那些：美国专利号6,023,540、6,200,737或6,327,410；或PCT公布号WO9840726、WO9918434或WO9850782，所述文献中的每一个以引用的方式并入本文。

本发明中使用的阵列的复杂性可根据探针组成和阵列的所需用途而变化。例如，在阵列中检测到的核酸(或CpG位点)的复杂度可以是至少10、100、1,000、10,000、0.1百万、1百万、10百万、100百万或更多。可替代地或另外，所述复杂度可选择成不多于100百万、10百万、1百万、0.1百万、10,000、1,000、100或更少。当然，复杂度可以在下限值中的一个与选自以上范围的上限值中的一个之间。相似的复杂度范围可使用核酸测序方法来实现，诸如本领域已知的那些方法，如下一代测序或大规模平行测序。

可使用用于检测甲基化的各种可商购获得的基于珠的产品，包括例如MethylationEPIC^TM BeadChip^TM(Illumina公司,San Diego,CA)，其允许在单核苷酸分辨率下定量地询问跨人类基因组超过850,000个甲基化位点。也可用的是从Agilent(SantaClara,CA)和核酸阵列的其他商业供应商可获得的甲基化微阵列。阵列产品可针对检测人类基因组或其他基因组中的多种多样的甲基化位点进行定制。

在本文列出的技术中获得或生成的一个或多个核酸的检测可采用测序程序，诸如边合成边测序(SBS)技术或本领域已知的其他技术，如大规模测序或下一代测序。简而言之，SBS可通过将靶核酸与一个或多个标记的核苷酸、DNA聚合酶等接触来启动。靶核酸可衍生自甲基化检测技术，诸如亚硫酸氢盐转化或用甲基敏感型限制性核酸内切酶进行的限制。其中使用靶核酸作为模板来延伸引物的那些特征将并入可被检测的标记的核苷酸。任选地，标记的核苷酸还可包括可逆终止特性，一旦将核苷酸添加到引物，所述可逆终止特性终止进一步的引物延伸。例如，可将具有可逆终止子部分的核苷酸类似物添加到引物，使得随后的延伸不可发生，直至递送去封闭剂以去除所述部分为止。因此，对于使用可逆终止的实施方案，可将去封闭剂递送到流动池(在检测发生之前或之后)。洗涤可在各个递送步骤之间实施。然后所述循环可重复n次以使引物延伸n个核苷酸，从而检测长度n的序列。可易于适用于本公开的方法的示例性SBS程序、流体系统和检测平台例如描述于Bentley等人,Nature 456:53-59(2008),WO 04/018497；WO 91/06678；WO 07/123744；美国专利号7,057,026；7,329,492；7,211,414；7,315,019或7,405,281，或美国专利申请公布号2008/0108082A1，所述文献中的每一个以引用的方式并入本文。

可使用平行检测大量核酸的其他测序程序，诸如焦磷酸测序。当特定核苷酸并入到新生核酸链中时，焦磷酸测序检测无机焦磷酸盐(PPi)的释放(Ronaghi,等人,Analytical Biochemistry 242(1),84-9(1996)；Ronaghi,GenomeRes.11(1),3-11(2001)；Ronaghi等人Science 281(5375),363(1998)；或美国专利号6,210,891；6,258,568或6,274,320，所述文献中的每一个以引用的方式并入本文)。边连接边测序反应也是可用的，包括例如描述于以下中的那些：Shendure等人Science 309:1728-1732(2005)；或美国专利号5,599,675或5,750,341，所述文献中的每一个以引用的方式并入本文。一些实施方案可包括边测序边杂交程序，如例如描述于Bains等人,Journal of Theoretical Biology 135(3),303-7(1988)；Drmanac等人,Nature Biotechnology 16,54-58(1998)；Fodor等人,Science 251(4995),767-773(1995)；或WO 1989/10977，所述文献中的每一个以引用的方式并入本文。可使用采用荧光共振能量转移(FRET)和/或零模波导的技术，诸如描述于以下中的那些：Levene等人Science 299,682–686(2003)；Lundquist等人Opt.Lett.33,1026–1028(2008)；或Korlach等人Proc.Natl.Acad.Sci.USA 105,1176–1181(2008)，所述文献的公开内容以引用的方式并入本文。也可用的是采用检测在将核苷酸并入到延伸产物中时释放的质子的测序技术，诸如可从Ion Torrent(Guilford,CT,Life Technologies子公司)商购获得或描述于以下中的那些：美国专利申请公布号2009/0026082 A1；2009/0127589 A1；2010/0137143 A1；或2010/0282617 A1，所述文献中的每一个以引用的方式并入本文。

可采用的特别有用的测序平台包括可从Illumina公司(San Diego,CA)商购获得的那些，诸如核酸测序仪的MiSeq^TM、NextSeq^TM或HiSeq^TM系列；可从Roche Life Sciences(Basel,Switzerland)商购获得的454测序系统；可从Life Technologies(Thermo FisherScientific(Waltham,MA)的子公司)获得的Ion Torrent测序系统；或可从OxfordNanopore(Oxford,England)商购获得的纳米孔测序系统。TruSeq^TM DNA甲基化试剂盒可从Illumina公司获得，并且可用于产生可在Illumina测序仪上检测的亚硫酸氢盐测序文库。用于制备用于在来自Illumina或其他供应商的测序平台上检测甲基化的核酸样品的可用的商业产品包括例如可从Thermo Fisher Scientific(Waltham,MA)获得的甲基化分析样品制备产品、Accel-

甲基化测序DNA文库试剂盒(Swift Biosciences,Ann Arbor,MI)、可从NewEngland BioLabs(Beverley,MA)获得的

甲基化DNA富集试剂盒、可从Zymoresearch(Irvine,CA)获得的Pico Methyl-Seq^TM文库制备试剂盒、或可从EpiGentek(Farmingdale,NY)获得的Methylamp^TM通用甲基化DNA制备试剂盒。

具体实施方案可包括操纵核酸样品以富集所需的核酸的步骤。例如，提供用于本文列出的方法的样品可经受包含预先确定的靶CpG位点的集的基因组DNA片段的子集的靶向选择。靶向选择可在用亚硫酸氢盐、甲基敏感型核酸内切酶或用于从非甲基化位点区分甲基化位点的其他试剂处理核酸之前或之后发生。可用的靶向选择技术在以下实施例I中列出。

本文列出的方法的具体实施方案将评估和/或使用针对甲基化状态已被确定或将被确定的每个位点确定的覆盖。在一些情况下，向实施所述方法的个体或系统提供覆盖数据。可替代地，所述方法的实施方案可包括用于确定每个位点处的覆盖的一个或多个步骤。

对于通过测序技术检测甲基化状态的实施方案，覆盖可被认为描述与特定位点(例如，CpG位点)对齐或“覆盖”所述特定位点的测序读取的平均数目。下一代测序覆盖水平经常决定特定序列或位点是否可以一定置信度来表征。在较高的覆盖水平下，每个位点被更多数目的对齐序列读取覆盖，所以表征可以较高的置信度进行。用于确定覆盖的可用的指导由以下提供：Illumina技术说明“Estimating Sequencing Coverage”公布号770-2011-022(2014年12月1日)，所述文献以引用的方式并入本文。除下一代测序技术以外，相似的覆盖准则可应用于其他检测技术。

本发明的具体实施方案可使用在每个位点处至少10x、30x、50x、100x、1,000x、5,000x、10,000x或更多的覆盖。可替代地或另外，覆盖可以是至多10,000x、5,000x、1,000x、100x、50x、30x、10x或更小。鉴于所评估的位点的数目和所述方法中使用的DNA的量，可基于确定甲基化模式所需的置信度来选择覆盖。

随着所评估的位点的数目增加，位点表征的置信度也将增加。这意味着较低的覆盖可以是可接受的。在具体实施方案中，所评估的位点的数目可以是至少10个位点、100个位点、500个位点、1x 10³个位点、5x 10³个位点、1x 10⁴个位点、1x 10⁵个位点、1x 10⁶个位点或更多。可替代地或另外，所评估的位点的数目可以是至多1x 10⁶个位点、1x 10⁵个位点、1x10⁴个位点、1x 10³个位点、100个位点或10个位点。

本文列出的方法中使用的DNA的量将取决于若干因素，诸如所使用的样品和对于样品实施的分析步骤。典型的血液抽取将提供30ng的循环DNA。然而，可通过改变抽取的血液的体积、通过使用不同类型的样品(诸如本文其他地方示例的那些)和/或通过利用具有较高或较低产率的样品提取技术来提供较大或较小量的DNA。因此，本发明的方法可使用至少3ng、10ng、30ng、50ng、100ng、500ng或更多的DNA的量来实施。可替代地或另外，DNA的量可以是至多500ng、100ng、50ng、30ng、10ng或3ng。

此外，在一些实施方案中，用于评估甲基化状态的方法中使用的DNA是在来自其他细胞或组织的DNA(例如，非肿瘤DNA)的背景中的来自靶细胞或组织的DNA的混合物。来自靶组织或细胞的DNA百分比可以是至多90％、50％、25％、10％、1％、0.1％、0.01％或更低。可替代地或另外，来自靶组织或细胞的DNA百分比可以是至少0.01％、0.1％、1％、10％、25％、50％、90％或更高。

DNA量、覆盖、位点的数目和来自靶细胞或组织的DNA百分比的以上参数可例如在以上示例的范围内进行调整，以适应在本文列出的方法中表征核酸的甲基化状态的所需置信度水平。

本文列出的方法的具体实施方案包括提供来自一个或多个参考个体生物体的参考基因组DNA中的多个位点的甲基化状态的步骤。任选地，方法可包括用于检测来自一个或多个参考个体生物体的参考基因组DNA中的多个位点的甲基化状态的一个或多个步骤。在一方面，参考基因组DNA可包括例如基线样品。本文列出的用于确定测试DNA的甲基化状态的方法中的任一种可用于确定参考DNA的甲基化状态。

本公开的方法中使用的参考基因组DNA(诸如基线样品)可来自与测试生物体是相同物种的一个或多个生物体。例如，当测试生物体是个体人类时，参考基因组DNA可来自不同的人类个体。在一些实施方案中，参考基因组DNA来自提供测试基因组DNA材料的同一个体。例如，测试DNA可来自怀疑患有特定病状的组织，而参考DNA来自已知未患有所述病状的组织。在具体实施方案中，测试DNA可来自从个体获得的肿瘤样品，而参考DNA来自从同一个体获得的正常组织。组织或细胞类型可以是相同的，但是事实上，组织或细胞类型中的一个患有另一个组织或细胞类型未患有的病状。可替代地，不同组织或细胞类型可从个体获得，所述组织或细胞类型中的一个提供测试DNA，并且另一个组织或细胞类型提供参考DNA。参考基因组DNA可从宏基因组样品(例如，环境或群落样品)获得，例如以用于与测试宏基因组样品进行比较。

测试DNA可在与参考DNA(诸如基线样品)衍生自一个或多个测试生物体不同的时间处衍生自所述一个或多个测试生物体。例如，参考DNA样品可在怀疑疾病或病状存在之前的时间处从个体获得，并且然后测试DNA样品可在怀疑个体患有疾病或病状之后的时间处从所述个体获得。在此类实施方案中，测试DNA和参考DNA可从相似的组织、群落或细胞类型或者从不同的组织、群落或细胞类型获得。

在一个实施方案中，本公开的方法可包括针对多个位点(例如，CpG位点)确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)的归一化甲基化差异的步骤。在具体实施方案中，根据以下公式确定特定位点(例如，CpG位点)处的归一化甲基化差异(也称为z分数)

其中Z_i表示识别为i的特定位点的归一化甲基化差异，χ_i表示在测试基因组DNA中的位点i处的甲基化水平，μ_i表示在参考基因组中的位点i处的平均甲基化水平，并且σ_i表示在参考基因组DNA中的位点i处的甲基化水平的标准偏差。用于确定甲基化差异的公式的使用在以下实施例I中示例。

本公开的方法还可包括通过每个位点(例如，CpG位点)处的覆盖对每个位点(例如，CpG位点)的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数的步骤。在具体实施方案中，根据以下公式确定合计的覆盖加权的归一化甲基化差异分数(表示为A)

其中w_i表示在位点i处的覆盖，并且k表示位点的总数目。用于确定合计的覆盖加权的归一化甲基化差异分数的公式的使用在以下实施例I中示例。

在具体实施方案中，本文列出的方法可用于识别测试生物体的甲基化状态的变化或监测随时间的此类变化。因此，本公开提供一种方法，其包括以下步骤：(a)提供测试数据集，其包括(i)来自至少一个测试生物体的测试基因组DNA的多个位点的甲基化状态，和(ii)用于检测甲基化状态的每个位点处的覆盖；(b)提供来自一个或多个参考个体生物体的参考基因组DNA中的多个位点的甲基化状态，(c)针对每个位点确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点的归一化甲基化差异；(d)通过每个位点处的覆盖对每个位点的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数以及(e)使用第二测试数据集并且使用来自至少一个参考个体的相同参考基因组DNA重复步骤(a)至(d)，所述第二测试数据集包括(i)来自个体测试生物体的第二测试基因组DNA的多个位点的甲基化状态，和(ii)用于检测甲基化状态的每个位点处的覆盖，以及(f)确定所述测试基因组DNA与第二测试基因组DNA之间的合计的覆盖加权的归一化甲基化差异分数是否发生变化。

还提供一种方法，其包括以下步骤：(a)提供含有来自至少一个测试生物体的多种不同细胞类型的基因组DNA的混合物的样品，从而提供测试基因组DNA；(b)检测测试基因组DNA中的多个位点的甲基化状态；(c)确定用于检测甲基化状态的每个位点处的覆盖；(d)提供来自至少一个参考个体的参考基因组DNA中的多个位点的甲基化状态，所述至少一个测试生物体和所述参考个体任选地是相同物种；(e)针对每个位点确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点的归一化甲基化差异；(f)通过每个位点处的覆盖对每个位点的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数；(g)使用从包含来自至少一个测试生物体的多种不同细胞类型的基因组DNA的混合物的样品提供的第二测试基因组DNA并且使用来自至少一个参考个体的相同参考基因组DNA重复步骤(a)至(f)，以及(h)确定所述测试基因组DNA与第二测试基因组DNA之间的合计的覆盖加权的归一化甲基化差异分数是否发生变化。

在另一个实施方案中，改进所述方法以将在正常群体内的合计的DNA甲基化中观察到的变化考虑在内。测试基因组DNA不直接与参考基因组DNA进行比较；相反，插入针对参考基因组DNA(在此实施方案中被称为基线样品)评估正常基因组DNA样品的训练集以评定正常群体内的合计的DNA甲基化的变化的中间步骤。这涉及计算正常基因组DNA样品的训练集的每个成员的“甲基化分数”，以及确定训练集群体的甲基化分数的平均值和标准偏差，从而产生关于正常群体中的甲基化分数的分布的信息。在一些实施方案中，提供训练集的基因组DNA的正常个体生物体的数目是至少3个、至少5个、至少10个、至少20个、至少50个、或至少100个。

在此实施方案中，所述方法可包括针对每个CpG位点i确定针对参考基因组DNA的群体观察到的平均甲基化水平(μ_i)和甲基化水平的标准偏差(σ_i)的第一步骤。在此，参考或基线基因组DNA采取正常基因组DNA样品的群体的形式。然后可将所选基因组DNA与基线DNA群体进行比较以评估甲基化水平的变化。更具体地，可将所选基因组DNA中的每个位点i(例如，CpG位点)处的甲基化水平与基线样品的群体平均值μ_i进行比较，以生成所选基因组DNA的甲基化分数。在一个实施方案中，所选基因组DNA是训练对照的集，并且在另一个实施方案中，所选基因组DNA是测试基因组DNA。甲基化水平可通过常规的且技术人员已知的方法来确定。例如，甲基化水平可计算为在亚硫酸氢盐处理之后在‘C’+‘U’碱基中在靶CpG位点处的‘C’碱基的分数，或在亚硫酸氢盐处理和随后的核酸扩增之后在总‘C’+‘T’碱基中在靶CpG位点处的‘C’碱基的分数，如本文所述的。

所选基因组DNA的甲基化分数(MS)可通过以下计算：参考基线样品的集确定特定位点i(例如，CpG位点)处的归一化甲基化差异(z分数)，将每个位点的z分数转化为观察到这种或更大的z分数的概率(例如，单侧p值)，并且将p值组合成最终的合计甲基化分数。任选地，对p值进行加权。在本文中并且立即在以下详细描述这些步骤中的每一个。

针对正常基因组DNA样品的训练集初始地确定甲基化分数。首先，根据以下公式确定特定位点i(例如，CpG位点)处的归一化甲基化差异(z分数)

其中Z_i表示识别为i的特定位点的归一化甲基化差异，χ_i表示在正常基因组DNA的训练集的成员中的位点i处的甲基化水平，μ_i表示在基线样品中的位点i处的平均甲基化水平，并且σ_i表示在基线样品中的位点i处的甲基化水平的标准偏差。

然后将每个CpG位点i的z分数(Z_i)转化为观察到这种或更大的z分数的概率。在一方面，所述概率通过将z分数转化为单侧p值(p_i)来计算。可计算呈正态分布、t分布或二项分布的概率。用于此类计算的统计工具对于技术人员是熟知的且可易于获得的。

接下来，根据Fisher公式，通过组合p值来确定甲基化分数(MS)，即观察到的归一化甲基化差异的概率的合计：

其中p_i表示在位点i处的单侧p值，并且k表示位点的总数目。针对正常基因组DNA的训练集的每个成员计算甲基化分数。

任选地，每个CpG位点处的p值可通过将每个CpG位点i处的p值(p_i)与加权因数w_i相乘来加权，其中w_i可对应于从先验知识、与位点相关联的覆盖的深度或任何其他排序方法获得的CpG位点的显著性。在这方面，根据Fisher公式，通过组合加权p值来确定甲基化分数(表示为MS)：

其中p_i表示在位点i处的单侧p值，k表示位点的总数目，并且w_i表示位点i的显著性，例如覆盖。用于确定正常基因组DNA样品的训练集的加权甲基化分数的此公式的使用在实施例III中示出。

然后执行训练集甲基化分数的统计分析。计算正常基因组DNA的训练集的平均甲基化分数(μ_MS)和甲基化分数的标准偏差(σ_MS)。这表征正常群体中的甲基化分数的分布，并且可用于确定测试基因组样品的基因组DNA是否具有异常甲基化水平。

然后参考基线样品(如针对训练集的成员以上所述的)确定测试基因组DNA的甲基化分数(MS)，并且与针对正常基因组DNA的训练集确定的甲基化分数的分布进行比较。

如结合训练集以上所述的，首先根据以下公式确定特定位点i(例如，CpG位点)处的归一化甲基化差异(z分数)

其中Z_i表示识别为i的特定位点的归一化甲基化差异，χ_i表示在测试基因组DNA中的位点i处的甲基化水平，μ_i表示在基线样品中的位点i处的平均甲基化水平，并且σ_i表示在基线样品中的位点i处的甲基化水平的标准偏差。

然后将每个CpG位点i的z分数(Z_i)转化为观察到这种或更大的z分数的概率。在一方面，所述概率通过将z分数转化为单侧p值(p_i)来计算。可计算呈正态分布、t分布或二项分布的概率。根据Fisher公式，通过组合p值来确定测试基因组DNA的甲基化分数(MS)：

其中p_i表示在位点i处的单侧p值，并且k表示位点的总数目。

任选地，每个CpG位点处的p值可通过将每个CpG位点i处的p值(p_i)与权数w_i相乘来加权，其中w_i可对应于从先验知识、与位点相关联的覆盖的深度或任何其他排序方法获得的CpG位点的显著性。根据Fisher公式，通过组合加权p值来确定测试基因组DNA的甲基化分数(MS)：

其中p_i表示在位点i处的单侧p值，k表示位点的总数目，并且w_i表示位点i的显著性，例如覆盖。用于确定测试基因组DNA样品的加权甲基化分数的此公式的使用在实施例II和III中示出。

最后，针对由正常基因组DNA的训练集的平均甲基化分数(μ_MS)和甲基化分数的标准偏差(σ_MS)表示的针对训练集群体确定的甲基化分数的分布评估测试基因组DNA的甲基化分数。根据以下公式确定测试基因组DNA的甲基化分数与正常基因组DNA的训练集的甲基化分数平均值(μ_MS)的标准偏差的数目

其中Z_MS表示归一化甲基化分数差异，MS表示测试样品的甲基化分数，μ_MS表示正常基因组DNA的训练集的平均甲基化分数，并且σ_MS表示正常基因组DNA的训练集的甲基化分数的标准偏差。用于确定归一化甲基化分数差异的此公式的使用在实施例III中示出。大于1.5、大于2、大于2.5、或大于3标准偏差的Z_MS值指示测试基因组DNA具有异常DNA甲基化水平。在优选的实施方案中，大于3标准偏差的Z_MS值用作测试基因组DNA具有异常DNA甲基化水平的指示。

在另一个实施方案中，本文列出的方法可用于识别测试生物体的甲基化状态的变化或监测随时间的此类变化。因此，本公开提供一种方法，其包括以下步骤：(a)提供来自两个或更多个正常个体生物体的基线基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；(b)针对每个位点(例如，CpG位点)确定基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差；(c)提供测试数据集，其包括(i)来自至少一个测试生物体的第一测试基因组DNA的多个位点(例如，CpG位点)的甲基化状态，和任选地(ii)用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(d)针对每个位点(例如，CpG位点)确定第一测试基因组DNA与基线基因组DNA之间的甲基化差异，从而提供第一测试基因组DNA的归一化甲基化差异；(e)将在每个位点(例如，CpG位点)处的第一测试基因组DNA的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对这种事件的概率进行加权；(f)确定第一测试基因组DNA的甲基化分数；(g)使用从包含来自至少一个测试生物体的多种不同细胞类型的基因组DNA的混合物的样品提供的第二测试基因组DNA并且使用相同的基线基因组DNA重复步骤(c)至(f)；以及(h)确定第一测试基因组DNA与第二测试基因组DNA之间的甲基化分数是否发生变化。

监测随时间的DNA甲基化的变化的可替代的方法包括以下步骤：(a)提供来自两个或更多个正常个体生物体的基线基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；(b)针对每个位点(例如，CpG位点)确定基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差；(c)提供来自怀疑患有与异常DNA甲基化水平相关联的病状(例如，癌症)的测试生物体的基因组DNA的混合物，其中所述混合物包含来自测试生物体的多种不同细胞类型的基因组DNA，从而提供第一测试基因组DNA；(d)检测第一测试基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，并且任选地确定用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(e)针对每个位点(例如，CpG位点)确定第一测试基因组DNA与基线基因组DNA之间的甲基化差异，从而提供第一测试基因组DNA的归一化甲基化差异；(f)将在每个位点(例如，CpG位点)处的第一测试基因组DNA的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对这种事件的概率进行加权；(g)确定第一测试基因组DNA的甲基化分数；(h)使用从包含来自至少一个测试生物体的多种不同细胞类型的基因组DNA的混合物的样品提供的第二测试基因组DNA并且使用相同的基线基因组DNA重复步骤(c)至(g)；以及(i)确定第一测试基因组DNA与第二测试基因组DNA之间的甲基化分数是否发生变化。

在本文列出的方法中进行比较的第一和第二测试基因组DNA样品(或测试数据集)可衍生自相同类型的细胞、群落、组织或流体，但是在不同时间点处衍生。因此，本文列出的方法可用于识别或监测随时间发生的变化。在一些实施方案中，不同时间点可在特定处理之前、过程中和/或之后发生。例如，在监测或预测癌症的情况下，样品可在开始治疗(诸如外科手术、化疗或放疗)之前和之后从个体获得。此外，多个样品可在治疗过程中在不同时间点处获得。例如，样品可在整个外科手术中在时间点处获得并评估(例如，评估周围是否已清除癌性组织)或者在整个化疗或放疗过程中在不同时间点处获得并评估。不同样品可从个体获得并且在治疗之后进行测试，例如以便测试复发和缓解。

在另一个实例中，肠宏基因组样品可在处理(例如，针对消化病症)之前和之后获得。可评估并比较样品的甲基化状态以识别由于治疗引起的肠的细菌菌群的变化。所述变化进而可用于监测治疗并且确定所治疗的个体的预后。

本文列出的或本领域已知的含有肿瘤DNA的各种样品类型中的任一种可在用于识别或监测个体的甲基化状态变化的方法中使用。观察到的变化可提供关于患有特定病状(诸如癌症)的个体的诊断、预后或筛查的基础。

本文列出的方法还可用于筛查或测试例如在实验细胞培养物、组织或生物体中的候选治疗。因此，本文列出的方法可用于识别或监测在临床或实验室环境中测试的细胞培养物、组织或生物体中随时间发生的变化。在一些实施方案中，不同时间点可在特定候选处理之前、过程中和/或之后发生。例如，样品可在开始候选治疗(诸如外科手术、化疗或放疗)之前和之后从测试生物体获得。此外，多个样品可在候选治疗过程中在不同时间点处获得。例如，样品可在整个外科手术中在时间点处获得并评估(例如，评估周围是否已清除癌性组织)或者在整个候选化疗或放疗过程中在不同时间点处获得并评估。不同样品可从测试生物体获得并且在候选治疗之后进行测试，例如以便评估复发和缓解。未经受候选治疗和/或未患有特定病状的对照生物体也可使用相似的方法进行测试。经受候选治疗的样品与对照之间的结果比较可用于确定特定候选治疗的功效和/或安全性

本文列出的或本领域已知的含有肿瘤DNA的各种样品类型中的任一种可在用于识别或筛查候选治疗的方法中使用。无论是否与特定对照进行比较，变化均可用于评估特定候选治疗的功效和/或安全性。

在具体实施方案中，本公开提供一种用于检测诸如癌症的病状的方法。所述方法可包括以下步骤：(a)提供来自怀疑患有所述病状(例如，癌症)的个体的基因组DNA的混合物，其中所述混合物包含来自所述个体的多种不同细胞类型的基因组DNA，从而提供测试基因组DNA；(b)检测测试基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；(c)确定用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(d)提供来自至少一个参考个体的参考基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，所述参考个体已知患有所述病状(例如，癌症)或已知未患有所述病状(例如，癌症)；(e)针对每个位点(例如，CpG位点)确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)的归一化甲基化差异；(f)通过每个位点(例如，CpG位点)处的覆盖对每个位点(例如，CpG位点)的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数；以及(g)基于合计的覆盖加权的归一化甲基化差异分数来确定所述个体患有或未患有所述病状(例如，癌症)。在一些实施方案中，样品是血液，并且DNA可例如包括来自血液的无细胞DNA。

还提供一种用于识别诸如癌症的病状的变化的方法。所述方法可包括以下步骤：(a)提供来自怀疑患有所述病状(例如，癌症)的个体的基因组DNA的混合物，其中所述混合物包含来自所述个体的多种不同细胞类型的基因组DNA，从而提供测试基因组DNA；(b)检测测试基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；(c)确定用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(d)提供来自至少一个参考个体的参考基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，所述参考个体已知患有所述病状(例如，癌症)或已知未患有所述病状(例如，癌症)；(e)针对每个位点(例如，CpG位点)确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)的归一化甲基化差异；(f)通过每个位点(例如，CpG位点)处的覆盖对每个位点(例如，CpG位点)的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数；以及(g)使用来自怀疑患有所述病状(例如，癌症)的个体的基因组DNA的第二混合物并且使用来自至少一个参考个体的相同参考基因组DNA重复步骤(a)至(f)，以及(h)确定与所述测试基因组DNA相比，第二测试基因组DNA的合计的覆盖加权的归一化甲基化差异分数是否发生变化，从而基于合计的覆盖加权的归一化甲基化差异分数确定所述病状(例如，癌症)已发生或未发生变化。

在具体实施方案中，本公开提供一种用于检测诸如癌症的病状的方法。所述方法可包括以下步骤：(a)提供来自至少一个正常个体生物体的基线基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；(b)针对每个位点(例如，CpG位点)确定基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差；(c)提供来自两个或更多个正常个体生物体的正常基因组DNA样品的训练集，其包括(i)正常基因组DNA样品的训练集中的多个位点(例如，CpG位点)的甲基化状态，和任选地(ii)用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(d)针对每个位点(例如，CpG位点)确定训练集的每个正常基因组DNA样品与基线基因组DNA之间的甲基化差异，从而提供每个位点(例如，CpG位点)处的训练集的每个正常基因组DNA样品的归一化甲基化差异；(e)将每个位点(例如，CpG位点)处的训练集的每个正常基因组DNA样品的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率，并且任选地对这种事件的概率进行加权；(f)确定训练集的每个正常基因组DNA样品的甲基化分数以获得训练集甲基化分数；(g)计算训练集甲基化分数的平均甲基化分数和标准偏差；(h)提供来自怀疑患有所述病状(例如，癌症)的测试生物体的基因组DNA的混合物，其中所述混合物包含来自测试生物体的多种不同细胞类型的基因组DNA，从而提供测试基因组DNA；(i)检测测试基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，并且任选地确定用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(j)针对每个位点(例如，CpG位点)确定测试基因组DNA与基线基因组DNA之间的甲基化差异，从而提供测试基因组DNA的归一化甲基化差异；(k)将每个位点(例如，CpG位点)处的测试基因组DNA的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对这种事件的概率进行加权；(l)确定测试基因组DNA的甲基化分数；以及(m)将测试基因组DNA的甲基化分数与正常基因组DNA的训练集中的平均甲基化分数和甲基化分数的标准偏差进行比较，以确定测试基因组DNA的甲基化分数与正常基因组DNA的训练集中的甲基化分数的分布的标准偏差的数目。在标准偏差的数目超过预先确定的阈值(例如，1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0等)的事件中，测试样品被认为具有异常DNA甲基化水平。

任选地，来自测试基因组DNA的位点衍生自来自个体测试生物体的多种不同细胞类型，并且作为另外的选择，每个位点(例如，CpG位点)所衍生自的细胞类型是未知的。在另一个任选的实施方案中，个体测试生物体和一个或多个基线个体生物体、训练个体生物体或其组合是相同的物种。在一些实施方案中，来自怀疑患有所述病状的个体的基因组DNA的混合物是血液，并且DNA可例如包括来自血液的无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)。

本文还提供一种用于识别诸如癌症的病状随时间的变化的方法。所述方法可包括以下步骤：(a)提供来自至少一个正常个体生物体的基线基因组DNA中的多个位点(例如，CpG位点)的甲基化状态；(b)针对每个位点(例如，CpG位点)确定基线基因组DNA的平均甲基化水平和甲基化水平的标准偏差；(c)提供来自怀疑患有所述病状(例如，癌症)的测试生物体的基因组DNA的第一混合物，其中所述第一混合物包含来自测试生物体的多种不同细胞类型的基因组DNA，从而提供第一测试基因组DNA；(d)检测第一测试基因组DNA中的多个位点(例如，CpG位点)的甲基化状态，并且任选地确定用于检测甲基化状态的每个位点(例如，CpG位点)处的覆盖；(e)针对每个位点(例如，CpG位点)确定第一测试基因组DNA与基线基因组DNA之间的甲基化差异，从而提供第一测试基因组DNA的归一化甲基化差异；(f)将在每个位点(例如，CpG位点)处的第一测试基因组DNA的归一化甲基化差异转化为观察到这种或更大的归一化甲基化差异的概率(例如，单侧p值)，并且任选地对这种事件的概率进行加权；(g)确定第一测试基因组DNA的甲基化分数；(h)使用来自怀疑患有所述病状(例如，癌症)的测试生物体的基因组DNA的第二混合物重复步骤(c)至(g)，其中所述第二混合物包含第二测试基因组DNA，以及(i)确定与第一测试基因组DNA相比，第二测试基因组DNA的甲基化分数是否发生变化，从而基于甲基化分数的变化确定所述病状(例如，癌症)已发生或未发生变化。

使用本文列出的方法确定的甲基化状态可用于使用针对基因表达和其他基因组数据发展的准则进行的分子分类和癌症预测(参见例如，Golub等人(1999)Molecularclassification of cancer:class discovery and class prediction by geneexpression monitoring.Science,286,531-537.)。可使用的其他分类系统包括针对甲基化模式的相关整体变化发展来在乳腺癌中进行分子分类的那些(参见例如，Huang等人(1999)Methylation profiling of CpG sites in human breast cancer cells.Hum MolGenet,8,459-470)或针对某些人类癌症类型中的肿瘤抑制基因(例如，p16，一种周期素依赖性激酶抑制剂)的相关甲基化模式发展的那些(参见例如，Herman等人(1995)Inactivation of the CDKN2/p16/MTS1gene is frequently associated with aberrantDNA methylation in all common human cancers.CancerRes,55,4525-4530.；Otterson等人(1995)CDKN2gene silencing in lung cancer by DNA hypermethylation andkinetics of p16INK4protein induction by 5-aza 2'deoxycytidine.Oncogene,11,1211-1216.)。以上参考文献以引用的方式并入本文。

在本文列出的甲基化分析方法的一些应用中，可发展模型来预测疾病类型而没有先前的病理学诊断。因此，在一些实施方案中，本文列出的方法用于确定相对于来自同一患者的匹配的正常组织的分阶段肿瘤样品的甲基化模式。肿瘤与正常组织之间甲基化模式的确定差异可用于建立预测、诊断或监测癌症的模型。例如，可将针对测试样品确定的甲基化模式与来自已知的正常和/或来自已知的肿瘤的甲基化模式进行比较，并且可基于测试样品与这些参考中的一个或两个的相似度程度来进行诊断。

另外，本文列出的方法可有利于肿瘤的识别、分类和预后评估。这些信息进而可用于识别具有相关特性的肿瘤的亚组。这种分类可用于确定识别各种癌症类型的病因和预测其临床行为。

在本发明的方法的具体实施方案中，从癌症患者的无细胞DNA预测、检测、识别、分类或监测癌症。例如，确定来自血浆样品的甲基化模式可用于筛查癌症。当血浆样品的甲基化模式与健康参考相比异常时，可怀疑出现癌症。然后可通过确定不同基因组基因座处的甲基化的血浆图谱或通过血浆基因组分析来检测肿瘤相关拷贝数畸变、染色体易位和单核苷酸变体来执行癌症类型或癌症的组织起源的进一步确认和评定。可替代地，放射和成像调查(例如，计算机断层扫描、磁共振成像、正电子发射断层扫描)或内镜检查(例如，上胃肠道内镜检查或结肠镜检查)可用于基于血浆甲基化水平分析进一步调查怀疑患有癌症的个体。

在本发明的一方面，本文提供一种用于使用甲基化水平来识别或分类测试生物体、优选地哺乳动物生物体、更优选地人类中的特定癌症类型的方法。在此方面，针对与已知癌症类型相关联的预选甲基化位点(本文中被称为“过甲基化”位点)的子集，评估测试基因组DNA的甲基化水平，并且然后从低到高进行排序。对应于最高平均甲基化水平的癌症类型被认为与测试基因组DNA相关联，即所述癌症类型被认为存在于测试生物体中。

作为起始点，所述方法可包括识别可用作根据本发明的此方面的识别或分类算法中的癌症类型的特定癌症。癌症类型是可用作特定癌症组的成员以确定测试生物体是否具有特定癌症类型的癌症，例如乳腺浸润性癌、结肠腺癌、肺腺癌等。

确定癌症是否可用作本发明的方法中的癌症类型包括从临床样品获得基因组DNA序列数据。可用于本文的基因组DNA序列数据可易于从表征不同癌症类型中的基因组和表观基因组变化(诸如甲基化状态的变化)的已知数据库获得。数据库中的癌症的临床样品的数目越大，所述癌症越可能可被用作癌症类型。适于本发明的方法的癌症类型可使用来自特定癌症的至少10个、至少15个、至少20个、至少25个、至少30个、至少40个、至少50个、至少75个、或至少100个临床样品的基因组DNA序列数据来定义。

一旦合适的癌症类型组被定义，就组合对于每种癌症类型特异性的所谓的“过甲基化”位点的列表。在一些实施方案中，可针对甲基化状态进行评估的可用的甲基化位点包括在表I(所列的甲基化位点来自基因组构建37)中列出的和/或在表II(所列的甲基化位点来自基因组构建37)中列出的泛癌症组的所选的CpG位点。在其他实施方案中，除其他之外，可针对甲基化状态进行评估的可用的甲基化位点包括癌症基因组图谱(参见例如，癌症基因组图谱研究网络等人,Nature Genetics 45:1113-1120(2013))中存在的那些位点、描述于Worthley等人,Oncogene 29,1653–1662(2010)的用于识别或监测结肠直肠癌的CpG位点、以及列出于美国专利申请公布号2008/0166728A1的用于检测卵巢癌的甲基化标记物。全部引用的文献以引用的方式整体并入本文。本文列出的或列于本文的参考文献中的位点的全部或子集可用于本文列出的识别或分类方法。例如，至少100个、1x 10³个、1x 10⁴个、1x10⁵个、1x 10⁶个或更多个甲基化位点可用作起始点。在一些实施方案中，整个甲基化组(即，测试生物体的基因组中的全套甲基化位点)可用于选择适于本发明的方法的过甲基化位点。

表I：泛癌症组

表II：CRC组

根据本发明的方法的过甲基化位点的选择如下定义。对于数据库(例如，癌症基因组图谱)中的特定癌症类型的每个临床样品，针对来自如前一段落所述的位点的起始集的每个甲基化位点i确定甲基化水平。例如，针对来自癌症基因组图谱中的结肠腺癌样品的集的每个临床样品，确定表I和表II所列的每个CpG位点处的甲基化状态，并且如本申请中其他地方所述计算每个位点i处的平均甲基化水平。在一些实施方案中，所述甲基化水平可确定为在亚硫酸氢盐处理之后在靶CpG位点i处的‘C’+‘U’总碱基中的‘C’碱基的分数。在其他实施方案中，所述甲基化水平可确定为在亚硫酸氢盐处理和随后的核酸扩增之后在位点i处的‘C’+‘T’总碱基中的‘C’碱基的分数。然后评估每个位点处的平均甲基化水平，以便确定是否满足一个或多个阈值。在一些实施方案中，阈值选择对于特定癌症类型具有最高排序的平均甲基化值的那些位点。例如，阈值可以是跨针对特定癌症类型(例如，结肠腺癌)测试的所有位点i具有平均甲基化水平的前50％、前40％、前30％、前20％、前10％、前5％、前4％、前3％、前2％、或前1％的平均甲基化水平的那些位点。可替代地，阈值可以是具有在百分等级上大于或等于50、60、70、80、90、95、96、97、98或99的平均甲基化水平的那些位点。在其他实施方案中，阈值可基于平均甲基化水平的绝对值。例如，阈值可以是具有大于99％、大于98％、大于97％、大于96％、大于95％、大于90％、大于80％、大于70％、大于60％、大于50％、大于40％、大于30％、大于20％、大于10％、大于9％、大于8％、大于7％、大于6％、大于5％、大于4％、大于3％或大于2％的平均甲基化水平的那些位点。相对阈值和绝对阈值可单独地或组合地应用于每个位点i处的平均甲基化水平。作为组合阈值应用的说明，可选择在通过平均甲基化水平测试的所有位点的前3％中并且还具有大于6％的绝对平均甲基化水平的位点的子集。此选择过程的结果是被认为对于此癌症类型最具有信息性的特定过甲基化位点(例如，CpG位点)的多个列表，每个列表针对每种癌症类型。然后这些列表用于识别或分类来自测试生物体的测试基因组DNA样品，即，确定测试生物体是否具有特定癌症类型。

在本发明的方法的下一个步骤中，通过确定在每种癌症类型的过甲基化位点的列表上的每个位点i处的甲基化水平来分析来自测试生物体的测试基因组DNA样品，并且然后对每个位点的这些甲基化水平进行平均以计算每种癌症类型的跨过甲基化位点的平均甲基化水平。例如，对于结肠腺癌的每个过甲基化位点i，确定结肠腺癌的过甲基化位点的列表上的每个位点i处的甲基化水平，并且然后对这些甲基化水平进行平均以提供单个平均甲基化水平。使用每种癌症类型的过甲基化位点的先前定义的列表和平均甲基化水平的集中的结果来重复此过程，每个对应于不同的癌症类型。然后从低到高对平均甲基化水平进行排序。对应于最高平均甲基化水平的癌症类型被认为与测试基因组DNA相关联，即所述癌症类型被认为存在于测试生物体中。应理解，归一化甲基化差异或z分数也可代替每个CpG位点处的甲基化水平用于本发明的方法中。

对于癌症筛查或检测，确定血浆(或其他生物学)样品的甲基化水平可与用于癌症筛查或检测的其他形式结合使用，诸如前列腺特异性抗原测量(例如，用于前列腺癌)、癌胚抗原(例如，用于结肠直肠癌、胃癌、胰腺癌、肺癌、乳腺癌、甲状腺髓样癌)、甲胎蛋白(例如，用于肝癌或生殖细胞肿瘤)、以及CA19-9(例如，用于胰腺癌)。

可在本文列出的方法中进行检测以例如评估癌症的可用的甲基化位点包括在癌症基因组图谱(参见例如，癌症基因组图谱研究网络等人,Nature Genetics 45:1113-1120(2013))中存在的那些或表I(所列的甲基化位点来自基因组构建37)中列出的泛癌症组的所选的CpG位点。可用于例如识别或监测结肠直肠癌的CpG位点的另外的实例描述于Worthley等人Oncogene 29,1653–1662(2010)或列出于表II(所列的甲基化位点来自基因组构建37)。用于检测卵巢癌的可用的甲基化标记物列出于美国专利申请公布号2008/0166728A1，所述文献以引用的方式并入本文。本文列出的和/或列于以上参考文献中的标记物的全部或子集可用于本文列出的方法。例如，可使用至少10个、25个、50个、100个、1x10³个、1x 10⁴个或更多个标记物。

衍生自本文列出的方法的甲基化、预后或诊断信息的分析可使用各种计算机执行的算法和程序方便地进行。因此，某些实施方案采用涉及存储在一个或多个计算机系统或其他处理系统中或通过所述系统传递的数据的处理。本发明的实施方案还涉及用于执行这些操作的设备。此设备可专门地被构造用于所要求的目的，或者它可以是由存储在计算机中的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中，一组处理器执行协同地(例如，通过网络或云计算)和/或平行地执行列举的分析操作中的一些或全部。用于执行本文所述的方法的处理器或一组处理器可以是各种类型，包括微控制器和微处理器诸如可编程装置(例如，CPLD和FPGA)和非可编程装置诸如门阵列ASIC或通用微处理器。

另外，某些实施方案涉及有形的和/或非暂时性的计算机可读介质或计算机程序产品，其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的实例包括但不限于半导体存储器装置、磁介质诸如盘驱动器、磁带、光介质诸如CD、磁光介质以及专门被配置来存储并执行程序指令的硬件装置，诸如只读存储器装置(ROM)和随机访问存储器(RAM)。计算机可读介质可直接地由终端用户控制，或者所述介质可间接地由终端用户控制。直接受控介质的实例包括位于用户设施处的介质和/或不与其他实体共享的介质。间接受控介质的实例包括通过外部网络和/或通过提供共享资源的服务(诸如“云”)可间接地被用户访问的介质。特别有用的云是被配置并管理来存储和分析遗传数据的那种，诸如BaseSpace^TM服务(Illumina公司,San Diego CA)或描述于以下的云服务：美国专利申请公布号2013/0275486A1或2014/0214579A1(所述文献中的每一个以引用的方式并入本文)。程序指令的实例包括诸如由编译器产生的机器代码、和包含可由计算机使用解释器执行的高级代码的文件两者。

在一些实施方案中，所公开的方法和设备中采用的数据或信息以电子格式提供。此类数据或信息可包括衍生自核酸样品的读取、参考序列、甲基化状态、甲基化状态的模式、甲基化差异分数、归一化甲基化差异分数、合计的覆盖加权的归一化甲基化差异分数、甲基化分数、覆盖加权的甲基化分数、咨询建议、诊断等。如本文所用，以电子格式提供的数据或其他信息可用于存储在机器上并且在机器之间传输。常规地，呈电子格式的数据以数字方式提供，并且可以比特和/或字节为单位存储在各种数据结构、列表、数据库等中。数据可以电子、光学等方式体现。

另外，某些实施方案涉及有形的和/或非暂时性的计算机可读介质或计算机程序产品，其包括用于执行各种计算机实现的操作的指令和/或数据(包括数据结构)。本文列出的方法的一个或多个步骤可通过存在于有形的和/或非暂时性的计算机可读介质中的计算机程序实施或使用计算机硬件实施。

例如，提供计算机程序产品并且它包括非暂时性计算机可读介质，在其上提供程序指令以用于以下步骤：(a)获得测试数据集，其包括(i)来自至少一个测试生物体的测试基因组DNA的多个位点的甲基化状态，和(ii)用于检测甲基化状态的每个位点处的覆盖；(b)获得来自一个或多个参考个体生物体的参考基因组DNA中的多个位点的甲基化状态，(c)针对每个位点确定测试基因组DNA与参考基因组DNA之间的甲基化差异，从而提供每个位点的归一化甲基化差异；以及(d)通过每个位点处的覆盖对每个位点的归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数，以及(e)存储或传输合计的覆盖加权的归一化甲基化差异分数。

本文公开的方法还可使用计算机处理系统来执行，所述计算机处理系统适于或被配置来执行用于识别核酸的甲基化状态或其他特征的方法。因此，在一个实施方案中，本发明提供一种适于或被配置来执行如本文所述的方法的计算机处理系统。在一个实施方案中，所述设备包括核酸检测装置，诸如核酸测序装置，其适于或被配置来确定核酸的甲基化状态和/或其他特征。所述设备还可包括用于处理来自测试生物体和/或参考生物体的样品的部件。此类部件在本文其他地方描述。

核酸序列、甲基化状态、甲基化模式或其他数据可输入到计算机中或直接地或间接地存储在计算机可读介质上。在一个实施方案中，计算机系统直接地连接到确定来自样品的核酸的甲基化状态的核酸检测装置(例如，测序装置)。来自此类工具的数据或其他信息通过计算机系统中的接口提供。可替代地，由系统处理的甲基化数据从数据存储源诸如数据库或其他存储库提供。一旦可用于处理设备，存储器装置或大容量存储装置就至少暂时地集取或存储核酸的甲基化状态或其他特征。另外，如本文所述，存储器装置可存储甲基化差异、归一化甲基化差异、合计的加权归一化甲基化差异、甲基化分数或覆盖加权的甲基化分数。存储器还可存储用于分析或呈现此类信息的各种例程和/或程序。此类程序/例程可包括用于执行统计分析的程序等。

在一个实例中，用户将样品提供到核酸测序设备。数据由连接到计算机的测序设备采集和/或分析。计算机上的软件实现数据采集和/或分析。数据可被存储、显示(例如，通过监视器或其他相似装置)和/或发送到另一个位置。计算机可连接到互联网，其用于将数据传输到由远程用户(例如，医师、科学家或分析师)利用的手持装置和/或云环境。应理解，数据可在传输之前被存储和/或分析。在一些实施方案中，原始数据被采集并发送到分析和/或存储数据的远程用户或设备。传输可通过互联网发生，但是也可通过卫星或其他连接进行。可替代地，数据可存储在计算机可读介质上，并且所述介质可被传送到终端用户(例如，通过邮件)。远程用户可处于相同或不同的地理位置，包括但不限于建筑物、城市、州、国家或大陆。

在一些实施方案中，所述方法还包括采集关于多个多核苷酸序列(例如，读取、标签和/或甲基化状态)的数据并且将数据发送到计算机或其他计算系统。例如，计算机可连接到实验室装备，例如样品采集设备、核苷酸扩增设备、核苷酸测序设备或杂交设备。然后计算机可采集由实验室装置收集的可应用数据。数据可在任何步骤处存储在计算机上，例如，在实时采集时、在发送之前、在发送过程中或与结合发送时、或在发送之后。数据可存储在可从计算机提取的计算机可读介质上。已采集或存储的数据可例如通过本地网络或诸如互联网的广域网从计算机传输到远程位置。如以下所述，在远程位置处可对传输的数据执行各种操作。

可在本文公开的系统、设备和方法中存储、传输、分析和/或操纵的电子格式数据的类型是以下：通过对测试样品中核酸进行测序获得的读取、核酸中的位点的甲基化状态、一个或多个参考基因组或序列、甲基化差异分数、归一化甲基化差异分数、合计的覆盖加权的归一化甲基化差异分数、甲基化分数、或覆盖加权的甲基化分数，如本文所述。

这些各种类型的数据可使用不同的设备在一个或多个位置处获得、存储、传输、分析和/或操纵。处理选项跨越广泛范围。朝向范围的一端，在测试样品被处理的位置(例如，医生的办公室或其他临床环境)处存储并使用此信息的全部或许多。朝向另一个极端，在一个位置处获得样品，在第二位置处对其进行处理(例如，制备、检测或测序)，在第三位置(或若干位置)处分析数据(例如，使测序读取对齐)并且确定甲基化特征，并且在第四位置(或获得样品的位置)处进行诊断、建议和/或计划。

在各种实施方案中，甲基化数据在核酸检测设备(例如，测序设备)上生成并且然后传输到它们被处理以确定甲基化特征的远程位点。在此远程位置处，例如，可确定甲基化差异分数、归一化甲基化差异分数、合计的覆盖加权的归一化甲基化差异分数、甲基化分数或覆盖加权的甲基化分数。同样在远程位置处，可评估甲基化特征以作出预后或诊断确定。

这些操作中的任一个或多个可以是自动化的，如本文其他地方所述。通常，核酸的检测和序列数据的分析以计算方式执行。其他操作可手动地或自动地执行。

可执行样品采集的位置的实例包括卫生从业者的办公室、诊所、患者的家(此处提供样品采集工具或试剂盒)、以及可移动保健车。可执行甲基化检测之前的样品处理的位置的实例包括卫生从业者的办公室、诊所、患者的家(此处提供样品处理设备或试剂盒)、可移动保健车、以及核酸分析提供者的设施。可执行核酸检测(例如，测序)的位置的实例包括卫生从业者的办公室、诊所、卫生从业者的办公室、诊所、患者的家(此处提供样品测序设备和/或试剂盒)、可移动保健车、以及核酸分析提供者的设施。核酸检测发生的位置可配备有用于传输呈电子格式的序列数据(通常是读取)的专用网络连接。这种连接可以是有线或无线的，并且可被配置来将数据发送到数据可被处理和/或在传输到处理位点之前进行聚合的位点。数据聚合器可由卫生组织诸如卫生维护组织(HMO)维持。

分析操作可在前述位置中的任一个处或可替代地在专用于分析核酸序列数据的计算和/或服务的另一个位点处执行。此类位置包括例如群集诸如通用服务器群、遗传分析服务业务的设施等。在一些实施方案中，用于执行分析的计算设备是租赁的或租用的。计算资源可以是互联网可访问的处理器集合的一部分，诸如俗称为“云”的处理资源，其实例在本文其他地方提供。在一些情况下，计算由彼此相关或无关的并行或大规模并行处理器组执行。所述处理可使用分布式处理诸如群集计算、网格计算等来实现。在此类实施方案中，计算资源的群集或网格共同形成由一起作用来执行本文所述的分析和/或推导的多个处理器或计算机构成的超级虚拟计算机。这些技术以及更常规的超级计算机可用于处理如本文所述的序列数据。每个呈依赖于处理器或计算机的并行计算的形式。在网格计算的情况下，这些处理器(经常是整个计算机)通过网络(私人网络、公共网络或互联网)通过常规网络协议诸如以太网连接。相比之下，超级计算机具有通过本地高速计算机总线连接的许多处理器。

在某些实施方案中，诊断(例如，确定患者患有特定类型的癌症)在与分析操作相同的位置处生成。在其他实施方案中，它在不同的位置处执行。在一些实施例中，报告诊断在取样的位置处进行，虽然不一定是这种情况。可生成或报告诊断和/或执行制定计划的位置的实例包括卫生从业者的办公室、诊所、计算机可访问的互联网站点、以及具有有线或无线网络连接的手持装置，诸如蜂窝电话、平板电脑、智能电话等。执行咨询的位置的实例包括卫生从业者的办公室、诊所、计算机可访问的互联网站点、手持装置等。

在一些实施方案中，样品采集、样品处理和甲基化状态检测操作在第一位置处执行，并且分析和推导操作在第二位置处执行。然而，在一些情况下，样品采集在一个位置(例如，卫生从业者的办公室或诊所)处采集，并且样品处理和甲基化状态检测在不同位置处执行，所述位置任选地是与发生分析和推导相同的位置。

在各种实施方案中，一系列以上列出的操作可由启动样品采集、样品处理和/或甲基化状态检测的用户或实体触发。在这些操作中的一个或多个开始执行之后，其他操作可自然地相继发生。例如，核酸测序操作可致使读取被自动地采集并发送到处理设备，所述处理设备然后经常自动地且可能在没有另外的用户干预的情况下实施甲基化状态分析以及甲基化差异分数、归一化甲基化差异分数、合计的覆盖加权的归一化甲基化差异分数、甲基化分数、或覆盖加权的甲基化分数的确定。在一些具体实施中，此处理操作的结果然后可能在重定格式为诊断的情况下被自动地递送到处理信息或将信息报告到健康专家和/或患者的系统部件或实体。如所解释的，此类信息也可被自动地处理以产生可能与咨询信息一起的治疗、测试和/或监测计划。因此，启动早期阶段操作可触发端对端处理，其中健康专家、患者或其他有关方被提供可用于对身体状况采取措施的诊断、计划、咨询和/或其他信息。即使整个系统的部分物理地分离并且可能远离例如样品采集和核酸检测设备的位置，也可实现这一点。

在一些实施方案中，本文列出的方法的结果将由遗传咨询师、医师(例如，主治医师、产科医师等)、或其他合格的医学专家传达给个体。在某些实施方案中，咨询面对面地提供，然而，应认识到，在某些情况下，咨询可通过远程访问(例如，通过文本、蜂窝电话、蜂窝电话应用程序、平板电脑应用程序、互联网等)提供。

在一些实施方案中，向医学专家或向患者公开结果可通过计算机系统递送。例如，可提供“智能建议”系统，其响应于测试结果、来自医学保健提供者的指令和/或响应于查询(例如，来自患者)提供遗传咨询信息。在某些实施方案中，所述信息将特定于由医师、卫生保健系统和/或患者提供的临床信息。在某些实施方案中，信息可以迭代方式提供。因此，例如，患者可提供“假设”查询，并且系统可返回信息，诸如诊断选项、风险因素、时间以及各种结果的含义。

在具体实施方案中，可以暂时性方式(例如，呈现在计算机屏幕上)提供在本文列出的方法中生成的结果或其他信息。在某些实施方案中，信息可以非暂时性方式提供。因此，例如，信息可打印出来(例如，作为任选地与时间相关联的选项和/或建议的列表等)和/或存储在计算机可读介质(例如，磁介质诸如本地硬盘驱动器、服务器等，光学介质，闪存等)上。

应理解，通常此类系统将被配置来提供足够的安全性，使得例如根据医学领域的普遍标准维护患者隐私。

遗传咨询的前述讨论旨在是说明性和非限制性的。遗传咨询是医学科学的良好建立的分支，并且关于本文所述的方法并入咨询部件在从业者的范围和技能范围内。此外，应认识到，随着领域的进展，遗传咨询和相关联的信息和建议的性质可能改变。

实施例I

使用合计的归一化覆盖加权的甲基化差异的基于ctDNA甲基化的癌症检测的分析灵敏性

此实施例描述用于检测循环肿瘤DNA(ctDNA)中的甲基化的高度灵敏的测定。异常DNA甲基化是癌症中的普遍现象，并且可能是肿瘤发生过程中最早发生的变化之一。此实施例中描述的测定可用于癌症筛查。

在此应用的一般方法包括针对癌症中受影响的多个CpG位点的靶向甲基化测序。

所述方法解决的技术挑战包括提供有益于筛查应用的超高灵敏性和特异性、提供用于从低输入ctDNA进行靶向甲基化测序的协议、以及提供用于跨大量靶向位点进行甲基化水平的分析的生物信息学算法。

靶向捕获探针设计

发展两个靶向甲基化组。泛癌症组靶向如选自癌症基因组图谱数据库的在20种主要癌症类型中受影响的9,921个CpG位点。泛癌症组中包括的CpG位点列于表I中。CRC组靶向在结肠直肠癌中受影响的1,162个CpG位点。CRC组中包括的CpG位点列于表II中。列于表I和表II中的CpG位点是指基因组构建37。

CpG位点的探针序列选自Infinium HM450阵列(Illumina公司,San Diego,CA)。探针的设计原理在图1中示出。两个探针用于具有大于4个CpG位点的靶，包括完全甲基化探针(具有与每个CpG位点的C位置互补的G核苷酸)和完全非甲基化探针(具有与预期由CpG位点的每个C位置的亚硫酸氢盐转化产生的U互补的A核苷酸)，如图1所示。相比之下，仅一个探针用于具有4个或更少CpG位点的靶(所述探针包括在每个CpG位点的C位置处与U或C互补的简并核苷酸R)。

从血浆分离并提取cfDNA

从人类血液抽取获得血浆样品。使用QIAamp循环核酸试剂盒(Qiagen,Hilden,Germany)提取无细胞DNA(cfDNA)。根据图2所示并且如在评估滴定和检测灵敏性的环境中以下列出的工作流来实施靶向ctDNA甲基化测序。

滴定和检测灵敏性

NA12878基因组DNA购自Coriell Institute(Coriell Institute,Camden,NJ)，并且LS1034基因组DNA购自ATCC(ATCC,Manassas,VA)。使用Covaris M200(Covaris,Woburn,MA)使基因组DNA片段化，并且使用BluePippin(Sage Science,Beverly,Ma)使其大小选择为130-250bp，以模拟cfDNA的大小分布。使用Quant-iT^TM

dsDNA测定试剂盒(ThermoFisher Scientific,Grand Island,NY)执行DNA定量。将10％、1％或0.1％ LS1034DNA加入到NA12878 DNA背景中以制备DNA混合物。在文库制备中使用30ng的每种混合物、100％ NA12878或100％ LS1034 DNA。针对每个滴定水平生成三个重复文库。将NA12878的六个重复的集用作基线参考基因组。

对提取的cfDNA或进行剪切和大小选择的基因组DNA进行亚硫酸氢盐处理并且使用EZ DNA Methylation-Lightning试剂盒(Zymo Research,Irvine,CA)进行纯化。

使用Accel-

甲基化测序DNA文库试剂盒(Swift Biosciences,Ann Arbor,MI)制备亚硫酸氢盐测序文库。

使用与具有列于表I或表II中的CpG位点的片段互补的探针对亚硫酸氢盐测序文库实施靶向捕获。在Illumina公司处合成捕获探针并进行生物素化。根据制造商的说明书使用Illumina TruSight^TM快速捕获试剂盒执行靶捕获，不同的是使用定制的捕获探针，并且在48C下执行杂交和洗涤步骤。

根据制造商的说明书，在Illumina HiSeq 2500测序仪上使用2x100个循环运行对捕获步骤的产物进行测序，四个样品在快速运行模式中。

生物信息学分析

对FASTQ序列进行解复用，接着进行计算机脱甲基化，由此读取1上的所有C被转化为T并且读取2上的所有G被转化为A。随后，使用BWA(v 0.7.10-r789)将这些“脱甲基化的”FASTQ序列与包括“脱甲基化的”hg19基因组的索引(index)对齐。BWA对齐描述于Li和Durbin(2010)Fast and accurate long-read alignment with Burrows-WheelerTransform.Bioinformatics,Epub.[PMID:20080505]，所述文献以引用的方式并入本文。在对齐后，将“脱甲基化的”FASTQ序列替换为原始FASTQ序列。将甲基化水平计算为在‘C’+‘T’总碱基中在靶CpG位点处的‘C’碱基的分数。

在计算每个样品和重复的每个CpG位点处的甲基化水平之后，如下计算合计的覆盖加权的归一化甲基化差异z分数。

(1)通过在基线中减去平均甲基化水平并且除以基线中的甲基化水平的标准偏差以获得每个位点的z分数来对每个CpG位点处的甲基化水平进行归一化。具体地，根据以下公式确定每个CpG位点处的归一化甲基化差异：

其中Z_i表示识别为i的特定位点的归一化甲基化差异，χ_i表示在测试基因组DNA中的位点i处的甲基化水平，μ_i表示在参考基因组中的位点i处的平均甲基化水平，并且σ_i表示在参考基因组DNA中的位点i处的甲基化水平的标准偏差。

(2)将每个CpG位点处的z分数乘以在CpG位点处观察到的覆盖，并且然后对跨所有CpG位点的覆盖加权的z分数进行求和并且然后除以每个CpG位点处的覆盖平方的总和。更具体地，根据以下公式确定合计的覆盖加权的甲基化差异z分数(合计的覆盖加权的归一化甲基化差异分数的实例A)：

其中w_i表示在位点i处的覆盖，并且k表示位点的总数目。

结果

使用结肠直肠癌细胞系LS1034和正常细胞系NA12878执行滴定实验以证明分析灵敏性。即，使用泛癌症组和CRC组两者对将LS1034以0.1％、1％和10％滴定到NA12878中、连同纯LS1034和纯NA12878一式三份执行靶向ctDNA甲基化测序。针对15个样品重复中的每一个，使用正常NA12878样品作为基线来计算合计的覆盖加权的甲基化差异z分数(图3)。结果指示样品内的变化远小于滴定水平之间的变化。具体地，将LS1034以0.1％滴定到NA12878中与NA12878样品的明显差别指示所述测定和附带的合计的覆盖加权的甲基化差异z分数可实现0.1％检测限度。

使用此实施例的方法获得的结果提供在整个基因组上多个受影响的CpG位点的累积影响的高灵敏性评估。通过提供用于检测甲基化模式的方法，此实施例的方法可提供比依赖于体细胞突变的检测的方法改进的癌症诊断，如通过与体细胞突变相比，当评估DNA甲基化标记物时CRC组织与对应的血浆之间交替的改进的一致性所证明的(参见例如，Danese等人,“Comparison of Genetic and Epigenetic Alterations ofPrimary Tumors andMatched Plasma Samples in Patients with Colorectal Cancer”PLoS ONE10(5):e0126417.doi:10.1371/journal.pone.0126417(2015)，所述文献以引用的方式并入本文)。此实施例中描述的方法还提供癌症的组织起源的识别。具体地，已显示组织特异性甲基化标记物可用于追踪特定ctDNA序列的组织起源(参见例如，Sun等人“Plasma DNAtissue mapping by genome-wide methylation sequencing for noninvasiveprenatal,cancer,and transplantation assessments”Proc.Natl.Acad.Sci,USA 112(40)E5503-E5512(2015)，所述文献以引用的方式并入本文)。

实施例II

使用覆盖加权的甲基化分数的基于ctDNA甲基化的癌症检测的分析灵敏性

此实施例描述用于检测循环肿瘤DNA(ctDNA)中的甲基化的可替代的高度灵敏的测定。此实施例中描述的测定还可用于癌症筛查、监测疾病进展、或评估患者对于治疗性治疗的应答。

靶向捕获探针设计

对于此研究，将在实施例I中描述的两个靶向甲基化组汇集在一起。泛癌症组靶向如选自癌症基因组图谱数据库的在20种主要癌症类型中受影响的9,921个CpG位点。泛癌症组中包括的CpG位点列于表I中。CRC组靶向在结肠直肠癌中受影响的1,162个CpG位点。CRC组中包括的CpG位点列于表II中。列于表I和表II中的组合的CpG位点是指基因组构建37。

从血浆分离并提取cfDNA

滴定和检测灵敏性

如上所述，NA12878基因组DNA购自Coriell Institute(Coriell Institute,Camden,NJ)，并且LS1034基因组DNA购自ATCC(ATCC,Manassas,VA)。使用Covaris M200(Covaris,Woburn,MA)使基因组DNA片段化，并且使用BluePippin(Sage Science,Beverly,Ma)使其大小选择为130-250bp，以模拟cfDNA的大小分布。使用Quant-iT^TM

dsDNA测定试剂盒(ThermoFisher Scientific,Grand Island,NY)执行DNA定量。将10％、1％或0.1％ LS1034 DNA加入到NA12878 DNA背景中以制备DNA混合物。在文库制备中使用30ng的每种混合物、100％ NA12878或100％ LS1034 DNA。针对每个滴定水平生成三个重复文库。将NA12878的六个重复的集用作基线参考基因组。

使用Accel-

生物信息学分析

在计算每个样品和重复的每个CpG位点处的甲基化水平之后，如下计算覆盖加权的甲基化分数。

(2)通过将z分数转化为单侧p值(p_i)来将每个CpG位点i的z分数(Z_i)转化为观察到这种或更大的z分数的概率。计算呈正态分布的概率，虽然也可使用其他分布(例如，t分布或二项分布)。

(3)通过将每个CpG位点i处的p值(p_i)乘以在CpG位点处观察到的覆盖(w_i)来对每个CpG位点处的p值进行加权，并且根据以下公式通过组合加权的p值来确定覆盖加权的甲基化分数(MS)：

其中p_i表示在位点i处的单侧p值，k表示位点的总数目，并且w_i表示在位点i处的覆盖。

结果

使用结肠直肠癌细胞系LS1034和正常细胞系NA12878执行滴定实验以证明分析灵敏性。即，使用组合的泛癌症组和CRC组对将LS1034以0.1％、1％和10％滴定到NA12878中、连同纯LS1034和纯NA12878一式三份执行靶向ctDNA甲基化测序。针对15个样品重复中的每一个，使用正常NA12878样品作为基线来计算覆盖加权的甲基化分数(图4)。结果指示样品内的变化远小于滴定水平之间的变化。具体地，将LS1034以0.1％滴定到NA12878中与NA12878样品的明显差别指示所述测定和附带的覆盖加权的甲基化分数可实现0.1％检测限度(参见图4的插图)。

与实施例I中的结果相似，使用此实施例的方法获得的结果提供在整个基因组上多个受影响的CpG位点的累积影响的高灵敏性评估。通过提供用于检测甲基化模式的可替代方法，此实施例的方法可提供比依赖于体细胞突变的检测的方法更灵敏的癌症诊断。

实施例III

使用归一化覆盖加权的甲基化分数差异的基于ctDNA甲基化的癌症检测的临床性能

此实施例使用归一化覆盖加权的甲基化分数差异评估循环肿瘤DNA(ctDNA)中的基于甲基化的癌症检测的临床灵敏性和特异性。如上指出，此实施例中描述的测定可用于癌症筛查、监测疾病进展、或评估患者对于治疗性治疗的应答。

靶向捕获探针设计

血液样品采集和处理

癌症患者在MD安德森癌症中心(Houston,Texas)处募集。在此研究中使用从三种癌症类型的63个晚期阶段癌症患者采集的总计70个血液样品(对于结肠直肠癌(CRC)，n＝30，对于乳腺癌(BRCA)，n＝14，对于肺癌，n＝19)。四个CRC患者具有在多个时间点处采集的血液样品。三个乳腺癌样品和一个结肠直肠癌样品不符合样品质量控制并且因此从分析排除，从而产生最终66个癌症样品的集(36个CRC，11个BRCA，以及19个肺)，表示59个不同患者(29CRC，11个BRCA，以及19个肺)。从健康受试者采集总计65个正常血液样品，以用作基线甲基化对照(20)、训练对照(20)和测试对照(25)，如本文所述。

在1600G下通过离心分离血浆10分钟。将上清液转移到15mL离心管并且在室温下在3000G下离心10分钟。将上清液转移到新鲜15mL离心管并且储存在冷冻机(-80℃)中并且在干冰上运输。来自健康供体的血浆样品从BioreclamationIVT(Westbury,New York)获得。对所有样品进行去识别。

从血浆分离并提取cfDNA

使用QIAamp循环核酸试剂盒(Qiagen,Hilden,Germany)提取无细胞DNA(cfDNA)。根据图2所示并且如在评估滴定和检测灵敏性的环境中以下列出的工作流来实施靶向ctDNA甲基化测序。

靶向亚硫酸氢盐测序文库制备和测序

对cfDNA进行亚硫酸氢盐处理并且使用EZ DNA Methylation-Lightning试剂盒(Zymo Research,Irvine,California)进行纯化。

使用Accel-

甲基化测序DNA文库试剂盒(Swift Biosciences,Ann Arbor,Michigan)执行亚硫酸氢盐转化的DNA的全基因组扩增。

使用与具有列于表I或表II中的CpG位点的片段互补的探针对亚硫酸氢盐测序文库实施靶向捕获。在Illumina公司(San Diego,California)处合成捕获探针并进行生物素化。根据制造商的说明书使用Illumina TruSight^TM快速捕获试剂盒执行靶捕获。修改杂交和洗涤条件以产生最佳的捕获效率。

根据制造商的说明书，在Illumina Hiseq2500测序仪上使用2x100个循环运行对捕获步骤的产物进行测序，四个样品在快速运行模式中。

生物信息学分析

(1)针对20个正常基因组DNA样品的训练集初始地确定甲基化分数。首先，根据以下公式确定特定位点i(例如，CpG位点)处的归一化甲基化差异(z分数)：

其中p_i表示在位点i处的单侧p值，k表示位点的总数目，并且w_i表示位点i的显著性，例如覆盖。

(4)然后执行训练集甲基化分数的统计分析。计算正常基因组DNA的训练集的平均甲基化分数(μ_MS)和甲基化分数的标准偏差(σ_MS)，从而表征正常群体中的甲基化分数的分布。

(5)接下来，针对66个癌症基因组DNA样品和25个测试对照确定甲基化分数。首先，根据以下公式确定每个CpG位点处的归一化甲基化差异(z分数)：

(6)通过将z分数转化为单侧p值(p_i)来将每个CpG位点i的z分数(Z_i)转化为观察到这种或更大的z分数的概率。计算呈正态分布的概率，虽然也可使用其他分布(例如，t分布或二项分布)。

(7)通过将每个CpG位点i处的p值(p_i)乘以在CpG位点处观察到的覆盖(w_i)来对每个CpG位点处的p值进行加权，并且根据以下公式通过组合加权的p值来确定覆盖加权的甲基化分数(MS)：

(8)最后，针对由正常基因组DNA的训练集的平均甲基化分数(μ_MS)和甲基化分数的标准偏差(σ_MS)表示的针对训练集群体确定的甲基化分数的分布评估测试基因组DNA样品的甲基化分数。根据以下公式确定测试基因组DNA的甲基化分数与正常基因组DNA的训练集的甲基化分数平均值(μ_MS)之间的标准偏差的数目：

其中Z_MS表示归一化甲基化分数差异，MS表示测试样品的甲基化分数，μ_MS表示正常基因组DNA的训练集的平均甲基化分数，并且σ_MS表示正常基因组DNA的训练集的甲基化分数的标准偏差。大于3标准偏差的Z_MS值用作识别癌症样品的阈值。

结果

如上指出，此实验的目的是评估归一化覆盖加权的甲基化分数差异算法的临床性能，包括其临床灵敏性和特异性。将66个癌症样品和25个正常样品经受如本文所述的甲基化分数分析，包括确定列于表I和表II中的每个CpG位点的z分数，基于正态分布呈现将z分数转化为单侧p值，通过覆盖对p值进行加权，以及使用Fisher公式将个体加权的p值合计为单个甲基化分数。所得的甲基化分数用于从正常样品区分癌症样品。图5和图6示出归一化覆盖加权的甲基化分数差异算法能够检测36个CRC样品中的34个(94.4％灵敏性)、11个BRCA样品中的8个(72.7％灵敏性)、以及19个肺癌样品中的10个(52.6％灵敏性)。所述算法表现出100％特异性，正确地将全部25个测试对照样品识别为正常。

使用此实施例的方法获得的结果提供在整个基因组上多个受影响的CpG位点的累积影响的高灵敏性和特异性评估。通过提供用于检测甲基化模式的可替代方法，此实施例的方法可提供比依赖于体细胞突变的检测的方法更灵敏和特异性的癌症诊断。

实施例IV

基于跨甲基化位点的预选子集的平均甲基化水平的癌症类型分类方法的临床性能

此实施例评估基于跨本文中被称为“过甲基化位点”的CpG甲基化位点的预选子集的平均甲基化水平进行的用于癌症类型分类的方法的临床灵敏性。此实施例中描述的测定可用于在循环无细胞DNA中识别肿瘤的来源。

血浆与组织DNA样品之间的甲基化图谱的相关性

作为初始查询，首先确定从血浆样品分离的循环肿瘤DNA(ctDNA)的甲基化图谱与从肿瘤组织分离的DNA的那些甲基化图谱相关性如何。高度的相关性将增加以下观点的可信度：cfDNA的甲基化图谱可用于分类起源肿瘤。为此，将在实施例III中检测的结肠直肠癌、乳腺癌和肺癌样品的甲基化图谱与在数据库中具有最小30个癌症样品的来自TCGA(癌症基因组图谱)的32种癌症类型中的每一种的平均甲基化图谱进行比较。确定基本上如实施例I-III所述并且由在9,242个CpG位点处的甲基化水平组成的甲基化图谱(过滤掉来自原始CpG组的性能较差的甲基化位点以提高准确性)。

以成对方式在来自实施例III的每个癌症阳性血浆样品与来自TCGA的32种癌症类型中的每一种之间执行比较，从而得到范围是0至1的相关系数。将相关性绘制为二维相关性图，其在图7中示出。所述图的较暗区域对应于较高相关性，而所述图的较亮区域表示较低相关性。甲基化图谱之间的观察到的相关性通常对于匹配的肿瘤类型是最高的。例如，在来自血浆的乳腺癌样品中，对于乳腺癌组织(乳腺浸润性癌)的相关性最高，并且在所有其他肿瘤组织类型中较低。相似地，针对CRC血浆样品，对于结肠和直肠组织(例如，结肠腺癌、食道癌、结肠腺癌和胃腺癌)的相关性最高。所述相关性在肺癌样品中较不明显。

癌症类型分类的发展和测试

已确定在ctDNA与来自肿瘤组织的DNA的甲基化图谱之间存在显著相关性，继续发展并测试计算机癌症类型分类方法。

首先，识别在TCGA数据库中的具有多于100个样品的24种癌症类型。对于这些类型中的每一种，创建“过甲基化”位点的列表，所述位点定义为具有跨整个组的前3％并且在绝对值方面大于6％的平均甲基化水平(跨样品)的位点。

给定测试样品，在三步过程中确定其癌症类型。首先，针对24种癌症类型中的每一种，如实施例I-III所述确定列表上的每个“过甲基化”位点的甲基化水平。接下来，针对24种癌症类型中的每一种，计算跨“过甲基化”位点的平均甲基化水平。最后，通过其跨“过甲基化”位点的平均甲基化水平对24种癌症类型中的每一种进行排序，并且通过具有最高平均甲基化水平的癌症类型分类测试样品。

然后，继续针对用于生成“过甲基化”位点的列表的TCGA组织样品中的每一种再测试所述方法。所述方法的准确性定义为被正确识别的特定类型的癌症样品的数目与此癌症类型的样品的总数目的比率。此分析的结果在图8中示出。如可容易地从此附图看出，24种癌症类型中的22种以超过75％的准确性被识别。事实上，在约90％或更高的情况下，癌症类型中的许多种被正确地识别。仅两种类型-食道癌和睾丸生殖细胞肿瘤-未能超过75％阈值。

血浆样品的癌症类型分类

将在实施例III中正确识别为癌症样品的52个血浆样品(34个CRC，8个BRCA，以及10个肺)经受如上所述的癌症类型分类分析。此分析的结果在图9中示出。癌症分类算法正确地识别34个CRC样品中的28个(82％)、8个BRCA样品中的7个(88％)以及10个肺癌样品中的7个(70％)。这些结果证明本文所述的癌症类型分类方法可以高临床灵敏性用于在来自血浆样品的ctDNA中识别起源组织。

贯穿本申请已参考各种公布、专利或专利申请。这些公布的公开内容全部特此以引用的方式并入本申请，以便更全面地描述本发明所涉及的技术现状。

术语“包括”在本文中旨在是开放式的，不仅包括所列举的要素，并且还涵盖任何另外的要素。

尽管已参考以上提供的实施例描述本发明，但应理解在不脱离本发明的情况下可做出各种修改。因此，本发明仅受限于权利要求书。

Claims

1.计算机处理系统，其用于执行区分含有来自血液的无细胞DNA的样品的DNA的异常甲基化水平的方法，其中所述方法包括：

(a)提供测试数据集，其包括(i)样品中的多个CpG位点的甲基化状态，其中所述样品包含来自至少一个生物体的测试基因组DNA，和(ii)用于检测甲基化状态的每个所述CpG位点处的覆盖；

(b)提供来自至少一个参考个体的参考基因组DNA中的所述多个CpG位点的甲基化状态；

(c)针对每个所述CpG位点确定所述测试基因组DNA与所述参考基因组DNA之间的甲基化差异，从而提供每个CpG位点的归一化甲基化差异；以及

(d)通过每个所述CpG位点处的所述覆盖对每个CpG位点的所述归一化甲基化差异进行加权，从而确定合计的覆盖加权的归一化甲基化差异分数。

2.如权利要求1所述的计算机处理系统，其中所述样品包含循环肿瘤DNA和循环非肿瘤DNA。

3.如权利要求1至2中任一项所述的计算机处理系统，其中所述样品来源自妊娠女性，并且所述测试基因组DNA包括衍生自所述女性的体细胞的基因组DNA和衍生自所述女性的产前后代的体细胞的基因组DNA。

4.如权利要求1至3中任一项所述的计算机处理系统，其中在步骤(a)中所述提供所述测试数据集包括靶向选择包含预先确定的靶CpG位点的集的基因组DNA片段的子集。

5.如权利要求4所述的计算机处理系统，其中在步骤(a)中所述提供所述测试数据集还包括用亚硫酸氢盐处理基因组DNA片段的所述子集。

6.如权利要求1所述的计算机处理系统，其中在步骤(a)中所述提供甲基化状态包括连续地区分所述测试基因组DNA中的核苷酸的测序技术。

7.如权利要求1至6中任一项所述的计算机处理系统，其包括：

(I)使用第二测试基因组DNA并且使用来自所述至少一个参考个体的所述相同参考基因组DNA重复步骤(a)至(d)，以及

(II)确定所述测试基因组DNA与所述第二测试基因组DNA之间的所述合计的覆盖加权的归一化甲基化差异分数是否发生变化。

8.如权利要求1至7中任一项所述的计算机处理系统，其中根据以下确定特定CpG位点处的所述归一化甲基化差异

其中Z_i表示识别为i的特定CpG位点的归一化甲基化差异，χ_i表示在所述测试基因组DNA中的CPG位点i处的甲基化水平，μ_i表示在所述参考基因组中的CpG位点i处的平均甲基化水平，并且σ_i表示在所述参考基因组DNA中的CpG位点i处的甲基化水平的标准偏差。

9.如权利要求8所述的计算机处理系统，其中根据以下确定所述合计的覆盖加权的归一化甲基化差异分数(表示为A)

其中w_i表示在CpG位点i处的覆盖，并且k表示CpG位点的总数目。

10.如权利要求1至9中任一项所述的计算机处理系统，其中样品来自已知或怀疑患有癌症的个体。

11.如权利要求1至9中任一项所述的计算机处理系统，其中所述样品来自人。

12.如权利要求1所述的计算机处理系统，其中所述方法进一步包括将咨询信息传达给人。

13.如权利要求6所述的计算机处理系统，其中所述测序技术包括大规模平行测序。

14.如权利要求1所述的计算机处理系统，其中步骤(a)中的提供包括：

(a1)用亚硫酸氢盐处理测试基因组DNA以生成亚硫酸氢盐处理的DNA；

(a2)通过靶向选择富集所述亚硫酸氢盐处理的DNA的片段的子集，所述子集包含预先确定的靶CpG位点的集；

(a3)进行子集的大规模平行测序以生成序列读取；和

(a4)将序列读取与参考进行比对。

15.如权利要求14所述的计算机处理系统，其中所述子集包含至少100个预先确定的靶CpG位点。

16.如权利要求14所述的计算机处理系统，其中所述子集包含至少1000个预先确定的靶CpG位点。

17.如权利要求14所述的计算机处理系统，其中所述大规模平行测序生成至少10000个序列读取。