CN117757932A

CN117757932A - 从血浆无创测定胎儿或肿瘤的甲基化组

Info

Publication number: CN117757932A
Application number: CN202311671688.1A
Authority: CN
Inventors: 赵慧君; 陈君赐; 卢煜明; 伦妙芬; 江培勇; 陈渭雯
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2012-09-20
Filing date: 2013-09-20
Publication date: 2024-03-26
Also published as: AU2013317708A1; EP3839065A1; IL237495B; FI3536807T3; KR102307424B1; EP4335929A2; TW202334438A; JP2018121644A; SG10201705198UA; CN104781422A; KR102390711B1; KR102148547B1; AU2022201026A1; TW201907013A; DK2898100T4; JP2022031753A; DK2898100T3; HK1207124A1; EP2898100B1; HRP20210716T1

Abstract

本实施例提供了测定并使用各种组织和样品的甲基化型态的系统、方法和设备。因阐述发明的需要，我们提供了相关的实例说明。基于血浆DNA甲基化(或具有游离DNA的其它样品，例如尿液、唾液、生殖器洗涤液等)与母亲/患者的甲基化型态的比较来推断胎儿/肿瘤组织的甲基化型态。当样品具有DNA混合物时，可以使用组织特定的等位基因以鉴别来自胎儿/肿瘤的DNA，来确定胎儿/肿瘤组织的甲基化型态。甲基化型态可以用于确定胎儿/肿瘤的基因组中的拷贝数变异。通过各种技术鉴别出胎儿的甲基化标记物。可以通过确定DNA片段的尺寸分布的尺寸参数来确定甲基化型态，其中所述尺寸参数的参考值可以用于确定甲基化水平。另外，甲基化水平可以用于确定癌症等级。

Description

从血浆无创测定胎儿或肿瘤的甲基化组

相关申请案的交叉引用

本申请案要求申请号为201380058654.3的中国专利申请的优先权，并且为要求以下各申请案的优先权的PCT申请案：2013年6月3日提交的标题为“在血浆中使用甲基化状态和拷贝数检测肿瘤(Tumor Detection In Plasma Using Methylation Status And CopyNumber)”的美国临时专利申请案第61/830,571号；以及2013年3月15日提交的标题为“从血浆无创测定胎儿或肿瘤的甲基化组(Non-Invasive Determination Of Methylome OfFetus Or Tumor From Plasma)”的美国申请案第13/842,209号，其为2012年9月20日提交的标题为“通过母体血浆的大规模平行测序测定胎盘的全基因组DNA甲基化状态的方法(Method Of Determining The Whole Genome DNA Methylation Status Of ThePlacenta By Massively Parallel Sequencing Of Maternal Plasma)”的美国临时专利申请案第61/703,512号的非临时申请案并且要求美国临时专利申请案第61/703,512号的权益，所述申请案以全文引用的方式并入本文中用于所有目的。

技术领域

本发明一般涉及DNA的甲基化模式(甲基化组)的测定，并且更具体地说，涉及分析包括来自不同基因组(例如来自胎儿和母亲，或来自肿瘤和正常细胞)的DNA的混合物的生物样品(例如血浆)以确定少数基因组的甲基化模式(甲基化组)。还描述了所测定的甲基化组的用途。

背景技术

胚胎和胎儿的发育是一个复杂的过程，并且包括一系列高度协调的遗传和表观遗传事件。癌症的发展也是一个复杂的过程，它通常涉及多个遗传和表观遗传步骤。发育过程的表观遗传控制的异常与不孕症、自然流产、子宫内生长异常和产后结果相关。DNA甲基化是最常研究的表观遗传机制之一。DNA的甲基化大多发生在甲基添加到CpG双核苷酸当中胞嘧啶残基的5'碳的情况下。胞嘧啶甲基化增添了一层对基因转录和DNA功能的控制。举例来说，称为CpG岛的富含CpG双核苷酸的基因启动子的高甲基化通常与基因功能的抑制相关。

尽管表观遗传机制在调节发育过程中有着重要的作用，但人类胚胎和胎组织不易获得进行分析(肿瘤可能类似地不可获得)。在人类中产前期期间研究健康和疾病的此类表观遗传过程的动态改变实际上是不可能的。胚胎外组织，特别是胎盘，可以作为产前诊断程序的一部分或出生后获得，其为此类研究提供了主要途径之一。但是，此类组织需要侵入性程序。

人类胎盘的DNA甲基化型态已经吸引研究人员数十年。人类胎盘显示了大量与DNA甲基化有关的罕见生理特征。在整体水平上，胎盘组织与大部分体细胞组织比较时是低甲基化的。在基因水平上，所选基因座的甲基化状态是胎盘组织特定的标记。整体与基因座特定的甲基化型态都展示了孕龄依赖性改变。印记基因，即表达依赖于等位基因的亲代来源的基因，在胎盘中起关键作用。胎盘已经被描述为假恶性的，并且已经观测到若干肿瘤抑制基因的高甲基化。

胎盘组织的DNA甲基化型态的研究使得可以了解妊娠相关或发育相关疾病(例如先兆子痫和子宫内生长受限)的病理生理学。基因组印记上的病症与例如普拉德-威利综合症(Prader-Willi syndrome)和安格尔曼综合症(Angelman syndrome)等发育病症相关。已经在由辅助的生殖技术产生的妊娠中观测到胎盘和胎组织的基因组印记和整体DNA甲基化的改变型态(日浦等人2012人类繁殖；27:2541-2548(H Hiura et al.2012Hum Reprod；27:2541-2548))。例如母亲吸烟(霍沃思等人2013表观基因组学；5:37-49(KE Haworth etal.2013Epigenomics；5:37-49))、母亲饮食因素(江等人2012FASEB J；26:3563-3574(XJiang et al.2012FASEB J；26:3563-3574))和母亲代谢状态(例如糖尿病)(哈吉等人,糖尿病.doi:10.2337/db12-0289(N Hajj et al.,Diabetes.doi:10.2337/db12-0289))等大量环境因素与后代的表观遗传异常相关。

尽管努力了数十年，但是还没有任何切实可行的方法可用来研究胎儿或肿瘤甲基化组并监测妊娠期间或例如恶性病等疾病过程期间的动态改变。因此，提供无创地分析全部或部分胎儿甲基化组和肿瘤甲基化组的方法是非常有价值的。

发明内容

实施例提供了用于测定和使用各种组织和样品的甲基化型态的系统、方法和设备。提供了实例说明。可以基于血浆甲基化(或具有游离DNA的其它样品，例如尿液、唾液、生殖器洗涤液)与母亲/患者的甲基化型态比较来推断胎儿/肿瘤组织的甲基化型态。当样品具有DNA的混合物时，可以使用组织特定的等位基因鉴别来自胎儿/肿瘤的DNA，来确定胎儿/肿瘤组织的甲基化型态。甲基化型态可以用于确定胎儿/肿瘤的基因组中的拷贝数变异。通过各种技术鉴别出胎儿的甲基化标记物。可以通过测定DNA片段的尺寸分布的尺寸参数来确定甲基化型态，其中尺寸参数的参考值可以用于确定甲基化水平。

另外，甲基化水平可以用于确定癌症等级。在癌症情况下，血浆中甲基化组改变的测量可以允许检测癌症(例如用于筛选目的)、监测(例如检测抗癌治疗后的反应；以及检测癌症复发)和预后(例如用于测量体内癌细胞的负荷或用于癌症分期或用于评估由疾病或疾病进展或转移性过程引起的死亡机率)。

可以参考以下具体实施方式和附图来更好地了解本发明的实施例的性质和优点。

附图说明

图1A展示表100，为根据本发明的实施例，母体血液、胎盘和母体血浆的测序结果。

图1B展示根据本发明的实施例，测序样品的1Mb窗口中的甲基化密度。

图2A-2C展示β值针对甲基化指数的曲线图：(A)母体血细胞、(B)绒膜绒毛样品、(c)足月胎盘组织。

图3A和3B展示从成年男性和非怀孕成年女性收集的血浆和血细胞中甲基化CpG位点百分比的柱状图：(A)常染色体、(B)染色体X。

图4A和4B展示血细胞DNA和血浆DNA中对应基因座的甲基化密度的曲线图：(A)非怀孕成年女性、(B)成年男性。

图5A和5B展示从孕妇收集的样品当中甲基化CpG位点百分比的柱状图：(A)常染色体、(B)染色体X。

图6展示母体血液、胎盘和母体血浆的人类基因组的不同重复序列类别的甲基化水平的柱状图。

图7A展示早期妊娠样品的Circos图700。图7B展示晚期妊娠样品的Circos图750。

图8A-8D展示针对提供有用信息的单核苷酸多态性周围的CpG位点，基因组组织DNA针对母体血浆DNA的甲基化密度的比较曲线图。

图9是一个流程图，说明根据本发明的实施例，用于从生物体的生物样品确定第一甲基化型态的方法900。

图10是一个流程图，说明根据本发明的实施例，从生物体的生物样品中确定第一甲基化型态的方法1000。

图11A和11B展示根据本发明的实施例，使用母体血浆数据和胎儿DNA百分比浓度的预测算法的性能图。

图12A是表1200，展示根据本发明的实施例预测甲基化的15个所选基因座的细节。图12B是图表1250，展示胎盘中15个所选基因座的推测的类别和其在胎盘中对应甲基化水平。

图13是方法1300的流程图，所述方法1300用于从怀有至少一个胎儿的女性个体的生物样品检测胎儿染色体异常。

图14是方法1400的流程图，所述方法1400用于根据本发明的实施例，通过比较胎盘甲基化型态与母体甲基化型态来鉴别甲基化分子标记。

图15A是表1500，使用关于33个先前报导的早期妊娠甲基化分子标记展示早期妊娠数据的DMR鉴别算法的性能。图15B是表1550，使用晚期妊娠数据并与分娩时获得的胎盘样品比较展示DMR鉴别算法的性能。

图16是表1600，展示基于母体血浆亚硫酸氢盐测序数据的直接分析预测为高甲基化或低甲基化的基因座的数目。

图17A是曲线1700，展示母体血浆、非怀孕女性对照血浆、胎盘和外周血液DNA的尺寸分布。图17B是母体血浆、成年女性对照血浆、胎盘组织和成年女性对照血液的尺寸分布和甲基化型态的曲线1750。

图18A和18B是根据本发明的实施例，血浆DNA分子的甲基化密度和尺寸的曲线图。

图19A展示成年非怀孕女性的测序读数的甲基化密度和尺寸的曲线1900。图19B是图1950，展示母体血浆中胎儿特定和母体特定的DNA分子的尺寸分布和甲基化型态。

图20是方法2000的流程图，所述方法2000用于根据本发明的实施例，评估生物体的生物样品中DNA的甲基化水平。

图21A是表2100，展示肝细胞癌(HCC)患者的手术前血浆和组织样品的甲基化密度。图21B是表2150，展示每一样品所实现的序列读数的数目和测序深度。

图22是表220，展示健康对照的血浆样品中常染色体中的甲基化密度，在71.2％到72.5％范围内。

图23A和23B展示HCC患者的白细胞层、肿瘤组织、非肿瘤肝组织、手术前血浆和手术后血浆的甲基化密度。

图24A是图2400，展示来自HCC患者的手术前血浆的甲基化密度。图24B是曲线2450，展示来自HCC患者的手术后血浆的甲基化密度。

图25A和25B展示针对染色体1，使用四个健康对照个体的血浆甲基化组数据作为参考，HCC患者的手术前(图2500)和手术后(图2550)血浆样品的血浆DNA甲基化密度的z分数。

图26A是表2600，展示手术前和手术后血浆的z分数的数据。图26B是Circos图2620，展示针对从所有常染色体分析的1Mb区域，使用四个健康对照个体作为参考，HCC患者的手术前和手术后血浆样品的血浆DNA甲基化密度的z分数。图26C是表2640，展示HCC患者的手术前与手术后血浆样品中全基因组的1Mb区域的z分数的分布。图26D是表2660，展示在使用CHH和CHG背景时，肿瘤组织和与一些对照血浆样品重叠之手术前血浆样品的甲基化水平。

图27A-H展示根据本发明的实施例，8个癌症患者的甲基化密度的Circos图。图27I是表2780，展示每一样品所实现的序列读数的数目和测序深度。图27J是表2790，展示不同恶性病患者的血浆中全基因组水平的解析度为1Mb区域的z分数的分布。CL＝肺腺癌；NPC＝鼻咽癌；CRC＝结肠直肠癌；NE＝神经内分泌癌；SMS＝平滑肌肉瘤。

图28是方法2800的流程图，根据本发明的实施例，分析生物体的生物样品以确定癌症等级的分类。

图29A是曲线2900，展示参考个体中甲基化密度的分布，假定此分布遵循正态分布。图29B是曲线2950，展示癌症个体中甲基化密度的分布，假定此分布遵循正态分布并且平均甲基化水平是比阈值低2个标准偏差。

图30是曲线3000，展示健康个体和癌症患者的血浆DNA的甲基化密度的分布。

图31是图表3100，展示健康个体的血浆DNA与HCC患者的肿瘤组织的平均值之间的甲基化密度差异的分布。

图32A是表3200，展示当血浆样品含有5％或2％肿瘤DNA时减小测序深度的影响。

图32B是图表3250，展示四个健康对照个体的血浆、HCC患者的白细胞层、正常肝组织、肿瘤组织、手术前血浆和手术后血浆样品中重复元件和非重复区域的甲基化密度。

图33展示可与根据本发明的实施例的系统和方法一起使用的例示性计算机系统3300的框图。

图34A展示全身性红斑狼疮(SLE)患者SLE04中血浆DNA的尺寸分布。图34B和34C展示来自SLE患者SLE04(图34B)和HCC患者TBR36(图34C)的血浆DNA的甲基化分析。

图35是方法3500的流程图，所述方法3500根据本发明的实施例，基于CpG岛的高甲基化确定癌症等级的分类。

图36是方法3600的流程图，所述方法3600根据本发明的实施例，使用多个染色体区域分析生物体的生物样品。

图37A展示患者TBR36的肿瘤组织、未经亚硫酸氢盐(BS)处理的血浆DNA和经亚硫酸氢盐(BS)处理的血浆DNA(从内到外)的CNA分析。图37B是展示针对患者TBR36，使用经亚硫酸氢盐处理的血浆和未经亚硫酸氢盐处理的血浆检测1Mb区域的CNA的z分数之间的关系的散点图。

图38A展示患者TBR34的肿瘤组织、未经亚硫酸氢盐(BS)处理的血浆DNA和经亚硫酸氢盐(BS)处理的血浆DNA(从内到外)的CNA分析。图38B是展示针对患者TBR34，使用经亚硫酸氢盐处理的血浆和未经亚硫酸氢盐处理的血浆检测1Mb区域的CNA的z分数之间的关系的散点图。

图39A是展示HCC患者TBR240的经亚硫酸氢盐处理的血浆的CNA(内环)和甲基化分析(外环)的Circos图。图39B是展示HCC患者TBR164的经亚硫酸氢盐处理的血浆的CNA(内环)和甲基化分析(外环)的Circos图。

图40A展示患者TBR36的处理前样品和处理后样品的CNA分析。图40B展示患者TBR36的处理前样品和处理后样品的甲基化分析。图41A展示患者TBR34的处理前样品和处理后样品的CNA分析。图41B展示患者TBR34的处理前样品和处理后样品的甲基化分析。

图42展示具有不同数目的测序读数的全基因组低甲基化分析的诊断性能图。

图43是展示基于使用不同区域尺寸(50kb、100kb、200kb和1Mb)的全基因组低甲基化分析检测癌症的ROC曲线的图。

图44A展示累积概率(CP)和具有异常的区域的百分比的诊断性能。图44B展示针对整体低甲基化、CpG岛高甲基化和CNA的血浆分析的诊断性能。

图45展示具有肝细胞癌患者中整体低甲基化、CpG岛高甲基化和CNA的结果的表。

图46展示患有除肝细胞癌外的癌症的患者中整体低甲基化、CpG岛高甲基化和CNA的结果的表。

图47展示案例TBR34的血浆甲基化的系列分析。

图48A展示证实HCC患者TBR36的经亚硫酸氢盐处理的血浆DNA中的CNA(内环)和甲基化改变(外环)的Circos图。图48B是HCC患者TBR36的具有染色体增加和缺失的区域以及无拷贝数改变的区域的甲基化z分数的箱式图。

图49A展示证实HCC患者TBR34的经亚硫酸氢盐处理的血浆DNA中的CNA(内环)和甲基化改变(外环)的Circos图。图49B是HCC患者TBR34的具有染色体增加和缺失的区域以及无拷贝数改变的区域的甲基化z分数的箱式图。

图50A和50B展示SLE患者SLE04和SLE10的血浆低甲基化和CNA分析的结果。

图51A和51B展示两个HCC患者(TBR34和TBR36)的血浆的有和无CNA的区域的Z_甲基化分析。图51C和51D展示两个SLE患者(SLE04和SLE10)的血浆的有和无CNA的区域的Z_甲基化分析。

图52A展示使用CNA、整体甲基化和CpG岛甲基化的A组特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。图52B展示使用CNA、整体甲基化和CpG岛甲基化的B组特征的分层聚类。

图53A展示使用A组CpG岛甲基化特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。图53B展示使用A组整体甲基化密度，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。

图54A展示使用A组整体CNA，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。图54B展示使用B组CpG岛甲基化密度，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。

图55A展示使用B组整体甲基化密度，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。图55B展示使用B组整体甲基化密度，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。

图56展示32个健康个体当中1Mb区域的平均甲基化密度(红点)。

具体实施方式

定义

“甲基化组”提供了基因组中多个位点或基因座的DNA甲基化量的量度。甲基化组可以对应于所有基因组、基因组的大部分或基因组的相对较小部分。“胎儿甲基化组”对应于怀孕女性的胎儿的甲基化组。胎儿甲基化组可以使用多种胎儿组织或胎儿DNA来源，包括胎盘组织和母体血浆中的游离胎儿DNA来测定。“肿瘤甲基化组”对应于生物体(例如人类)的肿瘤的甲基化组。肿瘤甲基化组可以使用肿瘤组织或母体血浆中的游离肿瘤DNA测定。胎儿甲基化组和肿瘤甲基化组是相关甲基化组的实例。相关甲基化组的其它实例是可以提供DNA到体液(例如血浆、血清、汗水、唾液、尿、生殖器分泌物、精液、粪便液、腹泻液、脑脊髓液、胃肠道分泌物、胰腺分泌物、肠分泌物、痰液、泪液、来自乳房和甲状腺的抽吸液等)中的器官的甲基化组(例如脑细胞、骨、肺、心、肌肉和肾等的甲基化组)。器官可以是移植器官。

“血浆甲基化组”是从动物(例如人类)的血浆或血清测定的甲基化组。因为血浆和血清包括游离DNA(游离DNA是指以存在于细胞外的DNA，又指胞外DNA)，所以血浆甲基化组是游离甲基化组的一个实例。血浆甲基化组也是混合甲基化组的一个实例，因为其是胎儿/母体甲基化组或肿瘤/患者甲基化组的混合物。“胎盘甲基化组”可以从绒膜绒毛样品(CVS)或胎盘组织样品(例如产后获得)测定。“细胞甲基化组”对应于从患者的细胞(例如血细胞)测定的甲基化组。血细胞的甲基化组称为血细胞甲基化组(或血液甲基化组)。

“位点”对应于单个位点，其可以是单个碱基位置或一组相关碱基位置，例如CpG位点。“基因座”可以对应于包括多个位点的区域。基因座可以只包括一个位点，此将使得所述基因座在此背景下相当于一个位点。

每个基因组位点(例如CpG位点)的“甲基化指数”是指在位点上展示甲基化的序列读数占覆盖所述位点的读数总数的比例。区域的“甲基化密度”是区域内展示甲基化的位点的读数的数目除以所述区域中覆盖位点的读数的总数。位点可以具有特定的特征，例如为CpG位点。因此，区域的“CpG甲基化密度”是展示CpG甲基化的读数的数目除以区域中覆盖CpG位点(例如特定CpG位点、CpG岛内的CpG位点或更大区域)的读数的总数。举例来说，人类基因组中每个100kb区域的甲基化密度可以从CpG位点上在亚硫酸氢盐处理之后未转化的胞嘧啶(其对应于甲基化胞嘧啶)的总数占测得并比对到100kb区域的序列读数所覆盖的所有CpG位点的比例。此分析也可以针对例如50kb或1Mb等其它区域尺寸进行。区域可以是整个基因组或染色体或染色体的一部分(例如染色体臂)。当区域仅仅包括CpG位点时，CpG位点的甲基化指数与区域的甲基化密度相同。“甲基化胞嘧啶的比例”是指在分析的胞嘧啶残基的总数上，即在区域中包括在CpG背景外的胞嘧啶，展示甲基化(例如在亚硫酸氢盐转化之后未转化)的胞嘧啶位点“C”的数目。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实例。

“甲基化型态”(也称为甲基化状态)包括与区域的DNA甲基化有关的信息。与DNA甲基化有关的信息可以包括(但不限于)CpG位点的甲基化指数、区域中CpG位点的甲基化密度、相邻区域上CpG位点的分布、含有一个以上CpG位点的区域内每一个别CpG位点的甲基化的模式或水平以及非CpG甲基化。基因组的大部分的甲基化型态可以视为相当于等同于甲基化组。哺乳动物基因组中的“DNA甲基化”通常是指添加甲基到CpG双核苷酸中胞嘧啶残基的5'碳(即5-甲基胞嘧啶)。DNA甲基化可以发生在例如CHG和CHH等其它背景下的胞嘧啶中，其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可以呈5-羟基甲基胞嘧啶形式。还报导了非胞嘧啶甲基化，例如N6-甲基腺嘌呤。

“组织”对应于任何细胞。不同类型的组织可以对应于不同类型的细胞(例如肝、肺或血液)，但也可以对应于来自不同生物体(母亲与胎儿)的组织或健康细胞与肿瘤细胞。「生物样品」是指取自个体(例如人类，例如孕妇、癌症患者或怀疑患有癌症者、器官移植接受者或怀疑患有涉及器官的疾病过程的个体(例如心肌梗塞中的心或中风中的脑))并含有一或多个相关核酸分子的任何样品。生物样品可以是体液，例如血液、血浆、血清、尿、阴道液、子宫或阴道冲洗液、胸膜液、腹水、脑脊髓液、唾液、汗水、泪液、痰液、支气管肺泡灌洗液等。也可以使用粪便样品。

术语“癌症等级”可以指癌症是否存在、癌症阶段、肿瘤尺寸、是否存在转移、身体的总肿瘤负荷和/或癌症严重程度的其它量度。癌症等级可以是数值或其它特征。等级可以是零。癌症等级还包括与突变或多种突变相关的癌变前或癌前期病状(状态)。癌症等级可以按各种方式使用。举例来说，筛选可以检查已知先前未患癌症的某人是否存在癌症。评估可以研究已经被诊断为患有癌症的某人以监测癌症随时间推移的进展、研究疗法的效用或确定预后。在一个实施例中，预后可以表示为患者死于癌症的机率，或在特定持续时间或时间后癌症进展的机率，或癌症转移的机率。检测可以意指‘筛选’或可以意指检查具有癌症的暗示性特征(例如症状或其它阳性测试)的某人是否患有癌症。

发明详述

表观遗传机制在胚胎和胎儿发育中发挥着重要的作用。但是，人类胚胎和胎组织(包括胎盘组织)不容易获得(美国专利6,927,028)。某些实施例已经通过分析具有母体循环中存在的游离胎儿DNA分子的样品解决了此问题。胎儿甲基化组可以用多种方式推断。举例来说，母体血浆甲基化组可以与细胞甲基化组(来自母亲的血细胞)比较并且展示与胎儿甲基化组相关的差异。作为另一实例，可以使用胎儿特定的等位基因确定特定的基因座上胎儿甲基化组的甲基化。另外，如尺寸与甲基化百分比之间的相关性所展示，片段的尺寸可以用作甲基化百分比的指示物。

在一个实施例中，全基因组亚硫酸氢盐测序用于在单核苷酸分辨率下分析母体血浆DNA的甲基化型态(甲基化组的部分或全部)。通过采用母亲与胎儿之间的多态差异，可以从母体血液样品集合胎儿甲基化组。在另一个实施例中，不使用多态差异，而是可以使用血浆甲基化组与血细胞甲基化组之间的差异。

在另一个实施例中，通过采用肿瘤基因组与非肿瘤基因组之间的单核苷酸变异和/或拷贝数异常以及来自血浆(或其它样品)的测序数据，可以在怀疑或已知患有癌症的患者的样品中进行肿瘤的甲基化型态分析。在与健康对照或一组健康对照的血浆甲基化水平比较时测试个体的血浆样品中甲基化水平的差异可以允许鉴别测试个别为患有癌症。另外，甲基化型态可以充当揭露癌症类型、例如来自哪一器官、个人已经发展和是否已发生转移的标记。

由于此方法具有无创性，故能够从早期妊娠、晚期妊娠中和产后收集的母体血液样品连续评估胎儿和母体血浆甲基化组。观测到妊娠相关的改变。所述方法也可以应用于在中期妊娠期间获得的样品。从妊娠期间的母体血浆推断的胎儿甲基化组类似于胎盘甲基化组。从母体血浆数据鉴别出印记基因和甲基化有差异的区域。

因此，已经研发出一种无创、连续和全面地研究胎儿甲基化组的方法，因而能够鉴别生物标记物或直接测试与妊娠相关的病变。实施例也可以用于无创、连续和全面地研究肿瘤甲基化组，用于筛选或检测个体是否患有癌症、用于监测癌症患者中的恶性疾病和用于预后。实施例可以应用于任何癌症类型，包括(但不限于)肺癌、乳癌、结肠直肠癌、前列腺癌、鼻咽癌、胃癌、睾丸癌、皮肤癌(例如黑色素瘤)、影响神经系统的癌症、骨癌、卵巢癌、肝癌(例如肝细胞癌)、血液科恶性疾病、胰腺癌、子宫内膜癌、肾癌、宫颈癌、膀胱癌等。

首先论述了如何测定甲基化组或甲基化型态的描述，随后描述了不同的甲基化组(例如胎儿甲基化组、肿瘤甲基化组、母亲或患者的甲基化组以及混合的甲基化组，例如来自血浆)。随后描述了使用胎儿特定的标记物或通过比较混合的甲基化型态与细胞甲基化型态对胎儿甲基化型态的测定。胎儿甲基化标记物通过比较甲基化型态来测定。论述尺寸与甲基化之间的关系。还提供了甲基化型态检测癌症的用途。

I.甲基化组的测定

无数的方法已经用于研究胎盘甲基化组，但每种方法都有它的限制性。举例来说，亚硫酸氢钠，一种将未甲基化的胞嘧啶残基改性成尿嘧啶并保持甲基化的胞嘧啶不变的化学物质，将胞嘧啶甲基化的差异转化成基因序列差异以供进一步询问。研究胞嘧啶甲基化的金标法是基于用亚硫酸氢钠处理组织DNA，接着对经亚硫酸氢盐转化的DNA分子的个别克隆进行直接测序。在分析DNA分子的多个克隆后，可以获得每个CpG位点的胞嘧啶甲基化模式和定量型态。但是，克隆的亚硫酸氢盐测序是低通量与劳动密集型程序，不易在全基因组规模上应用。

通常消化未甲基化DNA的甲基化敏感性限制酶提供了一种研究DNA甲基化的低成本方法。但是，由此类研究产生的数据局限于具有酶识别基元的基因座并且结果不是定量的。由抗甲基化胞嘧啶抗体结合的DNA的免疫沉淀可以用于研究基因组的大区段，但往往会偏向具有稠密甲基化的基因座，因为抗体结合于此类区域的强度更高。基于微阵列的方法依赖于用于研究的探针的先验设计和探针与标靶DNA之间的杂交效率。

为了全面地研究甲基化组，一些实施例使用大规模平行测序(MPS)基于每个核苷酸和每个等位基因来提供全基因组信息和甲基化水平的定量评估。近来，先亚硫酸氢盐转化后全基因组MPS已经变得可行(李斯特等人2008细胞；133:523-536(R Lister etal2008Cell；133:523-536))。

在少量的将全基因组亚硫酸氢盐测序应用于研究人类甲基化组的已发表研究(李斯特等人2009自然；462:315-322(R Lister et al.2009Nature；462:315-322)；劳伦特等人2010基因组研究；20:320-331(Laurent et al.2010Genome Res；20:320-331)；李等人2010美国科学公共图书馆·生物学；8:e1000533(Y Li et al.2010PLoS Biol；8:e1000533)；和库里斯等人2012自然遗传；44:1236-1242(M Kulis et al.2012Nat Genet；44:1236-1242))中，两个研究集中于胚胎干细胞和胎儿成纤维细胞(李斯特等人2009自然；462:315-322；劳伦特等人2010基因组研究；20:320-331)。两个研究都分析细胞系来源的DNA。

A.全基因组亚硫酸氢盐测序

某些实施例可以解决前述的挑战并能够全面、无创和连续地研究胎儿甲基化组。在一个实施例中，将全基因组亚硫酸氢盐测序用于分析在孕妇血液循环中发现的游离胎儿DNA分子。尽管血浆DNA分子的丰度低和片段性，我们仍能够从母体血浆组装高分辨率胎儿甲基化组并观测到随着妊娠进展相关的连续改变。假定对无创产前测试(NIPT)的兴趣非常浓厚，实施例可以提供一种用于发现胎儿生物标记的强大的新工具，或充当实现胎儿或妊娠相关疾病的NIPT的直接平台。目前提供了来自各种样品的全基因组亚硫酸氢盐测序的数据，从其中可以得出胎儿甲基化组。在一个实施例中，此项技术可以应用于并发有先兆子痫或子宫内生长迟缓或早产的孕妇中的甲基化型态分析。对于此类妊娠并发症，因为其无创性，此项技术可以连续使用从而允许监测和/或预后和/或监测对治疗作出的反应。

图1A展示表100，为根据本发明的实施例，母体血液、胎盘和母体血浆的测序结果。在一个实施例中，对以下各者的经亚硫酸氢盐转化的DNA文库进行全基因组测序，所述DNA文库是使用甲基化DNA文库衔接子(伊路米那(Illumina))(李斯特等人2008细胞；133:523-536)制备：早期妊娠收集的血液样品的血细胞、CVS、分娩时收集的胎盘组织、早期妊娠和晚期妊娠以及产后时期期间收集的母体血浆样品。还分析从一个成年男性和一个成年非怀孕女性获得的血细胞和血浆DNA样品。在这一研究中，产生总共95亿对的原始序列读数。每个样品的测序覆盖度展示在表100中。

对于早期妊娠、晚期妊娠和产后母体血浆样品，可唯一性地比对到人类参考基因组的序列读数分别达到50倍、34倍和28倍的平均单倍体基因组覆盖度。对于从孕妇获得的样品，基因组中CpG位点的覆盖率在81％到92％范围内。针对早期妊娠、晚期妊娠和产后母体血浆样品，横跨CpG位点的序列读数分别等于每链33倍、每链23倍和每链19倍的平均单倍体覆盖率。所有样品的亚硫酸氢盐转化效率>99.9％(表100)。

表100中，不明确率(标记“a”)是指同时比对到参考人类基因组的沃森(Watson)和克里克(Crick)链的读数的比例。λ转化率是指内部对照λDNA通过亚硫酸氢盐处理而转化成“胸腺嘧啶”残基占未甲基化胞嘧啶的比例。H一般等于A、C或T。“a”是指可以映射到特定基因座但无法分配给沃森或克里克链的读数。“b”是指具有一致起始和结束座标的成对读数。对于“c”，λDNA在亚硫酸氢盐转化前添加到每个样品中。λ转化率是指在亚硫酸氢盐转化后转化成“胸腺嘧啶”的胞嘧啶核苷酸的比例，并且用作成功亚硫酸氢盐转化率的指示。“d”是指存在于参考人类基因组中并且在亚硫酸氢盐转化后保持为胞嘧啶序列的胞嘧啶核苷酸的数目。

在亚硫酸氢盐改性期间，未甲基化胞嘧啶转化成尿嘧啶并随后在PCR扩增后转化成胸腺嘧啶，而甲基化胞嘧啶将保持完整(弗罗梅尔等人1992美国国家科学院院刊；89:1827-31(M Frommer et al.1992Proc Natl Acad Sci USA；89:1827-31))。在测序和比对后，个别CpG位点的甲基化状态可以根据CpG序列中的胞嘧啶残基的甲基化序列读数“M”(甲基化)的计数和未甲基化序列读数“U”(未甲基化)的计数推断得到。使用亚硫酸氢盐测序数据，构筑母体血液、胎盘和母体血浆的整个甲基化组。可以使用以下等式计算母体血浆中特定基因座的平均甲基化CpG密度(又称为甲基化密度MD)：

其中M是基因座内CpG位点的甲基化读数的计数并且U是未甲基化读数的计数。如果基因座内存在一个以上CpG位点，那么M和U对应于跨越这些位点的计数。

B.各种技术

如上所述，可以使用经亚硫酸氢盐转化的血浆DNA的大规模平行测序(MPS)进行甲基化型态分析。经亚硫酸氢盐转化的血浆DNA的MPS可以用随机或鸟枪方式进行。测序的深度可以根据相关区域的尺寸变化。

在另一个实施例中，可以首先使用基于溶液相或固相杂交的过程捕捉经亚硫酸氢盐转化的血浆DNA中的相关区域，接着进行MPS。大规模平行测序可以使用例如伊路米那等合成测序平台(sequencing-by-synthesis platform)、例如来自生命技术(LifeTechnologies)的SOLiD平台等接合测序平台(sequencing-by-ligation platform)、例如来自生命技术的Ion Torrent或Ion Proton平台等基于半导体的测序系统或例如赫利克斯系统(Helicos system)或太平洋生物科学系统(Pacific Biosciences system)等单分子测序系统或基于纳米孔的测序系统进行。基于纳米孔的测序包括使用例如脂质双层构筑的纳米孔和蛋白质纳米孔以及固态纳米孔(例如基于石墨烯的纳米孔)。因为所选择的单分子测序平台将允许在无亚硫酸氢盐转化下直接检测DNA分子的甲基化状态(包括N6-甲基腺嘌呤、5-甲基胞嘧啶和5-羟基甲基胞嘧啶)(福拉伯格等人2010自然方法；7:461-465(BAFlusberg et al.2010Nat Methods；7:461-465)；诗姆等人2013科学报道；3:1389.doi:10.1038/srep01389(J Shim et al.2013Sci Rep；3:1389.doi:10.1038/srep01389))，所以使用此类平台将允许分析未经亚硫酸氢盐转化的样品DNA(例如血浆DNA)的甲基化状态。

除测序以外，还可以使用其它技术。在一个实施例中，甲基化型态分析可以通过甲基化特定的PCR，或先甲基化敏感性限制酶消化后PCR，或先接合酶链式反应后PCR来进行。在其它实施例中，PCR是单分子或数字PCR的形式(沃格斯坦等人1999美国国家科学院院刊；96:9236-9241(B Vogelstein et al.1999Proc Natl Acad Sci USA；96:9236-9241))。在其它实施例中，PCR可以是实时PCR。在其它实施例中，PCR可以是多重PCR。

II.甲基化组的分析

一些实施例可以使用全基因组亚硫酸氢盐测序测定血浆DNA的甲基化型态。胎儿的甲基化型态可以通过如下文描述，对母体血浆DNA样品进行测序来测定。因此，在孕期无创地获取胎儿DNA分子(和胎儿甲基化组)，并且随着孕期的进展，连续监测改变。因为测序数据为全面的，所以能够在全基因组规模上在单核苷酸分辨率下研究母体血浆甲基化组。

因为测序读数的基因组座标为已知的，所以这些数据能够用来研究基因组中甲基化组或任何相关区域的整体甲基化水平并且在不同遗传元件之间进行比较。此外，多个序列读数覆盖每个CpG位点或基因座。目前提供了用于测量甲基化组的一些量度的描述。

A.血浆DNA分子的甲基化

DNA分子在人类血浆中以低浓度和片段形式存在，通常长度类似于单核小体单元(洛等人2010科学·转化医学；2:61ra91(YMD Lo et al.2010Sci Transl Med；2:61ra91)；以及郑等人2012临床化学；58:549-558(YW Zheng at al.2012Clin Chem；58:549-558))。尽管存在这些限制，全基因组亚硫酸氢盐测序管道仍然能够分析血浆DNA分子的甲基化。在其它实施例中，因为所选择的单分子测序平台将允许在无亚硫酸氢盐转化下直接推测DNA分子的甲基化状态(福拉伯格等人2010自然方法；7:461-465；诗姆等人2013科学报道；3:1389.doi:10.1038/srep01389)，所以使用此类平台将允许未经亚硫酸氢盐转化的样品DNA用于测定血浆DNA的甲基化水平或测定血浆甲基化组。此类平台可以检测N6-甲基腺嘌呤、5-甲基胞嘧啶和5-羟基甲基胞嘧啶，此可以提供与不同生物功能有关的不同形式甲基化对应的改良结果(例如提高的灵敏度或特异性)。此类改良的结果可以适用于实施例应用于检测或监测例如先兆子痫或特定类型癌症等特定病症。

亚硫酸氢盐测序也可以区分不同形式的甲基化。在一个实施例中，可以包括可以区分5-甲基胞嘧啶与5-羟基甲基胞嘧啶的额外步骤。一种此类方法是氧化亚硫酸氢盐测序(oxBS-seq)，其可以在单碱基分辨率下阐明5-甲基胞嘧啶和5-羟基甲基胞嘧啶的位置(布斯等人2012科学；336:934-937(MJ Booth et al.2012Science；336:934-937)；布斯等人2013自然实验手册；8:1841-1851(MJ Booth et al.2013Nature Protocols；8:1841-1851))。在亚硫酸氢盐测序中，5-甲基胞嘧啶与5-羟基甲基胞嘧啶都读成胞嘧啶，因而无法区分。另一方面，在oxBS-seq中，通过用高钌酸钾(KRuO4)处理将5-羟基甲基胞嘧啶特定地氧化成5-甲酰基胞嘧啶，接着使用亚硫酸氢盐转化将新形成的5-甲酰基胞嘧啶转化成尿嘧啶，将允许5-羟基甲基胞嘧啶与5-甲基胞嘧啶区分开。因此，5-甲基胞嘧啶的读取可以从单个oxBS-seq操作获得，并且通过与亚硫酸氢盐测序结果比较，推断出5-羟基甲基胞嘧啶水平。在另一个实施例中，可以使用Tet辅助的亚硫酸氢盐测序(TAB-seq)将5-甲基胞嘧啶与5-羟基甲基胞嘧啶区分开(余等人2012自然实验手册；7:2159-2170(M Yu et al.2012NatProtoc；7:2159-2170))。TAB-seq可以在单碱基分辨率下鉴别5-羟基甲基胞嘧啶，以及测定其在每个修饰位点的丰度。此方法包括β-葡萄糖基转移酶介导的5-羟基甲基胞嘧啶保护(葡糖基化)和重组小鼠Tet1(mTet1)介导的5-甲基胞嘧啶氧化成5-羧基胞嘧啶。在后续亚硫酸氢盐处理和PCR扩增后，胞嘧啶与5-羧基胞嘧啶(衍生自5-甲基胞嘧啶)都转化成胸腺嘧啶(T)，而5-羟基甲基胞嘧啶将读成C。

图1B展示根据本发明的实施例，测序样品的1Mb窗口中的甲基化密度。图150是描绘跨越基因组的1Mb窗口中母体血浆和基因组DNA中的甲基化密度的Circos图。从外到内：染色体G带图可以按顺时针方向(着丝粒以红色展示)pter-qter取向，母体血液(红色)、胎盘(黄色)、母体血浆(绿色)、母体血浆中的共享读数(蓝色)和母体血浆中的胎儿特定读数(紫色)。母体血细胞、胎盘和母体血浆的整体CpG甲基化水平(即密度水平)可以见于表100中。跨越全基因组，母体血细胞的甲基化水平一般高于胎盘的甲基化水平。

B.亚硫酸氢盐测序与其它技术的比较

使用大规模平行亚硫酸氢盐测序研究胎盘甲基化组。此外，使用覆盖人类基因组中约480,000个CpG位点的寡核苷酸阵列平台(伊路米那)研究胎盘甲基化组(库里斯等人2012自然遗传；44:1236-1242；以及克拉克等人2012公共科学图书馆·综合；7:e50233(CClark et al.2012PLoS One；7:e50233))。在使用基于珠粒芯片(beadchip)的基因分型和甲基化分析的一个实施例中，根据制造商方案，使用伊路米那HumanOmni2.5-8基因分型阵列，进行基因分型。使用Genome Studio软件(Genome Studio Software)(伊路米那)的GenCall算法鉴定基因型。检出率超过99％。对于基于微阵列的甲基化分析，根据制造商对伊路米那印飞尼姆甲基化分析(Illumina Infinium Methylation Assay)的建议，使用Zymo EZ DNA甲基化试剂盒(美国加利福尼亚州橙县的兹磨研究公司(Zymo Research,Orange,CA,USA))，将基因组DNA(500-800ng)用亚硫酸氢钠处理。

根据印飞尼姆HD甲基化分析方案，在50ng/μl下对4μl经亚硫酸氢盐转化的基因组DNA进行甲基化分析。在伊路米那iScan仪器上扫描杂化珠粒芯片。通过GenomeStudio(v2011.1)甲基化模块(v1.9.0)软件分析DNA甲基化数据，其中相对于内部对照标准化并减去背景。个别CpG位点的甲基化指数用β值(β)表示，其是使用甲基化与未甲基化等位基因之间的荧光强度的比率计算的：

对于在阵列上存现并且测序到至少10倍的覆盖度的CpG位点，比较通过阵列获得的β值与如通过相同位点的测序所测定的甲基化指数。β值是指甲基化探针的强度占覆盖相同CpG位点的甲基化探针与未甲基化探针的总强度的比例。每个CpG位点的甲基化指数是指覆盖所述CpG上的甲基化读数占总读数的比例。

图2A-2C展示通过伊路米那印飞尼姆人类甲基化450K珠粒芯片阵列测定的β值针对通过对应CpG位点的全基因组亚硫酸氢盐测序测定的甲基化指数(通过两种平台测得)的散点图：(A)母体血细胞、(B)绒膜绒毛样品、(C)足月胎盘组织。来自两种平台的数据高度一致并且母体血细胞、CVS和足月胎盘组织对应的皮尔逊相关系数(Pearson correlationcoefficient)分别为0.972、0.939、0.954，并且R²值为0.945、0.882和0.910。

将测序数据与朱等人(Chu et al)所报导的测序数据进一步比较，朱等人使用覆盖约27,000CpG位点的寡核苷酸阵列，研究12对CVS和母体血细胞DNA样品的甲基化型态(朱等人2011公共科学图书馆·综合；6:e14723(T Chu et al.2011 PLoS One；6:e14723))。CVS和母体血细胞DNA的测序结果与先前研究中12对样品每一者之间的相关性分析数据显示母体血液的平均皮尔逊系数(0.967)和R²(0.935)以及CVS的平均皮尔逊系数(0.943)和R²(0.888)。在两种阵列上表示的CpG位点当中，数据与已发表的数据高度相关。母体血细胞、CVS和胎盘组织的非CpG甲基化率<1％(表100)。这些结果符合当前的报道，即大量的非CpG甲基化主要受限于多能细胞(李斯特等人2009自然；462:315-322；劳伦特等人2010基因组研究；20:320-331)。

C.非怀孕个体的血浆和血液甲基化组的比较

图3A和3B展示从成年男性和非怀孕成年女性收集的血浆和血细胞中甲基化CpG位点百分比的柱状图：(A)常染色体、(B)染色体X。所述图展示男性和非怀孕女性的血浆和血液甲基化组之间的类似性。男性和非怀孕女性血浆样品中甲基化的CpG位点的总比例几乎与对应血细胞DNA相同(表100和图2A和2B)。

随后以基因座特定的方式研究血浆和血细胞样品的甲基化型态的相关性。通过确定CpG位点上未转化胞嘧啶的总数为占比对到100kb区域的序列读数所覆盖的所有CpG位点的比例，确定人类基因组中每100kb区域的甲基化密度。甲基化密度在男性以及女性样品的血浆样品与对应血细胞DNA之间高度一致。

图4A和4B展示血细胞DNA和血浆DNA中对应基因座的甲基化密度的散点图：(A)非怀孕成年女性、(B)成年男性。非怀孕女性样品的皮尔逊相关系数和R²值分别为0.963和0.927，并且男性样品的皮尔逊相关系数和R²值分别为0.953和0.908。这些数据符合先前基于同种造血干细胞移植的接受者的血浆DNA分子的基因型评估的发现，所述发现展示造血细胞是人类血浆中DNA的主要来源(郑等人2012临床化学；58:549-558)。

D.跨越甲基化组的甲基化水平

随后研究母体血浆DNA、母体血细胞和胎盘组织的DNA甲基化水平以确定甲基化水平。所述水平是针对重复区域、非重复区域和整体来确定。

图5A和5B展示从孕妇收集的样品当中甲基化CpG位点百分比的柱状图：(A)常染色体、(B)染色体X。早期和晚期妊娠母体血浆样品的甲基化CpG的总比例分别为67.0％和68.2％。不同于从非怀孕个体获得的结果，这些比例低于早期妊娠母体血细胞样品但高于CVS和足月胎盘组织样品(表100)。值得注意地，产后母体血浆样品的甲基化CpG的百分比为73.1％，类似于血细胞数据(表100)。这些倾向在所有常染色体以及染色体X中分布并且横跨人类基因组的非重复区域和多个类别的重复元件的CpG中观测到。

发现胎盘中重复与非重复元件相对于母体血细胞都是低甲基化的。结果与文献中的发现一致，即胎盘相对于包括外周血细胞在内的其它组织是低甲基化的。

在来自孕妇、非怀孕妇女和成年男性的血细胞DNA中测序CpG位点的71％到72％甲基化(图1的表100)。这些数据与李等人2010公共科学图书馆·生物学；8:e1000533报导的血液单核细胞的CpG位点的68.4％的报导相当。与关于胎盘组织的低甲基化性的先前报导一致的是，CVS和足月胎盘组织中分别55％和59％的CpG位点甲基化(表100)。

图6展示母体血液、胎盘和母体血浆的人类基因组的不同重复类别的甲基化水平的柱状图。重复类别如UCSC基因组浏览器(UCSC genome browser)所定义。所示数据来自早期妊娠样品。不同于早期报道，其主要在基因组中的某些重复类别中观测到胎盘组织的低甲基化性的数据(诺瓦科维奇等人2012胎盘；33:959-970(B Novakovic etal.2012Placenta；33:959-970))；而在此展示相对于血细胞的基因组，胎盘实际上大部分重复类别都是低甲基化的。

E.甲基化组的类似性

实施例可以使用相同的平台确定胎盘组织、血细胞和血浆的甲基化组。因此，可以对那些生物样品类型的甲基化组进行直接比较。男性和非怀孕女性的血细胞和血浆的甲基化组之间以及母体血细胞与产后母体血浆样品之间的高度相似性进一步肯定了造血细胞是人类血浆中DNA的主要来源(郑等人2012临床化学；58:549-558)。

根据基因组中甲基化CpG的总比例以及血细胞DNA和血浆DNA中对应基因座之间的甲基化密度的高度相关性，相似性显而易见。然而，早期妊娠和晚期妊娠母体血浆样品中甲基化CpG的总比例比母体血细胞数据或产后母体血浆样品低。在怀孕期间降低的甲基化水平是因为母体血浆中存在的胎儿DNA分子的低甲基化特性。

产后母体血浆样品中的甲基化型态逆转到变得更类似于母体血细胞表明胎儿DNA分子已经从母体循环中去除。基于胎儿的SNP标记物计算胎儿DNA浓度确实显示浓度从产前33.9％变到产后样品中仅4.5％。

F.其它应用

实施例已经通过血浆DNA的MPS分析成功地组装了DNA甲基化组。从母体血浆确定胎盘或胎儿甲基化组的能力提供了一种测定、检测和监测与例如先兆子痫、子宫内生长受限、早产等怀孕相关病状相关的异常甲基化型态的无创方法。举例来说，疾病特定的异常甲基化标记的检测允许筛选、诊断和监测此类怀孕相关病状。母体血浆甲基化水平的测量允许筛选、诊断和监测此类怀孕相关病状。除直接应用于怀孕相关病状的研究外，所述方法还可以应用于其中对血浆DNA分析有兴趣的其它医学领域。举例来说，可以从癌症患者的血浆DNA测定癌症的甲基化组。如本文中所述，从血浆进行癌症甲基化组分析可能是一种与从血浆进行癌症基因组分析协同的技术(陈等人2013临床化学；59:211-224(KCA Chan atal.2013Clin Chem；59:211-224)和利瑞等人2012科学·转化医学；4:162ra154(RJ Learyet al.2012Sci Transl Med；4:162ra154))。

举例来说，血浆样品的甲基化水平的测定可以用于癌症筛查。当血浆样品的甲基化水平与健康对照相比显示异常水平时，可以怀疑患有癌症。随后可以通过测定不同基因座上甲基化的血浆型态或通过血浆基因组分析以检测肿瘤相关的拷贝数异常、染色体易位和单核苷酸变异体，对癌症类型或癌症组织来源进行进一步证实和评估。实际上，在本发明的一个实施例中，血浆癌症甲基化组和基因组型态分析可以同时进行。或者，放射学和成像研究(例如计算机断层扫描、磁共振成像、正电子发射断层摄影法)或内窥镜检查(例如上胃肠道内窥镜检查或结肠镜检查)可以基于血浆甲基化水平分析用于进一步研究怀疑患有癌症的个体。

对于癌症筛选或检测，血浆(或其它生物)样品的甲基化水平的测定可以结合例如以下等其它用于癌症筛选或检测的模态使用：前列腺特定的抗原测量(例如用于前列腺癌)、癌胚抗原(例如用于结肠直肠癌、胃癌、胰腺癌、肺癌、乳癌、甲状腺髓样癌)、α胎蛋白(例如用于肝癌或生殖细胞肿瘤)、CA125(例如用于卵巢和乳癌)和CA19-9(例如用于胰腺癌)。

另外，可以对其它组织进行测序以获得细胞甲基化组。举例来说，可以对肝组织进行分析以确定对肝来说特定的甲基化模式，其可以用以鉴别肝病变。还可以分析的其它组织包括脑细胞、骨、肺、心、肌肉和肾等。各种组织的甲基化型态可能例如由于发育、衰老、疾病过程(例如发炎或肝硬化或自身免疫过程(例如全身性红斑狼疮中))或治疗(例如用例如5-氮杂胞苷和5-氮杂脱氧胞苷等去甲基剂治疗)而随时间改变。DNA甲基化的动态性使得此类分析可能对监测生理和病理过程来说极具价值。举例来说，如果检测到个体的血浆甲基化组与其健康时所获得的基线值相比有所改变，那么随后可以检测器官中的疾病发展过程因为器官会释放DNA到血浆中。

并且，可以从器官移植接受者的血浆DNA测定移植器官的甲基化组。如本发明中所描述，从血浆进行移植甲基化组分析可能是一种与从血浆进行移植基因组分析协同的技术(郑等人2012(YW Zheng at al,2012)；洛等人1998柳叶刀；351:1329-1330(YMD Lo atal.1998Lancet；351:1329-1330)；以及辛德尔等人2011美国国家科学院院刊；108:6229-6234(TM Snyder et al.2011Proc Natl Acad Sci USA；108:6229-6234))。因为血浆DNA一般被看作是细胞死亡的标记物，所以从移植器官释放的DNA的血浆水平的增加可以用作此器官细胞死亡增加的标记物，例如涉及此器官的排斥事件或其它病理性过程(例如感染或脓肿)。在抗排斥疗法成功开始的情况下，将预期移植器官释放的DNA的血浆水平降低。

III.使用SNP测定胎儿或肿瘤甲基化组

如上所述，对于非怀孕正常人，血浆甲基化组对应于血液甲基化组。但是，对于怀孕女性，这些甲基化组不同。胎儿DNA分子在母体血浆中在大部分母体DNA的背景中循环(洛等人1998美国人类遗传学杂志；62:768-775(YMD Lo et al.1998Am J Hum Genet；62:768-775))。因此，对于怀孕女性，血浆甲基化组基本上是胎盘甲基化组与血液甲基化组的复合物。因此，可以从血浆提取胎盘甲基化组。

在一个实施例中，母亲与胎儿之间的单核苷酸多态性(SNP)差异用于鉴别母体血浆中的胎儿DNA分子。目标是鉴别母亲是纯合但胎儿是杂合的SNP基因座；可以使用胎儿特定的等位基因来确定哪个DNA片段来自胎儿。使用SNP基因分型阵列伊路米那HumanOmni2.5-8分析来自母体血细胞的基因组DNA。另一方面，对于母亲是杂合并且胎儿是纯合的SNP基因座，随后可以使用母亲特定的SNP等位基因来确定哪个血浆DNA片段来自母亲。此类DNA片段的甲基化水平将反映母亲中相关基因组区域的甲基化水平。

A.胎儿特定的读数的甲基化与胎盘甲基化组的相关性

从生物样品的测序结果鉴别具有两个不同等位基因的基因座，其中一种等位基因(B)的量显著低于另一等位基因(A)。覆盖B等位基因的读数被看作是胎儿特定的(胎儿特定的读数)。确定母亲是A纯合的，并且胎儿是A/B杂合的，因而覆盖A等位基因的读数由母亲和胎儿共享(共享读数)。

在分析的用于说明本发明中若干概念的一个怀孕案例中，发现怀孕母亲在常染色体上的1,945,516个基因座上是纯合的。检查覆盖这些SNP的母体血浆DNA测序读数。在107,750个基因座上检测到带有非母体等位基因的读数并且这些基因座被视为信息性基因座。在每个信息性SNP，不是来自母亲的等位基因称为胎儿特定的等位基因，而另一个则称为共享等位基因。

可以测定母体血浆中的胎儿/肿瘤DNA百分比浓度(又称为胎儿DNA百分比)。在一个实施例中，母体血浆中的胎儿DNA百分比浓度f通过以下等式确定：

其中p是胎儿特定的等位基因的测序读数的数目，并且q是母亲与胎儿之间的共享等位基因的测序读数的数目(洛等人2010科学·转化医学；2:61ra91)。发现早期妊娠、晚期妊娠和产后母体血浆样品中胎儿DNA比例分别是14.4％、33.9％和4.5％。还使用与染色体Y比对的读数的数目计算胎儿DNA比例。基于染色体Y数据，在早期妊娠、晚期妊娠和产后母体血浆样品中，结果分别是14.2％、34.9％和3.7％。

通过分别分析胎儿特定或共享的序列读数，实施例证实了循环胎儿DNA分子远比背景DNA分子低甲基化。对于早期妊娠与晚期妊娠，胎儿特定的母体血浆读数中对应基因座的甲基化密度与胎盘组织数据的比较揭露两者有高度相关性。这些数据在基因组水平证实了胎盘是母体血浆中胎儿来源的DNA分子的主要来源，并代表了比先前基于来源于个别所选的基因座上的信息对应的证据向前迈出了重要一步。

使用覆盖靠近信息性SNP的CpG位点的胎儿特定或共享的读数来测定基因组中每个1Mb区域的甲基化密度。从母体血浆序列读数组装得到的胎儿和非胎儿特定的甲基化组可以例如用Circos图展示(克里辛威斯基等人2009基因组研究；19:1639-1645(MKrzywinski et al.2009Genome Res；19:1639-1645))。还测定母体血细胞和胎盘组织样品的每个1Mb区间的甲基化密度。

图7A展示早期妊娠样品的Circos图700。图7B展示晚期妊娠样品的Circos图750。图700和750展示每1Mb区间的甲基化密度。染色体G带图(最外环)以顺时针方向pter-qter取向(着丝粒以红色展示)。第二最外轨迹展示对应1Mb区域中CpG位点的数目。所示红色柱的标度是每1Mb区间至多20,000个位点。对应1Mb区域的甲基化密度根据中心位置展示的色彩配置在其它环中展示。

对于早期妊娠样品(图7A)，从内到外，不同环对应于：绒膜绒毛样品、母体血浆中胎儿特定的读数、母体血浆中母体特定的读数、母体血浆中胎儿与非胎儿总读数以及母体血细胞。对于晚期妊娠样品(图7B)，不同环对应于：足月胎盘组织、母体血浆中胎儿特定的读数、母体血浆中母体特定的读数、母体血浆中胎儿与非胎儿总读数、产后母体血浆以及母体血细胞(来自早期妊娠血液样品)。可以了解到对于早期与晚期妊娠血浆样品，胎儿甲基化组比非胎儿特定的甲基化组更加低甲基化。

胎儿甲基化组的总甲基化型态更类似于CVS或胎盘组织样品。相反，主要是母体DNA的血浆中共享读数的DNA甲基化型态更类似于母体血细胞。随后进行母体血浆DNA读数与母体或胎儿组织的甲基化密度的系统性逐基因座比较。我们识别出与信息性SNPs存在于相同序列读数上的CpG位点的甲基化密度并且被至少5个母体血浆DNA序列读数覆盖的位点。

图8A-8D展示针对信息性单核苷酸多态性周围的CpG位点，基因组组织DNA针对母体血浆DNA的甲基化密度的比较图。图8A展示相对于CVS样品中读数的甲基化密度，早期妊娠母体血浆样品中胎儿特定的读数的甲基化密度。可以看出，胎儿特定的值极好地对应于CVS值。

图8B展示相对于足月胎盘组织中读数的甲基化密度，晚期妊娠母体血浆样品中胎儿特定的读数的甲基化密度。再次，甲基化密度组极好地对应足月胎盘组织中读数，表明胎儿甲基化型态可以通过分析具有胎儿特定的等位基因的读数获得。

图8C展示相对于母体血细胞中读数的甲基化密度，早期妊娠母体血浆样品中共享读数的甲基化密度。假定大部分共享读数来自母亲，两组值极好地对应。图8D展示相对于母体血细胞中读数的甲基化密度，晚期妊娠母体血浆样品中共享读数的甲基化密度。

对于母体血浆中胎儿特定的读数，早期妊娠母体血浆与CVS之间的斯皮尔曼相关系数(Spearman correlation coefficient)是0.705(P<2.2*e-16)；并且晚期妊娠母体血浆与足月胎盘组织之间的斯皮尔曼相关系数是0.796(P<2.2*e-16)(图8A和8B)。母体血浆中的共享读数与母体血细胞数据进行类似比较。早期妊娠血浆样品的皮尔逊相关系数是0.653(P<2.2*e-16)并且晚期妊娠血浆样品的皮尔逊相关系数是0.638(P<2.2*e-16)(图8C和8D)。

B.胎儿甲基化组

在一个实施例中，为从母体血浆集合胎儿甲基化组，对横跨至少一个信息性胎儿SNP位点并在相同读数内含有至少一个CpG位点的序列读数进行分选。展示胎儿特定的等位基因的读数包括在胎儿甲基化组的集合中。展示共享等位基因，即非胎儿特定的等位基因的读数包括在主要由母体来源的DNA分子构成的非胎儿特定的甲基化组的集合中。

对于早期妊娠母体血浆样品，胎儿特定的读数覆盖常染色体上218,010个CpG位点。晚期妊娠和产后母体血浆样品的对应图分别是263,611和74,020。平均地，共享读数覆盖那些CpG位点分别平均33.3、21.7和26.3次。对于早期妊娠、晚期妊娠和产后母体血浆样品，胎儿特定的读数覆盖那些CpG位点分别3.0、4.4和1.8次。

胎儿DNA代表母体血浆中的少数群体，并且因此胎儿特定的读数对那些CpG位点的覆盖率与样品的胎儿DNA百分比成比例。对于早期妊娠母体血浆样品，胎儿读数中甲基化CpG的总百分比是47.0％，而共享读数则是68.1％。对于晚期妊娠母体血浆样品，胎儿读数的甲基化CpG的百分比是53.3％，而共享读数则是68.8％。这些数据展示母体血浆中胎儿特定的读数比母体血浆中的共享读数更加低甲基化。

C.方法

上述技术还可以用于测定肿瘤甲基化型态。现描述用于测定胎儿和肿瘤甲基化型态的方法。

图9是一个流程图，说明根据本发明的实施例，用于从生物体的生物样品测定第一甲基化型态的方法900。方法900可以从母体血浆的甲基化型态构筑胎儿的表观遗传图。生物样品包括包含源自第一组织和第二组织的游离DNA的混合物的游离DNA。作为实例，第一组织可以来自胎儿、肿瘤或移植器官。

在框910处，分析来自生物样品的多个DNA分子。DNA分子的分析可以包括确定DNA分子在生物体的基因组中的位置，确定DNA分子的基因型，以及确定DNA分子是否在一或多个位点甲基化。

在一个实施例中，使用DNA分子的序列读数分析DNA分子，其中测序是甲基化可识别性测序。因此，序列读数包括来自生物样品的DNA分子的甲基化状态。甲基化状态可以包括特定胞嘧啶残基是5-甲基胞嘧啶还是5-羟基甲基胞嘧啶。序列读数可以从各种测序技术、PCR技术、阵列以及其它适用于鉴别片段序列的技术获得。序列读数的位点的甲基化状态可以如本文中所述来获得。

在框920处，鉴别其中第一组织的第一基因组是相应第一等位基因与相应第二等位基因是杂合并的且第二组织的第二基因组是相应第一等位基因是纯合的多个第一基因座。举例来说，可以在多个第一基因座鉴别胎儿特定的读数。或可以在多个第一基因座鉴别肿瘤特定的读数。组织特定的读数可以从测序读数鉴别，其中第二等位基因的序列读数的百分比处于特定范围内，例如约3％-25％，由此表明DNA片段的少数群体来自基因座上的杂合基因组，而多数群体来自基因座上的纯合基因组。

在框930处，分析位于每一第一基因座的一或多个位点上的DNA分子。确定在位点上甲基化并对应于基因座的相应第二等位基因的DNA分子数目。每个基因座可能存在一个以上位点。举例来说，SNP可以指示片段是胎儿特定的，并且所述片段可以具有多个确定甲基化状态的位点。可以确定每个位点上甲基化的读数的数目并且可以测定基因座的甲基化读数的总数。

基因座可以通过位点的特定数目、位点的特定组或围绕包含组织特定的等位基因的变体的区域的特定尺寸来界定。基因座可以仅具有一个位点。位点可以具有特定的特性，例如为CpG位点。未甲基化的读数数目的测定是同等的，并且涵盖于甲基化状态的测定内。

在框940处，对于每一第一基因座，基于在基因座的一或多个位点上甲基化并对应于基因座的相应第二等位基因的DNA分子的数目，计算甲基化密度。举例来说，甲基化密度可以针对与基因座相对应的CpG位点确定。

在框950处，从第一基因座的甲基化密度产生第一组织的第一甲基化型态。第一甲基化型态可以对应于特定位点，例如CpG位点。甲基化型态可以针对所有具有胎儿特定的等位基因的基因座或只是那些基因座中的一些。

IV.使用血浆和血液甲基化组的差异

以上已经展示来自血浆的胎儿特定的读数与胎盘甲基化组相关。因为母体血浆甲基化组的母体组分主要由血细胞贡献，所以血浆甲基化组与血液甲基化组之间的差异可以用于确定所有基因座的胎盘甲基化组而不只是胎儿特定的等位基因的位置。血浆甲基化组与血液甲基化组之间的差异还可以用于测定肿瘤的甲基化组。

A.方法

图10是一个流程图，说明根据本发明的实施例，从生物体的生物样品测定第一甲基化型态的方法1000。生物样品(例如血浆)包括源自第一组织和第二组织的游离DNA组合而成的混合物。第一甲基化型态对应于第一组织(例如胎儿组织或肿瘤组织)的甲基化型态。方法1200可以从母体血浆推断甲基化有差异的区域。

在框1010处，接收生物样品。生物样品可以简单地在机器(例如测序机)上接收。生物样品可以呈从生物体采集的形式或可以呈加工的形式，例如样品可以是从血液样品提取的血浆。

在框1020处，获得与第二组织的DNA相对应的第二甲基化型态。可以从存储器读取第二甲基化型态，因为其可能先前已经测定。第二甲基化型态可以从第二组织测定，例如仅仅含有或主要含有第二组织的细胞的不同样品。第二甲基化型态可以对应于细胞甲基化型态并从细胞DNA获得。作为另一实例，第二型态可以从在怀孕前或在癌症出现前收集的血浆样品测定，因为未患癌症的非怀孕者的血浆甲基化组非常类似于血细胞的甲基化组。

第二甲基化型态可以提供生物体的基因组中多个基因座每一者的甲基化密度。特定基因座上的甲基化密度对应于第二组织的甲基化的DNA的比例。在一个实施例中，甲基化密度是CpG甲基化密度，其中与基因座相关的CpG位点用于确定甲基化密度。如果基因座存在一个位点，那么甲基化密度可以等于甲基化指数。甲基化密度还对应于未甲基化密度，因为两个值互补。

在一个实施例中，第二甲基化型态通过对来自生物体样品的细胞DNA进行可识别甲基化的测序区域获得。可识别甲基化的测序的一个实例包括用亚硫酸氢钠处理DNA并随后进行DNA测序。在另一实例中，可识别甲基化的测序可以在不使用亚硫酸氢钠下，使用单分子测序平台进行，所述单分子测序平台将允许在无亚硫酸氢盐转化下直接检测DNA分子的甲基化状态(包括N6-甲基腺嘌呤、5-甲基胞嘧啶和5-羟基甲基胞嘧啶)(福拉伯格等人2010自然方法；7:461-465；诗姆等人2013科学报道；3:1389.doi:10.1038/srep01389)；或通过甲基化胞嘧啶的免疫沉淀(例如通过使用针对甲基胞嘧啶的抗体或通过使用甲基化DNA结合蛋白或肽(阿塞韦多等人2011表观基因组学；3:93-101(LG Acevedo etal.2011Epigenomics；3:93-101))、接着测序来进行；或通过使用甲基化敏感性限制酶、接着测序来进行。在另一个实施例中，使用非测序技术，例如阵列、数字PCR和质谱分析。

在另一个实施例中，第二组织的第二甲基化密度可以预先从个体的对照样品或从其它个体获得。来自另一个体的甲基化密度可以充当具有参考甲基化密度的参考甲基化型态。参考甲基化密度可以从多个样品确定，其中基因座上不同甲基化密度的平均水平(或其它统计值)可以用作所述基因座上的参考甲基化密度。

在框1030处，从混合物的游离DNA测定游离甲基化型态。游离甲基化型态提供了多个基因座每一者上的甲基化密度。游离甲基化型态可以通过接收来自游离DNA的测序的序列读数来测定，其中甲基化信息用序列读数获得。游离甲基化型态可以用与细胞甲基化组相同的方式测定。

在框1040处，确定生物样品中来自第一组织的游离DNA的百分比。在一个实施例中，第一组织是胎儿组织，并且对应DNA是胎儿DNA。在另一个实施例中，第一组织是肿瘤组织，并且对应DNA是肿瘤DNA。百分比可以用多种方式确定，例如使用胎儿特定的等位基因或肿瘤特定的等位基因。拷贝数也可以用于确定百分比，例如如2013年3月13日提交的标题为“用于癌症检测的血浆DNA的突变分析(Mutational Analysis Of Plasma DNA For CancerDetection)”的美国专利申请案13/801,748(以引用的方式并入)中所描述。

在框1050处，鉴别用于测定第一甲基化组的多个基因座。这些基因座可能对应于用于测定游离甲基化型态和第二甲基化型态的每个基因座。因此，多个基因座可能对应。可能更多个基因座可以用来测定游离甲基化型态和第二甲基化型态。

在一些实施例中，可以例如使用母体血细胞鉴别在第二甲基化型态中高甲基化或低甲基化的基因座。为了鉴别母体血细胞中高甲基化的基因座，可以从染色体的一端扫描甲基化指数≥X％(例如80％)的CpG位点。随后可以搜索下游区域内(例如下游200bp内)的下一个CpG位点。如果紧靠下游CpG位点也具有甲基化指数≥X％(或其它指定量)，那么可以将第一和第二CpG位点合并为一组。合并可以继续，直到一下游区域内不存在其它CpG位点，或紧靠下游CpG位点的甲基化指数<X％。如果合并的CpG位点的区域含有至少五个紧邻的高甲基化的CpG位点，那么所述区域可以报导为在母体血细胞中高甲基化。可以进行类似的分析以针对甲基化指数≤20％的CpG位点，搜索母体血细胞中低甲基化的基因座。可以计算入围的基因座的第二甲基化型态的甲基化密度并用于例如从母体血浆亚硫酸氢盐测序数据推断对应基因座的第一甲基化型态(例如胎盘组织甲基化密度)。

在框1060处，通过针对多个基因座每一者，计算包括第二甲基化型态的甲基化密度与游离甲基化型态的甲基化密度之间的差异的差异参数，来确定第一组织的第一甲基化型态。差异通过百分比衡量。

在一个实施例中，使用以下等式推断第一(例如胎盘)组织中基因座的第一甲基化密度(D)：

其中mbc表示在基因座(例如从母体血细胞亚硫酸氢盐测序数据中确定的入围基因座)上第二甲基化型态的甲基化密度；mp表示母体血浆亚硫酸氢盐测序数据中对应基因座的甲基化密度；f表示来自第一组织的游离DNA的百分比(例如胎儿DNA百分比浓度)，并且CN表示在基因座上的拷贝数(例如相对于正常，对于扩增值更高或对于缺失数目更低)。如果第一组织中没有扩增或缺失，那么CN可以为一。对于染色体三倍体(或肿瘤或胎儿中染色体重复区域)，CN将为1.5(因为从2个拷贝增加到3个拷贝)并且染色体单倍体将具有0.5。更高的扩增可以按0.5的增量增加。在此实例中，D可以对应于差异参数。

在框1070处，变换第一甲基化密度以获得第一组织的校正的第一甲基化密度。变换可能造成差异参数与第一组织的实际甲基化型态之间的固定差异。举例来说，值可以相差固定常数或斜率。变换可以是线性或非线性的。

在一个实施例中，发现推断值D的分布低于胎盘组织的实际甲基化水平。举例来说，推断值可以使用来自CpG岛的数据线性变换，CpG岛是CpG位点比例相对过高的基因组区段。用于此项研究的CpG岛的基因组位置是从UCSC基因组浏览器数据库(NCBI build 36/hg18)(藤田等人2011核酸研究；39:D876-882(PA Fujita et al.2011Nucleic Acids Res；39:D876-882))获得的。举例来说，CpG岛可以被定义为GC含量≥50％、基因组长度>200bp并且观测/预期的CpG数目的比率>0.6的基因组区段(加德纳-加登等人1987分子生物学杂志；196:261-282(M Gardiner-Garden et al 1987J Mol Biol；196:261-282))。

在一个实现方式中，为推导线性变换等式，可以包括测序样品中具有至少4个CpG位点并且每个CpG位点的平均读取深度≥5的CpG岛。在确定CVS或足月胎盘中CpG岛的甲基化密度与推断值D之间的线性关系后，使用以下等式确定预测值：

早期妊娠预测值＝D×1.6+0.2

晚期妊娠预测值＝D×1.2+0.05

B.胎儿实例

如上文所提及，方法1000可以用于从母体血浆推断胎盘的甲基化概况。血浆中的循环DNA主要来源于造血细胞。仍然存在由其它内脏贡献的未知比例的游离DNA。此外，胎盘来源的游离DNA占母体血浆中总DNA的约5-40％，平均值为约15％。因此，可以假设，母体血浆中的甲基化水平相当于背景甲基化加怀孕期间胎盘的贡献，如上所述。

可以使用以下等式确定母体血浆甲基化水平MP：

MP＝BKG×(1-f)+PLN×f

其中BKG是来源于血细胞和内脏的血浆中的背景DNA甲基化水平，PLN是胎盘的甲基化水平，并且f是母体血浆中的胎儿DNA百分比浓度。

在一个实施例中，胎盘的甲基化水平可以在理论上如下推导：

当CN等于一，D等于PLN，并且BKG等于mbc时等式(1)和(2)相等。在另一个实施例中，胎儿DNA百分比浓度可以假设或设定成指定值，例如为存在的最小f的假设的一部分。

获得母体血液的甲基化水平以表示母体血浆的背景甲基化。除母体血细胞中高甲基化或低甲基化的基因座外，还进一步通过集中在具有临床关联性的界定区域，例如人类基因组中的CpG岛来探索推断方法。

常染色体和染色体X上总共27,458个CpG岛(NCBI Build36/hg18)的平均甲基化密度来源于母体血浆和胎盘的测序数据。只选择在包括胎盘、母体血液和母体血浆在内的所有分析样品中覆盖的CpG位点≥10并且每个覆盖的位点的平均读取深度≥5的CpG岛。结果，26,698个CpG岛(97.2％)保持为有效的，并且使用根据以上等式的血浆甲基化数据和胎儿DNA百分比浓度推断其甲基化水平。

注意到推断的PLN值的分布低于胎盘组织中CpG岛的实际甲基化水平。因此，在一个实施例中，推断的PLN值或简单推断值(D)用作任意单位来评估胎盘中CpG岛的甲基化水平。在变换后，推断值呈线性并且其分布变得更类似于实际数据集。经变换的推断值命名为甲基化预测值(MPV)并且随后用于预测胎盘中基因座的甲基化水平。

在此实例中，CpG岛基于其在胎盘中的甲基化密度分成3类：低(≤0.4)、中(>0.4-<0.8)和高(≥0.8)。使用推断等式，计算相同组的CpG岛的MPV并随后使用所述值对应的阈值相同将其分成3类。通过比较实际和推断的数据集，发现75.1％的由MPV值确定入围的CpG岛可以正确地匹配的组织数据中的相同类别。约22％的CpG岛分配给具有1级差异的群体(高对中，或中对低)并且低于3％将完全错分类(高对低)(图12A)。也确定了总分类性能：胎盘中甲基化密度≤0.4、>0.4-<0.8和≥0.8的CpG岛的86.1％、31.4％和68.8％被正确地推断为“低”、“中”和“高”(图12B)。

图11A和11B展示根据本发明的实施例，使用母体血浆数据和胎儿DNA百分比浓度预测的算法的性能图。图11A是图1100，展示使用MPV校正分类(推断类别准确匹配实际数据集)、1级差异(推断类别与实际数据集相差1级)和错误分类(推断类别与实际数据集相反)的CpG岛分类的准确性。图11B是图1150，展示CpG在每个推断类别中被正确分类的比例。

假设母体背景甲基化在相应基因组区域中是低的，循环中高甲基化的胎盘来源DNA的存在将增加总血浆甲基化水平，程度取决于胎儿DNA百分比浓度。当释放的胎儿DNA完全甲基化时可以观测到显著的改变。相反，当母体背景甲基化高时，如果释放低甲基化的胎儿DNA，那么血浆甲基化水平的改变程度将变得更显著。因此，当针对已知在母体背景与胎盘之间不同的基因座，尤其针对胎盘中高甲基化和低甲基化的标记物推断甲基化水平时，推断方案可能更切实可行。

图12A是表1200，展示根据本发明的实施例对15个所选基因座进行甲基化预测的细节。为了证实技术，选择15个先前已经研究的甲基化有差异的基因座。推断所选区域的甲基化水平并与先前研究的15个甲基化有差异的基因座相比(丘等人2007美国病理学杂志；170:941-950(RWK Chiu et al.2007Am J Pathol)；詹等人2008临床化学；54:500-511(S.S.C.Chim et al.2008Clin Chem；54:500-511)；詹等人2005美国国家科学院院刊；102:14753-14758(SSC Chim et al.2005Proc Natl Acad Sci U S A；102:14753-14758)；崔等人2010公共科学图书馆·综合；5:e15069(DWY Tsui et al.2010PloS One；5:e15069))。

图12B是图1250，展示胎盘中15个所选基因座和其对应甲基化水平的推断类别。推断的甲基化类别是：低，≤0.4；中，>0.4-<0.8；高，≥0.8。表1200和图表1300展示胎盘中的其甲基化水平可以恰当地推断，有若干例外：RASSF1A、CGI009、CGI137和VAPA。这4个标记物中，仅仅CGI009展示与实际数据集显著不符。其它都只是微小错分类。

表1200中，“1”是指通过以下等式计算的推断值(D)：其中f是胎儿DNA百分比浓度。标记“2”是指参考使用以下等式线性变换的推断值的甲基化预测值(MPV)：MPV＝D×1.6+0.25。标记“3”是指推断值对应的阈值的分类：低，≤0.4；中，>0.4-<0.8；高，≥0.8。标记“4”是指实际胎盘数据集对应的阈值的分类：低，≤0.4；中，>0.4-<0.8；高，≥0.8。标记“5”表示胎盘状态是指相对于母体血细胞的胎盘甲基化状态。

C.计算胎儿DNA的百分比浓度

在一个实施例中，来自第一组织的胎儿DNA的百分比可以使用男性胎儿的Y染色体。母体血浆样品中染色体Y(％chrY)序列的比例是来源于男性胎儿的染色体Y读数与母体(女性)中错误比对到染色体Y的读数的数目的复合物(丘等人2011BMJ；342:c7401)。因此，样品中％chrY与胎儿DNA百分比浓度(f)之间的关系可以通过以下给出：

％chrY＝％chrY_男性×f+％chrY_女性×(1-f)

其中％chrY_男性是指含有100％男性DNA的血浆样品中与染色体Y比对的读数的比例；以及％chrY_女性是指含有100％女性DNA的血浆样品中与染色体Y比对的读数的比例。

％chrY可以由与针对来自怀有男性胎儿的女性的样品，无错配地比对到染色体Y的读数确定，例如其中读数来自经亚硫酸氢盐转化的样品。％chrY_男性值可以从两个成年男性血浆样品的亚硫酸氢盐测序获得。％chrY_女性值可以从两个非怀孕成年女性血浆样品的亚硫酸氢盐测序获得。

在其它实施例中，胎儿DNA百分比可以由常染色体上胎儿特定的等位基因确定。作为另一实例，表观遗传标记可以用于确定胎儿DNA百分比。还可以使用其它确定胎儿DNA百分比的方式。

D.使用甲基化确定拷贝数的方法

胎盘基因组比母体基因组更加低甲基化。如上文所论述，孕妇血浆的甲基化依赖于母体血浆中胎盘来源的胎儿DNA的百分比浓度。因此，通过分析染色体区域的甲基化密度，可以检测胎儿组织对母体血浆贡献的差异。举例来说，在带有三体症胎儿(例如患有第21对染色体三体症或第18对染色体三体症或第13对染色体三体症)的孕妇中，当与二体染色体比较时，胎儿将从三体染色体提供额外量的DNA到母体血浆。在此情况下，三体染色体(或具有扩增的任何染色体区域)的血浆甲基化密度将低于二体染色体的血浆甲基化密度。差异程度可以通过考虑血浆样品中的胎儿DNA百分比浓度进行数学计算来预测。血浆样品中胎儿DNA百分比浓度越高，三体与二体染色体之间的甲基化密度差异就越大。对于具有缺失的区域，甲基化密度将更高。

缺失的一个实例是特纳综合症(Turner syndrome)，此时女性胎儿将仅仅具有染色体X的一个拷贝。在此情况下，对于怀有患有特纳综合症的胎儿的孕妇来说，其血浆DNA中染色体X的甲基化密度将高于怀有具有正常数目的染色体X的女性胎儿的相同孕妇的情况。在此策略的一个实施例中，可以首先分析母体血浆中染色体Y序列的存在或不存在(例如使用MPS或基于PCR的技术)。如果染色体Y序列存在，那么胎儿可以归类为男性并将无需以下分析。另一方面，如果母体血浆中缺乏染色体Y序列，那么胎儿可以归类为女性。在此情况下，随后可以分析母体血浆中染色体X的甲基化密度。比正常高的染色体X甲基化密度将指示胎儿具有高的患特纳综合症风险。此方法也可以应用于其它性染色体非整倍体。举例来说，对于患有XYY的胎儿来说，母体血浆中Y染色体的甲基化密度将低于母体血浆中胎儿DNA水平类似的正常XY胎儿。作为另一实例，对于患有克氏综合症(Klinefelter syndrome)(XXY)的胎儿来说，染色体Y序列存在于母体血浆中，但母体血浆中染色体X的甲基化密度将低于母体血浆中胎儿DNA水平类似的正常XY胎儿。

从先前的论述，可以将二体染色体的血浆甲基化密度(MP_整倍体)计算为：MP_整倍体＝BKG×(1-f)+PLN×f，其中BKG是来源于血细胞和内脏的血浆中的背景DNA甲基化水平，PLN是胎盘的甲基化水平，并且f是母体血浆中的胎儿DNA百分比浓度。

三体染色体的血浆甲基化密度(MP_非整倍体)可以被计算为：MP_非整倍体＝BKG×(1-f)+PLN×f×1.5，其中1.5对应于拷贝数CN，并且多增加一个染色体增加50％。三体与二体染色体之间的差异(MP_Diff)将是

MP_Diff＝PLN×f×0.5。

在一个实施例中，可能非整倍体染色体(或染色体区域)的甲基化密度与一或多个其它假定的整倍体染色体或基因组的总甲基化密度的比较可以用于有效地标准化血浆样品中的胎儿DNA浓度。比较可以通过计算两个区域的甲基化密度之间的参数(例如涉及比率或差异)来获得标准化的甲基化密度。比较可以去除所得甲基化水平的依赖性(例如确定为来自两个甲基化密度的参数)。

如果可能非整倍体染色体的甲基化密度未相对于一或多个其它染色体的甲基化密度或反映胎儿DNA百分比浓度的其它参数标准化，那么百分比浓度将是影响血浆中甲基化密度的主要因素。举例来说，怀有第21对染色体三体症胎儿并且胎儿DNA百分比浓度为10％的孕妇的第21对染色体的血浆甲基化密度将与怀有整倍体胎儿并且胎儿DNA百分比浓度是15％的孕妇相同，而标准化的甲基化密度将展示差异。

在另一个实施例中，可能非整倍体染色体的甲基化密度可以相对于胎儿DNA百分比浓度标准化。举例来说，以下等式可以应用于标准化甲基化密度：MP_标准化＝MP_未标准化+(BKG-PLN)×f，其中MP_标准化是用血浆中的胎儿DNA百分比浓度标准化的甲基化密度，MP_未标准化是测量的甲基化密度，BKG是来自母体血细胞或组织的背景甲基化密度，PLN是胎盘组织中的甲基化密度，并且f是胎儿DNA百分比浓度。BKG和PLN的甲基化密度可以基于先前从获自健康孕妇的母体血细胞和胎盘组织建立的参考值。不同的遗传和表观遗传方法可以例如通过使用大规模平行测序或PCR在未经亚硫酸氢盐转化的DNA上从染色体Y测量序列读数的百分比，用于测定血浆样品中的胎儿DNA百分比浓度。

在一个实现方式中，可能非整倍体染色体的标准化甲基化密度可以与由怀有整倍体胎儿的孕妇组成的参考群体相比。可以确定参考群体的标准化甲基化密度的平均值和SD。随后测试案例的标准化甲基化密度可以表示为z分数，其指示与参考群体平均值的SD数目：其中MP_标准化是测试案例的标准化甲基化密度，平均值是参考案例的标准化甲基化密度的平均值并且SD是参考案例的标准化甲基化密度的标准差。例如z分数<-3的阈值可以用于分类染色体是否显著低甲基化，并且因此确定样品的非整倍体状态。

在另一个实施例中，MP_Diff可以用作标准化甲基化密度。在此类实施例中，PLN可以例如使用方法1000推断。在一些实现方式中，参考甲基化密度(其可以使用f标准化)可以从整倍体区域的甲基化水平确定。举例来说，平均值可以从相同样品的一或多个染色体区域确定。阈值可以用f衡量，或只是设定成足够存在最小浓度的水平。

因此，可以用各种方式实现区域的甲基化水平与阈值的比较。比较可以包括标准化(例如如上所述)，其可以同等地对甲基化水平或阈值进行，取决于值如何界定。因此，可以用多种方式确定区域的所确定的甲基化水平是否在统计学上不同于参考水平(从相同样品或其它样品确定)。

以上分析可以应用于染色体区域的分析，其可以包括全染色体或染色体的部分，包括染色体的相邻或分离的子区。在一个实施例中，可能非整倍体染色体可以划分成大量的区域。所述分数胎儿DNA浓度可以具有相同或不同的尺寸。每个区域的甲基化密度可以相对于样品的百分比浓度或相对于一或多个假定整倍体染色体的甲基化密度或基因组的总甲基化密度标准化。每个区域的标准化甲基化密度随后可以与参考群体比较以确定其是否显著低甲基化。随后可以确定显著低甲基化的区域的百分比。例如超过显著低甲基化的区域的5％、10％、15％、20％或30％的阈值可以用于将案例的非整倍体状态分类。

当测试扩增或缺失时，可以将甲基化密度与对测试的特定区域可能是特定的参考甲基化密度比较。每个区域可以具有不同的参考甲基化密度，因为甲基化可以随区域而变化，特别是取决于区域的尺寸(例如区域越小，变化越多)。

如上文所提及，每一者怀有整倍体胎儿的一或多个孕妇可以用于界定相关区域的甲基化密度的正常范围或两个染色体区域之间的甲基化密度的差异。还可以确定PLN的正常范围(例如通过直接测量或如通过方法1000推断)。在其它实施例中，可以使用两个甲基化密度之间的比率，例如可能非整倍体染色体与整倍体染色体的两个甲基化密度之间的比率可以用于分析而非其差异。此甲基化分析方法可以与序列读数计数方法(丘等人2008美国国家科学院院刊；105:20458-20463(RWK Chiu et al.2008Proc Natl Acad Sci USA；105:20458-20463))和涉及血浆DNA尺寸分析的方法(美国专利2011/0276277)组合以确定或证实非整倍体。与甲基化分析组合使用的序列读数计数方法可以使用随机测序(丘等人2008美国国家科学院院刊；105:20458-20463；比安奇等人2012妇产科期刊119:890-901(DWBianchi DW et al.2012Obstet Gynecol 119:890-901))或靶向测序(斯帕克斯等人2012美国妇产科期刊206:319.e1-9(AB Sparks et al.2012Am J Obstet Gynecol 206:319.e1-9)；齐默尔曼等人2012产前诊断32:1233-1241(B Zimmermann et al.2012PrenatDiagn 32:1233-1241)；廖等人2012公共科学图书馆·综合；7:e38154(GJ Liao etal.2012PloS One；7:e38154))进行。

BKG的使用可以考虑样品之间的背景变化。举例来说，一个女性可能具有与另一女性不同的BKG甲基化水平，但在此类情形下可以跨越样品使用BKG与PLN之间的差异。不同染色体区域的阈值可以不同，例如当基因组的一个区域的甲基化密度相对于基因组的另一个区域不同时。

此方法可以推广到检测胎儿基因组中的任何染色体异常，包括缺失和扩增。此外，此分析的分辨率可以调整到所需水平，例如基因组可以划分成10Mb、5Mb、2Mb、1Mb、500kb、100kb区域。因此，此项技术也可以用于检测亚染色体重复或亚染色体缺失。因而此项技术将允许无创地获得产前胎儿分子核型。当以此方式使用时，此项技术可以与基于分子计数的无创产前测试方法(斯里尼瓦桑等人2013美国人类遗传学杂志；92:167-176(ASrinivasan et al.2013Am J Hum Genet；92:167-176)；余等人2013公共科学图书馆·综合8:e60968(SCY Yu et al.2013PloS One 8:e60968))组合使用。在其它实施例中，区域的尺寸无需一致。举例来说，区域的尺寸可以调整，使得每个区域含有一致数目的双核苷酸。在此情况下，区域的实际尺寸将是不同的。

等式可以重写为MP_Diff＝(BKG-PLN)×f×0.5×CN，以适用于不同类型的染色体异常。此处CN表示在受影响区域拷贝数改变的数目。对于染色体增加1个拷贝来说，CN等于1，对于染色体增加2个拷贝来说，CN等于2，并且对于两个同源染色体之一损失(例如用于检测胎儿特纳综合症，其中女性胎儿损失X染色体之一，导致XO核型)来说，CN等于-1。当区域尺寸改变时等式无需改变。但是，当使用更小区域尺寸时灵敏度和特异性可能降低，因为更小区域中存在更少数目的CpG双核苷酸(或展示胎儿DNA与母体DNA之间的差异甲基化的其它核苷酸组合)，导致甲基化密度的测量中随机变异增加。在一个实施例中，所需要的读数的数目可以通过分析甲基化密度的变异系数和所需灵敏度水平来确定。

为了说明此方法的可行性，分析来自9个孕妇的血浆样品。在五个孕妇中，每个都怀有整倍体胎儿并且其它四个每个都怀有第21对染色体三体症(T21)胎儿。随机选择五个整倍体孕妇中的三个以形成参考群体。使用此方法分析剩余两个整倍体怀孕案例(Eu1和Eu2)和四个T21案例(T21-1、T21-2、T21-3和T21-4)以测试可能的T21状态。血浆DNA经亚硫酸氢盐转化并使用伊路米那HiSeq2000平台测序。在一个实施例中，计算个别染色体的甲基化密度。随后确定第21对染色体与其它21对常染色体的平均值之间的甲基化密度的差异以获得标准化甲基化密度(表1)。参考群体的平均值和SD用于计算六个测试案例的z分数。

表1：对z分数使用阈值<-3将样品分类为T21，所有整倍体和T21案例的分类都正确。

在另一个实施例中，基因组划分成1Mb区域并且确定每个1Mb区域的甲基化密度。可能非整倍体染色体上所有区域的甲基化密度都可以用位于假定的整倍体染色体上的所有区域的中位甲基化密度标准化。在一个实现方式中，对于每个区域，可以计算甲基化密度与整倍体区域的中位值的差异。可以使用参考群体的平均值和SD值计算这些值的z分数。可以确定展示低甲基化的区域的百分比(表2)并与阈值百分比相比。

表2：对于在第21对染色体上显著更加低甲基化的区域使用5％作为阈值，所有案例针对T21状态正确地分类。

基于此DNA甲基化的用于检测胎儿染色体或亚染色体异常的方法可以结合那些基于例如通过测序(丘等人2008美国国家科学院院刊；105:20458-20463)或数字PCR(洛等人2007美国国家科学院院刊；104:13116-13121)或DNA分子尺寸确定(美国专利公开案2011/0276277)来分子计数的方法使用。此类组合(例如DNA甲基化加分子计数，或DNA甲基化加尺寸确定，或DNA甲基化加分子计数加尺寸确定)将具有协同效应，此在临床环境下将为有利的，例如提高灵敏度和/或特异性。举例来说，可以减少将需要例如通过测序分析的DNA分子的数目，而不会不利地影响诊断准确性。此特征将允许此类测试更经济地进行。作为另一实例，对于分析的既定数目的DNA分子，组合的方法将允许在更低的胎儿DNA百分比浓度下检测胎儿染色体或亚染色体异常。

图13是方法1300的流程图，所述方法1300用于从生物体的生物样品检测染色体异常。生物样品包括包含源自第一组织和第二组织的游离DNA的混合物的游离DNA。第一组织可以来自胎儿或肿瘤，并且第二组织可以来自怀孕女性或患者。

在框1310处，分析来自生物样品的多个DNA分子。DNA分子的分析可以包括确定生物体的基因组中DNA分子的位置和确定DNA分子是否在一或多个位点甲基化。所述分析可以通过接收来自可识别甲基化的测序的序列读数进行，因而分析可以只在先前从DNA获得的数据上进行。在其它实施例中，分析可以包括实际测序或获得数据的其它主动步骤。

位置的确定可以包括将DNA分子(例如通过序列读数)映射到人类基因组的相应部分，例如特定区域。在一个实现方式中，如果读数未比对到到相关区域，那么可以忽略此读数。

在框1320处，针对多个位点中的每一者，确定在所述位点甲基化的DNA分子的相应数目。在一个实施例中，位点是CpG位点，并且可能仅仅是某些CpG位点，如使用本文中提及的一或多个标准来选择。一旦使用在特定位点分析的DNA分子的总数，例如序列读数的总数进行标准化，那么甲基化的DNA的数目等同于确定未甲基化的数目。

在框1330处，基于在第一染色体区域内的位点甲基化的DNA分子的相应数目计算第一染色体区域的第一甲基化水平。第一染色体区域可以具有任何尺寸，例如上述尺寸。甲基化水平可以考虑与第一染色体区域比对的DNA分子的总数，例如作为标准化程序的一部分。

第一染色体区域可以具有任何尺寸(例如全染色体)并且可以由分开的子区构成，即彼此分隔开的子区。可以确定每个子区的甲基化水平并组合为例如平均值或中位值以确定第一染色体区域的甲基化水平。

在框1340处，将第一甲基化水平与阈值比较。阈值可以是参考甲基化水平或与参考甲基化水平有关(例如与正常水平的指定距离)的数值。阈值可以从怀有胎儿而第一染色体区域无染色体异常的的其它女性怀孕个体、从无癌症的个体的样品或从已知不与非整倍体相关的生物体的基因座(即二体的区域)中来确定。

在一个实施例中，阈值可以被定义为(BKG-PLN)×f×0.5×CN的与参考甲基化水平的差异，其中BKG是女性的背景(或来自其它个体的平均值或中位值)，f是源自第一组织的游离DNA的百分比浓度，并且CN是测试的拷贝数。CN是与一种类型异常(缺失或重复)相对应的校正因子的一个实例。最初CN为1的阈值可以用于测试所有扩增，并随后其它阈值可以用于确定扩增程度。阈值可以基于源自第一组织的游离DNA的百分比浓度以确定基因座的甲基化的预期水平，例如在不存在拷贝数异常时。

在框1350处，基于比较来确定第一染色体区域的异常的分类。不同水平的统计显著差异可以指示增加的具有染色体异常的胎儿的风险。在各个实施例中，染色体异常可以是第21对染色体三体症、第18对染色体三体症、第13对染色体三体症、特纳综合症或克氏综合症。其它实例是亚染色体缺失、亚染色体重复或迪乔治综合症(DiGeorge syndrome)。

V.标记物的测定

如上所述，胎儿基因组的某些部分的甲基化不同与母体基因组。这些差异可能是孕妇中常见的。不同甲基化的区域可以用于鉴别来自胎儿的DNA片段。

A.从胎盘组织和母体组织测定DMR的方法

胎盘具有组织特定的甲基化标记。已经基于在胎盘组织与母体血细胞之间甲基化有差异的基因座研发胎儿特定的DNA甲基化标记物，用于母体血浆检测和用于无创产前诊断应用(詹等人2008临床化学；54:500-511(SSC Chim et al.2008Clin Chem；54:500-511)；帕帕耶奥尔尤等人2009美国病理学杂志；174:1609-1618(EAPapageorgiou et al2009Am J Pathol；174:1609-1618)；以及朱等人2011公共科学图书馆·综合；6:e14723(TChu et al.2011PLoS One；6:e14723))。提供了在全基因组基础上寻找此类甲基化有差异的区域(DMR)的实施例。

图14是方法1400的流程图，所述方法1400用于根据本发明的实施例，通过比较胎盘甲基化型态与母体甲基化型态(例如从血细胞测定)来鉴别甲基化标记物。方法1400还可以通过比较肿瘤甲基化型态与对应于健康组织的甲基化型态用于确定肿瘤标记物。

在框1410处，获得胎盘甲基化组和血液甲基化组。胎盘甲基化组可以从胎盘样品，例如CVS或足月胎盘测定。应了解甲基化组可能包括仅仅基因组的一部分的甲基化密度。

在框1420处，鉴别包括指定数目的位点(例如5个CpG位点)并且已经获得足够数目的读数的区域。在一个实施例中，鉴别从每个染色体的一端开始以定位含有至少五个有效的CpG位点的第一个500bp区域。如果CpG位点被至少五个序列读数覆盖，那么可以认为所述位点合格。

在框1430处，计算每个位点的胎盘甲基化指数和血液甲基化指数。举例来说，针对每个500bp区域内的所有合格CpG位点，分别地计算甲基化指数。

在框1440处，在母体血细胞与胎盘样品之间比较甲基化指数以确定所述组的指数在彼此之间是否不同。举例来说，使用例如曼-惠特尼检验(Mann-Whitney test)在母体血细胞与CVS或足月胎盘之间比较甲基化指数。例如P值≤0.01视为在统计学上显著不同的，不过可以使用其它值，其中更低的数目将减少假阳性区域。

在一个实施例中，如果有效的CpG位点的数目低于五个或曼-惠特尼检验不显著，那么500bp区域向下游移动100bp。区域继续向下游移动直到对于500bp区域，曼-惠特尼测试变得显著。随后将考虑下一个500bp区域。如果通过曼-惠特尼检验发现下一个区域展现统计显著性，那么将其添加到当前区域中，但是组合的相邻区域不大于1,000bp。

在框1450处，在统计学上显著不同(例如通过曼-惠特尼检验)的相邻区域可以合并。注意差异是在两个样品的甲基化指数之间。在一个实施例中，如果相邻区域在彼此指定距离(例如1,000bp)内并且如果它们展示类似的甲基化型态，那么将它们合并。在一个实现方式中，可以使用以下中的任一者界定相邻区域之间的甲基化型态的类似性：(1)在胎盘组织中关于母体血液展示相同的倾向，例如两个区域都在胎盘组织中比血细胞更多甲基化；(2)胎盘组织中相邻区域的甲基化密度差异低于10％；以及(3)母体血细胞中相邻区域的甲基化密度差异低于10％。

在框1460处，计算所述区域上来自母体血细胞DNA的血液甲基化组和胎盘样品(例如CVS或足月胎盘组织)的甲基化密度。甲基化密度可以如本文中所述来确定。

在框1470处，根据区域中所有位点的总胎盘甲基化密度与总血液甲基化密度在统计学上具有显著性差异，确定候选DMR。在一个实施例中，合并区域内的所有有效的CpG位点都经受χ²检验。针对合并区域内的所有有效的CpG位点，χ²检验评估在母体血细胞与胎盘组织之间，，甲基化胞嘧啶的数目以甲基化和未甲基化胞嘧啶的比例形式呈现时是否在统计学上具有显著性不同。在一个实现方式中，对于χ²检验，P值≤0.01可以视为在统计学上具有显著性不同。通过χ²检验展示显著性的合并区段被视为候选DMR。

在框1480处，鉴别母体血细胞DNA的甲基化密度超过高阈值或低于低阈值的基因座。在一个实施例中，鉴别母体血细胞DNA的甲基化密度≤20％或≥80％的基因座。在其它实施例中，可以使用除母体血液外的体液，包括(但不限于)唾液、来自女性生殖道的子宫或子宫颈灌洗液、泪液、汗水、唾液和尿。

成功研发母体血浆中胎儿特定的DNA甲基化标记物的关键可能是母体血细胞的甲基化状态尽可能高地甲基化或未甲基化。此可以减少(例如降到最低)母体DNA分子干扰分析展示相反甲基化型态的胎盘来源的胎儿DNA分子的机率。因此，在一个实施例中，候选DMR通过进一步过滤来选择。候选低甲基化基因座是在母体血细胞中展示甲基化密度≤20％并在胎盘组织中甲基化密度至少高20％的基因座。候选高甲基化基因座是在母体血细胞中展示甲基化密度≥80％并在胎盘组织中甲基化密度至少低20％的基因座。可以使用其它百分比。

在框1490处，随后在胎盘甲基化密度显著不同于血液甲基化密度的基因座子集中，通过将差异与阈值比较来鉴别DMR。在一个实施例中，阈值是20％，因此甲基化密度与来自母体血细胞的甲基化密度相差至少20％。因此，可以计算在每个鉴别的基因座，胎盘甲基化密度与血液甲基化密度之间的差异。差异可以是简单的减法。在其它实施例中，校正因子和其它函数可以用于确定差异(例如差异可以是应用于简单减法的函数的结果)。

在一个实现方式中，使用此方法，从早期妊娠胎盘样品鉴别出11,729个高甲基化和239,747个低甲基化基因座。前100个高甲基化基因座列在附件的表S2A中。前100个低甲基化基因座列在附件的表S2B中。表S2A和S2B列出了染色体、起始和结束位置、区域尺寸、母体血液中的甲基化密度、胎盘样品中的甲基化密度、P值(都极小)和甲基化差异。位置对应于参考基因组hg18，其可以在hgdownload.soe.ucsc.edu/goldenPath/hg18/chromosomes找到。

从晚期妊娠胎盘样品鉴别出11,920个高甲基化和204,768个低甲基化基因座。妊娠晚期的前100个高甲基化基因座列于表S2C中，并且前100个低甲基化基因座列于表S2D中。先前报导在母体血细胞与早期妊娠胎盘组织之间甲基化有差异的三十三个基因座用于验证早期妊娠候选物的清单。使用我们的算法，33个基因座的79％被鉴别为DMR。

图15A是表1500，展示使用关于33个先前报导的早期妊娠标记物的早期妊娠数据的DMR鉴别算法的性能。在此表中，“a”指示基因座1到15先前描述于(丘等人2007美国病理学杂志；170:941-950(RWK Chiu et al.2007Am J Pathol；170:941-950)和詹等人2008临床化学；54:500-511(SSC Chim et al.2008Clin Chem；54:500-511))中；基因座16到23先前描述于(元,论文2007,香港中文大学,中国香港(KC Yuen,thesis 2007,The ChineseUniversity of Hong Kong,Hong Kong,China))中；以及基因座24到33先前描述于(帕帕耶奥尔尤等人2009美国病理学杂志；174:1609-1618(EA Papageorgiou et al.2009Am JPathol；174:1609-1618))中。“b”指示这些数据来源于以上已发表文献。“c”指示母体血细胞和绒膜绒毛样品的甲基化密度和其差异是从本研究中产生的测序数据中观测到的，但基于由初始研究提供的基因组座标。“d”指示关于基因座的数据是使用方法1400的实施例，在亚硫酸氢盐测序数据上鉴别的，没有参考以上引用的丘等人(2007)、詹等人(2008)、元(2007)和帕帕耶奥尔尤等人(2009)的已发表文献。基因座的跨度包括先前报导的基因组区域，但一般横跨更大的区域。“e”指示基于要求观测到母体血细胞和绒膜绒毛样品中DMR的对应基因组座标的甲基化密度之间的差异>0.20，候选DMR被归类为真阳性(TP)或假阴性(FN)。

图15B是表1550，展示使用晚期妊娠数据并与分娩时获得的胎盘样品比较的DMR鉴别算法的性能。“a”指示使用与图17A中所描述相同的33个基因座的清单。“b”指示因为33个基因座先前从早期怀孕样品鉴别，所以它们可能不适用于晚期妊娠数据。因此，在本研究中，根据初始研究提供的基因组座标复查足月胎盘组织对应的亚硫酸氢盐测序数据。母体血细胞与足月胎盘组织之间的甲基化密度的差异>0.20用于确定在晚期妊娠这些基因座是否实际上是真的DMR。“c”指示关于这些基因座的数据是使用方法1400，在亚硫酸氢盐测序数据上鉴别的，没有参考先前引用的丘等人(2007)、詹等人(2008)、元(2007)和帕帕耶奥尔尤等人(2009)的已发表文献。基因座的跨度包括先前报导的基因组区域，但一般横跨较大的区域。“d”指示基于要求观测到母体血细胞和足月胎盘组织中DMR的对应基因组座标的甲基化密度之间的差异>0.20，将含有被认定为在晚期妊娠中甲基化有差异的基因座的候选DMR归类为真阳性(TP)或假阴性(FN)。对于未被认定为在晚期妊娠中甲基化有差异的基因座，其不存在于DMR清单中或含有这些基因座但展示甲基化差异<0.20的DMR的存在视为真阴性(TN)DMR。

B.来自母体血浆测序数据的DMR

应能够直接从母体血浆DNA亚硫酸氢盐测序数据鉴别胎盘组织DMR，假设还已知样品的胎儿DNA百分比浓度。有可能是因为胎盘是母体血浆中胎儿DNA的主要来源(詹等人2005美国国家科学院院刊102,14753-14758(SSC Chim et al.2005Proc Natl Acad SciUSA102,14753-14758))，并且在这一研究中，展示了母体血浆中胎儿特定的DNA的甲基化状态与胎盘甲基化组相关。

因此，方法1400的方面可以使用血浆甲基化组确定推断的胎盘甲基化组而非使用胎盘样品来实现。因此，方法1000和方法1400可以组合来确定DMR。方法1000可以用于确定胎盘甲基化型态的预测值并在方法1400中使用其。对于此分析，所述实例还关注母体血细胞中甲基化≤20％或≥80％的基因座。

在一个实现方式中，为了推断胎盘组织中相对于母体血细胞高甲基化的基因座，分选展示母体血细胞中甲基化≤20％并且根据预测值甲基化≥60％以及血细胞甲基化密度与预测值之间差异至少50％的基因座。为了推断胎盘组织中相对于母体血细胞低甲基化的基因座，分选展示母体血细胞中甲基化≥80％，并且根据预测值甲基化≤40％，以及血细胞甲基化密度与预测值之间差异至少50％的基因座。

图16是表1600，展示基于母体血浆亚硫酸氢盐测序数据的直接分析预测为高甲基化或低甲基化的基因座的数目。“N/A”意指不适用。“a”指示高甲基化基因座的搜索从展示母体血细胞中甲基化密度<20％的基因座清单开始。“b”指示低甲基化基因座的搜索从展示母体血细胞中甲基化密度>80％的基因座清单开始。“c”指示来自绒膜绒毛样品的亚硫酸氢盐测序数据用于验证早期妊娠母体血浆数据，并且足月胎盘组织用于验证晚期妊娠母体血浆数据。

如表1600中示出，大多数的无创推断的基因座都展示组织中预期的甲基化模式并且与从组织数据寻找到和前面部分中呈现的DMR重叠。附件列出从血浆鉴别出的DMR。表S3A列出从早期妊娠母体血浆亚硫酸氢盐测序数据推断为高甲基化的前100个基因座。表S3B列出从早期妊娠母体血浆亚硫酸氢盐测序数据推断为低甲基化的前100个基因座。表S3C列出从晚期妊娠母体血浆亚硫酸氢盐测序数据推断为高甲基化的前100个基因座。表S3D列出从晚期妊娠母体血浆亚硫酸氢盐测序数据推断为低甲基化的前100个基因座。

C.胎盘和胎儿甲基化组的妊娠期变化

CVS中甲基化CpG的总比例是55％，而对于足月胎盘，其是59％(图1的表100)。可以从CVS比足月胎盘鉴别出更多低甲基化的DMR，而两个组织的高甲基化的DMR数目类似。因此，显而易见CVS比足月胎盘更加低甲基化。此妊娠期相关的甲基化趋势在母体血浆数据中也是显而易见的。在早期妊娠母体血浆中胎儿特定的读数中甲基化CpG的比例是47.0％，但晚期妊娠母体血浆中是53.3％。经验证的高甲基化基因座的数目在早期(1,457个基因座)和晚期妊娠(1,279个基因座)母体血浆样品中是类似的，但早期妊娠(21,812个基因座)样品实质上比晚期妊娠(12,677个基因座)样品中低甲基化基因座更多(图16的表1600)。

D.标记物的用途

甲基化有差异的标记物或DMR适用于若干方面。母体血浆中此类标记物的存在指示和证实胎儿或胎盘DNA的存在。此证实可以用作无创产前测试的质量控制。DMR可以充当母体血浆中通用的胎儿DNA标记物，并且优于依赖于母亲与胎儿之间的基因型差异的标记物，例如基于多态性的标记物或基于染色体Y的标记物。DMR是适用于所有孕妇的通用胎儿标记物。基于多态性的标记物仅仅适用于其中胎儿从其父亲遗传标记物并且其中母亲在其基因组中不具有此标记物的部分孕妇。此外，可以通过定量源自那些DMR的DNA分子来测量母体血浆样品中胎儿DNA浓度。通过知道对正常孕妇所预期的DMR的型态，可以通过观测母体血浆DMR型态或甲基化型态与对正常孕妇所预期的型态的偏差来检测怀孕相关并发症、特别是涉及胎盘组织改变的并发症。包括胎盘组织改变的妊娠相关的并发症包括(但不限于)胎儿染色体非整倍体。实例包括第21对染色体三体症、先兆子痫、子宫内生长迟缓和早产。

E.使用标记物的试剂盒

实施例可以提供用于实践本文中所描述的方法以及其它适用方法的组合物和试剂盒。试剂盒可以用于进行分析母体血浆中胎儿DNA、例如游离胎儿DNA的分析。在一个实施例中，试剂盒可以包括至少一种适用于与本文中鉴别的一或多个基因座特异性杂交的寡核苷酸。试剂盒也可以包括至少一种适用于与一或多个参考基因座特异性杂交的寡核苷酸。在一个实施例中，测量胎盘高甲基化的标记物。测试基因座可以是母体血浆中的甲基化DNA并且参考基因座可以是母体血浆中的甲基化DNA。类似的试剂盒可以形成用于分析血浆中的肿瘤DNA。

在一些情况下，试剂盒可以包括至少两种寡核苷酸引物，所述引物可以用于扩增目标基因座(例如附件中的基因座)和参考基因座的至少一部分。代替或除引物外，试剂盒还可以包括用于检测与目标基因座和参考基因座相对应的DNA片段的标记探针。在各个实施例中，试剂盒的一或多种寡核苷酸对应于附件表中的基因座。通常，试剂盒还提供了指导使用者分析测试样品和评估测试个体中的生理或病理状况的说明手册。

在各个实施例中，提供了用于分析含有胎儿DNA与来自怀有胎儿的女性个体的DNA的混合物的生物样品中胎儿DNA的试剂盒。试剂盒可以包含一或多种用于与表S2A、S2B、S2C、S2D、S3A、S3B、S3C和S3D中列出的基因组区域的至少一部分特异性杂交的寡核苷酸。因此，可以使用从跨越表到只来自一个表的任何数目的寡核苷酸。寡核苷酸可以充当引物，并且可以组织为引物对，其中一对对应于来自表的特定区域。

VI.尺寸与甲基化密度的关系

已知血浆DNA分子在循环中呈短分子形式存在，其中大部分的分子长约160bp(洛等人2010科学·转化医学；2:61ra91、郑等人2012临床化学；58:549-558)。有趣的是，数据揭露了血浆DNA分子的甲基化状态与尺寸之间的关系。因此，血浆DNA片段长度与DNA甲基化水平有关联。血浆DNA分子的特征性尺寸型态表明大多数与可能来源于细胞凋亡期间酶促降解的单核小体相关。

循环DNA实质上片段化。具体来说，在母体血浆样品中循环胎儿DNA比母体来源的DNA短(陈等人2004临床化学；50:88-92(KCAChan et al.2004Clin Chem；50:88-92))。因为双末端比对能够对经亚硫酸氢盐处理的DNA进行尺寸分析，所以可以直接评估血浆DNA分子的尺寸与其相应甲基化水平之间是否存在任何相关性。在母体血浆以及非怀孕成年女性对照血浆样品中对此进行探索。

在这一研究中，使用对每个DNA分子的两个末端进行双末端测序(其包括测序整个分子)以分析每个样品。通过将每个DNA分子的成对末端序列与参考人类基因组比对并记录测序读数的最末端的基因组座标，可以确定测序DNA分子的长度。血浆DNA分子天然片段化成小分子并且血浆DNA的测序文库通常在无任何片段化步骤下制备。因此，通过测序推断的长度表示初始血浆DNA分子的尺寸。

在先前研究中，确定了母体血浆中胎儿和母体DNA分子的尺寸型态(洛等人2010科学·转化医学；2:61ra91)。展示血浆DNA分子的尺寸类似于单核小体并且胎儿DNA分子比母体DNA分子短。在这一研究中，确定了血浆DNA分子的甲基化状态与其尺寸的关系。

A.结果

图17A是曲线1700，展示母体血浆、非怀孕女性对照血浆、胎盘和外周血液DNA的尺寸分布。对于母体样品和非怀孕女性对照血浆，两个经亚硫酸氢盐处理的血浆样品显示与先前所报导相同的特征性尺寸分布(洛等人2010科学·转化医学；2:61ra91)，其中最大量的总序列长166-167bp并且10bp周期的DNA分子比143bp短。

图17B是母体血浆、成年女性对照血浆、胎盘组织和成年女性对照血液的尺寸分布和甲基化型态的曲线1750。对于相同尺寸并含有至少一个CpG位点的DNA分子，计算其平均甲基化密度。随后绘制DNA分子的尺寸与其甲基化密度之间的关系。具体来说，对于覆盖至少1个CpG位点的测序读数，确定长度在50bp到至多180bp范围内的每个片段的平均甲基化密度。有趣的是，甲基化密度随着血浆DNA尺寸而增加并在大约166-167bp达到峰值。但是，在使用超声发生器系统片段化的胎盘和对照血液DNA样品中未观测到此模式。

图18展示血浆DNA分子的甲基化密度和尺寸的曲线图。图18A是早期妊娠母体血浆的曲线1800。图18B是晚期妊娠母体血浆的曲线1850。覆盖至少一个CpG位点的所有测序读数的数据用蓝色曲线1805表示。还含有胎儿特定的SNP等位基因的读数的数据用红色曲线1810表示。还含有母体特定的SNP等位基因的读数的数据用绿色曲线1815表示。

含有胎儿特定的SNP等位基因的读数视为来源于胎儿DNA分子。含有母体特定的SNP等位基因的读数视为来源于母体DNA分子。一般来说，具有高度甲基化密度的DNA分子尺寸较长。此倾向存在于早期妊娠与晚期妊娠的胎儿与母体DNA分子中。胎儿DNA分子的总尺寸如先前报导的母体DNA分子短。

图19A展示成年非怀孕女性的测序读数的甲基化密度和尺寸的曲线1900。来自成年非怀孕女性的血浆DNA样品也展示了相同的DNA分子的尺寸与甲基化状态之间的关系。另一方面，通过在MPS分析前进行超声波处理步骤使基因组DNA样品片段化。如曲线1900中示出，来自血细胞和胎盘组织样品的数据未显示相同的变化趋势。因为细胞的片段化是人工的，所以将预期尺寸与密度无关系。因为血浆中天然片段化的DNA分子依赖于尺寸，所以可以假定，更低的甲基化密度使分子更可能断裂成更小的片段。

图19B是曲线1950，展示母体血浆中胎儿特定和母体特定的DNA分子的尺寸分布和甲基化型态。胎儿特定和母体特定的血浆DNA分子还显示相同的片段尺寸与甲基化水平之间的相关性。胎盘来源和母体循环的游离DNA的片段长度都随着甲基化水平而增加。此外，其甲基化状态的分布彼此不重叠，表明所述现象存在与循环DNA分子来源的初始片段长度无关。

B.方法

因此，尺寸分布可以用于评估血浆样品的总甲基化百分比。随后可以在妊娠期间、在癌症监测期间或在治疗期间，根据图18A和18B中展示的关系，通过血浆DNA的尺寸分布的连续测量来追踪此甲基化测量。甲基化测量也可以用于从相关器官或组织寻找增加或减少的DNA释放。举例来说，可以特定地寻找对特定器官(例如肝)来说是特定的DNA甲基化标记并测量这些标记在血浆中的浓度。因为DNA在细胞死亡时会释放到血浆中，所以水平的增加可能意味着所述特定器官或组织中细胞死亡或破坏的增加。特定器官中的水平降低可能意味着所述器官中对抗破坏或病理过程的治疗在控制之下。

图20是方法2000的流程图，所述方法2000用于根据本发明的实施例，评估生物体的生物样品中DNA的甲基化水平。甲基化水平可以针对基因组的特定区域或整个基因组来评估。如果希望特定的区域，那么可以使用仅仅来自特定区域的DNA片段。

在框2010处，测量与各种尺寸相对应的DNA片段的量。针对多个尺寸中的每个尺寸，可以测量与所述尺寸相对应的生物样品中多个DNA片段的量。举例来说，可以测量长度为140个碱基的DNA片段的数目。量可以呈直方图形式保存。在一个实施例中，测量生物样品中多个核酸的尺寸，此可以个别地(例如通过完整分子或仅仅分子的末端的单分子测序)或成组地(例如通过电泳)进行。尺寸可以对应于某一范围。因此，量可以针对尺寸在特定范围内的DNA片段。当进行双末端测序时，可以使用比对到特定区域的DNA片段(如通过成对序列读数确定)确定所述区域的甲基化水平。

在框2020处，基于多个尺寸下DNA片段的量计算第一参数的第一值。在一方面，第一参数提供了生物样品中DNA片段的尺寸型态的统计测量(例如直方图)。参数可以被称为尺寸参数，因为其由多个DNA片段的尺寸来确定。

第一参数可以为各种形式。一个参数是特定尺寸或尺寸范围的DNA片段相对于所有DNA片段或相对于另一尺寸或范围的DNA片段的百分比。此类参数是在特定尺寸下DNA片段的数目除以片段的总数，所述数目可以从直方图(提供在特定尺寸下片段的绝对或相对计数的任何数据结构)获得。作为另一实例，参数可以是在特定尺寸下或特定范围内片段的数目除以另一尺寸或范围的片段的数目。除法可以充当一种标准化，以考虑针对不同样品分析的DNA片段的不同数目。标准化可以通过分析每个样品相同数目的DNA片段来实现，其有效地提供了与除以所分析的总片段数相同的结果。参数和尺寸分析的额外实例可以见于美国专利申请案13/789,553中，所述申请案以引用的方式并入以达成所有目的。

在框2030处，比较第一尺寸值与参考尺寸值。参考尺寸值可以由参考样品的DNA片段计算。为了确定参考尺寸值，可以针对参考样品计算并定量甲基化型态以及第一尺寸参数的值。因此，当比较第一尺寸值与参考尺寸值时，可以确定甲基化水平。

在框2040处，基于比较来评估甲基化水平。在一个实施例中，可以确定第一参数的第一值高于还是低于参考尺寸值，并由此确定本发明样品的甲基化水平高于还是低于参考尺寸值的甲基化水平。在另一个实施例中，比较通过将第一值输入到校准函数中来实现。校准功能可以通过鉴别曲线上与第一值相对应的点来有效地比较第一值与校准值(一组参考尺寸值)。随后所评估的甲基化水平作为校准函数的输出值提供。

因此，可以将尺寸参数校准成甲基化水平。举例来说，可以测量甲基化水平并与样品的特定尺寸参数相关。随后来自各种样品的数据点可以拟合校准函数。在一中实现方式中，不同校准函数可以用于DNA的不同子集。因此，基于先前关于DNA的特定子集的甲基化与尺寸之间的关系的知识，可以存在一些不同的校准形式。举例来说，胎儿和母体DNA的校准可能是不同的。

如上所示，胎盘与母体血液具有更加低甲基化，因而胎儿DNA因甲基化更低而更小。因此，可以使用样品片段的平均尺寸(或其它统计值)评估甲基化密度。因为片段尺寸可以使用双末端测序测量，而不是可能技术上更复杂的可识别甲基化的测序，所以此方法如果用在临床上将可能是有成本效益的。此方法可以用于监测与妊娠进展或例如先兆子痫、早产和胎儿病症(例如由染色体或遗传异常或子宫内生长迟缓引起的病症)等妊娠相关病症相关的甲基化改变。

在另一个实施例中，此方法可以用于检测和监测癌症。举例来说，随着癌症的成功治疗，如使用此基于尺寸的方法测量的血浆或另一体液中的甲基化型态将朝着无癌症的健康个体的甲基化型态方向改变。相反，在癌症进展的情况下，血浆或另一体液中的甲基化型态将从无癌症的健康个体的甲基化型态发散。

综上所述，血浆中低甲基化的分子比高甲基化的分子短。在胎儿和母体DNA分子中都观测相同的倾向。因为已知DNA甲基化影响核小体填充，所以数据表明可能低甲基化的DNA分子不太密集地缠绕组蛋白并因此对酶降解更敏感。另一方面，图18A和18B中呈现的数据还展示尽管胎儿DNA比母体读数对应的甲基化低得多，但胎儿和母体DNA的尺寸分布彼此未完全分开。图19B中，可以看到即使是对于相同的尺寸类别，胎儿和母体特定的读数的甲基化水平也彼此不同。此观测结果表明胎儿DNA的低甲基化状态不是说明其相对于母体DNA较短的唯一因素。

VII.基因座的印记状态

可以检测母体血浆中与母亲共享相同基因型，但具有不同表观遗传标记的胎儿来源的DNA分子(鹏等人2002临床化学；48:35-41(LLM Poon et al.2002Clin Chem；48:35-41))。为了说明测序方法灵敏地挑选母体血浆中胎儿来源的DNA分子，将相同的策略应用于检测母体血浆样品中印记胎儿等位基因。鉴别出两个基因组印记区域：H19(chr11:1,977,419-1,977,821，NCBI Build36/hg18)和MEST(chr7:129,917,976-129,920,347，NCBIBuild36/hg18)。两者都含有用于区分母体与胎儿序列的信息性SNP。针对H19(一种母体表达的基因)，对于所述区域中SNP rs2071094(chr11:1,977,740)，母亲是纯合的(A/A)并且胎儿是杂合的(A/C)。母体A等位基因之一完全甲基化并且其它未甲基化。但是，在胎盘中，A等位基因未甲基化，而父体遗传的C等位基因完全甲基化。在母体血浆中检测到两个具有C基因型的甲基化读数，与来源于胎盘的印记父体等位基因相对应。

MEST也称为PEG1，是一种父体表达的基因。对于印记基因座内的SNP rs2301335(chr7:129,920,062)，母亲与胎儿都是杂合(A/G)的。母体血液中G等位基因甲基化，而A等位基因未甲基化。胎盘中甲基化模式颠倒，其中母体A等位基因甲基化并且父体G等位基因未甲基化。父体来源的三个未甲基化G等位基因在母体血浆中可检测到。相比之下，VAV1，染色体19上的一种非印记基因座(chr19:6,723,621-6,724,121)，在组织中以及血浆DNA样品中未展示任何等位基因甲基化模式。

因此，可以使用甲基化状态确定哪些DNA片段来自胎儿。举例来说，当母亲是GA杂合时，在母体血浆中仅仅检测到A等位基因无法用作胎儿标记物。但如果区别血浆中A分子的甲基化状态，那么甲基化A分子是胎儿特定的，而未甲基化A分子是母体特定的，或反之亦然。

接下来集中在已经报导证明胎盘组织中基因组印记的基因座上。基于伍德法英等人(Woodfine et al.)(2011表观遗传学与染色质；4:1(2011Epigenetics Chromatin；4:1))报导的基因座清单，进一步分选在印记控制区内含有SNP的基因座。四个基因座满足标准并且它们是H19、KCNQ10T1、MEST和NESP。

关于母体血细胞样品中H19和KCNQ10T1的读数，母体读数是SNP纯合的并且存在大致相同比例的甲基化和未甲基化读数。CVS和足月胎盘组织样品揭露了对于两个基因座，胎儿是杂合的并且每个等位基因是独占性地甲基化或未甲基化，即展示单等位基因甲基化。在母体血浆样品中，针对两个基因座，检测父体遗传的胎儿DNA分子。对于H19，父体遗传的分子由含有胎儿特定的等位基因并且甲基化的测序读数表示。对于KCNQ10T1，父体遗传的分子由含有胎儿特定的等位基因并且未甲基化的测序读数表示。

另一方面，对于MEST与NESP，母亲都是杂合的。对于MEST，针对SNP，母亲和胎儿都是GA杂合的。但是，如从关于母体血细胞和胎盘组织的沃森链的数据显而易见，靠近SNP的CpG的甲基化状态在母亲和胎儿中相反。A等位基因在母亲DNA中未甲基化，但在胎儿DNA中甲基化。对于MEST，母体等位基因甲基化。因此，可以指出胎儿已经从其母亲遗传A等位基因(CVS中甲基化)并且母亲已经从其父亲遗传A等位基因(母体血细胞中未甲基化)。有趣的是，在母体血浆样品中，所有四组分子都可以容易地区分，包括母亲的两个等位基因每一者和胎儿的两个等位基因每一者。因此，通过将印记基因座的基因型信息与甲基化状态组合，可以容易地区分母体遗传的胎儿DNA分子与背景母体DNA分子(鹏等人临床化学；48:35-41(LLM Poon et al.2002Clin Chem；48:35-41))。

此方法可以用于检测单亲源二体(uniparental disomy)。举例来说，如果已知此胎儿的父亲是G等位基因纯合的，那么无法在母体血浆中检测到未甲基化G等位基因表示缺乏父体等位基因的贡献。此外，在此类情形下，当甲基化G等位基因与甲基化A等位基因都在此妊娠的血浆中检测到时，将表明胎儿具有来自母亲的异二体性，即从母亲遗传了两个不同等位基因，没有从父体遗传。或者，如果甲基化A等位基因(从母亲遗传的胎儿等位基因)和未甲基化A等位基因(从母方外祖父遗传的母体等位基因)在母体血浆中都检测到，没有未甲基化G等位基因(应已经由胎儿遗传的父体等位基因)，那么将表明胎儿具有来自母亲的同二体性，即从母亲遗传两个一致等位基因，没有从父体遗传。

对于NESP，母亲在SNP是GA杂合子，而胎儿是G等位基因纯合的。对于NESP，父体等位基因甲基化。在母体血浆样品中，甲基化的父体遗传的胎儿G等位基因可以容易地与未甲基化的背景母体G等位基因区分。

VIII.癌症/供体

一些实施例可以用于使用循环血浆/血清DNA的甲基化分析对癌症进行检测、筛选、监测(例如复发、缓解或对治疗的反应(例如存在或不存在))、分期、分类(例如帮助选择最适当的治疗模式)和预后。

已知癌症DNA证明异常的DNA甲基化(赫尔曼等人2003新英格兰医学杂志；349:2042-2054(JG Herman et al.2003N Engl J Med；349:2042-2054))。举例来说，与非癌细胞相比，例如肿瘤抑制基因等基因的CpG岛启动子高甲基化，而基因体中的CpG位点低甲基化。假设癌细胞的甲基化型态可以由使用本文中描述的方法的肿瘤来源的血浆DNA分子的甲基化型态反映，预期当与未患癌症的那些健康个体相比时或当与癌症已经治愈的个体相比时血浆中的总甲基化型态将在患有癌症的个体之间有差异。甲基化型态的差异类型可以根据基因组的甲基化密度和/或基因组区段的甲基化密度的定量差异。举例来说，因为来自癌组织的DNA具有整体低甲基化性(伽玛-索沙等人1983核酸研究；11:6883-6894(Gama-Sosa MAet al.1983Nucleic Acids Res；11:6883-6894)，所以将在癌症患者的血浆中观测到血浆甲基化组或基因组区段的甲基化密度的降低。

甲基化型态的定性改变还应反映在血浆甲基化组数据中。举例来说，当与源自相同基因但在健康对照的样品中的血浆DNA分子相比时，源自仅仅在癌细胞中高甲基化的基因的血浆DNA分子将展示在癌症患者的血浆中高甲基化。因为异常甲基化发生在大部分癌症中，所以本文中描述的方法可以应用于检测具有异常甲基化的所有形式的恶性病，例如(但不限于)肺、乳房、结肠直肠、前列腺、鼻咽、胃、睪丸、皮肤、神经系统、骨骼、卵巢、肝、血液组织、胰腺、子宫、肾脏、膀胱、淋巴组织等中的恶性病。恶性病可以具有多种组织学亚型，例如癌瘤、腺癌、肉瘤、纤维腺癌、神经内分泌和未分化等。

另一方面，预期肿瘤来源的DNA分子可以与背景非肿瘤来源的DNA分子区分开，因为对于源自具有肿瘤相关的异常低甲基化的基因座的DNA分子，肿瘤来源的DNA的总短尺寸型态突出，此将对DNA分子的尺寸具有额外的影响。并且，可以使用多个与肿瘤DNA相关的特征性特征，将肿瘤来源的血浆DNA分子与背景非肿瘤来源的血浆DNA分子区分开，所述特征包括(但不限于)单核苷酸变异体、拷贝数增加和损失、易位、倒置、异常高或低甲基化和尺寸型态分析。因为所有这些改变都可以独立地发生，所以这些特征的组合使用可以为灵敏和特异性地检测血浆中的癌症DNA提供额外的优点。

A.尺寸和癌症

血浆中肿瘤来源的DNA分子的尺寸也类似于单核小体单元的尺寸，并且比共同存在于癌症患者的血浆中的背景非肿瘤来源的DNA分子短。已经展示尺寸参数与癌症相关，如以引用的方式并入以达成所有目的的美国专利申请案13/789,553中所描述。

因为血浆中胎儿来源和母体来源的DNA都展示分子尺寸与甲基化状态之间的关系，所以预期肿瘤来源的DNA分子显示相同的倾向。举例来说，在癌症患者的血浆中或筛选癌症的个体中低甲基化的分子将比高甲基化的分子短。

B.癌症患者中不同组织的甲基化密度

在此实例中，分析肝细胞癌(HCC)患者的血浆和组织样品。在肿瘤手术切除前和1周后从HCC患者收集血液样品。在血液样品离心后收获血浆和白细胞层。收集所切除的肿瘤和相邻的非肿瘤肝组织。在有和没有预先亚硫酸氢盐处理下，使用大规模平行测序，分析从血浆和组织样品提取的DNA样品。还分析作为对照的来自未患癌症的四个健康个体的血浆DNA。DNA样品的亚硫酸氢盐处理将未甲基化胞嘧啶残基转化成尿嘧啶。在下游聚合酶链反应和测序中，这些尿嘧啶残基将如胸苷一样表现。另一方面，亚硫酸氢盐处理未将甲基化胞嘧啶残基转化为尿嘧啶。在大规模平行测序后，测序读数由Methy-Pipe进行分析(江等人Methy-Pipe：用于全基因组甲基化组分析的集成生物信息学数据分析管道,在有关生物信息学和生物医学研讨会的IEEE国际主会议上呈现的论文,香港,2010年12月18日到21日(PJiang,et al.Methy-Pipe:An integrated bioinformatics data analysis pipelinefor whole genome methylome analysis,paper presented at the IEEE InternationalConference on Bioinformatics and Biomedicine Workshops,Hong Kong,18to21December 2010))，以确定所有CG双核苷酸位置，即CpG位点上胞嘧啶残基的甲基化状态。

图21A是表2100，展示HCC患者的手术前血浆和组织样品的甲基化密度。相关区域(例如CpG位点、启动子或重复区域等)的CpG甲基化密度是指在覆盖基因组CpG双核苷酸上展示CpG甲基化的读数占总读数的比例。白细胞层和非肿瘤肝组织的甲基化密度类似。基于来自所有常染色体的数据，肿瘤组织的总甲基化密度比白细胞层和非肿瘤肝组织的总甲基化密度低25％。低甲基化在每个的染色体中是一致的。血浆的甲基化密度在非恶性组织与癌症组织的值之间。此观测结果与如下事实一致：癌症与非癌症组织都对癌症患者的外周血循环DNA有贡献。已经展示造血系统是无活性恶性病状的个体中循环DNA的主要来源(磊等人2002临床化学；48:421-7(YYN Lui,et al.2002Clin Chem；48:421-7))。因此，还分析了从四个健康对照获得的血浆样品。图21B的表2150中展示每一样品所实现的序列读数的数目和测序深度。

图22是表220，展示健康对照的血浆样品中常染色体中的甲基化密度在71.2％到72.5％范围内。这些数据展示从没有肿瘤DNA来源的个体获得的血浆样品中DNA甲基化的预期水平。在癌症患者中，肿瘤组织还将释放DNA到循环中(陈等人2013临床化学；59:211-224(KCA Chan et al.2013Clin Chem；59:211-224)；利瑞等人2012科学·转化医学；4:162ra154)。归因于HCC肿瘤的低甲基化性，患者的手术前血浆中肿瘤与非肿瘤来源的DNA的存在引起与健康对照的血浆相比甲基化密度的降低。实际上，手术前血浆样品的甲基化密度在肿瘤组织的甲基化密度与健康对照的血浆之间。原因是因为癌症患者的血浆DNA的甲基化水平将受肿瘤组织的异常甲基化(在此情况下低甲基化)程度和循环中肿瘤来源的DNA的百分比浓度影响。肿瘤组织的较低甲基化密度和循环中肿瘤来源的DNA的较高百分比浓度将引起癌症患者中血浆DNA的甲基化密度较低。大部分肿瘤据报导展示整体低甲基化(赫尔曼等人2003新英格兰医学杂志；349:2042-2054；玛-索沙等人1983核酸研究；11:6883-6894)。因此，HCC样品中见到的当前观察结果还应适用于其它类型的肿瘤。

在一个实施例中，当已知肿瘤组织的甲基化水平时，血浆DNA的甲基化密度可以用于确定血浆/血清样品中肿瘤来源的DNA的百分比浓度。如果肿瘤样品可获得或肿瘤的活组织检查可获得，那么可以获得肿瘤组织的甲基化水平，例如甲基化密度。在另一个实施例中，关于肿瘤组织的甲基化水平的信息可以从一组类似类型的肿瘤中甲基化水平的研究获得，并且此信息(例如平均水平或中位水平)应用于待使用本发明中描述的技术分析的患者。肿瘤组织的甲基化水平可以通过分析患者的肿瘤组织确定或从患有相同或类似癌症类型的其它患者的肿瘤组织的分析推断。肿瘤组织的甲基化可以使用一系列可识别甲基化的平台确定，包括(但不限于)大规模平行测序、单分子测序、微阵列(例如寡核苷酸阵列)或质谱分析(例如西格诺公司(Sequenom,Inc.)的Epityper分析)。在一些实施例中，此类分析可以是先于DNA分子的甲基化状态敏感的程序，包括(但不限于)胞嘧啶免疫沉淀和察觉甲基化的限制酶消化。当已知肿瘤的甲基化水平时，可以在血浆甲基化组分析后计算癌症患者血浆中肿瘤DNA的百分比浓度。

血浆甲基化水平P与分数肿瘤DNA浓度f和肿瘤组织甲基化水平TUM之间的关系可以描述为：P＝BKG×(1-f)+TUM×f，其中BKG是来源于血细胞和其它内脏的血浆中的背景DNA甲基化水平。举例来说，在从此HCC患者获得的肿瘤活组织检查组织中所有常染色体的总甲基化密度展示是42.9％，即此案例的TUM值。来自四个健康对照的血浆样品的平均甲基化密度是71.6％，即此案例的BKG值。手术前血浆的血浆甲基化密度是59.7％。使用这些值，估得f为41.5％。

在另一个实施例中，当已知血浆样品中肿瘤来源的DNA的百分比浓度时肿瘤组织的甲基化水平可以基于血浆甲基化组数据无创地评估。血浆样品中肿瘤来源的DNA的百分比浓度可以通过其它遗传分析确定，例如如先前描述的等位基因损失的全基因组分析(GAAL)和单核苷酸突变的分析(美国专利申请案13/308,473；陈等人2013临床化学；59:211-24(KCA Chan et al.2013Clin Chem；59:211-24))。此计算是基于与上述相同的关系，不同之处在于在此实施例中，f的值已知，而TUM的值变成未知。可以针对全基因组或基因组部分进行推断，类似于针对从母体血浆数据确定胎盘组织甲基化水平的情况所观测到的数据。

在另一个实施例中，可以使用甲基化密度的区域之间变化或型态来区分患癌症的个体与未患癌症的个体。通过将基因组分成特定尺寸的区域(例如1Mb)，甲基化分析的分辨率可以进一步增加。在此类实施例中，针对所收集的样品，例如白细胞层、所切除的HCC组织、靠近肿瘤的非肿瘤肝组织和肿瘤切除前后收集的血浆计算每个1Mb区域的甲基化密度。在另一个实施例中，区域尺寸无需保持恒定。在一个实现方式中，每个区域内CpG位点的数目保持恒定，而区域本身的尺寸可以变化。

图23A和23B展示HCC患者的白细胞层、肿瘤组织、非肿瘤肝组织、手术前血浆和手术后血浆的甲基化密度。图23A是染色体1的结果对应的图2300。图23B是染色体2的结果对应的图2350。

对于大部分1Mb窗口，白细胞层和靠近肿瘤的非肿瘤肝组织的甲基化密度类似，而肿瘤组织的甲基化密度则较低。手术前血浆的甲基化密度处于肿瘤与非恶性组织的甲基化密度之间。可以使用手术前血浆的甲基化数据和分数肿瘤DNA浓度推断肿瘤组织中询问基因组区域的甲基化密度。方法与上述相同，使用所有常染色体的甲基化密度值。还可以使用血浆DNA的此更高分辨率甲基化数据推断所述肿瘤甲基化。还可以使用其它区域尺寸，例如300kb、500kb、2Mb、3Mb、5Mb或大于5Mb。在一个实施例中，区域尺寸无需保持恒定。在一个实现方式中，每个区域内CpG位点的数目保持恒定，而区域本身的尺寸可以变化。

C.癌症患者与健康个体之间血浆甲基化密度的比较

如2100中所示，癌症患者手术前血浆DNA的甲基化密度低于非恶性组织的甲基化密度。此很可能由存在来自肿瘤组织的低甲基化的DNA引起。此较低血浆DNA甲基化密度可能可以用作检测和监测癌症的生物标记物。对于癌症监测，如果癌症不断发展，那么血浆中癌症来源的DNA的量随时间的推移而增加。在此实例中，血浆中循环的癌症来源的DNA的量增加将引起全基因组水平下血浆DNA甲基化密度进一步降低。

相反，如果癌症对治疗起反应，那么血浆中癌症来源的DNA的量将随时间的推移而降低。在此实例中，血浆中癌症来源的DNA的量降低将引起血浆DNA甲基化密度增加。举例来说，如果具有表皮生长因子受体突变的肺癌患者已经用例如酪氨酸激酶抑制等靶向疗法治疗，那么血浆DNA甲基化密度的增加将表示对治疗有反应。随后，对酪氨酸激酶抑制具抗性的肿瘤克隆的出现将与指示复发的血浆DNA甲基化密度的降低相关。

血浆甲基化密度测量可以连续进行并可以计算此类测量的改变速率并用于预测或关联临床进展或缓解或预后。对于在癌症组织中高甲基化但在正常组织中低甲基化的所选基因座，例如大量肿瘤抑制基因的启动子区，癌症进展与对治疗的有利反应之间的关系将与上述模式相反。

为了证明此方法的可行性，将在手术去除肿瘤前后从癌症患者收集的血浆样品的DNA甲基化密度与从四个健康对照个体获得的血浆DNA比较。

表2200展示癌症患者的手术前和手术后血浆样品以及四个健康对照个体的每个常染色体的DNA甲基化密度和所有常染色体的组合值。对于所有染色体，手术前血浆DNA样品的甲基化密度低于手术后样品和来自四个健康个体的血浆样品的甲基化密度。手术前与手术后样品之间的血浆DNA甲基化密度差异提供了手术前血浆样品中较低的甲基化密度是因为存在来自HCC肿瘤的DNA的支持证据。

手术后血浆样品中DNA甲基化密度逆转到类似于健康对照的血浆样品的水平表明因为手术去除来源，即肿瘤，许多肿瘤来源的DNA已经消失。这些数据表明使用可从大基因组区域(例如所有常染色体或个别染色体)获得的数据确定手术前血浆的甲基化密度具有比健康对照低的甲基化水平，从而允许鉴别，即诊断或筛选测试案例为患有癌症。

手术前血浆的数据还展示甲基化水平比手术后血浆低得多，表明血浆甲基化水平也可以用于监测肿瘤负荷，因此预测和监测患者中癌症的进展。参考值可以从健康对照或有癌症风险但当前无癌症者的血浆确定。有HCC风险者包括有慢性B型肝炎或C型肝炎感染者、有血色沉着病者和有肝硬化者。

可以使用血浆甲基化密度值超出、例如低于基于参考值界定的阈值来评估非怀孕者的血浆是否具有肿瘤DNA。为了检测低甲基化的循环肿瘤DNA的存在，阈值可以被定义为低于对照群体的值的第5或第1百分位数，或基于标准偏差的数目，例如低于对照的平均甲基化密度值2或3个标准偏差(SD)，或基于确定中位数倍数(MoM)。对于高甲基化的肿瘤DNA，阈值可以被定义为高于对照群体的值的第95或99百分位数，或基于标准偏差的数目，例如超过对照的平均甲基化密度值2或3个SD，或基于确定中位数倍数(MoM)。在一个实施例中，对照群体与测试个体年龄匹配。年龄匹配无需准确，并可以在年龄组(例如30到40岁，对于35岁的测试个体)中进行。

接下来比较癌症患者与四个对照个体的血浆样品之间1Mb区域的甲基化密度。为了说明，展示染色体1的结果。

图24A是图2400，展示来自HCC患者的手术前血浆的甲基化密度。图24B是图2450，展示来自HCC患者的手术后血浆的甲基化密度。蓝点表示对照个体的结果，红点表示HCC患者的血浆样品的结果。

如图24A中所示，对于大部分区域，来自HCC患者的手术前血浆的甲基化密度低于对照个体的甲基化密度。在其它染色体上，观测到类似模式。如图24B中所示，对于大部分区域，来自HCC患者的手术后血浆的甲基化密度类似于对照个体的甲基化密度。在其它染色体上，观测到类似模式。

为了评估测试个体是否患有癌症，测试个体的结果将与参考群体的值比较。在一个实施例中，参考群体可以由大量健康个体构成。在另一个实施例中，参考群体可以由患有例如慢性B型肝炎感染或肝硬化等非恶性病状的个体构成。随后可以定量测试个体与参考群体之间的甲基化密度差异。

在一个实施例中，参考范围可以来源于对照群体的值。随后可以使用测试个体的结果与参考群体的上限或下限的偏差来确定个体是否具有肿瘤。此数量将受血浆中肿瘤来源的DNA的百分比浓度和恶性与非恶性组织之间的甲基化水平差异影响。血浆中更高的肿瘤来源的DNA的百分比浓度将引起测试血浆样品与对照之间更大的甲基化密度差异。更大程度的恶性与非恶性组织的甲基化水平差异也引起测试血浆样品与对照之间更大的甲基化密度差异。在又一实施例中，针对不同年龄范围的测试个体，选择不同参考群体。

在另一个实施例中，对于每个1Mb区域，计算四个对照个体的甲基化密度的平均值和SD。随后对于对应的区域，计算HCC患者的甲基化密度与对照个体的平均值之间的差异。在一个实施例中，此差异随后除以对应区域的SD以确定z分数。换句话说，z分数表示测试与对照血浆样品之间的甲基化密度差异，表示为与对照个体的平均值的SD的数目。区域的z分数>3指示此区域中HCC患者的血浆DNA比对照个体高甲基化超过3SD，而区域中z分数<-3指示此区域中HCC患者的血浆DNA比对照个体低甲基化超过3SD。

图25A和25B展示对于染色体1，使用四个健康对照个体的血浆甲基化组数据作为参考，HCC患者的手术前(曲线2500)和手术后(曲线2550)血浆样品的血浆DNA甲基化密度的z分数。每个点表示一个1Mb区域的结果。黑点表示z分数在-3与3之间的区域。红点表示z分数<-3的区域。

图26A是表2600，展示手术前和手术后血浆的z分数的数据。手术前血浆样品中染色体1上的大部分区域(80.9％)的z分数<-3，表明HCC患者的手术前血浆DNA比对照个体显著更低甲基化。相反，手术后血浆样品中红点的数目实质上减少(染色体1上所有区域中的8.3％)，表明归因于手术切除外周血循环中的肿瘤DNA的来源，大部分肿瘤DNA已经从外周血循环中去除。

图26B是Circos图2620，展示针对从所有常染色体分析的所有1Mb区域，使用四个健康对照个体作为参考，HCC患者的手术前和手术后血浆样品的血浆DNA甲基化密度的z分数。最外环展示人类常染色体的G带图。中间环展示手术前血浆样品的数据。最内环展示手术后血浆样品的数据。每个点表示一个1Mb区域的结果。黑点表示z分数在-3与3之间的区域。红点表示z分数<-3的区域。绿点表示z分数>3的区域。

图26C是表2640，展示对于HCC患者的手术前与手术后血浆样品中的全基因组所有的1Mb区域的z分数的分布。结果指示对于全基因组中的大部分区域(所有1Mb区域中的85.2％)，HCC患者的手术前血浆DNA比对照更加低甲基化。相反，手术后血浆样品中的大多数区域(所有1Mb区域中的93.5％)与对照相比较未展现出显著的高甲基化或低甲基化。这些数据指示对于此HCC，实质上主要低甲基化的许多肿瘤DNA不再存在于手术后血浆样品中。

在一个实施例中，z分数<-3的区域的数目、百分比或比例可以用于指示是否存在癌症。举例来说，如表2640中所示，在手术前血浆中分析的2734个区域中的2330个(85.2％)展示z分数<-3，而在手术后血浆中分析的2734个区域中的仅仅171个(6.3％)展示z分数<-3。数据指示手术前血浆中的肿瘤DNA负荷远高于手术后血浆中。

区域数目的阈值可以使用统计方法确定。举例来说，基于正态分布，预期大约0.15％的区域的z-分数<-3。因此，区域的截止数目可以是所分析的区域总数的0.15％。换句话说，如果来自非怀孕个体的血浆样品展示超过0.15％的区域显示z分数<-3，那么血浆中存在低甲基化DNA的来源，即癌症。举例来说，在此实例中用于分析的2734个1Mb区域的0.15％是约4个区域。使用此值作为阈值，手术前与手术后血浆样品都含有低甲基化的肿瘤来源的DNA，不过在手术前血浆样品中此量比手术后血浆样品多得多。对于四个健康对照个体，没有区域展示显著的高甲基化或低甲基化。可以使用其它阈值(例如1.1％)并且可以变化，取决于所使用的分析的需要。作为其它实例，截止百分比可以基于统计分布以及所需灵敏度和可接受的特异性而变化。

在另一个实施例中，截止数目可以通过受试者操作特征(ROC)曲线分析，对大量癌症患者和无癌症个体进行分析来确定。为了进一步验证此方法的特异性，分析来自针对非恶性病状(C06)寻求医学咨询的患者的血浆样品。1.1％的区域显示z分数<-3。在一个实施例中，可以使用不同阈值将不同水平的疾病状态分类。较低百分比阈值可以用于区分健康状态与良性病状，并且较高百分比阈值可以用于区分良性病状与恶性病。

使用大规模平行测序的血浆低甲基化分析的诊断性能似乎优于使用特定类别的重复元件(例如长散布核元件-1(LINE-1))的基于聚合酶链反应(PCR)的扩增(唐瓦尼科等人2007临床化学学报；379:127-133(P Tangkijvanich et al.2007Clin Chim Acta；379:127-133))。对此观测结果的一个可能的解释是虽然肿瘤基因组中低甲基化是普遍的，但从一个基因组区域到下一个基因组区域，其具有一定程度的异质性。

实际上，观测到参考个体的平均血浆甲基化密度跨越基因组变化(图56)。图56中每个红点展示32个健康个体当中一个1Mb区域的平均甲基化密度。曲线图展示跨越基因组分析的所有1Mb区域。每个盒内的数目表示染色体数目。观测到平均甲基化密度随区域而变化。

简单的基于PCR的分析无法将此类区域之间的异质性考虑到其诊断算法中。此类异质性将加宽在健康个体中观测到的甲基化密度的范围。随后对于视为展示低甲基化的样品，将需要甲基化密度降低更大的量值。这将引起测试灵敏度降低。

相比之下，基于大规模平行测序的方法将基因组分成1Mb区域(或其它尺寸的区域)并且单独测量此类区域的甲基化密度。当在测试样品与对照之间比较每个区域时，此方法降低了基线甲基化密度跨越不同基因组区域的变化的影响。实际上，在相同区域内，跨越32个健康对照的个体间的变化相对较小。横越32个健康对照，95％的区域的变异系数(CV)≤1.8％。然而，为了进一步增强检测癌症相关的低甲基化的灵敏度，可以跨越多个基因组区域进行比较。当在只测试一个区域时癌症样品的特定区域碰巧未显示低甲基化时，将通过测试多个基因组区域来增强灵敏度，因为其将抵御生物变化的影响。

比较对照与测试样品之间的同等基因组区域的甲基化密度和对多个基因组区域执行此比较的方法(例如分开测试每个基因组区域并随后可能梳理此类结果)对于检测与癌症相关的低甲基化来说具有较高的信噪比。此大规模平行测序方法以说明的方式展示。可以确定多个基因组区域的甲基化密度并允许比较对照与测试样品之间的对应区域的甲基化密度的其它方法也可以实现类似的效果。举例来说，可以设计出可以靶向源自特定基因组区域的血浆DNA分子以及确定此区域的甲基化水平的杂交探针或分子倒置探针来实现所希望的效果。

在又一实施例中，所有区域的z分数的总和可以用于确定癌症是否存在或用于监测血浆DNA甲基化水平的连续改变。归因于肿瘤DNA的总低甲基化性，在从患有癌症的个体收集的血浆中z分数的总和低于健康对照。HCC患者的手术前和后血浆的z分数的总和分别是-49843.8和-3132.13。

在其它实施例中，其它方法可以用于研究血浆DNA的甲基化水平。举例来说，可以使用质谱分析(陈等人2013临床化学；59:824-832(ML Chen et al.2013Clin Chem；59:824-832))或大规模平行测序确定甲基化胞嘧啶残基占胞嘧啶残基总含量的比例。但是，因为大部分的胞嘧啶残基不在CpG双核苷酸背景下，所以在与在CpG双核苷酸的情况下评估的甲基化水平相比时，总胞嘧啶残基中甲基化胞嘧啶的比例将相对较小。确定从HCC患者获得的组织和血浆样品以及从健康对照获得的四个血浆样品的甲基化水平。在CpG、任何胞嘧啶背景下、在CHG和CHH背景下使用全基因组大规模平行测序数据测量甲基化水平。H是指腺嘌呤、胸腺嘧啶或胞嘧啶残基。

图26D是表2660，展示使用CHH和CHG背景时，肿瘤组织和与一些对照血浆样品重叠的手术前血浆样品的甲基化水平。当与白细胞层、非肿瘤肝组织、手术后血浆样品和健康对照血浆样品相比时，在CpG与未指定胞嘧啶中，肿瘤组织和手术前血浆样品的甲基化水平都一致更低。但是，基于甲基化CpG的数据，即甲基化密度，展示比基于甲基化胞嘧啶的数据更宽的动态范围。

在其它实施例中，血浆DNA的甲基化状态可以通过使用针对甲基化胞嘧啶的抗体的方法，例如甲基化DNA免疫沉淀(MeDIP)确定。但是，预期这些方法的精确度不如基于测序的方法，因为抗体结合存在变化性。在又一实施例中，可以确定血浆DNA中5-羟基甲基胞嘧啶的水平。就此而言，已经发现5-羟基甲基胞嘧啶的水平降低是例如黑色素瘤等某些癌症的表观遗传特征(利安等人2012细胞；150:1135-1146(CG Lian,etal.2012Cell；150:1135-1146))。

除HCC外，还研究了此方法是否可以应用于其它类型的癌症。分析来自2个肺腺癌患者(CL1和CL2)、2个鼻咽癌患者(NPC1和NPC2)、2个结肠直肠癌患者(CRC1和CRC2)、1个转移性神经内分泌肿瘤患者(NE1)和1个转移性平滑肌肉瘤患者(SMS1)的血浆样品。这些个体的血浆DNA经亚硫酸氢盐转变并使用伊路米那HiSeq2000平台在一端测序50bp。上述四个健康对照个体用作分析这8个患者的参考群体。使用一端50bp的序列读数。全基因组划分成1Mb区域。使用来自参考群体的数据，计算每个区域的甲基化密度的平均值和SD。随后8个癌症患者的结果表示为z分数，z分数表示距离参考群体的平均值的SD的数目。正值指示测试案例的甲基化密度低于参考群体的平均值，且反之亦然。图27I的表2780中展示每一样品所实现的序列读数的数目和测序深度。

图27A-H展示根据本发明的实施例，8个癌症患者的甲基化密度的Circos图。每个点表示一个1Mb区域的结果。黑点表示z分数在-3与3之间的区域。红点表示z分数<-3的区域。绿点表示z分数>3的区域。两个连续线条之间的区间表示z分数差异为20。

对于大部分类型的癌症，包括肺癌、鼻咽癌、结肠直肠癌和转移性神经内分泌肿瘤的患者，在跨越基因组的多个区域中观测到显著低甲基化。有趣的是，除低甲基化外，还在转移性平滑肌肉瘤的情况下，在跨越基因组的多个区域中观测到显著高甲基化。平滑肌肉瘤的胚胎来源是中胚层，而剩余7个患者中其它类型的癌症的胚胎来源是外胚层。因此，可能肉瘤的DNA甲基化模式不同于癌瘤。

由此案例可以看出，血浆DNA的甲基化模式还可以适用于区分不同类型的癌症，在此实例中是区分癌瘤与肉瘤。这些数据还表明所述方法可以用于检测与恶性疾病相关的异常高甲基化。对于所有这8个案例，仅仅获得血浆样品并且未分析肿瘤组织。由此说明即使没有先验的肿瘤组织甲基化型态或甲基化水平，也可以使用所描述的方法容易地检测到血浆中的肿瘤来源的DNA。

图27J是表2790，展示不同恶性病患者的血浆中全基因组的所有1Mb区域的z分数的分布。展示每个案例的z分数<-3、-3到3和>3的区域的百分比。所有案例中超过5％的区域显示z分数<-3。因此，如果使用区域的5％为显著低甲基化的阈值用于将样品分类为癌症阳性，那么所有这些案例将归类为癌症阳性。结果展示低甲基化很可能是不同类型癌症的普遍现象，并且血浆甲基化组分析将适用于检测不同类型的癌症。

D.方法

图28是方法2800的流程图，所述方法2800根据本发明的实施例，分析生物体的生物样品以确定癌症等级的分类。生物样品包括源自正常细胞的DNA并且可能包括来自与癌症相关的细胞的DNA。生物样品中至少一些DNA可能是游离的。

在框2810处，分析来自生物样品的多个DNA分子。DNA分子的分析可以包括确定生物体的基因组中DNA分子的位置和确定DNA分子是否在一或多个位点甲基化。所述分析可以通过接收来自可识别甲基化的测序的序列读数进行，因而分析可以只在先前从DNA获得的数据上进行。在其它实施例中，分析可以包括实际测序或获得数据的其它步骤。

在框2820处，针对多个位点每一者，确定在所述位点甲基化的DNA分子的相应数目。在一个实施例中，位点是CpG位点，并且可能仅仅是某些CpG位点，如使用本文中提及的一或多个标准来选择。一旦使用在特定位点分析的DNA分子的总数，例如序列读数的总数进行标准化，那么甲基化的DNA的数目等同于确定未甲基化的数目。举例来说，区域的CpG甲基化密度的增加等同于相同区域的未甲基化CpG的密度降低。

在框2830处，基于在多个位点甲基化的DNA分子的相应数目，计算第一甲基化水平。第一甲基化水平可以对应于基于与多个位点相对应的DNA分子的数目确定的甲基化密度。位点可以对应于多个基因座或仅仅一个基因座。

在框2840处，比较第一甲基化水平与第一阈值。第一阈值可以是参考甲基化水平或与参考甲基化水平有关(例如与正常水平的指定距离)。参考甲基化水平可以从无癌症的个体的样品或从已知不与生物体的癌症相关的基因座或生物体确定。第一阈值可以从参考甲基化水平建立，所述参考甲基化水平从先前获得的生物体的生物样品确定，其可以先于测试的生物样品。

在一个实施例中，第一阈值是与由从健康生物体获得的生物样品建立的参考甲基化水平的指定距离(例如指定数目的标准偏差)。比较可以通过确定第一甲基化水平与参考甲基化水平之间的差异，并随后比较与对应于第一阈值的阈值的差异(例如以确定甲基化水平与参考甲基化水平是否有统计学上差异)来进行。

在框2850处，基于比较，确定癌症等级的分类。癌症等级的实例包括个体是否具有癌症或癌变前病状，或患上癌症的可能性增加。在一个实施例中，第一阈值可以由先前从该个体获得的样品确定(例如参考甲基化水平可以由先前样品确定)。

在一些实施例中，第一甲基化水平可以对应于甲基化水平超过阈值的区域数目。举例来说，可以鉴别生物体基因组的多个区域。所述区域可以使用本文中提及的标准，例如一定长度或一定数目的位点来鉴别。可以鉴别每个区域内的一或多个位点(例如CpG位点)。可以计算每个区域的区域甲基化水平。第一甲基化水平是针对第一区域。每个区域甲基化水平与相应区域阈值比较，所述区域阈值可以相同或随区域而变化。第一区域的区域阈值是第一阈值。相应区域阈值可以是距离参考甲基化水平的指定量(例如0.5)，由此仅仅计数与参考有显著性差异的区域，参考可以从非癌症个体确定。

可以确定区域甲基化水平超出相应区域阈值的区域第一数目，并与阈值比较来确定分类。在一个实现方式中，阈值是百分比。第一数目与阈值比较可以包括在与阈值比较前将区域第一数目除以区域第二数目(例如所有区域)，例如作为标准化过程的一部分。

如上所述，生物样品中肿瘤DNA的百分比浓度可以用于计算第一阈值。百分比浓度可以简单地评估为超过最小值，而百分比浓度低于最小值的样品可以标记为例如不适合于分析。最小值可以基于肿瘤甲基化水平相对于参考甲基化水平的预期差异来确定。举例来说，如果差异是0.5(例如作为某一阈值)，那么将需要某一肿瘤浓度足够高以满足此差异。

来自方法1300的特定技术可以用于方法2800。在方法1300中，可以针对肿瘤确定拷贝数变异(例如其中可以针对相对于肿瘤的第二染色体区域具有拷贝数改变，测试肿瘤的第一染色体区域)。因此，方法1300可以假设肿瘤存在。在方法2800中，可以测试样品不管任何拷贝数特征如何，是否存在任何肿瘤的指示。两种方法的一些技术可能是类似的。但是，相对于一些区域可能具有拷贝数变异的癌症DNA与非癌症DNA的混合物与参考甲基化水平的差异，方法2800的阈值和甲基化参数(例如标准化的甲基化水平)可以检测与非癌症DNA的参考甲基化水平的统计差异。因此，方法2800的参考值可以从无癌症的样品中确定，例如从无癌症的生物体或从相同患者的非癌症组织(例如先前采集的血浆或从同时获得的已知无癌症(可以从细胞DNA确定)的样品)。

E.预测使用血浆DNA甲基化分析检测的肿瘤DNA的最小百分比浓度

一种测量使用血浆DNA的甲基化水平检测癌症的方法的灵敏度的方式涉及揭露血浆DNA甲基化水平与对照相比时的改变所需要的最小分数肿瘤来源的DNA浓度。测试灵敏度还依赖于肿瘤组织中DNA甲基化与健康对照或血细胞DNA中基线血浆DNA甲基化水平之间的差异程度。血细胞是健康个体血浆中DNA的主要来源。差异越大，癌症患者可以越容易与非癌症个体区分并且将反映为血浆中肿瘤来源的检测下限越低，以及检测癌症患者的临床灵敏度越高。此外，健康个体中或不同年龄的个体中血浆DNA甲基化的变化(汉纳姆等人2013分子细胞；49:359-367(G Hannum et al.2013Mol Cell；49:359-367))也会影响检测与癌症存在相关的甲基化改变的灵敏度。健康个体中血浆DNA甲基化的较小变化将使由少量癌症来源的DNA的存在引起的改变的检测更容易。

图29A是曲线2900，展示参考个体中甲基化密度的分布，假定此分布遵循正态分布。此分析是基于每个血浆样品仅仅提供一个甲基化密度值，例如所有常染色体或特定染色体的甲基化密度。其展示分析的特异性将如何受影响。在一个实施例中，比参考个体的平均DNA甲基化密度低3个SD的阈值用于确定测试样品是否比来自参考个体的样品显著更低甲基化。当使用此阈值时，预期大约0.15％的非癌症个体将具有被归类为患有癌症的假阳性结果，产生99.85％的特异性。

图29B是曲线2950，展示参考个体和癌症患者中甲基化密度的分布。阈值是比参考个体的甲基化密度的平均值低3个SD。如果癌症患者的甲基化密度的平均值比阈值低2个SD(即比参考个体的平均值低5个SD)，那么将预期97.5％的癌症个体具有低于阈值的甲基化密度。换句话说，如果提供每个个体的一个甲基化密度值，例如当分析所有常染色体或特定染色体的全基因组的总甲基化密度时，那么预期灵敏度将是97.5％。两个群体的平均甲基化密度之间的差异受两个因素影响，即癌症与非癌症组织之间的甲基化水平的差异程度和血浆样品中肿瘤来源的DNA的百分比浓度。这两个参数值越高，这两个群体的甲基化密度的值的差异就越高。此外，两个群体的甲基化密度的分布的SD越低，两个群体的甲基化密度的分布的重叠越小。

此处，使用假设的实例说明此概念。假设肿瘤组织的甲基化密度大约是0.45并且健康个体的血浆DNA的甲基化密度大约是0.7。这些假设值类似于从HCC患者获得的值，其中常染色体的总甲基化密度是42.9％并且来自健康对照的血浆样品的常染色体的平均甲基化密度是71.6％。假设测量全基因组的血浆DNA甲基化密度的CV是1％，阈值将是0.7×(100％-3×1％)＝0.679。为了实现97.5％的灵敏度，癌症患者的血浆DNA的平均甲基化密度需要大约0.679-0.7×(2×1％)＝0.665。假设f表示血浆样品中肿瘤来源的DNA的百分比浓度。那么f可以计算为(0.7-0.45)×f＝0.7-0.665。因此，f大约是14％。由此计算，据估计如果全基因组的总甲基化密度用作诊断参数，那么可以在血浆中检测到的最小百分比浓度是14％，以便实现97.5％的诊断灵敏度。

接下来对从HCC患者获得的数据进行此分析。针对此说明，对于每个样品，仅仅基于由所有常染色体评估的值进行一次甲基化密度测量。在从健康个体获得的血浆样品中平均甲基化密度是71.6％。这四个样品的甲基化密度的SD是0.631％。因此，血浆甲基化密度的阈值将需要是71.6％-3×0.631％＝69.7％，以达到z分数<-3并且特异性为99.85％。为了实现97.5％的灵敏度，癌症患者的平均血浆甲基化密度将需要比阈值低2个SD，即68.4％。因为肿瘤组织的甲基化密度是42.9％并且使用式：P＝BKG×(1-f)+TUM×f，f将需要是至少11.1％。

在另一个实施例中，不同基因组区域的甲基化密度可以例如如图25A或26B中所示来分开分析。换句话说，对于每个样品，进行甲基化水平的多次测量。如下文所示，可以在血浆中低得多的分数肿瘤DNA浓度下检测到显著低甲基化，因而将增强血浆DNA甲基化分析检测癌症的诊断性能。可以计数展示甲基化密度与参考群体的显著偏差的基因组区域的数目。随后基因组区域的数目可以与阈值比较以确定跨越所研究基因组区域的群体，例如全基因组的1Mb区域是否存在血浆DNA的总显著低甲基化。阈值可以通过分析一组无癌症的参考个体建立或用数学方法，例如根据正态分布函数推导出。

图30是曲线3000，展示健康个体和癌症患者的血浆DNA的甲基化密度的分布。每个1Mb区域的甲基化密度与参考群体的对应值比较。确定展示显著低甲基化(比参考群体的平均值低3个SD)的区域的百分比。10％显著低甲基化的阈值用于确定血浆样品中是否存在肿瘤来源的DNA。还可以根据所希望的测试灵敏度和特异性使用其它的阈值，例如5％、15％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％或90％。

举例来说，为了将样品分类为含有肿瘤来源的DNA，可以使用10％的1Mb区域展示显著低甲基化(z分数<-3)作为阈值。如果超过10％的区域比参考群体显著更低甲基化，那么样品归类为癌症测试阳性。对于每个1Mb区域，使用比参考群体的平均甲基化密度低3个SD的阈值界定样品为显著更低甲基化。对于每个1Mb区域，如果癌症患者的平均血浆DNA甲基化密度比参考个体的平均血浆DNA甲基化密度低1.72个SD，那么有10％的机率，癌症患者的任何特定区域的甲基化密度值将低于阈值(即z分数<-3)并得到阳性结果。随后，如果查看全基因组的所有1Mb区域，那么大约10％的区域将预期展示具有显著较低的甲基化密度的阳性结果(即z分数<-3)。假设健康个体的血浆DNA的总甲基化密度大约是0.7并且测量每个1Mb区域的血浆DNA甲基化密度的变异系数(CV)是1％，癌症患者的血浆DNA的平均甲基化密度将需要是0.7×(100％-1.72×1％)＝0.68796。f是血浆中肿瘤来源的DNA的百分比浓度，以便实现此平均血浆DNA甲基化密度。假设肿瘤组织的甲基化密度是0.45，f可以使用以下等式计算：

其中表示参考个体中血浆DNA的平均甲基化密度，M_肿瘤表示癌症患者中肿瘤组织的甲基化密度；以及/>表示癌症患者中血浆DNA的平均甲基化密度。

使用此等式，(0.7-0.45)×f＝0.7-0.68796。因此，最小百分比浓度可以使用此方法检测，将推断为4.8％。灵敏度可以通过降低显著更低甲基化的区域的截止百分比，例如从10％到5％而进一步增强。

如以上实例中所示，此方法的灵敏度由癌症与例如血细胞等非癌症组织之间的甲基化水平的差异程度决定。在一个实施例中，只选择展示在非癌症个体与肿瘤组织的血浆DNA之间的甲基化密度差异大的染色体区域。在一个实施例中，只选择甲基化密度的差异>0.5的区域。在其它实施例中，0.4、0.6、0.7、0.8或0.9的差异可以用于选择适合的区域。在又一个实施例中，基因组区域的实际尺寸不固定。实际上，例如基于固定读数深度或固定数目的CpG位点界定基因组区域。针对每个样品，评估多个这些基因组区域的甲基化水平。

图31是图表3100，展示健康个体的血浆DNA与HCC患者的肿瘤组织的平均值之间的甲基化密度差异的分布。正值表示健康个体的血浆DNA中甲基化密度更高并且负值表示肿瘤组织中甲基化密度更高。

在一个实施例中，可以选择在癌症与非癌症组织的甲基化密度之间差异最大的区域，例如差异>0.5的区域，不管这些区域的肿瘤低甲基化还是高甲基化。假定血浆中肿瘤来源的DNA的百分比浓度相同，血浆中肿瘤来源的DNA的的百分比浓度的检测极限可以通过集中于这些区域上来降低，因为癌症与非癌症个体之间的血浆DNA甲基化水平的分布差异较大。举例来说，如果仅仅使用差异>0.5的区域并采用10％的区域显著更低甲基化的阈值来确定测试个体是否患有癌症，那么可以使用以下等式计算所检测的肿瘤来源的DNA的最小百分比浓度(f)：其中/>表示参考个体中血浆DNA的平均甲基化密度，M_肿瘤表示癌症患者中肿瘤组织的甲基化密度；以及/>表示癌症患者中血浆DNA的平均甲基化密度。

如参考个体的血浆与肿瘤组织之间的甲基化密度差异是至少0.5。那么，0.5×f＝0.7-0.68796并且f＝2.4％。因此，通过集中于癌症与非癌症组织之间的甲基化密度差异较高的区域，分数肿瘤来源的DNA的下限可以从4.8％降到2.4％。关于哪些区域将展示癌症与例如血细胞等非癌症组织之间较大的甲基化差异程度的信息可以从获自其它个体的相同器官或相同组织类型的肿瘤组织确定。

在另一个实施例中，参数可以衍生自所有区域的血浆DNA的甲基化密度并且考虑癌症与非癌症组织之间的甲基化密度差异。差异较大的区域可以假定为权重较重。在一个实施例中，在计算最终参数时，每个区域的癌症与非癌症组织之间的甲基化密度差异可以直接用作特定区域的权重。

在又一实施例中，不同类型的癌症可以在肿瘤组织中具有不同的甲基化模式。癌症特定的权重型态可以衍生自特定类型癌症的甲基化程度。

在又一实施例中，甲基化密度的区域间关系可以在有和无癌症的个体中确定。图8中，可以观测到在少量的区域中，肿瘤组织比参考个体的血浆DNA更加甲基化。因此，可以选择差异的最极值，例如差异>0.5和差异<0的区域。随后这些区域的甲基化密度的比率可以用于指示测试个体是否患有癌症。在其它实施例中，不同区域的甲基化密度的差异和商可以用作表明区域间关系的参数。

进一步评估所述方法使用如通过从HCC患者获得的数据所说明的多个基因组区域的甲基化密度检测或评估肿瘤的检测灵敏度。首先，将来自手术前血浆的读数与从健康对照的血浆样品获得的读数混合以模拟含有在20％到0.5％范围内的分数肿瘤DNA浓度的血浆样品。随后对甲基化密度相当于z分数<-3的1Mb区域(在全基因组中2,734个区域中)的百分比评分。当血浆中的分数肿瘤DNA浓度是20％时，80.0％的区域展示显著低甲基化。10％、5％、2％、1％和0.5％的血浆中分数肿瘤DNA浓度的对应数据分别是67.6％、49.7％、18.9％、3.8％和0.77％的区域展示低甲基化。因为对照样品中展示z分数<-3的区域的数目的理论界限是0.15％，所以数据显示甚至在肿瘤百分比浓度仅为0.5％时，仍然有更多的区域(0.77％)超出理论截止界限。

图32A是表3200，展示当血浆样品含有5％或2％肿瘤DNA时减小测序深度的影响。当平均测序深度仅是单倍体基因组的0.022倍时，仍然可以检测到高比例的展示显著低甲基化的区域(>0.15％)。

图32B是图表3250，展示四个健康对照个体的血浆、HCC患者的白细胞层、正常肝组织、肿瘤组织、手术前血浆和手术后血浆样品中重复元件和非重复区域的甲基化密度。可以观测到，癌症与非癌症组织中重复元件比非重复区域更多甲基化(更高甲基化密度)。但是，当与肿瘤组织比较时，非癌症组织和健康个体的血浆DNA中重复元件与非重复区域之间的甲基化差异更大。

结果，癌症患者的血浆DNA的甲基化密度在重复元件比在非重复区域降低得大。对于重复元件和非重复区域，四个健康对照和HCC患者的平均值之间的血浆DNA甲基化密度差异分别是0.163和0.088。关于手术前和手术后血浆样品的数据还展示甲基化密度改变的动态范围在重复区域比在非重复区域大。在一个实施例中，重复元件的血浆DNA甲基化密度可以用于确定患者是否患有癌症或用于监测疾病进展。

如上文所论述，参考个体的血浆中甲基化密度的变化还将影响区分癌症患者与非癌症个体的准确性。甲基化密度分布越紧密(即标准差越小)，区分癌症与非癌症个体越准确。在另一个实施例中，1Mb区域的甲基化密度的变异系数(CV)可以用作选择参考群体中血浆DNA甲基化密度的变化性低的区域的标准。举例来说，仅仅选择<1％的区域。例如0.5％、0.75％、1.25％和1.5％等其它值也可以用作选择甲基化密度的变化性低的区域的标准。在又一实施例中，选择标准可以包括区域的CV和癌症与非癌症组织之间的甲基化密度差异两者。

当已知肿瘤组织的甲基化密度时，甲基化密度也可以用于评估血浆样品中肿瘤来源的DNA的百分比浓度。此信息可以通过分析患者的肿瘤或从对具有相同类型癌症的大量患者的肿瘤进行研究来获得。如上文所论述，血浆甲基化密度(P)可以使用以下等式表达：P＝BKG×(1-f)+TUM×f，其中BKG是来自血细胞和其它器官的背景甲基化密度，TUM是肿瘤组织中的甲基化密度，并且f是血浆样品中肿瘤来源的DNA的百分比浓度。此可以重写为：

BKG的值可以通过在不存在癌症的时刻分析患者的血浆样品或由无癌症个体的参考群体的研究来确定。因此，在测量血浆甲基化密度后，可以确定f。

F.与其它方法组合

本文所述的甲基化分析方法可以与其它基于血浆中肿瘤来源的DNA的遗传改变的方法组合使用。此类方法的实例包括分析癌症相关的染色体异常(陈等人2013临床化学；59:211-224；利瑞等人2012科学·转化医学；4:162ra154)和血浆中癌症相关的单核苷酸变异(陈等人et al.2013临床化学；59:211-224)。甲基化分析方法比那些遗传性方法有优点。

如图21A中所示，肿瘤DNA的低甲基化是涉及遍及几乎整个基因组分布的区域的整体现象。因此，来自所有染色体区域的DNA片段将对于患者中肿瘤来源的低甲基化DNA对血浆/血清DNA的可能贡献是信息性的。相比之下，染色体异常(染色体区域的扩增或缺失)仅仅存在于一些染色体区域并且来自肿瘤组织中无染色体异常的区域的DNA片段在分析中将不是信息性的(陈等人2013临床化学；59:211-224)。类似地，在每个癌症基因组中仅仅观测到数千个单核苷酸改变(陈等人2013临床化学；59:211-224)。不与这些单核苷酸变化重叠的DNA片段对于确定肿瘤来源的DNA是否存在于血浆中将不是信息性的。因此，此甲基化分析方法可能比用于检测外周血循环中癌症相关的改变的那些遗传性方法更有成本效益。

在一个实施例中，血浆DNA甲基化分析的成本效益可以通过从最具信息性的区域，例如富集癌症与非癌症组织之间甲基化差异最高的区域DNA片段来进一步增强成本效益。富集这些区域的方法的实例包括使用杂交探针(例如尼姆布雷根(Nimblegen)SeqCap系统和安捷伦(Agilent)SureSelect标靶富集系统)、PCR扩增和固相杂交。

G.组织特定的分析/供体

肿瘤来源的细胞侵袭并转移到相邻或远端的器官。被侵袭的组织或转移性病灶由于细胞死亡而提供DNA到血浆中。通过分析癌症患者的血浆中DNA的甲基化型态和检测组织特定的甲基化标记的存在，可以检测与疾病过程相关的组织类型。此方法提供了一种与癌症过程有关的组织无创解剖扫描以帮助鉴别所涉及的器官为原发性和转移性位点。监测血浆中所涉及器官的甲基化标记的相对浓度还将允许评估那些器官的肿瘤负荷并确定所述器官中的癌症过程是否退化或改善或已经治愈。举例来说，如果基因X在肝中特定甲基化。那么将预期与癌症(例如结肠直肠癌)相关的肝部转移增加血浆中来自基因X的甲基化序列的浓度。还将存在具有与基因X类似的甲基化特征的另一序列或序列群体。随后可以组合由此类序列产生的结果。类似的考虑因素适用于其它组织，例如脑、骨、肺和肾等。

另一方面，已知来自不同器官的DNA展现组织特定的甲基化标记(福兹赫2002自然遗传；31:175-179(BW Futscher et al.2002Nat Genet；31:175-179)；詹等人2008临床化学；54:500-511)。因此，血浆中的甲基化型态分析可以用于阐明来自各种器官的组织对血浆的贡献。此类贡献的阐明可以用于评估器官破坏，因为相信血浆DNA在细胞死亡时释放。举例来说，例如肝炎(例如通过病毒、自身免疫过程等)或由药物引起的肝脏毒性(例如药物过剂量(例如通过扑热息痛(paracetamol))或毒素(例如醇))等肝脏病变与肝细胞损伤相关并且将预期与血浆中增加的肝来源DNA水平相关。举例来说，如果基因X在肝中特定甲基化。那么将预期肝脏病变增加血浆中来自基因X的甲基化序列的浓度。相反，如果肝中基因Y特别低甲基化。那么将预期肝脏病变降低血浆中来自基因Y的甲基化序列的浓度。在其它实施例中，基因X或Y可以被不是基因并且显示体内不同组织中的甲基化差异的任何基因组序列置换。

本文所述的技术还可以应用于评估器官移植接受者的血浆中供体来源的DNA(洛等人1998柳叶刀；351:1329-1330(YMD Lo et al.1998Lancet；351:1329-1330))。供体与接受者之间的多态差异已经用于区分血浆中供体来源的DNA与接受者来源的DNA(郑等人2012临床化学；58:549-558)。提出移植器官的组织特定的甲基化标记也可以用作一种检测接受者血浆中供体DNA的方法。

通过监测供体DNA的浓度，可以无创地评估移植器官的状态。举例来说，移植排斥反应与高速率的细胞死亡相关，并且因此如移植器官的甲基化特征所反映，与患者处于稳定状况时比较或与其它稳定的移植接受者或无移植的健康对照比较，接受者血浆(或血清)中供体DNA的浓度将增加。类似于已经针对癌症所描述的内容，可以在移植接受者的血浆中通过检测所有或一些特征性特征，包括多态差异、移植实体器官的较短尺寸的DNA(郑等人2012临床化学；58:549-558)和组织特定的甲基化型态，来鉴别供体来源的DNA。

H.基于尺寸标准化甲基化

如上文和伦等人(伦等人临床化学2013；doi:10.1373/clinchem.2013.212274(FMF Lun et al.Clin.Chem.2013；doi:10.1373/clinchem.2013.212274))所述，甲基化密度(例如血浆DNA)与DNA片段的尺寸相关。较短血浆DNA片段的甲基化密度的分布显著低于较长片段。提出具有血浆DNA的异常片段化模式的一些非癌症病状(例如全身性红斑狼疮(SLE))因存在更大量的较少甲基化的短血浆DNA片段而可能显示血浆DNA明显的低甲基化。换句话说，血浆DNA的尺寸分布可能是血浆DNA的甲基化密度的干扰因素。

图34A展示SLE患者SLE04中血浆DNA的尺寸分布。九个健康对照个体的尺寸分布展示为灰色点线并且SLE04的尺寸分布展示为黑色实线。SLE04中短血浆DNA片段比九个健康对照个体中更大量。因为较短DNA片段一般较少甲基化，所以此尺寸分布模式可能干扰血浆DNA的甲基化分析并引起更明显的低甲基化。

在一些实施例中，测量的甲基化水平可以进行标准化，以减少尺寸分布对血浆DNA甲基化分析的干扰影响。举例来说，可以测量多个位点的DNA分子的尺寸。在各个实现方式中，测量值可以提供DNA分子特定的尺寸(例如长度)，或简单地确定尺寸在特定范围内，此也可以对应于尺寸。随后标准化的甲基化水平可以与阈值比较。有若干方式来执行标准化以减少尺寸分布对血浆DNA甲基化分析的干扰影响。

在一个实施例中，可以进行DNA(例如血浆DNA)的尺寸分级分离。尺寸分级分离可以确保类似尺寸的DNA片段以与阈值一致的方式用于确定甲基化水平。作为尺寸分级分离的一部分，可以选择具有第一尺寸(例如第一长度范围)的DNA片段，其中第一阈值对应于第一尺寸。标准化可以通过仅仅使用所选择的DNA片段计算甲基化水平来实现。

尺寸分级分离可以用各种方式实现，例如通过不同尺寸的DNA分子的物理分离(例如通过电泳，或基于微流体的技术，或基于离心的技术)或通过电脑模拟分析。对于电脑模拟分析，在一个实施例中，可以执行血浆DNA分子的双末端大规模平行测序。随后可以通过与参考人类基因组的血浆DNA分子两个末端中每一者的位置比较来推断测序分子的尺寸。随后，可以通过选择匹配一或多个尺寸选择标准(例如尺寸在指定范围内的标准)的测序DNA分子执行后续分析。因此，在一个实施例中，可以分析具有类似尺寸(例如在指定范围内)的片段的甲基化密度。阈值(例如在方法2800的框2840中)可以基于相同尺寸范围内的片段确定。举例来说，甲基化水平可以从已知患有癌症或未患癌症的样品确定，并且阈值可以从这些甲基化水平确定。

在另一个实施例中，可以确定外周血循环DNA的甲基化密度与尺寸之间的函数关系。函数关系可以由数据点或函数系数来定义。函数关系可以提供与相应尺寸相对应的校正值(例如较短尺寸可以具有对应的甲基化增加)。在各种实现方式中，校正值可以在0与1之间或超过1。

标准化可以基于平均尺寸进行。举例来说，可以计算与DNA分子相对应的用于计算第一甲基化水平的平均尺寸，并且第一甲基化水平可以乘以对应校正值(即与平均尺寸相对应)。作为另一实例，可以根据DNA分子的尺寸以及DNA尺寸与甲基化之间的关系将每个DNA分子的甲基化密度标准化。

在另一个实施例中，可以基于每个分子来标准化。举例来说，可以获得特定位点上DNA分子的相应尺寸(例如如上所述)，并且与相应尺寸相对应的校正值可以从函数关系来确定。对于非标准化计算，每个分子在确定位点的甲基化指数方面将同等地计数。对于标准化计算，分子对甲基化指数的贡献可以通过对应于分子尺寸的校正因子来加权。

图34B和34C展示来自SLE患者SLE04(图34B)和HCC患者TBR36(图34C)的血浆DNA的甲基化分析。外圆展示未经电脑模拟尺寸分级分离的血浆DNA的Z_甲基化结果。内圆展示130bp或更长的血浆DNA的Z_甲基化结果。对于SLE患者SLE04，84％的区域展示在无电脑模拟尺寸分级分离下的低甲基化。当仅仅分析130bp或更长的片段时，展示低甲基化的区域的百分比减少到15％。对于HCC患者TBR36，在进行和未进行电脑模拟尺寸分级分离下，分别98.5％和98.6％的区域展示血浆DNA低甲基化。这些结果表明电脑模拟尺寸分级分离可以有效地减少例如全身性红斑狼疮或其它发炎病状患者中与增加的血浆DNA片段化有关的假阳性低甲基化结果。

在一个实施例中，可以比较进行和未进行尺寸分级分离的分析的结果以指示是否尺寸对甲基化结果有任何干扰影响。因此，除标准化外或代替标准化，计算特定尺寸下的甲基化水平可以用于确定在进行和未进行尺寸分级分离下超过阈值的区域的百分比不同时是否存在假阳性的可能性，或是否仅仅特定甲基化水平不同。举例来说，在进行和未进行尺寸分级分离下样品的结果之间的显著性差异的存在可以用于指示因异常的片段化模式而可能有假阳性结果。用于确定差异是否显著的阈值可以通过分析癌症患者群和非癌症对照个体群来建立。

I.分析血浆中的全基因组CpG岛高甲基化

除整体低甲基化外，还经常在癌症中观测到CpG岛的高甲基化(百林等人2011自然评论：癌症；11:726-734(SB Baylin et al.2011Nat Rev Cancer；11:726-734)；琼斯等人2007,细胞；128:683-692(PA Jones et al.2007,Cell；128:683-692)；埃斯特尔等人2007自然综述遗传学2007；8:286-298(M Esteller et al.2007Nat Rev Genet 2007；8:286-298)；埃利希氏等人2002癌基因2002；21:5400-5413(M Ehrlich et al.2002Oncogene2002；21:5400-5413))。在此部分，描述使用CpG岛高甲基化的全基因组分析用于检测和监测癌症。

图35是方法3500的流程图，所述方法3500根据本发明的实施例，基于CpG岛的高甲基化确定癌症等级的分类。方法2800的多个位点可以包括CpG位点，其中CpG位点组织成多个CpG岛，每个CpG岛包括一或多个CpG位点。每个CpG岛的甲基化水平可以用于确定癌症等级的分类。

在框3510处，鉴别待分析的CpG岛。在此分析中，作为一个实例，首先确定一组待分析的CpG岛，其用在健康参考个体的血浆中相对低的甲基化密度表征。在一方面，参考群体中甲基化密度的变化可以相对较小，以允许更易于检测癌症相关的高甲基化。在一个实施例中，在参考群体中CpG岛具有低于第一百分比的平均甲基化密度，并且参考群体中甲基化密度的变异系数低于第二百分比。

作为一个实例，为了说明，使用以下标准鉴别适用的CpG岛：

i.参考群体(例如健康个体)中CpG岛的平均甲基化密度<5％

ii.用于分析参考群体(例如健康个体)的血浆中甲基化密度的变异系数<30％。

这些参数可以针对特定的应用而调整。从数据集，基因组中的454个CpG岛满足这些标准。

在框3520处，计算每个CpG岛的甲基化密度。甲基化密度可以如本文中所述来确定。

在框3530处，确定每一CpG岛是否高甲基化。举例来说，为分析测试案例的CpG岛高甲基化，每个CpG岛的甲基化密度与参考群体的对应数据比较。甲基化密度(甲基化水平的一个实例)可以与一或多个阈值比较以确定特定岛是否高甲基化。

在一个实施例中，第一阈值可以对应于参考群体的甲基化密度的平均值加指定百分比。另一阈值可以对应于参考群体的甲基化密度的平均值加指定数目的标准偏差。在一个实现方式中，计算z分数(Z_甲基化)并与阈值比较。作为一个实例，测试个体(例如筛选癌症的个体)中的CpG岛如果满足以下标准，那么其被看作是显著高甲基化的：

i.其甲基化密度高于参考群体的平均值并且差异达2％，和

ii.Z_甲基化>3。

这些参数也可以针对特定应用而调整。

在框3540处，高甲基化CpG岛的甲基化密度(例如为z分数)用于确定累积分数。举例来说，在鉴别所有显著高甲基化的CpG岛后，可以计算涉及z分数总和的分数或所有高甲基化CpG岛的z分数的函数。分数的一个实例是累积概率(CP)分数，如另一部分中所描述。累积概率分数使用Z_甲基化根据概率分布(例如具有3个自由度的史都登氏t概率分布(Student'st probability distribution))确定偶然具有此类观测结果的概率。

在框3550处，比较累积分数与累积阈值以确定癌症等级的分类。举例来说，如果所鉴别的CpG岛中的总高甲基化足够大，那么生物体可以被鉴别为患有癌症。在一个实施例中，累积阈值对应于来自参考群体的最高累积分数。

IX.甲基化和CNA

如上文所提及，本文所述的甲基化分析方法可以与其它基于血浆中肿瘤来源的DNA的遗传改变的方法组合使用。此类方法的实例包括分析癌症相关的染色体异常(陈等人2013临床化学；59:211-224；利瑞等人2012科学·转化医学；4:162ra154)。拷贝数异常(CNA)的方面描述于美国专利申请案第13/308,473号中。

A.CNA

拷贝数异常可以通过计数与基因组的特定部分比对的DNA片段，将计数标准化并比较计数与阈值来检测。在各个实施例中，标准化可以通过对与基因组的相同部分的另一单倍型比对的DNA片段进行计数(相对单倍型剂量(RHDO))或通过对与基因组的另一部分比对的DNA片段进行计数来进行。

RHDO方法依赖于使用杂合基因座。通过比较两个区域而非相同区域的两个单倍型，此部分中描述的实施例也可以用于纯合基因座，因而是非单倍型特定的。在相对染色体区域剂量方法中，来自一个染色体区域的片段数目(例如如通过对与所述区域比对的序列读数计数所确定)与预期值(其可以来自参考染色体区域或来自已知健康的另一样品中的相同区域)比较。以此方式，无论测序标签来自哪个单倍型，都针对染色体区域计数片段。因此，仍然可以使用不含杂合基因座的序列读数。为了进行比较，一个实施例可以在比较前将标签计数标准化。每个区域由至少两个基因座(彼此分隔开)界定，并且这些基因座上的片段可以用于获得关于所述区域的累积值。

可以通过将与特定区域比对的测序读数的数目除以可与全基因组比对的测序读数的总数来计算所述区域的测序读数(标签)的标准化值。此标准化的标签计数允许由一个待与另一样品的结果比较的样品产生。举例来说，标准化值可以是预期来自所述特定区域的测序读数的比例(例如百分比或分数)，如上所述。在其它实施例中，其它用于标准化的方法是可能的。举例来说，可以通过将一个区域的计数数目除以参考区域的计数数目(在以上情况下，参考区域正好是全基因组)来标准化。随后此标准化标签计数可以针对阈值比较，所述阈值可以从一或多个未显示癌症的参考样品确定。

随后测试案例的标准化标签计数与例如无癌症个体等一或多个参考个体的标准化标签计数比较。在一个实施例中，通过针对特定染色体区域计算案例的z分数来进行比较。可以使用以下等式计算z分数：z分数＝(案例的标准化标签计数-平均值)/SD，其中“平均值”是与参考样品的特定染色体区域比对的平均标准化标签计数；以及SD是与参考样品的特定区域比对的标准化标签计数的数目的标准差。因此，z分数是测试案例的染色体区域的标准化标签计数相距一或多个参考个体的相同染色体区域的平均标准化标签计数的标准差数目。

在测试生物体患有癌症的情况下，在肿瘤组织中扩增的染色体区域将在血浆DNA中呈现过高。这将引起z分数的正值。另一方面，在肿瘤组织中缺失的染色体区域将在血浆DNA中呈现不足。这将引起z分数的负值。z分数的量值由若干因素决定。

一个因素是生物样品(例如血浆)中肿瘤来源的DNA的百分比浓度。样品(例如血浆)中肿瘤来源的DNA的百分比浓度越高，测试案例与参考案例的标准化标签计数之间的差异将越大。因此，z分数的量值将越大。

另一因素是一或多个参考案例中标准化标签计数的变化。在测试案例的生物样品(例如血浆)中相同程度的染色体区域呈现过高下，参考群体中标准化标签计数的较小变化(即较小标准差)将产生较高z分数。类似地，在测试案例的生物样品(例如血浆)中相同程度的染色体区域呈现不足下，参考群体中标准化标签计数的较小标准差将产生更大负值的z分数。

另一因素是肿瘤组织中染色体异常的量值。染色体异常的量值是指特定染色体区域的拷贝数改变(增加或损失)。肿瘤组织中拷贝数改变越高，血浆DNA中特定染色体区域呈现过高或呈现不足的程度越高。举例来说，染色体的两个拷贝的损失与染色体两个拷贝之一的损失相比，将引起血浆DNA中更大的染色体区域呈现不足，并且，因此引起更大负值的z分数。通常，癌症中存在多个染色体异常。每种癌症中的染色体异常可以进一步在其性质(即扩增或缺失)、其程度(单或多拷贝增加或损失)和其广度程度(根据染色体长度异常的尺寸)方面变化。

测量标准化标签计数的精确度受所分析的分子数目影响。预期当百分比浓度是大约12.5％、6.3％和3.2％时，分别15,000、60,000和240,000个分子将需要进行分析以检测具有一个拷贝改变(增加或损失)的染色体异常。关于针对不同染色体区域检测癌症的标签计数的进一步细节描述于洛等人的标题为“使用大规模平行基因组测序诊断胎儿染色体非整倍体”的美国专利公开案第2009/0029377号中，所述公开案的全部内容以引用的方式并入本文中以达成所有目的。

实施例也可以使用尺寸分析代替标签计数法。还可以使用尺寸分析代替标准化标签计数。尺寸分析可以使用如本文中和美国专利申请案第12/940,992号中所提及的各种参数。举例来说，可以使用来自以上的Q或F值。此类尺寸值无需通过从其它区域计数来标准化，因为这些值不随着读数的数目而按比例调整。例如上述和美国专利申请案第13/308473号更详细描述的RHDO方法等单倍型特定的方法技术也可以用于非特定方法。举例来说，可以使用涉及测序深度和区域优化的技术。在一些实施例中，当比较两个区域时可以考虑特定区域的GC偏好。因为RHDO方法使用相同区域，所以不需要此类校正。

虽然某些癌症可能通常在特定染色体区域中存在异常，但此类癌症不是始终只在此类区域中存在异常。举例来说，额外的染色体区域可能展示异常，并且此类额外区域的位置可能是未知的。此外，当筛选患者以鉴别早期癌症时，可能想要鉴别一大批在全基因组范围任一位置可能显示异常的各种类型的癌症。为了解决这些情况，实施例可以用系统的方式分析多个区域以确定哪个区域展示异常。可以使用异常数目和其位置(例如它们是否相邻)，例如来证实异常、确定癌症阶段、提供癌症的诊断(例如是否数目超过阈值)以及基于显示异常的各个区域的数目和位置提供预后。

因此，实施例可以基于展示异常的区域数目鉴别生物体是否患有癌症。因此，可以测试多个区域(例如3,000个)以鉴别显示异常的区域数目。所述区域可以涵盖整个基因组或只是基因组的部分，例如非重复区域。

图36是方法3600的流程图，所述方法3600根据本发明的实施例，使用多个染色体区域分析生物体的生物样品。生物样品包括核酸分子(也称为片段)。

在框3610处，鉴别生物体的基因组的多个区域(例如不重叠区域)。每个染色体区域包括多个基因座。区域的尺寸可以是1Mb，或一些其它同等尺寸。对于尺寸为1Mb的区域的情况，那么整个基因组可以包括约3,000个区域，每一者具有预定尺寸和位置。此类预定区域可以变化以容纳特定染色体的长度或指定数目的待使用区域，和本文中所提及的任何其它标准。如果区域具有不同长度，那么此类长度可以用于将结果标准化，例如如本文中所述。可以基于特定生物体的某些标准和/或基于测试癌症的知识特定地选择区域。也可以任意地选择区域。

在框3620处，针对多个核酸分子中的每一者，鉴别生物体的参考基因组中核酸分子的位置。位置可以用本文中提及的任一方式确定，例如通过测序片段以获得测序标签并将测序标签与参考基因组比对。针对单倍型特定的方法，也可以确定分子的特定单倍型。

针对每一染色体区域进行框3630-3650。在框3630处，基于鉴别的位置，鉴别相应群体的核酸分子为来自染色体区域。相应群体可以包括至少一个位于染色体区域多个基因座中每一者的核酸分子。在一个实施例中，群体可以是与染色体区域的特定单倍型比对的片段，例如如以上RHDO方法中。在另一个实施例中，群体可以是与染色体区域比对的任何片段。

在框3640处，计算机系统计算相应群体的核酸分子的相应值。相应值界定了相应群体的核酸分子的特性。相应值可以是本文中提及的任一值。举例来说，值可以是群体中的片段数目或群体中片段的尺寸分布的统计值。相应值也可以是标准化值。例如区域的标签计数除以样品的标签计数总数或参考区域的标签计数数目。相应值也可以是与另一值的差异或比值(例如RHDO中)，由此提供了所述区域的差异特性。

在框3650处，比较相应值与参考值以确定第一染色体区域显示缺失还是扩增的分类。此参考值可以是本文所述的任何阈值或参考值。举例来说，参考值可以是针对正常样品确定的阈值。对于RHDO，相应值可以是两个单倍型的标签计数的差异或比率，并且参考值可以是用于确定存在统计显著偏差的阈值。作为另一实例，参考值可以是另一单倍型或区域的标签计数或尺寸值，并且比较可以包括采取差异或比值(或它们的函数)并随后确定差异或比率是否超过阈值。

参考值可以基于其它区域的结果而变化。举例来说，如果邻近区域也展示偏差(不过小于一个阈值，例如z分数为3)，那么可以使用低阈值。举例来说，如果三个相连区域都超过第一阈值，那么癌症更有可能。因此，此第一阈值可以低于从非相连区域鉴别癌症所需要的另一阈值。三个区域(或大于三个)具有甚至更小偏差都可以具有随机波动效应对应的足够低的概率，从而可以维持灵敏度和特异性。

在框3660处，确定被归类为显示缺失或扩增的基因组区域的量。计数的染色体区域可能具有限制。举例来说，可能仅仅计数与至少一个其它区域相邻的区域(或相邻区域可能需要具有一定尺寸，例如4个或更多个区域)。对于区域不相同的实施例，数目也可以考虑相应长度(例如数目可以是异常区域的总长度)。

在框3670处，比较量与量阈值以确定样品的分类。作为实例，分类可以是生物体是否患有癌症、癌症的阶段和癌症的预后。在一个实施例中，所有异常区域都计数并使用单个阈值，不管区域出现在何处。在另一个实施例中，阈值可以基于计数的区域的位置和尺寸而变化。举例来说，特定染色体或染色体臂上区域的量可以与特定染色体(或臂)的阈值比较。可以使用多个阈值。举例来说，特定染色体(或臂)上异常区域的量必须超过第一阈值，并且基因组中异常区域的总量必须超过第二阈值。阈值可以是确定显示缺失或扩增的区域的百分比。

区域的量的此阈值也可以取决于主张所计数区域的不均衡有多强。举例来说，用作确定癌症分类的阈值的区域的量可能取决于用于检测每个区域中的异常的特异性和灵敏度(异常阈值)。举例来说，如果异常阈值低(例如z分数为2)，那么可以选择高的量阈值(例如150)。但如果异常阈值高(例如z分数为3)，那么量阈值可以较低(例如50)。展示异常的区域的量也可以是加权值，例如展示高度不均衡的一个区域可以加权高于仅展示略微不均衡的区域(即比仅仅异常阳性和阴性有更多的分类)。作为一个实例，可以使用z分数的总和，由此使用加权值。

因此，展示标准化标签计数(或用于群体特性的其它相应值)的显著表示过高或表示不足的染色体区域的量(其可以包括数目和/或尺寸)可以用于反映疾病的严重程度。具有异常标准化标签计数的染色体区域的量可以由两个因素决定，即肿瘤组织中染色体异常的数目(或尺寸)和生物样品(例如血浆)中肿瘤来源的DNA的百分比浓度。更晚期癌症倾向于展现更多(和更大)染色体异常。因此，更多癌症相关的染色体异常将可能在样品(例如血浆)中可检测到。在具有更晚期癌症的患者中，较高的肿瘤负荷将引起血浆中肿瘤来源的DNA较高的百分比浓度。结果，将在血浆样品中更容易检测到肿瘤相关的染色体异常。

一种用于提高灵敏度而无损特异性的可能方法是考虑相邻染色体区段的结果。在一个实施例中，z分数的阈值保持>2和<-2。但是，仅仅当两个连续片段都将展示相同类型的异常时，例如两个区段的z分数>2，染色体区域才将被归类为可能异常。在其它实施例中，邻近区段的z分数可以使用较高阈值加在一起。举例来说，三个连续区段的z分数可以求和并可以使用阈值5。此概念可以延伸到超过三个连续区段。

量和异常阈值的组合也可能取决于分析的目的和生物体的任何先前知识(或其缺乏)。举例来说，如果针对癌症筛选正常的健康群体，那么将通常可能在区域的量(即区域数目的高阈值)与区域被鉴别为具有异常时的异常阈值方面使用高度特异性。但在具有较高风险的患者(例如有肿瘤或家族史的患者、吸烟者、慢性人类乳突状瘤病毒(HPV)携带者、肝炎病毒携带者或其它病毒携带者)中，阈值可能较低以具有更高灵敏度(更少假阴性)。

在一个实施例中，如果使用1Mb分辨率和肿瘤来源的DNA6.3％的检测下限来检测染色体异常，那么每个1Mb区段中的分子数目将需要为60,000。对于全基因组，此将变换成大约1.8亿(60,000个读数/兆碱基×3,000兆碱基)可比对读数。

较小的区段尺寸将产生较高的用于检测较小染色体异常的分辨率。但是，这将增加对总共要分析的分子数目的要求。以分辨率为代价，较大的区段尺寸将减少分析所需要的分子数目。因此，仅仅可以检测到较大的异常。在一个实现方式中，可以使用较大的区域，展示异常的区段可以再分并且分析这些子区以获得更好的分辨率(例如如上所述)。如果对待检测的缺失或扩增的尺寸(或检测的最小浓度)进行评估，那么可以确定分析的分子数目。

B.基于经亚硫酸氢盐处理的血浆DNA的测序的CNA

可以时常在肿瘤组织中观测到全基因组低甲基化和CNA。此处，证明CNA和癌症相关的甲基化改变的信息可以同时从血浆DNA的亚硫酸氢盐测序获得。因为两种类型的分析可以在相同数据集上进行，所以实际上对于CNA分析来说，没有额外的成本。其它实施例可以使用不同的程序获得甲基化信息和遗传信息。在其它实施例中，可以结合CNA分析，对癌症相关的高甲基化执行类似的分析。

图37A展示患者TBR36的肿瘤组织、未经亚硫酸氢盐(BS)处理的血浆DNA和经亚硫酸氢盐(BS)处理的血浆DNA(从内到外)的CNA分析。图37A展示患者TBR36的肿瘤组织、未经亚硫酸氢盐(BS)处理的血浆DNA和经亚硫酸氢盐(BS)处理的血浆DNA(从内到外)的CNA分析。最外环展示染色体G带图。每个点表示1Mb区域的结果。绿点、红点和灰点分别表示拷贝数增加、拷贝数损失和无拷贝数改变的区域。对于血浆分析，展示z分数。两个同心线之间存在5的差异。对于肿瘤组织分析，展示拷贝数。两个同心线之间存在一个拷贝差异。图38A展示患者TBR34的肿瘤组织、未经亚硫酸氢盐(BS)处理的血浆DNA和经亚硫酸氢盐(BS)处理的血浆DNA(从内到外)的CNA分析。在经亚硫酸氢盐处理和未经亚硫酸氢盐处理的血浆样品中检测的CNA的模式一致。

在肿瘤组织、未经亚硫酸氢盐处理和经亚硫酸氢盐处理的血浆中检测的CNA的模式一致。为了进一步评估经亚硫酸氢盐处理与未经亚硫酸氢盐处理的血浆的结果之间的一致性，构建散点图。图37B是展示针对患者TBR36，使用经亚硫酸氢盐处理的血浆和未经亚硫酸氢盐处理的血浆检测1Mb区域的CNA的z分数之间的关系的散点图。观测到两个分析的z分数之间的正相关(r＝0.89，p<0.001，皮尔逊相关)。图38B是展示针对患者TBR34，使用经亚硫酸氢盐处理的血浆和未经亚硫酸氢盐处理的血浆检测1Mb区域的CNA的z分数之间的关系的散点图。观测到两个分析的z分数之间的正相关(r＝0.81，p<0.001，皮尔逊相关)。

C.癌症相关的CNA与甲基化改变的协同分析

如上所述，CNA的分析可以包括对每个1Mb区域中的序列读数的数目计数，而甲基化密度的分析可以包括检测CpG双核苷酸上甲基化的胞嘧啶残基的比例。这两个分析的组合可以产生协同信息用于检测癌症。举例来说，甲基化分类和CNA分类可以用于确定癌症等级的第三分类。

在一个实施例中，癌症相关的CNA或甲基化改变的存在都可以用于指示癌症的可能存在。在此类实施例中，当CNA或甲基化改变都存在于测试个体的血浆中时可以增加检测癌症的灵敏度。在另一个实施例中，两种改变的存在可以用于指示癌症的存在。在此类实施例中，可以提高测试的特异性，因为两种类型改变的任一者都可能在一些非癌症个体中检测到。因此，仅仅当第一分类与第二分类都指示癌症时，第三分类才可能是癌症阳性。

招募26个HCC患者和22个健康个体。从每个个体收集血液样品并且在亚硫酸氢盐处理后对血浆DNA测序。对于HCC患者，在诊断时收集血液样品。显著量的CNA的存在例如被定义为>5％的区域展示z分数<-3或>3。显著量的癌症相关的低甲基化的存在被定义为>3％的区域展示z分数<-3。作为实例，区域的量表示为区域的原始计数、百分比和区域的长度。

表3展示在经亚硫酸氢盐处理的血浆DNA上使用大规模平行测序检测26个HCC患者的血浆中显著量的CNA和甲基化改变。

表3

癌症相关的甲基化改变和CNA的检测率分别是69％和50％。如果任一标准的存在用于指示癌症可能存在，那么检测率(即诊断灵敏度)提高到73％。

展示了存在CNA(图39A)或甲基化改变(图39B)的两个患者的结果。图39A是展示HCC患者TBR240的经亚硫酸氢盐处理的血浆的CNA(内环)和甲基化分析(外环)的Circos图。对于CNA分析，绿点、红点和灰点分别表示染色体增加、损失和无拷贝数改变的区域。对于甲基化分析，绿点、红点和灰点分别表示具有高甲基化、低甲基化和正常甲基化的区域。在此患者中，在血浆中检测到癌症相关的CNA，而甲基化分析未揭露显著量的癌症相关的低甲基化。图39B是展示HCC患者TBR164的经亚硫酸氢盐处理的血浆的CNA(内环)和甲基化分析(外环)的Circos图。在此患者中，在血浆中检测到癌症相关的低甲基化。但是，无法观测到显著量的CNA。展示存在CNA与甲基化改变的两个患者的结果展示在图48A(TBR36)和49A(TBR34)中。

表4展示在经亚硫酸氢盐处理的血浆DNA上使用大规模平行测序检测22个对照个体的血浆中显著量的CNA和甲基化改变。随机抽样(即留一交叉检验)方法用于评估每个对照个体。因此，当评估特定个体时，其它21个个体用于计算对照组的平均值和SD。

表4

显著量的甲基化改变和CNA的检测特异性分别是86％和91％。如果需要两个标准的存在来指示可能存在癌症，那么特异性提高到95％。

在一个实施例中，CNA和/或低甲基化阳性的样品视为癌症阳性，并且当两者不可检测时样品视为阴性。使用“或”逻辑提供了更高的灵敏度。在另一个实施例中，只有对CNA与低甲基化都呈阳性的样品才视为癌症阳性，由此提供了更高的特异性。在又一实施例中，可以使用三层分类。个体分类成i.都正常；ii.一者异常；iii.都异常。

不同的后续策略可以用于这三个分类。举例来说，(iii)的个体可以经受最密集的后续方案，例如涉及全身成像；(ii)的个体可以经受次密集的后续方案，例如在若干周的相对较短时间间隔后进行重复的血浆DNA测序；以及(i)的个体可以经受最不密集的后续方案，例如在多年后重新测试。在其它实施例中，甲基化和CNA测量可以结合其它临床参数(例如成像结果或血清生物化学)使用以进一步优化分类。

D.在治疗后血浆DNA分析的预后价值

血浆中癌症相关的CNA和/或甲基化改变的存在将指示癌症患者的循环中肿瘤来源的DNA的存在。在治疗(例如手术)后将预期这些癌症相关的改变降低或清除。另一方面，在治疗后血浆中这些改变的持续可以指示来自身体的所有肿瘤细胞未完全去除并且可以作为疾病复发的一种适用预示物。

在打算洽愈的肿瘤手术切除后一周，从两个HCC患者TBR34和TBR36收集血液样品。对经亚硫酸氢盐处理的治疗后的血浆样品进行CNA和甲基化分析。

图40A展示在HCC患者TBR36的肿瘤手术切除前(内环)和后(外环)对经亚硫酸氢盐处理的血浆DNA的CNA分析。每个点表示1Mb区域的结果。绿点、红点和灰点分别表示拷贝数增加、拷贝数损失和无拷贝数改变的区域。在肿瘤切除后大部分在治疗前观测到的CNA消失。z分数<-3或>3的区域的比例从25％减少到6.6％。

图40B展示在HCC患者TBR36的肿瘤手术切除前(内环)和后(外环)对经亚硫酸氢盐处理的血浆DNA的甲基化分析。绿点、红点和灰点分别表示具有高甲基化、低甲基化和正常甲基化的区域。展示显著低甲基化的区域的比例从90％显著降低到7.9％，并且低甲基化程度也展示显著降低。此患者在肿瘤切除22个月后临床上完全回复。

图41A展示在HCC患者TBR34的肿瘤手术切除前(内环)和后(外环)对经亚硫酸氢盐处理的血浆DNA的CNA分析。虽然在肿瘤手术切除后在所影响的区域中展示CNA的区域的数目与CNA量值都有所降低，但在手术后血浆样品中可以观测到残余CNA。红圈突出了残余CNA最明显的区域。展示z分数<-3或>3的区域的比例从57％减少到12％。

图41B展示在HCC患者TBR34的肿瘤手术切除前(内环)和后(外环)对经亚硫酸氢盐处理的血浆DNA的甲基化分析。在肿瘤切除后低甲基化的量值减少，其中低甲基化的区域的平均z分数从-7.9减少到-4.0。但是，z分数<-3的区域的比例展示相反的改变，从41％增加到85％。此观测结果可能指示在治疗后存在残余癌细胞。临床上，在肿瘤切除3个月后剩余未切除的肝中检测到肿瘤结的多个病灶。在手术后的第4个月观测到肺癌转移。所述患者在手术后8个月死于局部复发和转移性疾病。

这两个患者(TBR34和TBR36)中的观察结果表明CNA和低甲基化的残余癌症相关的改变的存在可以用于在打算洽愈的治疗后监测和预测癌症患者。所述数据还展示了所检测的血浆CNA的量的改变程度可以与评估血浆DNA低甲基化程度的改变程度协同使用，以预测和监测治疗功效。

因此，在一些实施例中，在治疗前获得一个生物样品并且在治疗(例如手术)后获得第二生物样品。针对第一样品获得第一值，例如展示低甲基化和CNA(例如扩增或缺失)的区域的z分数(例如区域甲基化水平和CNA的标准化值)和展示低甲基化和CNA的区域的数目。针对第二样品可以获得第二值。在另一个实施例中，可以在治疗后获得第三或甚至额外的样品。可以从第三或甚至额外的样品获得展示低甲基化和CNA(例如扩增或缺失)的区域的数目。

如上针对图40A和41A所述，第一样品中展示低甲基化的区域的第一数目可以与第二样品中展示低甲基化的区域的第二量比较。如上针对图40B和41B所述，第一样品中展示低甲基化的区域的第一量可以与第二样品中展示低甲基化的区域的第二量比较。第一量与第二量和第一数目与第二数目比较可以用于确定治疗的预后。在不同实施例中，仅仅比较之一可以确定预后或可以使用两个比较。在获得第三或甚至额外的样品的实施例中，这些样品中的一或多个可以独自或结合第二样品用于确定治疗的预后。

在一个实现方式中，当第一量与第二量之间的第一差异低于第一差异阈值时预测预后将更坏。在另一个实施例中，当第一数目与第二数目之间的第二差异低于第二差异阈值时预测预后将更坏。阈值可以是相同或不同的。在一个实施例中，第一差异阈值和第二差异阈值是零。因此，对于以上实例，甲基化的值之间的差异将指示患者TBR34更坏的预后。

如果第一差异和/或第二差异超过相同阈值或相应阈值，那么预后可以更好。预后的分类可以取决于差异低于或超过阈值多少。多个阈值可以用于提供各种分类。差异越大可以预测结果越好，并且差异越小(和甚至负值)可以预测结果越坏。

在一些实施例中，还记下了采集各个样品的时间点。在此类时间参数下，可以确定动力学或量的改变速率。在一个实施例中，血浆中肿瘤相关的低甲基化的快速降低和/或血浆中肿瘤相关的CNA的快速降低将预测良好预后。相反，血浆中肿瘤相关的低甲基化的静态或快速增加和/或肿瘤相关的CNA的静态或快速增加将预测不良预后。甲基化和CNA测量可以结合其它临床参数(例如成像结果或血清生物化学或蛋白质标记物)使用以预测临床结果。

除血浆外，实施例可以使用其它样品。举例来说，肿瘤相关的甲基化异常(例如低甲基化)和/或肿瘤相关的CNA可以从癌症患者血液中循环的肿瘤细胞、从尿、粪便、唾液、痰液、胆汁液、胰腺液、子宫颈拭子、生殖道(例如阴道)分泌物、腹水、胸膜液、精液、汗水和泪液的游离DNA或肿瘤细胞得以测量。

在各个实施例中，肿瘤相关的甲基化异常(例如低甲基化)和/或肿瘤相关的CNA可以从乳癌、肺癌、结肠直肠癌、胰腺癌、卵巢癌、鼻咽癌、子宫颈癌、黑色素瘤、脑肿瘤等患者的血液或血浆检测。实际上，因为例如CNA等甲基化和遗传改变是癌症中的普遍现象，所以所述方法可以用于所有癌症类型。甲基化和CNA测量可以结合其它临床参数(例如成像结果)使用以预测临床结果。实施例也可以用于筛选和监测具有肿瘤发生前病变，例如腺瘤的患者。

因此，在一个实施例中，生物样品在治疗前采集，并且在治疗后重复CNA和甲基化测量。测量可以得到确定显示缺失或扩增的区域的后续第一量并且可以得到确定区域甲基化水平超过相应区域阈值的区域的后续第二量。第一量可以与后续第一量比较，并且第二量可以与后续第二量比较，以确定生物体的预后。

确定生物体预后的比较可以包括确定第一量与后续第一量之间的第一差异，并且第一差异可以与一或多个第一差异阈值比较以确定预后。确定生物体预后的比较也可以包括确定第二量与后续第二量之间的第二差异，并且第二差异可以与一或多个第二差异阈值比较。阈值可以是零或另一数目。

可以预测预后在第一差异低于第一差异阈值时比第一差异超过第一差异阈值时更坏。可以预测预后在第二差异低于第二差异阈值时比第二差异超过第二差异阈值时更坏。治疗的实例包括免疫疗法、手术、放射线疗法、化学疗法、基于抗体的疗法、基因疗法、表观遗传疗法或靶向疗法。

E.性能

现描述对于CNA和甲基化分析，不同数目的序列读数和区域尺寸的诊断性能。

1.序列读数的数目

根据一个实施例，分析32个健康对照个体的血浆DNA、26个患有肝细胞癌的患者和20个患有包括鼻咽癌、乳癌、肺癌、神经内分泌癌症和平滑肌肉瘤在内的其它类型癌症的患者。随机选择32个健康个体中的二十二个作为参考群体。这22个参考个体的平均值和标准差(SD)用于确定甲基化密度和基因组代表的正常范围。从每个个体的血浆样品提取的DNA用于使用伊路米那双末端测序试剂盒构造测序文库。随后测序文库经受亚硫酸氢盐处理，将未甲基化的胞嘧啶残基转化成尿嘧啶。每个血浆样品经亚硫酸氢盐转化的测序文库使用伊路米那HiSeq2000测序仪的一个通道测序。

在碱基判定后，去除片段末端上的衔接序列和低质量碱基(即质量分数<5)。随后修剪过的以FASTQ格式存在的读数通过称为Methy-Pipe的甲基化数据分析的生物信息学流程来处理(江等人2010,有关生物信息学和生物医学的IEEE国际主会议,doi:10.1109/BIBMW.2010.5703866(P Jiang et al.2010,IEEE International Conference onBioinformatics and Biomedicine,doi:10.1109/BIBMW.2010.5703866))。为了比对经亚硫酸氢盐转化的测序读数，首先正对参考人类基因组(NCBI build 36/hg19)，用计算机程序对沃森和克里克链分开将所有胞嘧啶残基转化到胸腺嘧啶。随后，对所有处理过的读数进行每个胞嘧啶到胸腺嘧啶的转化并保存每个转化残基的位置信息。使用SOAP2将转化读数与两个转化后参考人类基因组(李等人2009生物信息学25:1966-1967(R Lietal.2009Bioinformatics 25:1966-1967))比对，其中每个比对读数允许最多两个错配。仅仅可比对到基因组唯一位置的读数用于下游分析。去除同时比对到沃森和克里克链的不明确读数和重复(克隆)读数。CpG双核苷酸背景下的胞嘧啶残基用于下游甲基化分析。在比对后，基于在计算机程序转化期间保存的位置信息，恢复最初存在于测序读数上的胞嘧啶。在CpG双核苷酸中恢复的胞嘧啶评分为甲基化。在CpG双核苷酸中的胸腺嘧啶评分为未甲基化。

对于甲基化分析，基因组划分成相同尺寸的区域。测试的区域的尺寸包括50kb、100kb、200kb和1Mb。每个区域的甲基化密度被计算为在CpG双核苷酸背景下甲基化胞嘧啶的数目除以CpG位置上的胞嘧啶总数。在其它实施例中，跨越基因组，区域尺寸可以是不相同的。在一个实施例中，跨越多个个体，比较在不相同尺寸的此类区域中的每个区域。

为了确定测试案例的血浆甲基化密度是否正常，甲基化密度与参考群体的结果比较。随机选择32个健康个体中的二十二个作为参考群体来计算甲基化z分数(Z_甲基化)。

其中MD_测试是特定1Mb区域的测试案例的甲基化密度；是对应区域的参考群体的平均甲基化密度；以及MD_SD是对应区域的参考群体的甲基化密度的SD。

对于CNA分析，确定比对到每个1Mb区域的测序读数的数目(陈等人2013临床化学59:211-24)。使用如先前描述的局部加权回归散点平滑法(陈等人2011公共科学图书馆·综合6:e21791(EZ Chen et al.2011PLoS One 6:e21791))，确定每个区域在针对GC偏好校正后的测序读数密度。对于血浆分析，将测试案例的测序读数密度与参考群体比较以计算CNA的z分数(Z_CNA)：

其中RD_测试是特定1Mb区域的测试案例的测序读数密度；是对应区域的参考群体的平均测序读数密度；以及RD_SD是对应区域的参考群体的测序读数密度的SD。如果区域的Z_CNA<-3或>3，那么界定区域显示CNA。

每个案例获得9300万比对读数的平均值(范围：3900万到1.42亿)。为了评估测序读数的数目降低对诊断性能的影响，从每个案例随机选择1000万比对读数。相同组的参考个体用于为测序读数减少的数据集建立每个1Mb区域的参考范围。确定每个案例的展示显著低甲基化，即Z_甲基化<-3的区域的百分比，和具有CNA，即Z_CNA<-3或>3的区域的百分比。受试者操作特征(ROC)曲线用于说明具有来自1个通道的所有测序读数和每个案例1000万个读数的数据集的全基因组低甲基化和CNA分析的诊断性能。在ROC分析中，所有32个健康个体都用于分析。

图42展示具有不同数目的测序读数的全基因组低甲基化分析的诊断性能图。对于低甲基化分析，ROC曲线的曲线下面积在两个数据集之间未显著差异，此两个数据集分析来自一个通道的所有测序读数和每一案例1000万个读数(P＝0.761)。对于CNA分析，当测序读数的数目从使用一个通道的数据降到1000万时诊断性能随着曲线下面积的显著降低而退化(P<0.001)。

2.使用不同区域尺寸的影响

除将基因组划分成1Mb区域外，还探索是否可以使用更小的区域尺寸。理论上，更小区域的使用可能减少区域内甲基化密度的变化性。这是因为不同基因组区域之间的甲基化密度可以大幅变化。当区域较大时，包括具有不同甲基化密度的区域的机率将增加，并且因此将引起区域的甲基化密度的变化性整体增加。

虽然使用更小的区域尺寸可能减少与区域间差异有关的甲基化密度的变化性，但另一方面这将减少比对到特定区域的测序读数的数目。比对到个别区域的读数降低将增加因抽样变化而引起的变化性。可以引起甲基化密度的整体变化性最低的最适区域尺寸可以用实验方式针对特定诊断应用的需求确定，例如每个样品的测序读数的总数和使用的DNA测序仪的类型。

图43是展示基于使用不同区域尺寸(50kb、100kb、200kb和1Mb)的全基因组低甲基化分析检测癌症的ROC曲线的图。所示P值是用于1Mb区域尺寸下曲线下面积的比较。当区域尺寸从1Mb减少到200kb时可以看到改善的倾向。

F.累积概率分数

甲基化和CNA的区域的量可以是各种值。以上实例描述了超过阈值的区域数目或展示显著低甲基化或CNA的此类区域的百分比作为分类样品是否与癌症相关的参数。此类方法并未考虑个别区域的异常量值。举例来说，Z_甲基化为-3.5的区域将与Z_甲基化为-30的区域相同，因为两者都将归类为具有显著低甲基化。但是，血浆中低甲基化改变的程度，即Z_甲基化值的量值，受样品中癌症相关的DNA的量影响，并且因此，可以补充展示异常的区域的百分比的信息以反映肿瘤负荷。血浆样品中肿瘤DNA的较高百分比浓度将引起较低甲基化密度，并且此将变换成较低Z_甲基化值。

1.作为诊断参数的累积概率分数

为了利用来自异常量值的信息，研发一种称为累积概率(CP)分数的方法。基于正态分布概率函数，每个Z_甲基化值变换成碰巧具有此类观测结果的概率。

CP分数被计算为：

对于Z_甲基化<-3的区域(i)，CP分数＝Σ-log(Prob_i)

其中Prob_i是根据具有3个自由度的史都登氏t分布的区域(i)的Z_甲基化的概率，并且log是自然对数函数。在另一个实施例中，可以使用具有底数10(或其它数目)的对数。在其它实施例中，例如(但不限于)正态分布和γ分布等其它分布可以用于将z分数变换成CP。

CP分数越大指示正常群体中碰巧具有此类偏离甲基化密度的概率越低。因此，高CP分数将指示样品中具有异常低甲基化的DNA，例如存在癌症相关的DNA的机率较高。

与展示异常的区域的百分比相比，CP分数测量值具有更高的动态范围。虽然不同患者之间的肿瘤负荷可以大幅变化，但更大范围的CP值将适用于反映具有相对较高和相对较低肿瘤负荷的患者的肿瘤负荷。此外，CP分数的使用可能对于检测血浆中肿瘤相关的DNA的浓度改变更灵敏。此对于监测治疗反应和预测来说是有利的。因此，在治疗期间CP分数的降低指示对治疗的反应良好。在治疗期间缺乏CP分数的降低或甚至增加将指示反应不良或缺乏。对于预后，高CP分数指示高肿瘤负荷并且表明预后不良(例如较高的死亡或肿瘤进展机率)。

图44A展示累积概率(CP)和具有异常的区域的百分比的诊断性能。两种类型诊断算法的曲线下面积之间无显著性差异(P＝0.791)。

图44B展示针对整体低甲基化、CpG岛高甲基化和CNA的血浆分析的诊断性能。在每个样品测序一个通道(低甲基化分析是200kb区域尺寸，以及CNA是1Mb区域尺寸，以及CpG岛根据加州大学圣克鲁兹分校(The University of California,Santa Cruz，UCSC))代管的数据库界定)下，所有三种类型分析的曲线下面积都在0.90以上。

在后续分析中，对照个体中的最高CP分数用作三种类型分析每一者的阈值。选择这些阈值得到100％的诊断特异性。整体低甲基化、CpG岛高甲基化和CNA分析的诊断灵敏度分别是78％、89％和52％。在46个癌症患者中的43个中，检测到三种类型异常中的至少一种，因此，产生93.4％的灵敏度和100％的特异性。结果指示三种类型分析可以协同使用来检测癌症。

图45展示具有肝细胞癌患者中整体低甲基化、CpG岛高甲基化和CNA的结果的表。三种类型分析的CP分数阈值分别是960、2.9和211。阳性CP分数结果呈粗体和带下划线。

图46展示具有患有除肝细胞癌外的癌症的患者中整体低甲基化、CpG岛高甲基化和CNA的结果的表。三种类型分析的CP分数阈值分别是960、2.9和211。阳性CP分数结果呈粗体和带下划线。

2.CP分数用于癌症监测的应用

在治疗前后从HCC患者TBR34收集系列样品。分析样品的整体低甲基化。

图47展示案例TBR34的血浆甲基化的系列分析。最内环展示白细胞层(黑色)和肿瘤组织(紫色)的甲基化密度。对于血浆样品，展示每个1Mb区域的Z_甲基化。两条线之间的差异表示5的Z_甲基化差异。红点与灰点表示与参考群体比较具有低甲基化的区域并且甲基化密度未改变的区域。从向外第2内环起，分别是在治疗前、肿瘤切除3天后和2个月后采集的血浆样品。在治疗前，可以在血浆中观测到高度的低甲基化，并且超过18.5％的区域的Z_甲基化<-10。在肿瘤切除3天后，可以观测到血浆中低甲基化程度减少，其中没有区域的Z_甲基化<-10。

表5

表5展示虽然在肿瘤手术切除3天后低甲基化改变的量值减少，但显示异常的区域的百分比展示反常的增加。另一方面，CP分数更准确地揭露血浆中低甲基化程度降低并且可以更好地反映肿瘤负荷的改变。

在手术治疗2个月后，仍然存在显著百分比的展示低甲基化改变的区域。CP分数还保持固定在大约15,000下。此患者后来被诊断为在手术3个月后在剩余未切除的肝中具有多灶性肿瘤(先前在手术时未知)并且注意到在手术4个月后具有多处肺癌转移。在手术8个月后患者死于转移性疾病。这些结果表明CP分数可能比具有异常的区域的百分比更有效于反映肿瘤负荷。

总的来说，CP可以适用于需要测量血浆中肿瘤DNA的量的应用。此类应用的实例包括：预后和监测癌症患者(例如观测对治疗的反应，或观测肿瘤进展)。

累积z分数是z分数的直和，即不转化成概率。在此实例中，累积z分数展示与CP分数相同的行为。在其它情况下，CP可能比累积z分数监测残余疾病更灵敏，因为CP分数的动态范围更大。

X.CNA对甲基化的影响

上文描述CNA和甲基化用于确定癌症等级的相应分类，其中分类组合以提供第三分类。除此组合外，CNA还可以用于改变甲基化分析的阈值并通过比较具有不同CNA特征的区域群体的甲基化水平来鉴别假阳性。举例来说，过大丰度对应区域的甲基化水平(例如Z_CNA>3)可以与正常丰度对应区域的甲基化水平比较(例如-3<Z_CNA<3)。首先，描述CNA对甲基化水平的影响。

A.具有染色体增加和损失的区域的甲基化密度的改变

因为肿瘤组织一般展示整体低甲基化，所以癌症患者的血浆中肿瘤来源的DNA的存在将引起与非癌症个体比较，甲基化密度降低。癌症患者的血浆中的低甲基化程度在理论上与血浆样品中的肿瘤来源的DNA的百分比浓度成比例。

对于肿瘤组织中展示染色体增加的区域，额外剂量的肿瘤DNA将从扩增的DNA区段释放到血浆中。此增加的肿瘤DNA对血浆的贡献将在理论上引起患病区域的血浆DNA中较高程度的低甲基化。另一因素是将预期展示扩增的基因组区域赋予肿瘤细胞以生长优势，因而预期会表达。此类区域一般低甲基化。

相比之下，对于肿瘤组织中展示染色体损失的区域，减少的肿瘤DNA对血浆的贡献将引起与不具有拷贝数改变的区域比较，较低程度的低甲基化。另一因素是肿瘤细胞中缺失的基因组区域可能含有肿瘤抑制基因并且可能有利于肿瘤细胞使此类区域沉默。因此，预期此类区域具有较高机率的高甲基化。

此处，使用两个HCC患者(TBR34和TBR36)的结果说明此影响。图48A(TBR36)和49A(TBR34)具有圆圈突出的染色体增加或损失的区域和对应的甲基化分析。图48B和49B分别展示患者TBR36和TBR34的针对损失、正常和增加的甲基化z分数的箱式图。

图48A展示证实HCC患者TBR36的经亚硫酸氢盐处理的血浆DNA中的CNA(内环)和甲基化改变(外环)的Circos图。红色圆圈突出了具有染色体增加或损失的区域。展示染色体增加的区域比无拷贝数改变的区域更加低甲基化。展示染色体损失的区域不如无拷贝数改变的区域低甲基化。图48B是HCC患者TBR36的具有染色体增加和损失的区域以及无拷贝数改变的区域的甲基化z分数的曲线。与无拷贝改变的区域比较，具有染色体增加的区域具有更大负值的z分数(更加低甲基化)并且具有染色体损失的区域具有更小负值的z分数(不太低甲基化)。

图49A展示证实HCC患者TBR34的经亚硫酸氢盐处理的血浆DNA中的CNA(内环)和甲基化改变(外环)的Circos图。图49B是HCC患者TBR34的具有染色体增加和损失的区域以及无拷贝数改变的区域的甲基化z分数的箱式图。患者TBR36中具有染色体增加和损失的区域之间的甲基化密度差异比患者TBR34中大，因为前一患者中肿瘤来源的DNA的百分比浓度更高。

在此实例中，用于确定CNA的区域与用于确定甲基化的区域相同。在一个实施例中，相应区域阈值依赖于相应区域显示缺失还是扩增。在一个实现方式中，与未显示扩增时相比，相应区域显示扩增时相应区域阈值(例如用于确定低甲基化的z分数阈值)的量值更大(例如量值可以超过3，并且可以使用低于-3的阈值)。因此，为了测试低甲基化，与未显示扩增相比，相应区域显示扩增时相应区域阈值可以具有更大的负值。预期此类实施方式提高用于检测癌症的测试的特异性。

在另一个实施例中，与未显示缺失时相比，相应区域显示缺失时，相应区域阈值具有更小量值(例如低于3)。因此，为了测试低甲基化，与未显示缺失相比，相应区域显示缺失时相应区域阈值可以具有更小的负值。预期此类实现方式提高用于检测癌症的测试的灵敏度。以上实现方式中阈值的调整可以取决于针对特定诊断情况所希望的灵敏度和特异性改变。在其它实施例中，甲基化和CNA测量可以结合其它临床参数(例如成像结果或血清生物化学)使用以预测癌症。

B.使用CNA选择区域

如上所述，已经展示了在肿瘤组织中具有拷贝数异常的区域中血浆甲基化密度将改变。在肿瘤组织中具有拷贝数增加的区域，低甲基化的肿瘤DNA对血浆的贡献增加将引起与无拷贝数异常的区域比较，血浆DNA低甲基化的程度更大。相反，在肿瘤组织中具有拷贝数损失的区域，低甲基化的癌症来源的DNA对血浆的贡献减少将引起血浆DNA低甲基化的程度更小。血浆DNA的甲基化密度与相对呈现量之间的此关系可用于区分与存在癌症相关的DNA对应的低甲基化结果与血浆DNA中其它非癌性原因对应的低甲基化(例如SLE)。

为了说明此方法，分析两个肝细胞癌(HCC)患者和两个SLE而非癌症患者的血浆样品。这两个SLE患者(SLE04和SLE10)展示血浆中明显存在低甲基化和CNA。对于患者SLE04，84％区域展示低甲基化并且11.2％区域展示CNA。对于患者SLE10，10.3％区域展示低甲基化并且5.7％区域展示CNA。

图50A和50B展示SLE患者SLE04和SLE10的血浆低甲基化和CNA分析的结果。外圆展示在1Mb分辨率下的甲基化z分数(Z_甲基化)。甲基化Z_甲基化<-3的区域呈红色并且Z_甲基化>-3的区域呈灰色。内圆展示CNA z分数(Z_CNA)。绿点、红点和灰点分别表示Z_CNA>3、<3和-3到3之间的区域。在这两个SLE患者中，在血浆中观测到低甲基化和CNA改变。

为了确定甲基化和CNA的改变是否与血浆中存在癌症来源的DNA一致，比较Z_CNA>3、<-3和-3到3之间的区域的Z_甲基化。对于血浆中由癌症来源的DNA引起的甲基化改变和CNA，将预期Z_CNA<-3的区域对应更少低甲基化并具有更小负值的Z_甲基化。相比之下，将预期Z_CNA>3的区域对应更多低甲基化并具有更大负值的Z_甲基化。为了说明，应用单边秩和检验来比较具有CNA的区域(即Z_CNA<-3或>3的区域)与无CNA的区域(即Z_CNA在-3与3之间)的Z_甲基化。在其它实施例中，可以使用其它统计检验，例如(但不限于)史都登氏t检验、方差分析(ANOVA)检验和克鲁斯卡尔-沃利斯检验(Kruskal-Wallis test)。

图51A和51B展示两个HCC患者(TBR34和TBR36)的血浆的有和无CNA的区域的Z_甲基化分析。Z_CNA<-3和>3的区域分别表示血浆中DNA呈现不足和呈现过高的区域。在TBR34与TBR36中，与血浆中具有正常呈现的区域(即Z_CNA在-3与3之间的区域)相比，血浆中呈现不足的区域(即Z_CNA<-3的区域)具有显著更高的Z_甲基化(P值<10^-5，单边秩和检验)。正常呈现对应于整倍体基因组所预期的。对于血浆中呈现过高的区域(即Z_CNA>3的区域)，与血浆中具有正常呈现的区域相比，其具有显著更低的Z_甲基化(P值<10^-5，单边秩和检验)。所有这些改变都与血浆样品中低甲基化的肿瘤DNA的存在一致。

图51C和51D展示两个SLE患者(SLE04和SLE10)的血浆的有和无CNA的区域的Z_甲基化分析。Z_CNA<-3和>3的区域分别表示血浆中呈现不足和呈现过高的区域。对于SLE04，与血浆中具有正常呈现的区域(即Z_CNA在-3与3之间的区域)相比，血浆中呈现不足的区域(即Z_CNA<-3的区域)不具有显著更高的Z_甲基化(P值＝0.99，单边秩和检验)，并且与血浆中具有正常呈现的区域相比，血浆中呈现过高的区域(即Z_CNA>3的区域)不具有显著更低的Z_甲基化(P值＝0.68，单边秩和检验)。这些结果不同于因血浆中存在肿瘤来源的低甲基化的DNA而引起的所预期的改变。类似地，对于SLE10，与Z_CNA在-3与3之间的区域相比，Z_CNA<-3的区域不具有显著更高的Z_甲基化(P值＝0.99，单边秩和检验)。

SLE患者中不具有Z_甲基化与Z_CNA之间的典型癌症相关模式的原因在于在SLE患者中，CNA不存在于也显示低甲基化的特定细胞型中。实际上，所观测到的表面上存在的CNA和低甲基化是因为SLE患者中循环DNA的尺寸分布改变。当参考来源于健康个体时，改变的尺寸分布可能改变了不同基因组区域的测序读取密度，导致表面上存在的CNA。如先前章节中所描述，循环DNA片段的尺寸与其甲基化密度之间存在相关性。因此，改变的尺寸分布也可以导致异常甲基化。

虽然Z_CNA>3的区域比Z_CNA在-3与3之间的区域的甲基化水平略低，但比较的p值远高于在两个癌症患者中观测到的p值。在一个实施例中，p值可以用作参数以确定测试案例患有癌症的可能性。在另一个实施例中，具有正常和异常呈现的区域之间的Z_甲基化差异可以用作指示存在癌症的可能性的参数。在一个实施例中，一组癌症患者可以用于建立Z_甲基化与Z_CNA之间的相关性并确定不同参数的阈值以便指示改变与测试血浆样品中存在癌症来源的低甲基化的DNA一致。

因此，在一个实施例中，可以进行CNA分析以确定都显示以下一者的第一组区域：缺失、扩增或正常呈现。举例来说，第一组区域可以都显示缺失，或都显示扩增，或都显示正常呈现(例如具有正常第一量的区域，例如正常Z_甲基化)。可以确定此第一组区域的甲基化水平(例如方法2800的第一甲基化水平可以对应于第一组区域)。

CNA分析可以确定都显示以下第二者的第二组区域：缺失、扩增或正常呈现。第二组区域将显示不同于第一组。举例来说，如果第一组区域正常，那么第二组区域可以显示缺失或扩增。可以基于第二组区域中位点上甲基化的DNA分子的相应数目计算第二甲基化水平。

随后可以在第一甲基化水平与第二甲基化之间计算参数。举例来说，可以计算差异或比率并与阈值比较。差异或比率也可以经受概率分布(例如作为统计检验的一部分)以确定获得所述值的概率，并且此概率可以与阈值比较以基于甲基化水平确定癌症等级。可以选择此类阈值以区分患有癌症的样品与未患癌症的样品(例如SLE)。

在一个实施例中，可以确定第一组区域或区域混合物(即展示扩增、缺失和正常的区域的混合物)的甲基化水平。此甲基化水平随后可以与第一阈值比较，作为第一阶段分析的一部分。如果超过阈值，那么，由此指示癌症的可能性，随后可以进行以上分析以确定指示是否是假阳性。因而癌症等级的最终分类可以包括两个甲基化水平的参数与第二阈值的比较。

第一甲基化水平可以是针对第一组区域的每个区域计算的区域甲基化水平的统计值(例如平均值或中位值)。第二甲基化水平也可以是针对第二组区域的每个区域计算的区域甲基化水平的统计值。作为实例。可以使用单边秩和检验、史都登氏t检验、方差分析(ANOVA)检验或克鲁斯卡尔-沃利斯检验确定统计值。

XI.癌症类型分类

除确定生物体是否患有癌症外，实施例还可以鉴别与样品相关的癌症类型。癌症类型的此鉴别可以使用整体低甲基化、CpG岛高甲基化和/或CNA的模式。所述模式可以包括使用所测量的区域甲基化水平、区域的相应CNA值和CpG岛的甲基化水平将具有已知诊断的患者聚类。以下结果展示患有类似类型癌症的生物体具有区域和CpG岛的类似值，以及非癌症患者具有类似值。在聚类时，区域或岛的每个值都可以是聚类过程中的单独尺度。

已知相同类型的癌症将共享类似的遗传和表观遗传改变(格布哈特等人2004细胞生成和基因组研究；104:352-358(E Gebhart et al.2004Cytogenet Genome Res；104:352-358)；琼斯等人2007细胞；128:683-692(PA Jones et al.2007Cell；128:683-692))。下面，描述在血浆中检测到的CNA和甲基化改变的模式如何用于推断癌症的来源或类型。使用例如分层聚类分析将来自HCC患者、非HCC患者和健康对照个体的血浆DNA样品分类。使用例如R脚本软件包中的heatmap.2function(cran.r-project.org/web/packages/gplots/gplots.pdf)进行分析。

为了说明此方法的潜能，使用两组标准(A组和B组)作为实例来鉴别适用于分类血浆样品的特征(参见表6)。在其它实施例中，其它标准可以用于鉴别所述特征。所用的特征包括在1Mb分辨率下整体CNA、在1Mb分辨率下整体甲基化密度和CpG岛甲基化。

表6

在头两个实例中，使用CNA、在1Mb分辨率下整体甲基化和CpG岛甲基化特征所有用于分类。在其它实施例中，可以使用其它标准，例如(但不限于)测量参考群体的血浆中的特征的精确度。

图52A展示使用包括355个CNA、584个在1Mb分辨率下整体甲基化特征和110个CpG岛的甲基化状态的所有1,130个A组特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。上侧色带表示样品组：绿色、蓝色和红色分别表示健康个体、HCC和非HCC癌症患者。一般来说，三组个体倾向于聚类在一起。纵轴表示分类特征。跨越不同个体具有类似模式的特征聚类在一起。这些结果表明血浆中CpG岛甲基化改变、在1Mb分辨率下全基因组甲基化改变和CNA的模式可能用于确定具有未知根源的患者中癌症的来源。

图52B展示使用包括759个CNA、911个在1Mb分辨率下整体甲基化和191个CpG岛的甲基化状态的所有2,780个B组特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。上侧色带表示样品组：绿色、蓝色和红色分别表示健康个体、HCC和非HCC癌症患者。一般来说，三组个体倾向于聚类在一起。纵轴表示分类特征。跨越不同个体具有类似模式的特征聚类在一起。这些结果表明血浆中不同组的CpG岛甲基化改变、在1Mb分辨率下全基因组甲基化改变和CNA的模式可以用于确定具有未知根源的患者中癌症的来源。分类特征的选择可以针对特定应用而调整。此外，可以根据个体关于不同类型癌症的先前概率，给予癌症类型预测以不同的权重。举例来说，患有慢性病毒肝炎的患者倾向于出现肝细胞癌，而慢性吸烟者倾向于出现肺癌。因此，可以使用例如(但不限于)逻辑回归、多元回归或聚类回归计算癌症类型的加权概率。

在其它实施例中，单一类型的特征可以用于分类分析。举例来说，在以下实例中，仅仅在1Mb分辨率下整体甲基化、CpG岛高甲基化或在1Mb分辨率下CNA用于分层聚类分析。当使用不同的特征时，区分能力可能不同。分类特征的进一步优化可以提高分类准确性。

图53A展示使用A组CpG岛甲基化特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。一般来说，癌症患者聚类在一起，而非癌症个体在另一类中。但是，与使用所有三种类型特征相比较，HCC和非HCC患者不太分得开。

图53B展示使用A组在1Mb分辨率下整体甲基化密度作为分类特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。观测到HCC和非HCC患者的优先聚类。

图54A展示使用A组在1Mb分辨率下整体CNA作为分类特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。看到HCC和非HCC患者的优先聚类。

图54B展示使用B组CpG岛甲基化密度作为分类特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。可以观测HCC和非HCC癌症患者的优先聚类。

图55A展示使用B组在1Mb分辨率下整体甲基化密度作为分类特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。可以观测到HCC和非HCC癌症患者的优先聚类。

图55B展示使用B组在1Mb分辨率下整体CNA作为分类特征，对来自HCC患者、非HCC癌症患者和健康对照个体的血浆样品的分层聚类分析。可以观测到HCC和非HCC癌症患者的优先聚类。

血浆样品的这些分层聚类结果表明不同特征的组合可以用于鉴别主要癌症类型。选择标准的进一步优化可以进一步提高分类的准确性。

因此，在一个实施例中，当甲基化分类指示生物体存在癌症时，可以通过将甲基化水平(例如来自方法2800的第一甲基化或任何区域甲基化水平)与由其它生物体(即相同类型的其它生物体，例如人类)确定的对应值比较，来鉴别与生物体相关的癌症类型。对应值可以是针对计算甲基化水平的相同区域或位点集合。其它生物体中的至少两个被鉴别为患有不同类型的癌症。举例来说，对应值可以组织成类，其中两个类与不同癌症相关。

此外，当CNA和甲基化一起用以获得癌症等级的第三分类时，CNA和甲基化特征可以与来自其它生物体的对应值比较。举例来说，显示缺失或扩增的区域的第一量(例如来自图36)可以与由其它生物体确定的对应值比较以鉴别与生物体相关的癌症类型。

在一些实施例中，甲基化特征是基因组的多个区域的区域甲基化水平。可以使用确定区域甲基化水平超过相应区域阈值的区域，例如生物体的区域甲基化水平可以与其它生物体的基因组相同区域的区域甲基化水平比较。比较可以允许区分癌症类型，或仅仅提供额外的过滤来证实癌症(例如鉴别假阳性)。因此，可以基于比较，确定生物体是具有第一类型的癌症、不存在癌症还是具有第二类型的癌症。

其它生物体(与测试的生物体一起)可以使用区域甲基化水平聚类。因此，区域甲基化水平的比较可以用于确定生物体属于哪一类。聚类也可以使用确定显示缺失或扩增的区域的CNA标准化值，如上文所述。并且，聚类可以使用高甲基化CpG岛的相应甲基化密度。

为了说明此方法的原理，展示使用逻辑回归将两个未知的样品分类的一个实例。此分类的目的是确定这两个样品是HCC还是非HCC癌症。汇集一训练组的样品，其包括从HCC患者收集的23个血浆样品和来自患有除HCC外的癌症的患者的18个样品。因此，训练组中总共41个案例。在此实例中，选择13个特征，包括关于CpG岛甲基化的五个特征(X1-X5)、关于1Mb区域甲基化的六个特征(X6-X11)和关于1Mb区域的CNA的2个特征(X12-X13)。基于训练组中至少15案例的z分数>3或<-3的标准，选择CpG甲基化特征。基于训练组中至少39个案例的z分数>3或<-3的标准，选择1Mb甲基化特征。基于至少20个案例的z分数>3或<-3的标准，选择CNA特征。对此训练组的样品进行逻辑回归以便确定每个特征(X1-X13)的回归系数。具有更大量值的回归系数(与其阳性还是阴性意义无关)的特征提供了HCC与非HCC样品之间更好的鉴别。每个案例相应特征的z分数用作独立变数的输入值。随后分析两个血浆样品的13个特征，一个来自HCC患者(TBR36)和一个来自患有肺癌的患者(TBR177)。

在此癌症类型分类分析中，假设这两个样品是从患有来源未知的癌症的患者收集。对于每个样品，将相应特征的z分数放到逻辑回归等式，以确定比值比(odds ratio)的自然对数(ln(让步比))，其中让步比表示患有HCC与未患HCC的概率的比率(HCC/非HCC)。

表7展示逻辑回归等式的13个特征的回归系数。还展示了两个测试案例(TBR36和TBR177)的相应特征的z分数。TBR36和TBR177的HCC的ln(比值比)分别是37.03和-4.37。从这些比值比，算得从HCC患者收集的血浆样品的概率分别为>99.9％和1％。简单地说，TBR36具有样品来自HCC患者的高度可能性，而TBR177具有样品来自HCC患者的低可能性。

表7

在其它实施例中，分层聚类回归、分类树分析和其它回归模型可以用于确定癌症的可能主要来源。

XII.材料与方法

A.制备经亚硫酸氢盐处理的DNA文库和测序

添加有0.5％(w/w)未甲基化λDNA(普洛麦格(Promega))的基因组DNA通过科瓦里斯S220系统(科瓦里斯(Covaris))片段化到大约200bp长。使用双末端测序样品制备试剂盒(伊路米那)，根据制造商的说明书制备DNA文库，不同之处在于甲基化衔接子(伊路米那)接合到DNA片段。在使用安普蕾(AMPure)XP磁珠(贝克曼库尔特(Beckman Coulter))进行两轮纯化后，接合产物分成2部分，其中之一用EpiTect亚硫酸氢盐试剂盒(凯杰(Qiagen))进行2轮亚硫酸氢盐改性。插入物中CpG位点上未甲基化的胞嘧啶转化成尿嘧啶，而甲基化的胞嘧啶保持不变。经亚硫酸氢钠处理或未经处理的衔接子接合的DNA分子通过使用以下配方进行10次PCR循环来富集：50μl反应物中2.5U PfuTurboCx hotstart DNA聚合酶(安捷伦技术(Agilent Technologies))、1XPfuTurboCx反应缓冲液、25μM dNTP、1μl PCR引物PE 1.0和1μl PCR引物PE 2.0(伊路米那)。热循环型态为：95℃2分钟，98℃30s，随后98℃15s、60℃30s和72℃4分钟循环10次，以及72℃10分钟的最终步骤(李斯特等人2009自然；462:315-322(RLister,et al.2009Nature；462:315-322))。使用安普蕾XP磁珠纯化PCR产物。

从3.2-4ml母体血浆样品提取的血浆DNA外加片段化的λDNA(每毫升血浆25pg)并且如上所述进行文库构造(丘等人2011BMJ；342:c7401)。在接合到甲基化衔接子后，接合产物分成两半，并且一部分进行2轮亚硫酸氢盐改性。随后通过如上所述的10次PCR循环富集经亚硫酸氢盐处理或未经处理的接合产物。

在HiSeq2000仪器(伊路米那)上以双末端格式针对75bp，将经亚硫酸氢盐处理或未经处理的DNA文库测序。DNA簇在cBot仪器(伊路米那)上用双末端簇产生试剂盒v3产生。使用HiSeq控制软件(HCS)v1.4版和实时分析(RTA)软件v 1.13(伊路米那)进行实时图像分析和碱基判定，通过这些软件，自动化矩阵和定相计算基于外加DNA文库测序的PhiX控制v3。

B.甲基化胞嘧啶的序列比对和鉴别

在碱基判定后，去除片段末端上的衔接序列和低质量碱基(即质量分数<20)。随后FASTQ格式的修整读数通过称为Methy-Pipe的甲基化数据分析管道来处理(江等人Methy-Pipe：用于全基因组甲基化组分析的集成生物信息学数据分析程序,在有关生物信息学和生物医学研讨会的IEEE国际主会议上发表的论文,香港,2010年12月18日到21日(P Jiang,et al.Methy-Pipe:An integrated bioinformatics data analysis pipeline forwhole genome methylome analysis,paper presented at the IEEE InternationalConference on Bioinformatics and Biomedicine Workshops,Hong Kong,18to21December 2010))。为了比对经亚硫酸氢盐转化的测序读数，首先使用参考人类基因组(NCBI build 36/hg18)，用计算机程序对沃森和克里克链分开进行所有胞嘧啶残基到胸腺嘧啶的转化。随后，在用计算机程序对所有处理的读数中进行每个胞嘧啶到胸腺嘧啶的转化并保存每个转化残基的位置信息。使用SOAP2(李等人2009生物信息学25:1966-1967)将转化读数与两个转化后的参考人类基因组比对，其中每个比对读数允许最多两个错配。仅仅选择可比对到基因组的唯一位置的读数。去除掉同时比对到沃森和克里克链的不明确的读数和具有相同起始和结束基因组位置的重复(克隆)读数。保留插入尺寸≤600bp的测序读数用于甲基化和尺寸分析。

CpG双核苷酸背景下的胞嘧啶残基是下游DNA甲基化研究的主要目标。在比对后，基于在计算机程序转化期间保存的位置信息，恢复最初存在于测序读数上的胞嘧啶。在CpG双核苷酸中恢复的胞嘧啶评分为甲基化。在CpG双核苷酸中的胸腺嘧啶评分为未甲基化。在文库制备期间包括的未甲基化的λDNA充当用于评估亚硫酸氢钠修饰的的内部控制。如果亚硫酸氢盐转化效率是100％，那么λDNA上的所有胞嘧啶都应已经转化成胸腺嘧啶。

XIII.概述

使用本文所述的实施例，可以使用例如个体的血浆无创地筛选、检测、监测或预测癌症。还可以通过从母体血浆推断胎儿DNA的甲基化型态对胎儿进行产前筛选、诊断、研究或监测。为了说明所述方法的能力，展示了通过研究胎盘组织常规获得的信息可以直接从母体血浆评估。举例来说，通过直接分析母体血浆DNA实现了基因座的印记状态、鉴别在胎儿与母体DNA之间具有甲基化差异的基因座以及基因座的甲基化型态的妊娠期变化。我们方法的主要优势是胎儿甲基化组可以在妊娠期间全面地评估，而不破坏妊娠或无需对胎儿组织进行侵入性抽样。假定已知改变的DNA甲基化状态与许多妊娠相关病状之间的关联，在这一研究中描述的方法可以充当研究那些病状的病理生理学和鉴别生物标记物的一种重要工具。通过集中于印记基因座，展示了可以从母体血浆评估父体传递以及母体传递的胎儿甲基化型态。此方法适用于研究印记疾病。实施例也可以直接用于胎儿或妊娠相关疾病的产前评估。

已经证实了全基因组亚硫酸氢盐测序可以应用于研究胎盘组织的DNA甲基化型态。人类基因组中存在大约28M的CpG位点(克拉克等人2012公共科学图书馆·综合；7:e50233(C Clark et al.2012PLoS One；7:e50233))。CVS和足月胎盘组织样品的亚硫酸氢盐测序数据覆盖了大于80％的CpG。此表示覆盖率实质上比那些使用其它高通量的平台可实现的覆盖率更宽。举例来说，用于胎盘组织上先前研究的伊路米那印飞尼姆人类甲基化27K珠粒芯片阵列(朱等人2011公共科学图书馆·综合；6:e14723(T Chu et al.2011PLoSOne；6:e14723))仅仅覆盖基因组中0.1％的CpG。最近可获得的伊路米那印飞尼姆人类甲基化450K珠粒芯片阵列仅仅覆盖1.7％的CpG(克拉克等人2012公共科学图书馆·综合；7:e50233)。因为MPS方法没有与探针设计、杂交效率或抗体捕捉强度有关的限制，所以可以评估CpG岛内或外和大部分序列背景下的CpG。

XIV.计算机系统

本文中提及的任何计算机系统都可以利用任何适合数目的子系统。所述子系统的实例展示于图33中计算机设备3300。在一些实施例中，计算机系统包括单一计算机设备，其中子系统可以是计算机设备的组件。在其它实施例中，计算机系统可以包括多个具有内部组件的各自作为子系统的计算机设备。

图33中所示的子系统经由系统总线3375互连。展示其它子系统，例如打印机3374、键盘3378、存储装置3379、与显示适配器3382耦接的监视器3376等。与I/O控制器3371耦接的外围装置和输入/输出(I/O)装置可以通过本领域中已知的许多构件(例如串行端口3377)与计算机系统连接。举例来说，串行端口3377或外部接口3381(例如以太网、Wi-Fi等)可以用以将计算机系统3300连接到广域网(例如因特网)、鼠标输入装置或扫描仪。经由系统总线3375的互连使得中央处理器3373与每个子系统通信并且控制来自系统存储器3372或存储装置3379(例如固定磁盘)的指令的执行以及子系统之间的信息的交换。系统存储器3372和/或存储装置3379可以包含计算机可读媒体。本文中提及的任何值都可以由一个组件向另一个组件输出并且可以向用户输出。

计算机系统可以包括例如通过外部接口3381或通过内部接口连接在一起的多个相同组件或子系统。在一些实施例中，计算机系统、子系统或设备可以经网络通信。在所述情况下，一个计算机可以视为客户端并且另一个计算机视为服务器，其中每一者可以是同一计算机系统的一部分。客户端和服务器可以各自包括多个系统、子系统或组件。

应了解，本发明的任何实施例都可以按控制逻辑形式以模块化或集成方式使用硬件(例如专用集成电路或现场可编程门阵列)和/或使用具有通用可编程处理器的计算机软件来实施。如本文中所用，处理器包括同一集成芯片上的多核处理器，或单一电路板上或网络连接的多个处理单元。基于本发明和本文中所提供的传授内容，本领域的普通技术人员将知道并且了解使用硬件和硬件与软件的组合来实施本发明的实施例的其它方式和/或方法。

本申请中描述的任何软件组件或函数都可以实施为由处理器使用任何适合的计算机语言(例如Java、C++或Perl)、使用例如常规或面向对象的技术执行的软件代码。软件代码可以存储为用于存储和/或传输的计算机可读媒体上的一系列指令或命令，适合的媒体包括随机存取存储器(RAM)、只读存储器(ROM)、磁性媒体(例如硬盘驱动器或软性磁盘)或光学媒体(例如光盘(CD)或DVD(数字通用光盘))、快闪存储器等。计算机可读媒体可以是此类存储或传输装置的任何组合。

所述程序还可以使用适合于经由符合多种方案的有线、光学和/或无线网络(包括因特网)传输的载波信号来编码和传输。因此，根据本发明的一个实施例的计算机可读媒体可以使用以此类程序编码的数据信号产生。以程序代码编码的计算机可读媒体可以与相容装置一起封装或与其它装置分开地提供(例如经由因特网下载)。任何此类计算机可读媒体都可以存在于单一计算机程序产品(例如硬盘驱动器、CD或整个计算机系统)之上或之内，并且可以存在于系统或网络内的不同计算机程序产品之上或之内。计算机系统可以包括用于向用户提供本文中提及的任何结果的监视器、打印机或其它适合的显示器。

本文中所描述的任何方法都可以完全或部分地用计算机系统执行，所述计算机系统包括一或多个处理器，所述处理器可以经配置以执行所述步骤。因此，实施例可以涉及经配置以执行本文中所描述的任何方法的步骤的计算机系统，可能用不同组件执行相应的步骤或相应群组的步骤。尽管本文中方法的步骤以编号步骤的形式呈现，但其可以同时或以不同顺序执行。另外，这些步骤的部分可以与其它方法的其它步骤的部分一起使用。此外，步骤的全部或部分可以是任选的。另外，任何方法的任何步骤都可以用执行这些步骤的模块、电路或其它构件来执行。

本申请还涉及以下实施方案：

实施方案

可以在不脱离本发明的实施例的精神和范围下以任何适合的方式组合特定实施例的特定细节。然而，本发明的其它实施例可以涉及与每个个别方面或这些个别方面的特定组合相关的特定实施例。

已经出于说明和描述的目的呈现了本发明的例示性实施例的以上描述。其并不打算是穷尽性的或将本发明限制于所描述的精确形式，并且鉴于以上传授内容许多修改和变化是可能的。所述实施例经选择和描述以便最佳地解释本发明的原理和其实际应用，由此使得本领域的其它技术人员能够在各种实施例中并且在适于所预期的特定用途的各种修改下最佳地利用本发明。

除非具体地相反指示，否则“一(a/an)”或“所述(the)”的叙述打算意指“一或多个”。

此处提及的所有专利、专利申请案、公开案和描述都以全文引用的方式并入以达成所有目的。不承认任一者是现有技术。

表S2A.从早期妊娠绒膜绒毛样品和母体血细胞鉴别出的100个最高甲基化区域的清单

/>

表S2B.从早期妊娠绒膜绒毛样品和母体血细胞鉴别出的100个最低甲基化区域的清单

/>

表S2C.从晚期妊娠胎盘样品和母体血细胞鉴别出的100个最高甲基化区域的清单

/>

表S2D.从晚期妊娠胎盘样品和母体血细胞鉴别出的100个最低甲基化区域的清单

/>

表S3A从早期妊娠母体血浆亚硫酸氢盐测序数据推断为高甲基化的前100个基因座的清单

/>

表S3B从早期妊娠母体血浆亚硫酸氢盐测序数据推断为低甲基化的前100个基因座的清单

/>

表S3C从晚期妊娠母体血浆亚硫酸氢盐测序数据推断为高甲基化的前100个基因座的清单

/>

表S3D从晚期妊娠母体血浆亚硫酸氢盐测序数据推断为低甲基化的前100个基因座的清单

/>

Claims

1.通过分析来自生物体的生物样品的游离DNA分子来确定癌症类型的方法，所述方法包括：

(a)从所述生物样品中获得来自所述游离DNA分子的序列读数，其中所述序列读数包括在每个所述游离DNA分子的一个或多个位点处的甲基化状态；

(b)分析所述序列读数以确定在多个位点中的每一个处甲基化的所述游离DNA分子的数目，并且使用所述数目以单核苷酸分辨率获得所述游离DNA分子中的所述多个位点的甲基化状态；

(c)由所述多个位点的甲基化状态确定甲基化型态；和

(d)至少部分地基于所述甲基化型态来确定癌症的类型，其中确定癌症类型包括将所述甲基化型态与一种或多种参考甲基化型态进行比较，并且其中所述一种或多种参考甲基化型态中的至少一种是从获自已知患有癌症的受试者的至少一个样品获得的。

2.如权利要求1所述的方法，其中所述癌症类型包括癌症已经在其中发展的器官。

3.如权利要求1所述的方法，其中所述癌症类型包括癌症来源的组织。

4.如权利要求3所述的方法，其中所述来源的组织选自脑、骨、肺、心脏、肾、肝、乳腺、结肠、前列腺、鼻咽、胃、睾丸、皮肤、卵巢、胰腺、子宫和淋巴结。

5.如权利要求1所述的方法，其中所述癌症类型选自肺癌、乳腺癌、结肠直肠癌、前列腺癌、鼻咽癌、胃癌、睾丸癌、皮肤癌、影响神经系统的癌症、骨癌、卵巢癌、肝癌、血液恶性肿瘤、胰腺癌、子宫内膜癌和肾癌。

6.如权利要求1所述的方法，其还包括对所述游离DNA分子进行可识别甲基化的测序以获得所述序列读数。

7.如权利要求6所述的方法，其中所述可识别甲基化的测序包括亚硫酸氢盐测序，并且其中所述亚硫酸氢盐测序包括全基因组亚硫酸氢盐测序。

8.如权利要求6所述的方法，其中所述可识别甲基化的测序包括双末端大规模平行测序或全基因组测序。

9.如权利要求6所述的方法，其还包括在测序之前富集所述游离DNA分子。

10.如权利要求9所述的方法，其中所述富集包括使用杂交探针，聚合酶链式反应扩增或固相杂交。