CN114171115A

CN114171115A - 一种差异性甲基化区域筛选方法及其装置

Info

Publication number: CN114171115A
Application number: CN202111340427.2A
Authority: CN
Inventors: 黄毅; 赵蔷; 李俊; 刘青峰; 朱彬彬; 易鑫; 杨玲
Original assignee: Shenzhen Guiinga Medical Laboratory
Current assignee: Suzhou Jiyinga Medical Laboratory Co ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-11
Anticipated expiration: 2041-11-12
Also published as: CN114171115B

Abstract

一种差异性甲基化区域筛选方法及其装置，筛选方法包括：CpG簇的提取步骤；CpG簇的筛选步骤；肿瘤组织特异的差异性甲基化区域筛选步骤；肿瘤cfDNA特异的差异性甲基化区域筛选步骤，以健康样本的cfDNA测序数据和患病样本的cfDNA测序数据作为背景数据集，对高差异性甲基化区域、低差异性甲基化区域进行过滤，获得过滤后的高差异性甲基化区域、低差异性甲基化区域。本发明基于CpG位点距离与甲基化信号连锁性的高度相关性，动态地将基因组划分为具有连锁关系的CpG簇，结合数据库中的肿瘤群体数据和健康个体数据，筛选获得肿瘤cfDNA中特异的差异性甲基化区域，有效提高甲基化标记物筛选的灵敏性与特异性。

Description

一种差异性甲基化区域筛选方法及其装置

技术领域

本发明涉及生物医学领域，具体涉及一种差异性甲基化区域筛选方法及其装置。

背景技术

循环肿瘤DNA(circulating tumor DNA；ctDNA)是一种携带了肿瘤特异性遗传和表观遗传变异的生物标志物，由于无创以及低成本的优势，ctDNA标志物正在广泛应用于肿瘤诊断和预后预测，其中包括甲基化、拷贝数变异、体细胞突变、单核苷酸变异等。对比于其它ctDNA生物标志物，DNA甲基化作为肿瘤标志物的优势在于ctDNA的甲基化模式与它们来源的细胞或组织一致，同时在肿瘤基因组中，DNA甲基化具有高度的一致性，因此检测患者血浆中肿瘤特异性DNA的甲基化是一种可行的血液检测方法。

对于早期肿瘤来说，由于ctDNA含量很低，信号微弱，因此，在肿瘤早筛领域中，提高筛查结果的灵敏性是评价模型性能的重要指标，传统采用靶向WGBS策略与甲基化芯片平台的早筛技术所使用的甲基化标记物(即差异性甲基化区域)数量较少，只能捕获部分基因组区间的信息，并且其只关注了单个CpG位点的差异化特征，未考虑到CpG之间所具有的连锁效应，因此传统的甲基化标志物筛选方法影响了早筛模型应用时的灵敏度(亦称敏感性)。

发明内容

根据第一方面，在一实施例中，提供一种差异性甲基化区域筛选方法，包括：

CpG簇的提取步骤，包括从参考基因组中提取CpG簇；

CpG簇的筛选步骤，包括根据提取的CpG簇，对比对到参考基因组的肿瘤组织样本测序数据、相应的对照样本测序数据、健康样本的cfDNA测序数据、患病样本的cfDNA测序数据进行过滤；

肿瘤组织中特异的差异性甲基化区域筛选步骤，包括以过滤后的CpG簇为单位，在所述肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析，获得高差异性甲基化区域、低差异性甲基化区域；

肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤，包括以所述健康样本的cfDNA测序数据和所述患病样本的cfDNA测序数据作为背景数据集，对高差异性甲基化区域、低差异性甲基化区域进行过滤，获得过滤后的高差异性甲基化区域、低差异性甲基化区域。

根据第二方面，在一实施例中，提供一种差异性甲基化区域筛选装置，包括：

CpG簇的提取模块，用于从参考基因组中提取CpG簇；

CpG簇的筛选模块，用于根据提取的CpG簇，对比对到参考基因组的肿瘤组织样本测序数据、相应的对照样本测序数据、健康样本的cfDNA测序数据、患病样本的cfDNA测序数据进行过滤；

肿瘤组织中特异的差异性甲基化区域筛选模块，用于以过滤后的CpG簇为单位，在肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析，获得高差异性甲基化区域、低差异性甲基化区域；

肿瘤患者cfDNA中特异的差异性甲基化区域筛选模块，用于以健康样本的cfDNA测序数据和患病样本的cfDNA测序数据作为背景数据集，对高差异性甲基化区域、低差异性甲基化区域进行过滤，获得过滤后的高差异性甲基化区域、低差异性甲基化区域。

根据第三方面，在一实施例中，提供一种预测癌症的装置，包括第二方面所述装置，以及预测模块，所述预测模块用于根据待测样本cfDNA测序数据，以及所述过滤后的高差异性甲基化区域、低差异性甲基化区域，预测待测样本所属生物体为患病个体或健康个体。

根据第四方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。

根据第五方面，在一实施例中，提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

依据上述实施例的差异性甲基化区域筛选方法及其装置，本发明基于CpG位点距离与甲基化信号连锁性的高度相关性，动态地将基因组划分为具有连锁关系的CpG簇，结合数据库中的肿瘤群体数据和健康个体数据，筛选获得肿瘤cfDNA中特异的差异性甲基化区域，有效提高甲基化标记物(即差异性甲基化区域)筛选的灵敏性与特异性。

附图说明

图1为一种实施例中全基因组范围内CpG簇窗口的划分流程图。

图2为一种实施例中全基因组范围内CpG簇窗口的筛选及质控流程图。

图3为一种实施例的DMR类型统计结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

根据第一方面，在一实施例中，提供一种甲基化标记物筛选方法，包括：

CpG簇的提取步骤，包括从参考基因组中提取CpG簇；

肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤，包括以所述健康样本的cfDNA测序数据和所述患病样本的cfDNA测序数据作为背景数据集，对高差异性甲基化区域、低差异性甲基化区域进行过滤，获得过滤后的高差异性甲基化区域、低差异性甲基化区域。健康样本相当于基线，将患病样本与健康样本对比，找出高差异、低差异的区域。

需要说明的是，该方法筛选得到的是过滤后的高差异性甲基化区域、低差异性甲基化区域，属于中间结果，不是最终的疾病诊断结果，因此，该方法不属于疾病的诊断方法，更不属于疾病的治疗方法。

在一实施例中，CpG簇的提取步骤中，包括对每个CpG位点上下游延伸预设长度的区域，合并，获得合并的CpG簇。

在一实施例中，预设长度为100～125bp，优选为100bp，该长度范围内的CpG位点的甲基化信号相关性较强，因此可固定设置为100bp。

在一实施例中，CpG簇的提取步骤中，获得合并的CpG簇后，筛选并保留至少包含m个CpG位点的窗口，获得CpG簇。

在一实施例中，m＝3。

在一实施例中，CpG簇的提取步骤中，保留至少包含m个CpG位点的窗口，获得CpG簇后，还包括筛选并保留与测序芯片位点存在重叠的区域。

在一实施例中，筛选并保留与测序芯片位点存在重叠的区域时，保留至少包含1个测序芯片信号的CpG簇。

在一实施例中，所述测序芯片包括但不限于HM450K芯片、HM850K芯片中的至少一种。

在一实施例中，CpG簇的提取步骤中，还包括按预设的阈值对CpG簇进行第一次划分，获得＞阈值的CpG簇以及≤阈值的CpG簇；对于＞阈值的CpG簇，按照预设宽度和预设步长进行第二次划分，获得第二次划分后的CpG簇；将≤阈值的CpG簇与第二次划分后的CpG簇汇总，获得汇总后的CpG簇。

在一实施例中，所述阈值可以为1kb。

在一实施例中，所述预设宽度可以为1kb。

在一实施例中，所述预设步长可以为500bp。

在一实施例中，CpG簇的筛选步骤中，按如下条件中的至少一种进行过滤：

1)过滤在≥第一预设比例的患病样本中无法检测到的探针；

2)过滤其所包含的探针信号中≥第二预设比例无法检测的CpG簇；

3)过滤其所包含的探针信号中≥第三预设比例无法检测的患病样本。

在一实施例中，CpG簇的筛选步骤中，还包括对过滤后的CpG簇进行质控。

在一实施例中，对过滤后的CpG簇进行质控时，具体是根据黑名单对所述过滤后的CpG簇进行再次过滤，获得再次过滤后的CpG簇。

在一实施例中，所述黑名单包括存在多比对现象以及对应SNP热点区域的CpG位点。

在一实施例中，依次按照条件1)、2)、3)进行过滤。

在一实施例中，第一预设比例可以为5％。

在一实施例中，第二预设比例可以为50％。

在一实施例中，第三预设比例可以为20％。

在一实施例中，肿瘤组织中特异的差异性甲基化区域筛选步骤中，高差异性甲基化区域是指肿瘤组织样本中的甲基化水平高于对照组织样本甲基化水平的差异性甲基化区域，低差异性甲基化区域是指肿瘤组织样本中的甲基化水平低于对照组织样本甲基化水平的差异性甲基化区域。例如，如果肿瘤组织样本中该DMR的平均甲基化率为0.8，对照样本中为0.5，则为肿瘤Hyper-DMR(高差异性甲基化区域)；反之，如果肿瘤组织样本中该DMR的平均甲基化率为0.5，对照样本中为0.8，则为肿瘤Hypo-DMR(低差异性甲基化区域)。

在一实施例中，肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中，以中位值作为每一个CpG簇的特征值，对高差异性甲基化区域、低差异性甲基化区域进行过滤。中位值能更好反映数据的特征。

在一实施例中，以过滤后的CpG簇为单位，在肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析时，使用的统计检验方法包括但不限于moderated-t test、Fisher test、Wilcox rank test中的至少一种。

在一实施例中，在肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析时，设置两种阈值作为筛选标准，一种阈值为P-value，另一种阈值为Δmethylation level(甲基化水平差值)。

在一实施例中，肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中，获得过滤后的高差异性甲基化区域、低差异性甲基化区域后，还包括根据差异性甲基化区域窗口内相邻CpG的聚集密度进行筛选，获得筛选后的高差异性甲基化区域、低差异性甲基化区域。

在一实施例中，肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中，根据差异性甲基化区域窗口内相邻CpG的聚集密度进行筛选时，使得每个差异性甲基化区域窗口内至少存在1条可捕获到≥3个CpG位点的序列。

在一实施例中，CpG簇的提取步骤中，在全基因组范围内，从参考基因组中提取CpG簇。

在一实施例中，所述患病样本为体液样本。

在一实施例中，所述体液样本包括但不限于血液、血浆、尿液、唾液等等中的至少一种。

在一实施例中，所述患病样本cfDNA测序数据为甲基化测序数据。

在一实施例中，所述相应的对照样本是指与肿瘤组织来源于同一生物体的样本。

在一实施例中，所述生物体包括人，具体可以是灵长目人科人属智人种。

在一实施例中，所述相应的对照样本可以包括癌旁组织样本。

在一实施例中，所述肿瘤包括实体瘤。实体瘤即有形瘤，可通过临床检查如X线摄片、CT扫描、B超，或触诊扪及到的有形肿块称实体瘤。X线、CT扫描、B超及触诊无法看到或扪及到的肿瘤，如血液病中的白血病，则属于非实体瘤。

在一实施例中，所述肿瘤包括但不限于肝癌、乳腺癌、卵巢癌、子宫癌、宫颈癌、脑瘤、甲状腺癌、食管癌、肺癌、胃癌、胰腺癌、肾癌、结直肠癌、膀胱癌、淋巴癌、黑色素瘤、前列腺癌、睾丸癌、阴茎癌等等。此处仅仅为示例性列举，适用于本发明的癌症种类不受限制。

CpG簇的提取模块，用于从参考基因组中提取CpG簇；

所述预测模块的预测方法如下：如果待测样本中的异常差异性甲基化区域＞所述阈值，则预测所述待测样本所属生物体为患病个体；如果待测样本中的异常差异性甲基化区域≤所述阈值，则预测所述待测样本所属生物体为健康个体。

在一实施例中，所述cfDNA测序数据包括甲基化测序数据。

在一实施例中，所述cfDNA测序数据为全基因组测序数据或区域捕获测序数据。

在一实施例中，所述待测样本为体液样本。

在一实施例中，所述体液样本包括血液、血浆、尿液、唾液中的至少一种。

根据第四方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

在一实施例中，所述处理器还用于通过执行所述存储器存储的程序以实现预测步骤，所述预测步骤包括根据待测样本cfDNA测序数据，以及所述过滤后的高差异性甲基化区域、低差异性甲基化区域，预测待测样本所属生物体为患病个体或健康个体。

在一实施例中，所述程序还能够被处理器执行以实现预测步骤，所述预测步骤包括根据待测样本cfDNA测序数据，以及所述过滤后的高差异性甲基化区域、低差异性甲基化区域，预测待测样本所属生物体为患病个体或健康个体。

在一实施例中，本发明的方法可应用于液体活检行业，包括基于全基因组甲基化信号的肿瘤早筛领域与生物信息领域。

在一实施例中，本发明以人类参考基因组(例如hg19基因组)中所包含的所有CpG位点为背景，基于CpG位点距离与甲基化信号连锁性的高度相关性，动态地将基因组划分为具有连锁关系的CpG簇。以CpG簇为单位，结合TCGA与GEO数据库中的肿瘤群体数据与健康个体数据，筛选获得一组肿瘤cfDNA(Circulating free DNA；cfDNA)中特异的差异性甲基化区域(Differentially Methylated Region,DMR)。

在一实施例中，基因组聚类算法中所使用到的参数(包括CpG位点的数目以及flanking region的长度)都是可变的，从而实现动态地将基因组划分为具有连锁关系的CpG簇。

实施例1：全基因组范围CpG簇的产生

操作流程如图1、图2所示，图1为全基因组范围内CpG簇窗口的划分流程图，图2为全基因组范围内CpG簇窗口的筛选及质控流程图。

步骤1：全基因组范围内CpG簇窗口的划分

如图1所示，针对全基因组中26,752,698个CpG位点(此处的26,752,698个CpG位点是hg19基因组的固定位置)，对每个位点上下扩增100bp区域，通过相互合并后获得3,941,197个CpG簇。为了保证有目标区域有充足的可用CpG信号以及在后期应用中降低测序错误率所带来的信号干扰，只保留至少包含3个CpG位点的窗口，获得2,063,765个CpG簇。

考虑到公共数据库中的数据为450K芯片信号，因此，基于Illumina的HM450K芯片的设计信息，在这一步中保留了只与HM450K芯片位点存在重叠的区域，保留至少包含1个450K芯片信号的CpG簇，在这一步之后共获得147,438个CpG簇。

步骤2：全基因组范围内CpG簇窗口的筛选

如图2所示，针对147,438个CpG簇进行窗口特征分析，存在部分>1kb的超宽区域，考虑到后期应用，对这部分窗口进行了二次划分。窗口大小设置为1kb，步长设置为500bp。通过将二次划分后的CpG簇与原有69,264个≤1kb的CpG簇进行汇总，获得312,973个原始CpG簇，这些窗口对应了759,300个CpG位点。

步骤3：全基因组范围内中CpG簇窗口的质控

由于Illumina的HM450K芯片在设计中存在一些缺陷，例如部分CpG位点可能存在多比对现象以及对应SNP热点区域，因此，在下一步中，建立了这两种特征相关的黑名单探针集合，用于过滤上一步获得的CpG簇中存在问题的探针。过滤后，共获得277,418个CpG簇，这些区域将作为后续DMR流程筛选的起点。

X染色体、Y染色体以及1至22号染色体上均有黑名单区间，本实施例共有38941个黑名单区间。部分黑名单区间如表1所示。

表1

染色体	起点	终点	染色体	起点	终点
						1	142618949	142619000	13	114891672	114891723
2	114426787	114426838	14	22674498	22674549
						3	44800749	44800800	15	82925333	82925384
4	154609806	154609857	16	2569281	2569332
						5	180662641	180662692	17	21416230	21416281
6	72294826	72294877	18	15000434	15000485
						7	74508755	74508806	19	54746894	54746945
8	88885254	88885305	20	47013814	47013865
						9	139997873	139997924	21	46396723	46396774
10	42970842	42970893	22	42908745	42908796
						11	123899065	123899116	X	125299352	125299403
12	49113687	49113738	Y	8553009	8553060

实施例2：肿瘤cfDNA特异DMR的筛选

步骤1：CpG簇数据的质控

在实际数据应用中，由于所用的数据来自不同的公共数据集合，可能存在质量参差不一的问题。因此，针对这些数据，本实施例设计了一套质控方法，针对所有在后续DMR筛选环节中使用到的肿瘤群体数据以及对照数据进行过滤。过滤原则与优先级顺序如下所示：

(1)过滤在≥5％的患病样本中所无法检测到的探针。

(2)过滤其所包含的探针信号中≥50％无法检测的CpG簇。例如，对于某个包含10个探针信号的CpG簇，如果该簇中≥5个以上的探针信号无法检测到，则该CpG簇没有通过筛选，弃之。

(3)过滤其所包含的探针信号中≥20％无法检测的患病样本。

步骤2：肿瘤组织特异DMR的筛选

考虑到产品应用的场景，由于需要获得肿瘤cfDNA中具有足够特异性与灵敏度的DMR，并基于该特征区间来捕获所需要的连锁甲基化信号。在第一轮筛选中，以过滤后的CpG簇为单位，首先在肿瘤组织与对应的癌旁组织(即对照组织样本)中进行差异性甲基化分析，设置3种统计检验方法，分别为moderated-t test、Fisher test、Wilcox rank test，并设置两种阈值作为筛选标准。阈值1为P-value，阈值2为Δmethylation level。对于高甲基化DMR(Hy per DMR定义:肿瘤组织样本中的甲基化水平高于对照组织样本)，设置Δmethylation level为0.2的阈值，低甲基化DMR(Hypo DMR定义:肿瘤组织样本中的甲基化水平低于对照组织样本)设置为0.1的阈值，在P-value为0.01的条件下，本实施例共筛选获得肿瘤组织特异的26,315组DMR区域，包含8,687组Hyper DMR与17,628组Hypo DMR。

步骤3：肿瘤cfDNA特异DMR的筛选

在第二轮筛选中，为了使得这些信号在cfDNA样本中具有较高的特异性，以健康样本的cfDNA测序数据以及肝硬化等肝疾病患者样本的数据作为背景数据集(健康样本cfDNA测序数据来自全基因组甲基化测序数据，肝硬化患者cfDNA样本的测序数据来自GEO数据库，为芯片数据)，以中位值作为每一个CpG簇的特征值进性DMR的过滤，筛选获得16,269组DMR区域，包含5,992组Hyper DMR与10,277组Hypo DMR。在此基础上，为了使得DM R区域具有高密度的CpG信号，本实施例根据DMR窗口内相邻CpG的聚集密度进行了筛选，保证1个DMR窗口内至少存在1条可以捕获到3个CpG位点的序列，最终共获得肿瘤cfD NA特异的15,144组DMR区域，包含5,964组Hyper DMR与9,180组Hypo DMR。

实施例3

本实施例的实验数据来自自测的52例肝细胞癌(hepatocellular carcinoma，HCC)与33例健康个体的全基因组甲基化测序样本(此处的85例样本测序数据均来自受试者的血浆样本)。依据实施例2中的高甲基化DMR(Hyper DMR)与低甲基化DMR(Hypo DMR)，检测肝癌患者与健康人。利用公开软件CancerDetector进行目标DMR的肿瘤纯度(Tumor fraction；TF)计算(参考文献：Li W,Li Q,Kang S,et al.CancerDetector:ultrasensitive andnon-invasive cancer detection at the resolution of individual reads usingcell-free DNA methylati on sequencing data.Nucleic Acids Res 2018；46:e89.)，以33例健康人样本中的TF上限值作为预测待测样本所属受试者是否为肝癌患者、健康人的阈值界限。如果DMR中所包含的甲基化信号与健康人数据库中的背景信号差异高于20％，则将该DMR视为异常DMR。如果待测样本中的异常DMR的比例＞阈值，则预测为肝癌患者，如果待测样本中的异常DMR的比例≤阈值，则预测为健康人。

结果表现如图3与表2所示，可见，该方法具有高特异性、高敏感性的优势。

表2

DMR类型	敏感性(n＝52)	特异性(n＝33)
			All(n＝15144)	84.0％	100.0％
Hyper(n＝5964)	74.0％	100.0％
			Hypo(n＝9180)	94.2％	100.0％

敏感性是指在判断有病(阳性)的人群中，检测出阳性的概率。

特异性是指在判断无病(阴性)的人群中，检测出阴性的概率。

从图3可见，All DMR、Hyper DMR、Hypo DMR的AUC(Area Under Curve，ROC曲线下与坐标轴围成的面积)分别高达98.1％、96.6％、98.1％，非常接近于100％。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种差异性甲基化区域筛选方法，其特征在于，包括：

CpG簇的提取步骤，包括从参考基因组中提取CpG簇；

2.如权利要求1所述的差异性甲基化区域筛选方法，其特征在于，CpG簇的提取步骤中，包括对每个CpG位点上下游延伸预设长度的区域，合并，获得合并的CpG簇；

预设长度为100～125bp，优选为100bp；

CpG簇的提取步骤中，获得合并的CpG簇后，筛选并保留至少包含m个CpG位点的窗口，获得CpG簇；

m＝3；

CpG簇的提取步骤中，保留至少包含m个CpG位点的窗口，获得CpG簇后，还包括筛选并保留与测序芯片位点存在重叠的区域；

筛选并保留与测序芯片位点存在重叠的区域时，保留至少包含1个测序芯片信号的CpG簇；

所述测序芯片包括HM450K芯片、HM850K芯片中的至少一种。

3.如权利要求1所述的差异性甲基化区域筛选方法，其特征在于，CpG簇的提取步骤中，还包括按预设的阈值对CpG簇进行第一次划分，获得＞阈值的CpG簇以及≤阈值的CpG簇；对于＞阈值的CpG簇，按照预设宽度和预设步长进行第二次划分，获得二次划分后的CpG簇；将≤阈值的CpG簇与第二次划分后的CpG簇汇总，获得汇总后的CpG簇。

4.如权利要求3所述的差异性甲基化区域筛选方法，其特征在于，所述阈值为1kb；

所述预设宽度为1kb；

所述预设步长为500bp。

5.如权利要求1所述的差异性甲基化区域筛选方法，其特征在于，CpG簇的筛选步骤中，按如下条件中的至少一种进行过滤：

1)过滤在≥第一预设比例的患病样本中无法检测到的探针；

3)过滤其所包含的探针信号中≥第三预设比例无法检测的患病样本；

CpG簇的筛选步骤中，还包括对过滤后的CpG簇进行质控；

对过滤后的CpG簇进行质控时，具体是根据黑名单对所述过滤后的CpG簇进行再次过滤，获得再次过滤后的CpG簇；

所述黑名单包括存在多比对现象以及对应SNP热点区域的CpG位点。

6.如权利要求5所述的差异性甲基化区域筛选方法，其特征在于，依次按照条件1)、2)、3)进行过滤；

第一预设比例为5％；

第二预设比例为50％；

第三预设比例为20％。

7.如权利要求1所述的差异性甲基化区域筛选方法，其特征在于，肿瘤组织中特异的差异性甲基化区域筛选步骤中，高差异性甲基化区域是指肿瘤组织样本中的甲基化水平高于对照组织样本甲基化水平的差异性甲基化区域，低差异性甲基化区域是指肿瘤组织样本中的甲基化水平低于对照组织样本甲基化水平的差异性甲基化区域；

肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中，以中位值作为每一个CpG簇的特征值，对高差异性甲基化区域、低差异性甲基化区域进行过滤；

肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中，获得过滤后的高差异性甲基化区域、低差异性甲基化区域后，包括根据差异性甲基化区域窗口内相邻CpG的聚集密度进行筛选，获得筛选后的高差异性甲基化区域、低差异性甲基化区域；

肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中，根据差异性甲基化区域窗口内相邻CpG的聚集密度进行筛选时，使得每个差异性甲基化区域窗口内至少存在1条可捕获到≥3个CpG位点的序列；

CpG簇的提取步骤中，在全基因组范围内，从参考基因组中提取CpG簇；

所述患病样本为体液样本；

所述体液样本包括血液、血浆、尿液、唾液中的至少一种；

所述患病样本cfDNA测序数据为甲基化测序数据；

所述相应的对照样本是指与肿瘤组织来源于同一生物体的样本；

所述生物体包括人；

所述相应的对照样本包括癌旁组织样本；

所述肿瘤包括实体瘤；

所述实体瘤包括肝癌、乳腺癌、卵巢癌、子宫癌、宫颈癌、脑瘤、甲状腺癌、食管癌、肺癌、胃癌、胰腺癌、肾癌、结直肠癌、膀胱癌、淋巴癌、黑色素瘤、前列腺癌、睾丸癌、阴茎癌。

8.一种差异性甲基化区域筛选装置，其特征在于，包括：

CpG簇的提取模块，用于从参考基因组中提取CpG簇；

9.一种预测癌症的装置，其特征在于，包括权利要求8所述差异性甲基化区域筛选装置，以及预测模块，所述预测模块用于根据待测样本cfDNA测序数据，以及所述过滤后的高差异性甲基化区域、低差异性甲基化区域，预测待测样本所属生物体为患病个体或健康个体。

10.如权利要求9所述的装置，其特征在于，所述预测模块以健康样本cfDNA测序数据中异常差异性甲基化区域的比例上限值作为阈值，预测待测样本所属生物体为患病个体或健康个体；

所述预测模块的预测方法如下：如果待测样本中的异常差异性甲基化区域＞所述阈值，则预测所述待测样本所属生物体为患病个体；如果待测样本中的异常差异性甲基化区域≤所述阈值，则预测所述待测样本所属生物体为健康个体；

所述cfDNA测序数据包括甲基化测序数据；

所述cfDNA测序数据为全基因组测序数据或区域捕获测序数据；

所述待测样本为体液样本；

所述体液样本包括血液、血浆、尿液、唾液中的至少一种。

11.一种装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1～7任意一项所述的方法。

12.如权利要求11所述的装置，其特征在于，所述处理器还用于通过执行所述存储器存储的程序以实现预测步骤，所述预测步骤包括根据待测样本cfDNA测序数据，以及所述过滤后的高差异性甲基化区域、低差异性甲基化区域，预测待测样本所属生物体为患病个体或健康个体。

13.一种计算机可读存储介质，其特征在于，所述介质上存储有程序，所述程序能够被处理器执行以实现如权利要求1～7任意一项所述的方法。

14.如权利要求13所述的计算机可读存储介质，其特征在于，所述程序还能够被处理器执行以实现预测步骤，所述预测步骤包括根据待测样本cfDNA测序数据，以及所述过滤后的高差异性甲基化区域、低差异性甲基化区域，预测待测样本所属生物体为患病个体或健康个体。