CN117059163A

CN117059163A - 筛选大片段甲基化标志物的系统及其方法

Info

Publication number: CN117059163A
Application number: CN202210486247.3A
Authority: CN
Inventors: 田继超; 杨亚东; 李永君; 彭勇飞; 郭媛媛; 刘栓平
Original assignee: Biochain Beijing Science and Technology Inc
Current assignee: Biochain Beijing Science and Technology Inc
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2023-11-14

Abstract

本申请公开了一种筛选大片段甲基化标志物的方法和系统，所述方法包括：对样本进行全基因组测序，得到样本的第一全基因组序列集；将所述第一全基因组序列集与参考基因组进行比对以得到第二全基因组序列集；对所述第二全基因组序列集进行识别以得到第二全基因组序列集上的全部甲基化修饰信息；对所述第二全基因组序列集进行分割并统计分割后每个分割区域的第一特征值和第三特征值；基于所述第一特征值和第三特征值从分割后的分割区域中筛选出大片段甲基化标志物，采用上述所述的方法得到的大片段甲基化标志物，其能够刻画cfDNA在不同样本中的特征，从而能够准确地识别疾病患者。

Description

筛选大片段甲基化标志物的系统及其方法

技术领域

本申请涉及生物技术领域，尤其涉及一种筛选大片段甲基化标志物的系统及其方法。

背景技术

DNA(主要是CpG的)甲基化是其遗传机制和表型效应最为明确的表观遗传性机制。DNA甲基化谱式的变化不仅指导在正常发育过程中细胞谱系特化所依据的基因组转录谱式的改变，且在疾病发生和发展的基因表达异化中起着决定性的作用。DNA是远比RNA、蛋白和小分子代谢物稳定的生物标志物，其所携带的遗传(突变，融合和拷贝数变异)和DNA甲基化状态的信息在疾病的诊治方面有着更好的前景。

在世界范围内，癌症和其他慢病(卒中、心血管疾病等)的发病率、死亡率居首位。一些常规的筛查癌症手段，如低剂量螺旋CT(LDCT)对肺癌的筛查、宫颈刮片对宫颈癌的筛查以及AFP对肝癌筛查等，还有一些蛋白标志物，例如：癌胚抗原(CEA)、鳞状细胞癌抗原(SCC)、神经元特异性烯醇化酶(NSE)等。但这些手段在灵敏性和特异性方面各参差不齐，同时可能。运动神经元病(MND)是一种病因未明，主要累及大脑皮层、脑干和脊髓运动神经元的神经系统变性疾病。其中ALS是运动神经元病最常见的类型。发病年龄在50-70岁之间。大多数为散发病例，5％-10％为遗传性。虽然有研究发现大量ALS的组织和体液生物学标志，但ALS缺乏特异的生物学确诊指标，因此难以进行早期诊断。目前，DNA甲基化已被证明具有组织特异性，可用于早期癌症检测，并可根据循环肿瘤DNA(ctDNA)甲基化特征追踪到肿瘤原发部位。对于其他一些疾病，可能也具有一定的检测前景。

液体活检就是通过分析血液中的癌症组分，来实现癌症的早期筛查、分子分型、预后、用药指导以及复发监测等临床应用。液体活检作为精准医疗新技术，因其可定性定量检测肿瘤直接相关的肿瘤细胞和DNA，并具有非入侵性、取样便捷、实时监测等特点，逐步在肿瘤诊疗中发挥越来越重要的作用。

DNA甲基化大片段，即广泛的(即>3.5kb)甲基化不足区(UMR)，正在成为哺乳动物基因组中一种新的表观遗传特征，但其与基因表达和一些肿瘤(或者其他慢病)发生的因果关系仍然知之甚少。通过筛选差异DNA甲基化大片段区域作为新的标志物，可能在cfDNA中更容易达到较早的进行疾病预防效果。

基于此，设计一种能够大幅度地降低癌症(或其他慢病)筛查的成本并提高筛查准确率的癌症(或其他慢病)无创筛查方法，对本领域技术人员来说是十分必要的。

发明内容

本申请的目的在于提供一种基于全基因组甲基化测序筛选大片段甲基化标志物的方法，通过所述方法筛选得到的甲基化标志物，能够刻画cfDNA在不同样本中的特征，准确地识别疾病患者。

本申请具体技术方案如下：

1.一种筛选大片段甲基化标志物的方法，其包括：

对样本进行全基因组测序，得到样本的第一全基因组序列集；

将所述第一全基因组序列集与参考基因组进行比对以得到第二全基因组序列集；

对所述第二全基因组序列集进行识别以得到第二全基因组序列集上的全部甲基化修饰信息；

对所述第二全基因组序列集进行分割并统计分割后每个分割区域的第一特征值和第三特征值；

基于所述第一特征值和第三特征值从分割后的分割区域中筛选出大片段甲基化标志物。

2.根据项1所述的方法，其中，基于所述第一特征值和第三特征值从分割后的分割区域中筛选出大片段甲基化标志物包括如下步骤：

基于第三特征值计算第二特征值并通过第一特征值和第二特征值来筛选出大片段甲基化标志物。

3.根据项1或2中任一项所述的方法，其中，

所述第一特征值为分割后每个分割区域的平均CG位点深度；

所述第三特征值是分割后每个分割区域的平均甲基化中位数水平。

4.根据项2或3所述的方法，其中，所述第二特征值为不同样品分组中任意两个分割后分割区域的平均甲基化中位数水平之间的差值，即平均差异甲基化中位数水平。

5.根据项2-4中任一项所述的方法，其中，通过第一特征值和第二特征值来筛选出大片段甲基化标志物是指当所述任意分割后分割区域的第一特征值大于3且所述分割区域与在不同样本分组中任意一个分割区域的第三特征值之间的差值大于0.1时的所述分割区域中筛选出的大片段甲基化标志物，即所述第一特征值＞3且第二特征值＞0.1。

6.根据项3-5中任一项所述的方法，其中，每个分割区域的平均甲基化中位数水平通过以5kb为一个分割区域所得到的平均甲基化中位数水平。

7.根据项3-6中任一项所述的方法，其中，所述平均甲基化中位数水平指的是分割区域中所述CG位点的甲基化胞嘧啶的深度的总和与所有CG位点的总深度之和的比值。

8.根据项3-7中任一项所述的方法，其中，所述平均CG位点深度指的是分割区域中甲基化的胞嘧啶的reads的个数。

9.一种筛选大片段甲基化标志物的系统，其包含：

获取第一全基因组序列集单元，其用于对样本进行全基因组测序以得到样本的第一全基因组序列集；

获取第二全基因组序列集单元，其用对于将第一全基因组序列集与参考基因组进行对比以得到第二全基因组序列集；

获取全部甲基化修饰信息单元，其用于对所述第二全基因组序列集进行识别以得到第二全基因组序列集的全部甲基化修饰单元；

获取每个分割区域的第一特征值和第三特征值单元，其用于对第二全基因组序列集进行分割并统计分割后每个分割区域的第一特征值和第三特征值；以及

获取大片段甲基化标志物单元，其用于基于所述第一特征值和第三特征值从分割后的分割区域中筛选出大片段甲基化标志物。

10.根据项9所述的系统，其中，获取大片段甲基化标志物单元包括计算第二特征值子单元，以用于基于第三特征值计算第二特征值并通过第一特征值和第二特征值来筛选出大片段甲基化标志物。

11.根据项9或10所述的系统，其中，

所述第一特征值为分割后每个分割区域的平均CG位点深度；

12.根据项10或11所述的系统，其中，所述第二特征值为不同样品分组中任意两个分割后分割区域的平均甲基化中位数水平之间的差值，即平均差异甲基化中位数水平。

13.根据项10-12中任一项所述的系统，其中，通过第一特征值和第二特征值来筛选出大片段甲基化标志物是指当所述任意分割后分割区域的第一特征值大于3且所述分割区域与在不同样本分组中任意一个分割区域的第三特征值之间的差值大于0.1时的所述分割区域中筛选出的大片段甲基化标志物，即所述第一特征值＞3且第二特征值＞0.1。

14.根据项10-13中任一项所述的系统，其中，每个分割区域的平均甲基化中位数水平通过以5kb为一个分割区域所得到的平均甲基化中位数水平。

15.根据项10-14中任一项所述的系统，其中，所述平均甲基化中位数水平指的是分割区域中所述CG位点的甲基化胞嘧啶的深度的总和与所有CG位点的总深度之和的比值。

16.根据项10-15中任一项所述的系统，其中，所述平均CG位点深度指的是分割区域中甲基化的胞嘧啶的reads的个数。

发明的效果

本申请所述方法得到的大片段甲基化标志物，其能够刻画cfDNA在不同样本中的特征，从而能够准确地识别疾病患者。利用本申请的方法和系统筛选标志物能够避免由于使用单个CpG位点会因为测序深度原因导致甲基化水平偏差大，筛选的标志物稳定。此外，本申请的方法通过比较30X、5X以及2X不同数据量的情况下，对筛选出的标志物模型效果进行了比较，表明系统进行筛选时候，受到测序深度的影响较小，能够筛选出更有代表性的标志物。

附图说明

图1是划窗方法的示意图。

图2是实施例2中样本分组示意图。

图3是实施例2中的AUC曲线示意图。

图4是实施例3中的AUC曲线示意图。

图5是实施例4中的AUC曲线示意图。

具体实施方式

下面对本申请做以详细说明。虽然显示了本申请的具体实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式，而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本申请的较佳实施方式，然而所述描述乃以说明书的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

现有技术中一般使用单个CpG位点来筛选甲基化标志物，但是由于使用单个CpG位点会因为测序深度原因导致甲基化水平偏差很大，可能筛选出的位点作为标志物不是很稳定；对于DMR来说，一般也是根据对应的差异CpG位点计算出来的。为了避免测序深度的影响，同时兼顾全基因组水平，采用大片段滑窗的方式可以很好的减少单位点因为测序深度导致的甲基化水平偏差，另外滑窗可以很好的反应整体的甲基化水平波动。

因此，本申请提供了一种筛选大片段甲基化标志物的方法，其包括：

在本申请中，全基因组测序(WGS)是利用高通量测序平台对样本进行全基因组测序，优选地，在得到样本的全基因序列集之后，需要对序列进行质控处理，例如采用fastp软件对序列集进行质控处理，例如去除接头、质量过滤、reads截取以及去除等，从而得到第一全基因组序列集。

在一些实施方式中，所述第二全基因组序列集为bam文件。

在一些实施方式中，所述参考基因组为hg19版本的人类基因组，优选地，使用bismark软件对参考基因组构建索引，接着将第一全基因序列集与参考基因组进行比对得到第二全基因组序列集，优选地，将第一全基因序列集与参考基因组进行比对后进行去重得到第二全基因组序列集。

在一些实施方式中，所述全部甲基化修饰信息指的是第二全基因组序列集的全部5mC信息，优选地，采用软件Bismark_methylation_extractor对第二全基因组序列集进行识别以得到全部甲基化修饰信息。

在一些实施方式中，对所述第二全基因组序列集进行分割指的是以slidingwindow的方法对第二全基因组序列集进行分割，优选地，对于第二全基因组序列集，以5kb为一个分割区域。

在一些实施方式中，基于所述第一特征值和第三特征值从分割后的分割区域中筛选出大片段甲基化标志物包括如下步骤：

在一些实施方式中，所述第一特征值为分割后每个分割区域的平均CG位点深度，优选地，所述平均CG位点深度指的是分割区域中甲基化的胞嘧啶的reads的个数，即测序结果显示测得的该位点结果为C(胞嘧啶)的reads个数，优选地，对于每个分割区域(即每个window)，每次滑动0.5kb，统计出每个分割区域的CG位点个数，从而得到每个分割区域的平均CG位点深度。

在一些实施方式中，所述第三特征值是分割后每个分割区域的平均甲基化中位数水平，优选地，所述每个分割区域的平均甲基化中位数水平指的是所述CG位点的甲基化胞嘧啶的深度总和与所述CG位点的总深度之和的比例，优选地，所述CG位点的总深度指的是该位点的全部测序reads的总数，即测得结果显示为该位点为C或T(胸腺嘧啶)的reads总数；优选地，所述CG位点的甲基化胞嘧啶的深度为测序检测结果显示该位点为甲基化的胞嘧啶的reads的个数，即测序结果显示测得的该位点结果为C(胞嘧啶)的reads的个数。

在一些实施方式中，所述第二特征值为不同样本分组中任意两个分割后分割区域的平均甲基化中位数水平之间的差值，即平均差异甲基化中位数水平，优选地，所述样本分组指的是疾病样品组和非疾病样品组，所述第二特征值指的是疾病样品组的每个分割区域与非疾病样品组的每个分割区域的平均甲基化中位数水平之间的差值。

在一些实施方式中，通过第一特征值和第二特征值来筛选出大片段甲基化标志物是指当所述任意分割后分割区域的第一特征值大于3且所述分割区域与在不同样本分组中任意一个分割区域的第三特征值之间的差值大于0.1时的所述分割区域中筛选出的大片段甲基化标志物，即所述第一特征值＞3且第二特征值＞0.1，优选的，所述第一特征值＞3且第二特征值差异＞0.1指的是疾病样品组的分割区域与非疾病样品组的分割区域的平均甲基化中位数水平＞0.1且第一特征值＞3时，从疾病样品组的分割区域中筛选大片段甲基化标志物。

在一些实施方式中，基于从分割区域中筛选得到的大片段甲基化标志物进行特征选取(feature selection)，得到最终的大片段甲基化标志物。在一些实施方式中，基于最终的大片段甲基化标志物构建模型，可以对不同样本进行判断。

对于预测方法，其是将筛选得到的大片段甲基化标志物构建森林模型，从而可以得到概率风险，优选地，基于概率风险和分型可以得到区分疾病样品组和对照组的最优值，即cutoff，因此，在使用该模型判读某一种样品时，就可以准确地判读该样品是疾病样品还是健康样品。

采用本申请所述的方法得到的大片段甲基化标志物判断构建模型的预测结果，其准确度高，灵敏度高，特异性强。

本申请提供了一种筛选大片段甲基化标志物的系统，其包含：

获取大片段甲基化标志物单元，其用于基于所述第一特征值和第三特征值从分割后的分割区域中筛选出大片段甲基化标志物。在一些实施方式中，获取大片段甲基化标志物单元包括计算第二特征值子单元，以用于基于第三特征值计算第二特征值并通过第一特征值和第二特征值来筛选出大片段甲基化标志物。在一些实施方式中，所述第一特征值为分割后每个分割区域的平均CG位点深度；所述第三特征值是分割后每个分割区域的平均甲基化中位数水平。在一些实施方式中，所述第二特征值为不同样品分组中任意两个分割后分割区域的平均甲基化中位数水平之间的差值，即平均差异甲基化中位数水平。在一些实施方式中，通过第一特征值和第二特征值来筛选出大片段甲基化标志物是指当所述任意分割后分割区域的第一特征值大于3且所述分割区域与在不同样品分组中任意一个分割区域的第三特征值之间的差值大于0.1时的所述分割区域中筛选出的大片段甲基化标志物，即所述第一特征值＞3且第二特征值＞0.1。在一些实施方式中，每个分割区域的平均甲基化中位数水平通过以5kb为一个分割区域所得到的平均甲基化中位数水平。在一些实施方式中，所述平均甲基化中位数水平指的是分割区域中所述CG位点的甲基化胞嘧啶的深度的总和与所有CG位点的总深度之和的比值。在一些实施方式中，所述平均CG位点深度指的是分割区域中甲基化的胞嘧啶的reads的个数。在一些实施方式中，所述系统还包括：筛选单元，其用于基于从分割区域中筛选得到的大片段甲基化标志物进行feature selection，得到最终的大片段甲基化标志物。

实施例

本申请对试验中所用到的材料以及试验方法进行一般性和/或具体的描述，在下面的实施例中，如果无其他特别的说明，％表示wt％，即重量百分数。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规试剂产品。

实施例1

1.1cfDNA提取纯化

1.1.1血浆样本制备：

4℃、2000g离心血液样本10min,将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min,如表1所示，根据使用的收集管类型，执行下一步,本实验中使用的收集管类型为其他。

表1

收集管类型	继续下一步……
		streckcell-freeDNABCT	选择1：裂解血浆样本(用PK)和结合cfDNA到珠子上
其他类型	选择2：裂解血浆样本(不用PK)和结合cfDNA到珠子上

1.1.2裂解和结合

1.1.2.1.按照表2准备Binding Solution/Beads Mix，然后彻底混匀。

表2

加入适量体积的血浆样品。

1.1.2.2.彻底混匀血浆样品和结合溶液/磁珠混合物。

1.1.2.3.在旋转混匀仪上充分的结合10min，使cfDNA结合到磁珠上。

1.1.2.4.将结合管放在磁力架上5min，直到溶液变得澄清，磁珠完全吸附在磁力架上。

1.1.2.5.用移液管小心的弃去上清，继续保持管子在磁力架上几分钟，用移液管移去残留上清。

1.1.3洗涤

1.1.3.1.将珠子重悬在1ml洗涤液中。

1.1.3.2.将重悬液转移到新的无吸附1.5ml离心管中。保留结合管。

1.1.3.3.将含有珠子重悬液的离心管置于磁力架上，20s。

1.1.3.4.将分离得到的上清，吸出洗涤结合管，将清洗后的残留珠子再次收集到重悬液中，弃掉裂解/结合管。

1.1.3.5.管子置于磁力架上2min，直到溶液变得澄清，珠子聚集在磁力架，用1ml移液器移除上清。

1.1.3.6.管子留在磁力架上，用200μL移液器尽可能移除残留的液体。

1.1.3.7.将管子从磁力架取下来，加入1ml洗涤液，涡旋30s。

1.1.3.8.置于磁力架2min，直到溶液澄清，珠子聚集在磁力架上，用1ml移液管移除上清。

1.1.3.9.管子留在磁力架上，用200μL移液器彻底移除残留液体。

1.1.3.10.将管子从磁力架取下，加入1ml 80％乙醇，涡旋30s。

1.1.3.11.置于磁力架上2min，溶液变得澄清，用1ml移液器移去上清。

1.1.3.12.管子留在磁力架上，用200μL移液器移去残留液体。

1.1.3.13.用80％乙醇重复上述10-12步骤一次，尽可能除去上清。

1.1.3.14.管子留在磁力架上，空气中干燥珠子3～5分钟。

1.1.4洗脱cfDNA

1.1.4.1.按照表3加入稀释溶液。

表3

1.1.4.2.涡旋5min，置于磁力架上2min，溶液变得澄清，吸取上清液中的cfDNA。

1.1.4.3.纯化的cfDNA立即使用，或者将上清转移至新的离心管中，-20℃保存。

1.2DNA打断与纯化：

1.2.1.按照Qubit浓度，取2μg DNA，加水补至125μl，加入到covaris 130μl打断管中，设置程序：50W，20％，200cycles，250s。

1.2.2打断结束后取1μl样品使用Agilent2100进行片段检测，正常打断后样品检测主峰约在150bp-200bp。

对于cfDNA样品，Agilent2100进行片段检测，直接Qubit用于后续的实验。

1.3末端修复、3‘端加“A”：

1.3.1.取50ng打断后的gDNA或cfDNA至PCR管中，用无核酸酶水补至50μl，加入表4试剂，涡旋混匀：

表4

组分	体积
		gDNA/cfDNA	50μl
End Repair&A-Tailing缓冲液	7μl
		End Repair&A-Tailing Enzyme Mix	3μl
总体积	60μl

1.3.2.设置以下程序在PCR仪上进行反应：

具体程序如表5所示，热盖温度85℃。

表5

温度	时间
		20℃	30min
65℃	30min
		4℃	∞

1.4接头连接及纯化：

1.4.1.参照表6将接头提前稀释成合适的浓度：

表6

1.4.2.按表7配制以下试剂，轻轻吸打混匀，短暂离心：

表7

组分	体积
		末端修复、加“A”反应产物	60μl
接头	5μl
		无核酸酶水	5μl
连接缓冲液	30μl
		DNA连接酶	10μl
总体积	110μl

1.4.3.设置表8所示以下程序在PCR仪上进行反应：

无热盖。

表8

温度	时间
		20℃	30min
4℃	∞

1.4.4.按照表9所示体系，加入纯化磁珠进行实验(AgencourtAMPure XP磁珠提前拿至室温震荡混合均匀备用)：

表9

组分	体积
		接头连接产物	110μl
AgencourtAMPure XP beads	110μl
		总体积	220μl

1.4.4.1.轻轻吸打混匀6次。

1.4.4.2.室温静置孵育5-15min，将PCR管置于磁力架上3min使溶液澄清。

1.4.4.3.移除上清，PCR管继续放置在磁力架上，向PCR管内加入200μl 80％乙醇溶液，静置30s。

1.4.4.4.移除上清，再向PCR管内加入200μl 80％乙醇溶液，静置30s后彻底移除上清(建议使用10μl移液器移除底部残留乙醇溶液)。

1.4.4.5.室温静置3-5min，使残留乙醇彻底挥发。

1.4.4.6.加入22μl的Nuclease-freewater，把PCR管从磁力架取下，轻轻吸打重悬磁珠，避免产生气泡，室温静置2min。

1.4.4.7.将PCR管置于磁力架上2min使溶液澄清。

1.4.4.8.用移液器吸取20μl上清液，转移到新的PCR管。

1.5重亚硫酸盐处理及纯化：

1.5.1.预先拿出所需要的试剂，并溶解。根据表10加入各试剂：

表10

组分	高浓度样品(1ng-2μg)体积	低浓度样品(1-500ng)体积
			接头连接纯化产物	20μl	40μl
重亚硫酸盐溶液	85μl	85μl
			DNA保护缓冲液	35μl	15μl
总体积	140μl	140μl

1.5.2.DNA保护缓冲液加入液体变成蓝色。轻轻吸打混匀，然后分成两管至于PCR仪上。

1.5.3.设置以下表11所示程序，并运行：

热盖105℃。

表11

温度	时间
		95℃	5min
60℃	10min
		95℃	5min
60℃	10min
		4℃	∞

1.5.4.简短离心将两管相同样本合并至同一个干净的1.5ml离心管中。

1.5.5.每个样本中加入310μl BufferBL(样本量少于100ng加入1μl的CarrierRNA(1μg/μl))，涡旋混匀，简短离心。

1.5.6.加入250μl无水乙醇到每个样本中，涡旋混匀15s，简短离心，将混合液加入到准备好的对应的离心柱中。

1.5.7.静置1min，离心1min，将收集管中的液体重新转移到离心柱中，离心1min，弃去离心管的液体。

1.5.8.加入500μl bufferBW(注意是否加入无水乙醇)，离心1min，弃去废液。

1.5.9.加入500μl buffer BD(注意是否加入无水乙醇)，盖好管盖，室温放置15min。离心1min，弃去离心下的液体。

1.5.10.加入500μl buffer BW(注意是否加入无水乙醇)，离心1min，弃去离下来的液体，在重复一次，共2次。

1.5.11.加入250μl无水乙醇，离心1min，将离心柱放置到新的2ml收集管中，弃掉全部剩余液体。

1.5.12.将离心柱放置到干净的1.5ml离心管中，加入20μl无核酸酶水到离心柱膜中心，轻轻盖上管盖，室温放置1min，离心1min。

1.5.13.将收集管中的液体重新转移至离心柱中，室温放置1min，离心1min。

1.6扩增及纯化：

1.6.1.按表12所示配制反应体系，吹打混匀，短暂离心：

表12

组分	体积
		重亚硫酸盐处理后纯化产物	20μl
扩增酶	25μl
		上游引物(10μM)	2.5μl
下游引物(10μM)	2.5μl
		总体积	50μl

1.6.2.设置以下表13所示程序并启动PCR程序：

热盖105℃

表13

1.6.3.PCR循环数根据投入DNA的量不同进行调整，参考数据如表14所示：

表14

1.6.4.向反应结束后的PCR管中加入50μlAgencourtAMPure XP磁珠，用移液器吹打混匀，避免产生气泡(AgencourtAMPure XP提前室温混匀并平衡)。

1.6.5.室温孵育5-15min，把PCR管置于磁力架上3min使溶液澄清。

1.6.6.移除上清，PCR管继续放置在磁力架上，向PCR管内加入200μl 80％乙醇溶液，静置30s。

1.6.7.移除上清，再向PCR管内加入200μl 80％乙醇溶液，静置30s后彻底移除上清(建议使用10μl移液器移除底部残留乙醇溶液)。

1.6.8.室温静置5min，使残留乙醇彻底挥发。

1.6.9.加入30μl的无核酸酶水，将离心管从磁力架取下，使用移液器,轻轻吸打重悬磁珠。

1.6.10.室温静置2min，将200μl PCR管置于磁力架上2min使溶液澄清。

1.6.11.用移液器将上清液转移到新的200μl PCR管中(置于冰盒上)，在反应管上标记好样本号，准备下一步反应。

1.6.12.取1μl样品使用Qubit进行文库浓度测定，记录文库浓度。

1.6.13.取1μl样品使用安捷伦2100进行文库片段长度测定，文库长度约在270bp-320bp间。

1.6.14.使用Illumina高通量测序平台进行测序。

1.6.15.甲基化生信分析流程。

流程如下：

(1)使用fastp等质控软件查看原始测序数据质量，并进行过滤、截取或去除低质量的reads，得到对应的clean data，即第一全基因组序列集；

(2)采用Bismark bowtie2比对软件将质控后的cleandata数据比对到参考基因组(hg19)上，得到初次比对的bam文件；

(3)利用deduplicate_bismark对初次比对的bam文件进行去重得到第二全基因组序列集；

(4)利用Bismark_methylation_extractor提取对应的甲基化位点信息，得到最终的甲基化CG文件(包括所有单个CG位点信息文件)，即第二全基因组序列集的全部甲基化修饰信息；

(5)利用sliding window的方法对样本的第二全基因组序列集进行分割，操作方法如图1所示，以5kb为一个分割区域(即每个window)，每次滑动0.5kb，统计每个分割区域的CG位点个数、所有CG位点深度的中位数、所述CG位点深度的平均值，从而计算每个分割区域的第一特征值(平均CG位点深度)和第三特征值(平均甲基化水平)；

(6)对于每个样本统计对应window的甲基化中位数水平，根据不同样本的组别找出差异甲基化window，并根据平均CG位点深度＞3筛选出大片段甲基化标志物。

实施例2

在62个cfDNA样本中(24个肺癌样本，38个健康人样本)，其中的14个肺癌患者cfDNA和22个健康人cfDNA作为训练集，剩余cfDNA样本作为测试集，如图2所示，利用实施例1所述的方法检测14个肺癌患者和22个健康人的1583个初始标志物的甲基化水平，利用Caret包(一个R包)做feature selection筛选出5个最显著区分肺癌和健康人cfDNA的甲基化区域作为用于肺癌检测相关的备选生物标志物。利用5个marker在训练集中构建的随机森林模型，得到能够用于预测肺癌结果的基于5个标志物的概率风险的cutoff为0.442，即指定阈值为0.442(大于0.442即判读为肺癌患者)，在10个肺癌患者cfDNA和16个健康人cfDNA的测试集中，得到AUC达到0.919，如图3所示，准确度84.62％，灵敏度90％，特异性为81.25％，PPV为75％，NPV为92.86％(见表15)。

同时，在原有的62个30X样本数据量基础上，每个样本抽取5X数据进行实施例1的分析，得到对应的5个marker的甲基化水平。利用30X数据的随机森林模型，同样在10个肺癌患者cfDNA和16个健康人cfDNA的测试集中得到0.919的AUC值。即在同样数量的样本情况下，减少6倍的数据量，利用大片段得到的效果和未抽取前数据效果一致。一方面降低了测序成本，另一方面也减少了分析成本提升了相应的分析速率，同时也验证了测序深度对于大片段的影响相对较小。

表15

实施例3

在实施例2中的62个cfDNA样本中，对所有的fq数据进行2X的抽取，即每一个输入数据的原始数据量减少15倍，再根据实施例1的WGBS分析流程进行分析，计算量和时间也相对减少了15倍，大大提升了分析速率。利用在实施例2中构建的随机森林模型，在62个2X全基因组甲基化数据中，能够用于预测肺癌结果的基于5个标志物的综合甲基化水平的cutoff为0.442，即指定阈值为0.442(大于0.442即判读为肺癌患者)，AUC亦达到0.729，如图4所示，表明在2X深度的WGBS数据中，也可以应用该方法筛选出的标志物。

实施例4

在7个ALS(肌萎缩侧索硬化)和7个健康人cfDNA样本中，利用实施例1中所述的方法检测5个ALS和5个健康人样本的甲基化水平结合Caret包(一个R包)做featureselection筛选出7个标志物，利用5个ALS和5个健康人样本作为训练集构建随机森林模型，得到的cutoff值为0.465，在2个ALS和2个健康人的测试集中得到的AUC为1，如图5所示，准确度75％，灵敏度为100％，特异性为50％，PPV为66.67％，NPV为100％。

综上可见，利用该方法在cfDNA中筛选出来的区域和疾病筛查有非常高的相关性。

以上所述，仅是本申请的较佳实施例而已，并非是对本申请作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本申请技术方案的保护范围。

Claims

1.一种筛选大片段甲基化标志物的方法，其包括：

2.根据权利要求1所述的方法，其中，基于所述第一特征值和第三特征值从分割后的分割区域中筛选出大片段甲基化标志物包括如下步骤：

3.根据权利要求1或2中任一项所述的方法，其中，

所述第一特征值为分割后每个分割区域的平均CG位点深度；

4.根据权利要求2或3所述的方法，其中，所述第二特征值为不同样品分组中任意两个分割后分割区域的平均甲基化中位数水平之间的差值，即平均差异甲基化中位数水平；

优选地，通过第一特征值和第二特征值来筛选出大片段甲基化标志物是指当所述任意分割后分割区域的第一特征值大于3且所述分割区域与在不同样本分组中任意一个分割区域的第三特征值之间的差值大于0.1时的所述分割区域中筛选出的大片段甲基化标志物，即所述第一特征值＞3且第二特征值＞0.1。

5.根据权利要求3-4中任一项所述的方法，其中，每个分割区域的平均甲基化中位数水平通过以5kb为一个分割区域所得到的平均甲基化中位数水平；

优选地，所述平均甲基化中位数水平指的是分割区域中所述CG位点的甲基化胞嘧啶的深度的总和与所有CG位点的总深度之和的比值；

优选地，所述平均CG位点深度指的是分割区域中甲基化的胞嘧啶的reads的个数。

6.一种筛选大片段甲基化标志物的系统，其包含：

7.根据权利要求6所述的系统，其中，获取大片段甲基化标志物单元包括计算第二特征值子单元，以用于基于第三特征值计算第二特征值并通过第一特征值和第二特征值来筛选出大片段甲基化标志物。

8.根据权利要求6或7所述的系统，其中，

所述第一特征值为分割后每个分割区域的平均CG位点深度；

9.根据权利要求7或8所述的系统，其中，所述第二特征值为不同样品分组中任意两个分割后分割区域的平均甲基化中位数水平之间的差值，即平均差异甲基化中位数水平；

10.根据权利要求7-9中任一项所述的系统，其中，每个分割区域的平均甲基化中位数水平通过以5kb为一个分割区域所得到的平均甲基化中位数水平；