CN112397151B

CN112397151B - 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置

Info

Publication number: CN112397151B
Application number: CN202110078570.2A
Authority: CN
Inventors: 韩天澄; 宋小凤; 于佳宁; 洪媛媛; 裴志华; 何骥; 陈维之; 杜波
Original assignee: Wuxi Zhenhe Biotechnology Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Zhenhe Biotechnology Co.,Ltd.; Zhenhe (Beijing) Biotechnology Co.,Ltd.
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-04-20
Anticipated expiration: 2041-01-21
Also published as: CN112397151A

Abstract

本发明提供了一种基于靶向捕获测序的甲基化标志物筛选与评价方法及装置，方法包括：分别获取N个待测样本捕获测序的FASTQ文件，并生成Bam文件；计算每个甲基化位点的甲基化水平和覆盖深度，合并得到甲基化水平矩阵和位点深度矩阵；针对每个甲基化位点，计算其与下一甲基化位点之间的距离及线性相关系数，并根据结果合并得到甲基化连锁区域；计算连锁区域甲基化水平均值矩阵和位点深度均值矩阵，筛选出与正常人群组存在设定差异的特异连锁区域；根据得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据甲基化得分对甲基化标志物进行评价。经过本发明筛选与评价的标志物能有效发现血浆中的ctDNA甲基化信号，获得更高的灵敏度。

Description

基于靶向捕获测序的甲基化标志物筛选与评价方法及装置

技术领域

本发明涉及生物医学技术领域，尤其涉及一种甲基化标志物筛选与评价方法及装置。

背景技术

循环肿瘤DNA（circμLating tumor ，ctDNA）由肿瘤细胞因分泌、凋亡或坏死而产生，是循环游离DNA（circμLating cell-free DNA，cfDNA）中的一种。ctDNA在血液中的半衰期短，且携带有部分肿瘤细胞特有的特征，可用于肿瘤患者的早期筛查或实时监控。除单核苷酸多态性（Single Nucleotide Polymorphisms，SNP）、插入缺失标记（insertion-deletion，InDel）与拷贝数变异（copy number variation，CNV）外，甲基化作为基因表达调控中的重要环节，同样能够影响基因组的稳定性。对于一些特定位点或区域的甲基化状况，肿瘤患者的ctDNA和健康人的cfDNA之间会存在明显差异，以此，通过从血浆中检测这些特定位点或区域的甲基化状况，能够在肿瘤发生的早期识别出血浆中ctDNA的存在，为后续癌症的早期诊断或复发预测提供数据基础。

近年来甲基化测序的应用一定程度上提高了ctDNA的检测灵敏度，但是这些技术大多将检测样本限定在粪便、痰液等与肿瘤的发生器官高度相关的样本中，且只能检测某一特定类型的ctDNA进行检测。目前，广泛使用的甲基化测序技术大多为聚合酶链式反应（PCR）、全基因组甲基化测序（WGBS）或靶向捕获测序。其中，PCR虽然成本较低，但能检测的甲基化位点数量较为有限，进而影响检测的灵敏度和特异性。WGBS虽然覆盖位点更全，但成本高、深度低，不利于从血浆样本中发现ctDNA的甲基化信号。由于各测序方式都需要在测序前对DNA进行重亚硫酸盐转化，甲基化位点的甲基化水平计算的准确性会受到转化效率的影响，不利于甲基化标志物的筛选，同时也影响对样本进行标志物检验时的准确性。

发明内容

针对上述问题，本发明提供了一种基于靶向捕获测序的甲基化标志物筛选与评价方法及装置，有效解决现有甲基化测序中依从性差、适用范围窄、灵敏度不高的技术问题。

本发明提供的技术方案如下：

一方面，本发明提供了一种基于靶向捕获测序的甲基化标志物筛选与评价方法，包括：

分别获取N个待测样本捕获测序的FASTQ文件，并分别与参考基因组进行比对生成Bam文件，所述待测样本为血浆样本；

依次计算各待测样本Bam文件目标区域内

个甲基化位点上的甲基化水平和覆盖深度，并合并得到甲基化水平矩阵和位点深度矩阵；

基于所述甲基化水平矩阵和位点深度矩阵，针对待测样本中的每一个甲基化位点，分别计算其与下一甲基化位点之间的距离及甲基化水平的线性相关系数，并根据计算结果依次对相邻甲基化位点进行合并得到甲基化连锁区域，将包含有预设数量甲基化位点的

个甲基化连锁区域作为甲基化标志物候选区域输出；

依次计算各待测样本中

个甲基化连锁区域内的甲基化水平均值和位点深度均值，生成连锁区域甲基化水平均值矩阵和位点深度均值矩阵；

根据所述连锁区域甲基化水平均值矩阵和位点深度均值矩阵于合并得到的甲基化连锁区域中进一步筛选出与正常人群组存在设定差异的特异连锁区域，得到甲基化标志物；

根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据所述甲基化得分对甲基化标志物进行评价。

进一步优选地，在所述分别获取N个待测样本捕获测序的FASTQ文件，并分别与参考基因组进行比对生成Bam文件之后，还包括：

根据预先设定的C-T转化率对生成的Bam文件中的reads进行逐条过滤，得到过滤后的Bam文件；和/或，

根据目标区域Bed文件及预先设定的各reads中覆盖甲基化位点的数量对Bam文件进行过滤，得到过滤后的Bam文件。

进一步优选地，在所述依次计算各待测样本Bam文件目标区域内

个甲基化位点上的甲基化水平和覆盖深度，并合并到甲基化水平矩阵和位点深度矩阵中，包括：

依次提取各待测样本Bam文件中各个甲基化位点的正链信息和负链信息；

依次计算各待测样本中各个甲基化位点的甲基化水平和覆盖深度，其中，样本n在甲基化位点

上的甲基化水平

和覆盖深度

分别为：

其中，

表示样本n在甲基化位点

上的正链甲基化水平，

表示样本n在甲基化位点

上的负链甲基化水平，

表示样本n 在甲基化位点

上的正链覆盖深度，

表示样本n在甲基化位点

上的负链覆盖深度，

，

；

将计算得到的各甲基化位点的甲基化水平和覆盖深度进行合并得到甲基化水平矩阵

和位点深度矩阵

，所述甲基化水平矩阵

和位点深度矩阵

均为I行N列矩阵，其中，行对应甲基化位点，列对应待测样本。

进一步优选地，在所述基于甲基化水平矩阵和位点深度矩阵，针对待测样本中的每一个甲基化位点，分别计算其与下一甲基化位点之间的距离及甲基化水平的线性相关系数，并根据计算结果依次对相邻甲基化位点进行合并得到甲基化连锁区域，将包含有预设数量甲基化位点的

个甲基化连锁区域作为甲基化标志物候选区域输出中，针对样本n甲基化位点

的甲基化连锁区域合并步骤包括：

判断甲基化位点

及其下一甲基化位点

的覆盖深度是否均在预设最低深度要求

之上；

若是，计算甲基化位点

和甲基化位点

之间的距离

；

计算甲基化位点

上各待测样本的甲基化水平

与甲基化位点

上各待测样本的甲基化水平

之间的线性相关系数

；其中，

表示样本1在甲基化位点

上的甲基化水平，

表示样本N在甲基化位点

上的甲基化水平，

表示样本1在甲基化位点

上的甲基化水平，

表示样本N在甲基化位点

上的甲基化水平；

判断是否同时满足条件

和

，其中，

为预设最大位点间间距，

为预设最小相关系数；

若是，将甲基化位点

并入甲基化位点

当前所在的甲基化连锁区域

形成新的甲基化连锁区域

，否则断开甲基化位点

当前所在的甲基化连锁区域

，

。

进一步优选地，所述依次计算各待测样本中

个甲基化连锁区域内的甲基化水平均值和位点深度均值，生成连锁区域甲基化水平均值矩阵和位点深度均值矩阵中：

样本

于甲基化连锁区域

中的甲基化水平均值

为：

样本

于甲基化连锁区域

中的位点深度均值

为：

在根据计算的甲基化水平均值

和位点深度均值

形成的连锁区域甲基化水平均值矩阵

和位点深度均值矩阵

中，行对应甲基化连锁区域，列对应样本。

进一步优选地，所述根据所述连锁区域甲基化水平均值矩阵和位点深度均值矩阵于合并得到的甲基化连锁区域中进一步筛选出与正常人群组存在设定差异的特异连锁区域中，包括：

将所述甲基化水平均值矩阵

进行

转换得到矩阵

；

根据预先设定的样本分组信息表将矩阵

、甲基化水平均值矩阵

和位点深度均值矩阵

分别按照control组和case组进行分割，得到矩阵

、矩阵

、矩阵

、矩阵

、矩阵

和矩阵

6个独立矩阵，其中，control组中矩阵

、矩阵

和矩阵

包含正常人群组的样本数据，case组中矩阵

、矩阵

和矩阵

包含异常人群组的样本数据；

遍历所有甲基化连锁区域，筛选出与正常人群组存在设定差异的特异连锁区域，其中，针对甲基化连锁区域

的筛选过程为：

依次计算control组与case组的错误发现率

、甲基化水平差值

、case组差异样本占比

及control组中的低甲基化基线样本占比

，其中，所述case组差异样本占比

表示case组

转换后甲基化水平在control组一倍标准差范围外的样本数量占 case组样本总数量的比值，所述control组中的低甲基化基线样本占比

表示control组中甲基化水平低于预设低甲基化阈值

的样本数量占control组样本总数量的比值，

；

判断是否同时满足条件

、

、

及

，其中，

为预设最大错误发现率，

为预设最小甲基化水平差值，

为预设差异样本占比阈值，

为预设低甲基化基线样本占比阈值；

若是，判断甲基化连锁区域

与正常人存在设定差异。

进一步优选地，所述control组与case组的错误发现率

由control组所有待测样本

转换后的甲基化水平

与case组所有待测样本

转换后的甲基化水平

经过校正t检验得到的差异检验值

进一步经过Benjaminiand Hochberg法校正后得到，其中，

表示control组样本1在甲基化连锁区域

中

转换后的甲基化水平，

表示control 组样本N在甲基化连锁区域

中

转换后的甲基化水平；

表示case组样本1在甲基化连锁区域

中

转换后的甲基化水平，

表示case组样本N在甲基化连锁区域

中

转换后的甲基化水平；

和/或，所述甲基化水平差值

表示control组平均甲基化水平与case组平均甲基化水平之差：

其中，

表示case组甲基化连锁区域

中样本1的平均甲基化水平，

表示case组甲基化连锁区域

中样本N的平均甲基化水平，

表示control组甲基化连锁区域

中样本1的平均甲基化水平，

表示 control组甲基化连锁区域

中样本N的平均甲基化水平；

和/或，所述case组差异样本占比

为：

其中，

表示case组甲基化连锁区域

中

转换后样本

的甲基化水平，

表示control组甲基化连锁区域

中

转换后的平均甲基化水平，

表示control组甲基化连锁区域

中

转换后的标准差，

表示case组样本总数；

和/或，control组中的低甲基化基线样本占比

为：

其中，

表示control组甲基化连锁区域

中样本

的甲基化水平，

表示control组样本总数，

表示预设的甲基化水平背景噪音最大值。

进一步优选地，在所述根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据所述甲基化得分对甲基化标志物进行评价中，包括：

将所述甲基化水平均值矩阵

进行

转换得到矩阵

；

从所述矩阵

和位点深度均值矩阵

中提取筛选得到的

个特异连锁区域的数据，并根据预先设定的样本分组信息表将其分割为矩阵

、矩阵

、矩阵

和矩阵

，其中，矩阵

和矩阵

包含正常人群组样本数据，矩阵

和矩阵

包含待测样本数据；

根据分割得到的矩阵分别计算各待测样本的甲基化得分，并判断是否存在甲基化得分大于预设分数阈值的待测样本；若是，判定该待测样本中包含筛选获得的甲基化标志物；

其中，待测样本

甲基化得分

为：

其中，

表示待测样本

在特异连锁区域

的平均深度，

；

表示待测样本

在特异连锁区域

的p-value值，所述p- value值为待测样本

在特异连锁区域

上

转换后甲基化水平

的 Z-score值

转换为标准正态分布的分位数：

其中，

为正常人群组

转换后的甲基化水平均值，

为正常人群组

转换后的方差。

进一步优选地，在所述根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据所述甲基化得分对甲基化标志物进行评价中，还包括：根据每个待测样本的已知分组情况计算检出的灵敏度和特异性，或根据待测样本的已知ctDNA浓度，计算甲基化得分与ctDNA浓度的线性相关系数，进而根据灵敏度、特异性与线性相关系数的高低对筛选的甲基化标志物进行评价的步骤。

另一方面，本发明还提供了一种基于靶向捕获测序的甲基化标志物筛选与评价装置，应用于上述甲基化标志物筛选与评价方法，所述甲基化标志物筛选与评价装置中包括：

Bam文件生成模块，用于分别获取N个待测样本捕获测序的FASTQ文件，并分别与参考基因组进行比对生成Bam文件，所述待测样本为血浆样本；

位点甲基化水平提取模块，用于依次计算各待测样本Bam文件目标区域内

甲基化连锁区域合并模块，用于基于所述甲基化水平矩阵和位点深度矩阵，针对待测样本中的每一个甲基化位点，分别计算其与下一甲基化位点之间的距离及甲基化水平的线性相关系数，并根据计算结果依次对相邻甲基化位点进行合并得到甲基化连锁区域，将包含有预设数量甲基化位点的

个甲基化连锁区域作为甲基化标志物候选区域输出；

区域甲基化平均水平提取模块，用于依次计算各待测样本中

差异区域筛选模块，用于根据所述连锁区域甲基化水平均值矩阵和位点深度均值矩阵于合并得到的甲基化连锁区域中进一步筛选出与正常人群组存在设定差异的特异连锁区域，得到甲基化标志物；

基线构建与得分计算模块，用于根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据所述甲基化得分对甲基化标志物进行评价。

另一方面，本发明提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时实现上述基于靶向捕获测序的甲基化标志物筛选与评价方法的步骤。

另一方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述基于靶向捕获测序的甲基化标志物筛选与评价方法的步骤。

本发明提供的基于靶向捕获测序的甲基化标志物筛选与评价装置及方法中，至少能够带来以下有益效果：

1.相较于甲基化测序中常用的聚合酶链式反应（PCR）或全基因组甲基化测序（WGBS）来说，本发明针对的高深度捕获测序，能够更好地平衡成本、深度和覆盖度的问题，更有利于发现血浆中的ctDNA甲基化信号，获得更高的灵敏度，且检测结果可靠易于解读。

2.基于普遍认为的相邻甲基化位点之间存在高相关性的连锁关系，本发明根据得到的甲基化水平矩阵和位点深度矩阵，对相邻甲基化位点进行合并得到甲基化连锁区域，以此用连锁区域的甲基化水平替代单个位点的甲基化水平，在计算连锁区域甲基化水平时综合考虑多个甲基化位点的甲基化情况，从而提升甲基化水平计算的稳定性。尤其对于待测血浆样本中的低甲基化水平区域，实验或测序中产生的误差对这些区域的甲基化水平计算影响很大，甲基化水平计算的稳定性对于甲基化标志物筛选的准确性至关重要，具体表现在两方面：一，优化低甲基化区域的甲基化水平计算，减少实验和测序过程中引入的误差；二，使用连锁区域特征作为输入进行建模时，将多个存在高相关性的甲基化位点特征合并为一个区域特征，从而减少模型的变量数，去除冗余变量，优化模型的表现。

3.由于血浆中cfDNA的释放来源十分复杂，肿瘤患者血浆中的片段，有一大部分的来源可能与健康人相类似。扣除这部分的甲基化背景信号，对于特定甲基化标志物的检测至关重要。以此，本发明在对甲基化连锁区域进行合并之后，进一步对差异性大的区域进行筛选，保留高甲基化区域，且尽量保证筛选出的甲基化标志物在健康人中的信号尽可能地少，从而保证在后续分析时，与病灶相关的ctDNA信号不会被来源于健康组织的cfDNA信号淹没。

4.在对甲基化得分进行计算中，建立了正常人群甲基化水平基线数据，并对待测样本与基线之间的差异进行量化分析，而不是直接使用待测样本的甲基化水平进行分析，以此待测样本与参考人群组基线水平的偏离程度能够被更加准确地衡量，用于构建基线的样本越多，优势越明显，准确率越高，使用该得分进行甲基化标志物评价时也越准确。

5.在构建的用于评价标志物优劣的得分计算模型中，训练阶段仅使用健康人血浆样本即可，无需患者样本。且建立的模型不同于常见的逻辑回归、随机森林、支持向量机等机器学习方法，仅对待测样本与基线样本在不同甲基化连锁区域上的甲基化水平差异进行简单的加权平均，权重为待测样本在区域的平均测序深度。该模型使用的计算方法更简便，能够克服过拟合问题，降低对训练模型所需的患者样本数量的要求，且同时支持使用的甲基化标志物数量也比常见的机器学习方法更多。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中基于靶向捕获测序的甲基化标志物筛选与评价方法流程示意图；

图2为本发明中基于靶向捕获测序的甲基化标志物筛选与评价装置结构示意图；

图3为本发明一实例中甲基化连锁区域划分流程图；

图4为本发明一实例中对甲基化连锁区域进行差异性筛选流程图；

图5为本发明一实例中梯度稀释血浆样本得分计算流程图；

图6为本发明一实例中每个原始样本在不同稀释梯度对应的甲基化得分变化图；

图7为本发明一实例中12个梯度稀释样本理论ctDNA占比和甲基化得分的散点图；

图8为本发明中终端设备结构示意图。

附图标记：

100-甲基化标志物筛选与评价装置，110-Bam文件生成模块，120-位点甲基化水平提取模块，130-甲基化连锁区域合并模块，140-区域甲基化平均水平提取模块，150-差异区域筛选模块，160-基线构建与得分计算模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1所示为本发明提供的基于靶向捕获测序的甲基化标志物筛选与评价方法流程示意图，从图中可以看出，该甲基化标志物筛选与评价方法中包括：

S10 分别获取N个待测样本捕获测序的FASTQ文件，并分别与参考基因组进行比对生成Bam文件，待测样本为血浆样本；

S20 依次计算各待测样本Bam文件目标区域内

S30 基于甲基化水平矩阵和位点深度矩阵，针对待测样本中的每一个甲基化位点，分别计算其与下一甲基化位点之间的距离及甲基化水平的线性相关系数，并根据计算结果依次对相邻甲基化位点进行合并得到甲基化连锁区域，将包含有预设数量甲基化位点的

个甲基化连锁区域作为甲基化标志物候选区域输出；

S40 依次计算各待测样本中

S50 根据连锁区域甲基化水平均值矩阵和位点深度均值矩阵于合并得到的甲基化连锁区域中进一步筛选出与正常人群组存在设定差异（显著差异）的特异连锁区域，得到甲基化标志物；

S60 根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据甲基化得分对甲基化标志物进行评价。

从甲基化水平的计算角度考虑，各类测序技术都需要在测序前对DNA进行重亚硫酸盐转化，转化不完全会导致位点甲基化状态的误判。常用的甲基化水平衡量指标为甲基化位点的beta值，即位点上甲基化reads占总reads的比例。考虑到早期肿瘤患者的血浆中，ctDNA占比通常较低，特异的甲基化标志物特征信号较为微弱，转化效率会极大地影响beta值的计算。是以，在一实施例中，步骤S10，分别获取N个待测样本捕获测序的FASTQ文件，并分别与参考基因组进行比对生成Bam文件之后，还包括：根据预先设定的C-T转化率（原始序列非CpG位点的C碱基转化为T碱基的比例）对生成的Bam文件中的reads进行逐条过滤，得到过滤后的Bam文件步骤；和/或，根据目标区域Bed文件及预先设定的各reads中覆盖甲基化位点的数量对Bam文件进行过滤，得到过滤后的Bam文件，以提升后续的筛选准确率。

在根据C-T转化率进行过滤中，包括：获取待测样本捕获测序的的FASTQ文件之后，利用去接头软件Trimmomatic去除接头和低质量reads，得到过滤后的FASTQ文件，并利用FASTQC（一种高通量测序数据的质控软件，用于数据质量的评估）软件对待测样本的数据量、碱基质量分布、碱基含量比例进行统计分析。之后，利用基因组比对工具Bismark（一种比对方法软件，用于查找测序序列在基因参考序列中的位置，可输出Bam格式结果文件）将FASTQ文件中的基因序列分别与人类参考基因组和内参lambda DNA参考基因组进行比对并去重，生成人类参考基因组的Bam文件、去重前的比对报告和去重后的比对报告，及内参lambda DNA参考基因组Bam文件、去重前的比对报告和去重后的比对报告；并利用SAMtools和Picard工具对比对后的Bam文件进行排序和标记重复处理。接着，逐行读取Bam文件中的reads，根据Bam文件每条read中原始序列为C碱基的位点的实际碱基情况，对其non-CpGcontext模式下甲基化和非甲基化的碱基数量进行统计；并根据发生甲基化的non-CpGcontext的碱基数及non-CpG context碱基数总和（甲基化和非甲基化的碱基数量之和）对每条reads的C-T转化率进行计算；最后，将Bam文件中C-T转化率（如90%、95%等）小于预先设定的C-T转化率的reads滤除，以此过滤掉不符合non-CpG context C-T转化率最低要求的reads，输出过滤后的Bam格式文件、过滤后待测样本C-T转化率及过滤后待测样本的reads数据量。

更具体来说，FASTQ为一种常见的高通量测序文件类型。reads为测序读长，测序仪测到的基因组或转录组序列片段。根据甲基化的C碱基所处的上下文环境，分为三种类型CpG、CHG和CHH，H代表除了G碱基之外的其他碱基，即A、C、T中的任意一种；CpG为甲基化的C的下游是1个G碱基，CHG代表甲基化的C下游的2个碱基是H和G，CHH表示甲基化的C下游的两个碱基都是H，CHG和CHH可以合称为non CpG context。Bam文件用来存储测序序列回贴到参考基因组的结果。

在对reads中覆盖甲基化位点数量进行过滤中，包括：利用BisSNP软件（一种分析甲基化数据的软件，可用于鉴定甲基化位点和预测甲基化水平）根据目标区域Bed文件对dbSNP数据库中已知的SNP位点及因特定变异原因（如，结构变异、染色体拷贝数变异等）产生的SNP位点进行过滤得到待测样本的CpG位点之后，根据过滤得到的CpG位点及预先设定的各reads中覆盖CpG位点的数量（即上述每条reads上覆盖CpG位点的最低要求）对Bam文件进行过滤，将不满足覆盖CpG位点数量最低要求的reads滤除。

由于基因组上部分区域的甲基化位点，倾向于同时发生甲基化或不发生甲基化，可称为甲基化位点间的连锁关系，存在连锁关系的甲基化位点所在的区域，可被定义为甲基化连锁区域。基于甲基化的该种特性，本实施例根据待测样本相邻甲基化位点的甲基化水平值的相关性及距离，将目标区域上存在高相关性的相邻甲基化位点进行合并得到甲基化连锁区域。

在这一过程中，步骤S20 依次计算各待测样本Bam文件目标区域内I个甲基化位点上的甲基化水平和覆盖深度，并合并到甲基化水平矩阵和位点深度矩阵中，包括：

S21 依次提取各待测样本Bam文件中各个甲基化位点的正链信息和负链信息。这里，N个待测样本对应生成有N个Bam文件，每个待测样本中目标区域中包括I个甲基化位点，以此这里使用BisSNP结果文件（记录位点对应的甲基化水平）列表作为输入文件，分别从样本1到样本N的BisSNP结果文件中，提取出样本在I个甲基化位点上的正链信息和负链信息。

S22 依次计算各待测样本中各个甲基化位点的甲基化水平（覆盖位点的测序序列中，发生甲基化的位点所占比例）和覆盖深度，其中，样本n在甲基化位点

上的甲基化水平

和覆盖深度

分别如式(1)和式(2)：

(1)

(2)

其中，

表示样本n在甲基化位点

上的正链甲基化水平，

表示样本n在甲基化位点

上的负链甲基化水平，

表示样本n 在甲基化位点

上的正链覆盖深度，

表示样本n在甲基化位点

上的负链覆盖深度，

，

；

S23 将计算得到的各甲基化位点的甲基化水平和覆盖深度进行合并得到甲基化水平矩阵

和位点深度矩阵

，甲基化水平矩阵

和位点深度矩阵

得到甲基化水平矩阵

和位点深度矩阵

之后，进入步骤S30对甲基化连锁区域进行合并的步骤。具体，在S30 在基于甲基化水平矩阵和位点深度矩阵，针对待测样本中的每一个甲基化位点，分别计算其与下一甲基化位点之间的距离及甲基化水平的线性相关系数，并根据计算结果依次对相邻甲基化位点进行合并得到甲基化连锁区域，将包含有预设数量甲基化位点的

的甲基化连锁区域合并步骤包括：

S31 判断甲基化位点

及其下一甲基化位点

的覆盖深度（

和

）是否均在预设最低深度要求

之上；

S32 若是，计算甲基化位点

和甲基化位点

之间的距离

；若覆盖深度

或

低于预设最低深度要求

，则不将样本n计入线性相关系数的计算，以确保数据的可靠性。

S33 计算甲基化位点

上各待测样本的甲基化水平

与甲基化位点

上各待测样本的甲基化水平

之间的线性相关系数

；其中，

表示样本1在甲基化位点

上的甲基化水平，

表示样本N在甲基化位点

上的甲基化水平，

表示样本1在甲基化位点

上的甲基化水平，

表示样本N在甲基化位点

上的甲基化水平；

S34 判断是否同时满足条件

和

，其中，

为预设最大位点间间距，

为预设最小相关系数；

S35 若是，将甲基化位点

并入甲基化位点

当前所在的甲基化连锁区域

形成新的甲基化连锁区域

，否则断开甲基化位点

当前所在的甲基化连锁区域

，

。

应当注意，在上述甲基化连锁区域合并过程中，若后续甲基化位点

和甲基化位点

之间的距离

和线性相关系数

满足条件

和

，则进一步将甲基化位点

并入甲基化位点

当前所在的甲基化连锁区域

形成新的甲基化连锁区域

，否则断开甲基化连锁区域

。后续满足条件的甲基化位点合并入甲基化连锁区域

。完成所有甲基化位点的计算合并过程之后，输出包含有预设数量（如包含3个和3个以上）甲基化位点的

个甲基化连锁区域，并形成包含目标区间的甲基化位点位置、相邻位点间的距离和线性相关系数及合并后位点所属连锁区域信息的特异连锁区域列表文件。

甲基化连锁区域合并完成并输出后，在步骤S40 依次计算各待测样本中

个甲基化连锁区域内的甲基化水平均值和位点深度均值，生成连锁区域甲基化水平均值矩阵和位点深度均值矩阵，其中，

样本

于甲基化连锁区域

中的甲基化水平均值

如式(3)：

(3)

样本

于甲基化连锁区域

中的位点深度均值

如式(4)：

(4)

之后根据计算的甲基化水平均值

和位点深度均值

形成的连锁区域甲基化水平均值矩阵

和位点深度均值矩阵

中，行对应甲基化连锁区域，列对应样本，

。

之后对差异性模块进行筛选，在步骤S50 根据连锁区域甲基化水平均值矩阵和位点深度均值矩阵于合并得到的甲基化连锁区域中进一步筛选出与正常人群组存在设定差异的特异连锁区域中，包括：

S51 将所述甲基化水平均值矩阵

进行

转换得到矩阵

；

S52 根据预先设定的样本分组信息表将矩阵

、甲基化水平均值矩阵

和位点深度均值矩阵

分别按照control组和case组进行分割，得到矩阵

、矩阵

、矩阵

、矩阵

、矩阵

和矩阵

6个独立矩阵，其中，control组中矩阵

、矩阵

和矩阵

包含正常人群组的样本数据，case组中矩阵

、矩阵

和矩阵

包含异常人群组的样本数据；

S53 遍历所有甲基化连锁区域，筛选出与正常人群组存在设定差异的特异连锁区域，其中，针对甲基化连锁区域

的筛选过程为：

依次计算control组与case组的错误发现率

、甲基化水平差值

、case组差异样本占比

及control组中的低甲基化基线样本占比

，其中，所述case组差异样本占比

表示case组

表示control组中甲基化水平低于预设低甲基化阈值

的样本数量占control组样本总数量的比值，

。具体：

control组与case组的错误发现率

由R软件中的limma包生成。计算中，先对甲基化连锁区域

上control组所有待测样本

转换后的甲基化水平

与case组所有待测样本

转换后的甲基化水平

进行校正t检验，得到甲基化连锁区域

的差异检验值

，其中，

表示control组样本1在甲基化连锁区域

中

转换后的甲基化水平，

表示control组样本N在甲基化连锁区域

中

转换后的甲基化水平；

表示case组样本1在甲基化连锁区域

中

转换后的甲基化水平，

表示case组样本N在甲基化连锁区域

中

转换后的甲基化水平。计算出所有的

个甲基化连锁区域的差异检验值

后，进一步对

使用 Benjamini-Hochberg法计算错误发现率，得到错误发现率

。

甲基化水平差值

表示control组平均甲基化水平与case组平均甲基化水平之差如式(5)：

(5)

其中，

表示case组甲基化连锁区域

中样本1的平均甲基化水平，

表示case组甲基化连锁区域

中样本N的平均甲基化水平，

表示control组甲基化连锁区域

中样本1的平均甲基化水平，

表示control组甲基化连锁区域

中样本N的平均甲基化水平；

case组差异样本占比

如式(6)：

(6)

其中，

表示case组甲基化连锁区域

中

转换后样本

的甲基化水平，

表示control组甲基化连锁区域

中

转换后的平均甲基化水平，

表示control组甲基化连锁区域

中

转换后的标准差，

表示case组样本总数；

control组中的低甲基化基线样本占比

如式(7)：

(7)

其中，其中，

表示control组甲基化连锁区域

中样本

的甲基化水平，

表示control组样本总数，

表示预设的甲基化水平背景噪音最大值（低于该值的样本被认为在该区域的甲基化水平低）。

S54 判断是否同时满足条件

、

、

及

，其中，

为预设最大错误发现率，

为预设最小甲基化水平差值，

为预设差异样本占比阈值，

为预设低甲基化基线样本占比阈值；

S55 若是，判断甲基化连锁区域

与正常人存在设定差异。

另外，在步骤S53 遍历所有甲基化连锁区域，筛选出与正常人群组存在设定差异的特异连锁区域的过程中，为进一步保证指标计算的可靠性，若某一样本

在甲基化连锁区域

的甲基化水平均值

低于预先设定的深度阈值

，则样本

不会被用于甲基化连锁区域

各项指标的计算。

最后进入基线构建和甲基化得分的步骤，在步骤S60 根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据甲基化得分对甲基化标志物进行评价中，包括：

S61 将所述甲基化水平均值矩阵

进行

转换得到矩阵

；

S62 从所述矩阵

和位点深度均值矩阵

中提取筛选得到的

、矩阵

、矩阵

和矩阵

，其中，矩阵

和矩阵

包含正常人群组样本数据，矩阵

和矩阵

包含待测样本数据。

S63 根据分割得到的矩阵分别计算各待测样本的甲基化得分，并判断是否存在甲基化得分大于预设分数阈值的待测样本；若是，判定该待测样本中包含筛选获得的甲基化标志物，其中，待测样本

（为了对公式8和9表述清晰，这里用下标

表示待测样本n）甲基化得分

如式(8)：

(8)

其中，

表示待测样本

在特异连锁区域

的平均深度，

；

表示待测样本

在特异连锁区域

的p-value值，所述p- value值为待测样本

在特异连锁区域

上

转换后甲基化水平

的 Z-score值

转换为标准正态分布的分位数如式(9)：

(9)

其中，

为正常人群组

转换后的甲基化水平均值，

为正常人群组

转换后的方差。

预设分数阈值可以为基线样本得分

的最大值

或95%分位数

，基线样本得分

由正常健康人群计算得到，计算步骤与待测样本相同。得到所有待测样本

的甲基化得分

之后，可以根据每个待测样本的已知分组情况计算检出的灵敏度和特异性，或根据待测样本的已知ctDNA浓度，计算甲基化得分与ctDNA浓度的线性相关系数，进而根据灵敏度、特异性与线性相关系数的高低对筛选的甲基化标志物进行评价。

相对应地，本发明还提供了一种基于靶向捕获测序的甲基化标志物筛选与评价装置，应用于上述甲基化标志物筛选与评价方法，如图2所示，该甲基化标志物筛选与评价装置100中包括：Bam文件生成模块110，用于分别获取N个待测样本捕获测序的FASTQ文件，并分别与参考基因组进行比对生成Bam文件，待测样本为血浆样本；位点甲基化水平提取模块 120，用于依次计算各待测样本Bam文件目标区域内

个甲基化位点上的甲基化水平和覆盖深度，并合并得到甲基化水平矩阵和位点深度矩阵；甲基化连锁区域合并模块130，基于甲基化水平矩阵和位点深度矩阵，针对待测样本中的每一个甲基化位点，分别计算其与下一甲基化位点之间的距离及甲基化水平的线性相关系数，并根据计算结果依次对相邻甲基化位点进行合并得到甲基化连锁区域，将包含有预设数量甲基化位点的

个甲基化连锁区域作为甲基化标志物候选区域输出；区域甲基化平均水平提取模块140，用于依次计算各待测样本中

个甲基化连锁区域内的甲基化水平均值和位点深度均值，生成连锁区域甲基化水平均值矩阵和位点深度均值矩阵；差异区域筛选模块150，用于根据连锁区域甲基化水平均值矩阵和位点深度均值矩阵于合并得到的甲基化连锁区域中进一步筛选出与正常人群组存在设定差异的特异连锁区域，得到甲基化标志物；基线构建与得分计算模块160，用于根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据甲基化得分对甲基化标志物进行评价。

在一实施例中，Bam文件生成模块110中还用于：根据预先设定的C-T转化率对生成的Bam文件中的reads进行逐条过滤，得到过滤后的Bam文件步骤；和/或，根据目标区域Bed文件及预先设定的各reads中覆盖甲基化位点的数量对Bam文件进行过滤，得到过滤后的Bam文件，以提升后续的筛选准确率。

在位点甲基化水平提取模块120中，将N个待测样本甲基化水平Bed文件中的数据进行合并生成甲基化水平矩阵和位点深度矩阵。该模块中，使用BisSNP结果文件（记录位点对应的甲基化水平）列表作为输入文件，分别从样本1到样本N的BisSNP结果文件中，提取出样本在I个甲基化位点上的正链信息和负链信息，并根据式(1)和式(2)计算各样本中所有甲基化位点的甲基化水平矩阵和位点深度矩阵合并得到甲基化水平矩阵

和位点深度矩阵

。

在甲基化连锁区域合并模块130中，输入文件包括位点甲基化水平提取模块120输出的甲基化水平矩阵

、位点深度矩阵

及用于合并甲基化连锁区域的样本信息表，同时要求输入预先配置的最低深度要求

、最大位点间距

和最小相关性

三个参数。对于待测样本n中的甲基化位点

，采用步骤S31~S35对其是否合并入同一甲基化连锁区域进行判断，根据该步骤完成待测样本中所有甲基化位点的判断之后，输出包含有预设数量（如包含3个和3个以上）甲基化位点的

个甲基化连锁区域，并形成包含目标区间的甲基化位点位置、相邻位点间的距离和线性相关系数及合并后位点所属连锁区域信息的甲基化连锁区域列表文件。

在待测样本为肿瘤组织样本的实例中，结合位点甲基化水平提取模块120和甲基化连锁区域合并模块130，甲基化连锁区域划分过程如图3所示。甲基化连锁区域划分开始之后，位点甲基化水平提取模块120根据肿瘤组织样本BisSNP输出的bed文件生成肿瘤组织位点beta值矩阵和肿瘤组织位点深度矩阵；之后，甲基化连锁区域合并模块130根据样本信息列表对甲基化连锁区域进行合并得到甲基化连锁区域列表，完成甲基化连锁区域的划分。

在区域甲基化平均水平提取模块140中，输入文件为甲基化连锁区域合并模块130 输出的甲基化连锁区域列表文件、位点甲基化水平提取模块120输出的甲基化水平矩阵

和位点深度矩阵

。根据式(3)和式(4)分别对各待测样本中每个甲基化连锁区域计算甲基化水平均值和位点深度均值后，形成连锁区域甲基化水平均值矩阵

和位点深度均值矩阵

。

在差异区域筛选模块150中，输入文件包括记录连锁区域甲基化水平均值矩阵

的文件、记录位点深度均值矩阵

的文件和用于筛选差异甲基化区域的样本分组信息表，同时输入预先配置的最低平均深度要求

、最大错误发现率

、最小甲基化水平差值

、差异样本占比阈值

、低甲基化阈值

与低甲基化基线样本占比阈值

，并根据步骤S51~S55对与正常人存在设定差异的甲基化连锁区域

进行筛选，并将筛选后得到的特异连锁区域输出。

在待测样本为肿瘤组织样本的实例中，结合位点甲基化水平提取模块120和差异区域筛选模块150，对甲基化连锁区域进行差异性筛选的过程如图4所示。肿瘤差异连锁区域筛选开始之后，位点甲基化水平提取模块120根据肿瘤组织样本BisSNP输出bed文件和基线血浆样本BisSNP输出bed文件生成组织与基线血浆位点beta值矩阵及组织与基线血浆位点深度矩阵，并根据甲基化连锁区域列表进一步生成组织与基线血浆连锁区域平均beta值矩阵及组织与基线血浆连锁区域平均深度矩阵；之后，差异区域筛选模块150根据基线血浆与肿瘤组织样本分组信息表对甲基化连锁区域进行筛选得到肿瘤特异连锁区域，并形成肿瘤特异连锁区域列表，完成肿瘤特异连锁区域的筛选。

在基线构建与得分计算模块160中，输入文件包括记录连锁区域甲基化水平均值矩阵

的文件、记录位点深度均值矩阵

的文件、差异区域筛选模块 150筛选出来的甲基化区域列表及用于进行得分计算的样本分组信息表作为输入文件，并根据步骤S61~S63判断该待测样本中是否包含ctDNA的甲基化信号。且得到所有待测样本

的甲基化得分

之后，可以根据每个待测样本的已知分组情况计算检出的灵敏度和特异性，或根据待测样本的已知ctDNA浓度，计算甲基化得分与 ctDNA浓度的线性相关系数，进而根据灵敏度、特异性与线性相关系数的高低对筛选的甲基化标志物进行评价。

在一实例中，选取健康人血浆50例，泛癌种肿瘤组织FFPE 166例（其中肺癌肿瘤11例）以及灵敏度测试血浆4例分别进行如下操作：

1.血浆样本的准备

1.1 血浆样本融化后，每1mL样本中加入15μL蛋白酶K（Proteinase K）(20mg/mL)和50 μL十二烷基硫酸钠（SDS）溶液(20%)。当血浆量不足4mL时，用磷酸缓冲盐（PBS）溶液补足。

1.2 翻转混匀，60℃孵育20min，然后冰浴5min。

1.3 向深孔板内加入如表1示的试剂。

表1：深孔板中加入的试剂列表

1.4 运行KingFisher FLEX磁珠提取仪。

程序运行前需将干净磁头套放入检测程序指定位置，运行程序，检测磁头套是否会掉落。深孔板加好后，点击自动提取仪上SATRT键，按照显示屏要求依次放入磁头套和对应深孔板。再次点击SATRT键，自动提取仪开始运行。程序时长为49min左右。

1.5 吸出DNA样品：

自动提取仪运行结束后，先取出7号深孔板，然后点击STOP键。用移液器将DNA样本吸出至对应的贴标标签的离心管中。

石蜡包埋组织（FFPE）样本的准备

与血浆样本准备步骤不同的是，FFPE样本准备中基因组DNA样本需要单管打断，打断后使用Qubit荧光定量仪测浓度和质检，其余步骤一致，这里不做赘述。

梯度稀释样本的准备

血浆样本的DNA提取步骤与1中一致。

将完成提取后的4例血浆样本cfDNA样本分别按照1/27、1/81、1/243的比例稀释于健康人的血浆样本中。

内参准备

取Lamdba DNA加入50μL打断管中，使用M220打断仪打断，将打断的内参DNA稀释，建库时加入样本中。Lamdba为参考品，用于确定样本的转化情况。

文库制备

5.1使用EZ DNA Methylation-Lightning^TM试剂盒（Zymo Research公司生产）对DNA进行转化

样品起始体积为20μL，不足20μL时，用水补足。取130μL试剂盒中的LightningConversion Reagent加入DNA样本中，震荡混匀，短暂离心，置于PCR仪上，并按表2进行PCR反应。

表2：PCR反应的条件

向试剂盒中的Zymo-Spin™ IC Column中加入600μL试剂盒中的M-BindingBuffer，将上步骤反应后的产物加入含有M-Binding Buffer的Zymo-Spin™ IC Column中，用枪吹打混匀，静置2min。12000rpm离心1min。

将收集管中的液体重新加回吸附柱中，静置2min，12000rpm离心1min，弃废液。

加入100μL试剂盒中的M-Wash Buffer，12000rpm离心1min，弃废液。

加入200μL试剂盒中的L-DesμLphonation Buffer室温(20-30°C)孵育15-20min，孵育完成后，12000rpm离心1min，弃废液。

加入200μL试剂盒中的M-Wash Buffer，12000rpm离心1min，弃废液，重复两次。

将吸附柱放回收集管中，12,000 rpm离心2 min，倒掉废液。将吸附柱开盖置于室温放置2-5 min，以彻底晾干吸附材料中残余的漂洗液。

将吸附柱转入一个干净的离心管中，向吸附膜的中间部位悬空滴加20μL洗脱缓冲液TE洗脱，室温放置2-5min，12000 rpm离心1 min。

将收集管中的液体重新加回吸附柱中，室温放置2-5min，12000 rpm离心1 min，将收集有转化后DNA的离心管-20℃保存。

5.2 DNA预处理

PCR仪提前95℃预热，热盖温度105℃。

取转化后的片段化DNA放入0.2ml的PCR管中，加入低浓度乙二胺四乙酸TE缓冲液（Low EDTA TE）稀释总体积到15μL。

将PCR管放入PCR仪中，进行95℃孵育2min后，立即放置到冰上，静置2min。

5.3加T7接头

PCR仪提前37℃预热，热盖温度105℃。

按照表3配置反应体系，表格中的试剂均来自ACCEL-NGS® METHYL-SEQ DNALIBRARY KIT试剂盒（Swift Biosciences公司生产）。

表3：反应试剂列表

加25μL试剂到冰上放置的预处理DNA样本PCR管中，使用移液器进行吹打混匀，瞬时离心。

将PCR管置于PCR仪中，进行反应，条件如表4所示。

表4：反应条件

5.4二链合成反应（Second strand synthesis reaction）

PCR仪提前98℃预热，热盖温度105℃。

按照表5配置反应试剂，表格中的试剂均来自剂来自ACCEL-NGS® METHYL-SEQDNA LIBRARY KIT试剂盒（Swift Biosciences公司生产）。

表5：反应试剂列表

加44μL表5试剂到上一步反应体系中，使用移液器进行吹打混匀，瞬时离心。

将PCR管置于PCR仪中，进行二链合成反应，反应条件如表6所示。

表6：二链合成反应条件

提前将纯化磁珠从4℃取出，室温平衡半小时。

待上一步反应结束后，在产物中加入101μL磁珠，吹打混匀。

室温静置5min，置于磁力架上至液体澄清，弃去上清。

加入200μL 80％乙醇孵育30sec后弃去。注意：80%乙醇现用现配。重复一次200μL80％乙醇清洗步骤。

用10μL枪头弃去离心管底部的残留乙醇，室温干燥至乙醇完全挥发。

从磁力架取下离心管，加入16μL超纯水，振荡混匀。室温孵育2min。

短暂离心，置于磁力架上至液体澄清，将15μL样本转入新的离心管中。

5.5加T5接头

按照表7配置反应试剂，表格中的试剂均来自ACCEL-NGS® METHYL-SEQ DNALIBRARY KIT试剂盒（Swift Biosciences公司生产）。加15μL反应体系到上一步的样本中，使用移液器进行吹打混匀，瞬时离心。

表7：反应试剂列表

将PCR管置于PCR仪中，按表8的条件进行PCR反应。

表8：PCR反应的条件

提前将纯化磁珠从4℃取出，室温平衡半小时。

连接反应结束后，加入36μL磁珠，吹打混匀。

室温静置5min，置于磁力架上至液体澄清，弃去上清。

从磁力架取下离心管，加入20μL超纯水，振荡混匀。室温孵育2min。

短暂离心，置于磁力架上至液体澄清，将20μL样本转入新的离心管中。

5.6 扩增

按照表9配置反应试剂，加30μL反应体系到上一步的样本中，使用移液器进行吹打混匀，瞬时离心。表格中的试剂来自ACCEL-NGS® METHYL-SEQ DNA LIBRARY KIT试剂盒（Swift Biosciences公司生产）。

表9：反应试剂列表

将PCR管置于PCR仪中，按表10的条件进行PCR反应。

表10：PCR反应的条件

提前将纯化磁珠从4℃取出，室温平衡半小时。

连接反应结束后，加入60μL磁珠，吹打混匀。

室温静置5min，置于磁力架上至液体澄清，弃去上清。

从磁力架取下离心管，加入50μL超纯水，振荡混匀。室温孵育2min。

短暂离心，置于磁力架上至液体澄清，将50μL样本转入新的离心管中。

文库捕获

6.1 混合文库：

按每个捕获总量1ug捕获。向上述体系中加入杂交试剂，震荡混匀，短暂离心。

用封口膜封住EP管，放入真空离心浓缩仪中蒸干（60℃，约20min-1hr）。注意随时查看是否已蒸干。

6.2 DNA变性：

样本完全蒸干后，每个捕获中加入7.5μL 2×Hybridization Buffer (vial5)和3μL Hybridization Component A (vial 6)，震荡混匀，短暂离心。置于95℃变性10min。该步骤中的两种试剂都来自SeqCap® Hyb and Wash Kit试剂盒（Roche公司生产）。

6.3 文库与探针杂交：

取出探针，短暂离心。

将变性的DNA（始终保持在95℃）快速转移至含有探针的PCR管中，震荡混匀，短暂离心。

置于PCR仪中，47℃杂交。

6.4 配制纯化试剂：

一个捕获所需纯化试剂的配制方法如表11所示，根据捕获的个数按下表配制缓冲液。表格中试剂均来自SeqCap® Hyb and Wash Kit试剂盒（Roche公司生产）。

表11：捕获所需纯化试剂的配制试剂列表

孵育捕获磁珠（Capture Beads）和清洗缓冲液（Wash Buffer）工作液。其中，Capture Beads使用前须室温平衡30min，Wash Buffer使用前须47℃孵育2hr。

6.5 杂交后纯化：

每个捕获分装100μL捕获磁珠，将100μL捕获磁珠置于磁力架上至液体澄清，弃去上清。

加入200μL 1×Bead Wash Buffer (vial 7)，震荡混匀。置于磁力架上至液体澄清，弃去上清。1×Bead Wash Buffer (vial 7)来自SeqCap® Hyb and Wash Kit试剂盒（Roche公司生产）。

再次加入200μL 1×Bead Wash Buffer (vial 7)，震荡混匀。置于磁力架上至液体澄清，弃去上清。

再次加入100μL 1×Bead Wash Buffer(vial 7)，震荡混匀。置于磁力架上至液体澄清，彻底弃去上清。此时磁珠预处理完成，立即进行下一步试验。

将捕获过夜的杂交液体转入清洗好的磁珠中，移液器吹打十次。置于PCR仪中47℃孵育45min（PCR热盖温度设为57℃），每隔15min震荡一次保证磁珠悬浮。

6.6 清洗

该步骤所使用的试剂均来自SeqCap® Hyb and Wash Kit试剂盒（Roche公司生产）。

孵育完成后，每管加入100μL 47℃预热的1×Wash Buffer I(vial 1)，震荡混匀。置于磁力架上至液体澄清，弃去上清。

加入200μL 47℃预热的1×Stringent Wash Buffer (vial 4)，移液器吹打十次混匀。47℃孵育5min，置于磁力架上至液体澄清，弃去上清。

加入200μL室温放置的1×Wash Buffer I (vial 1)，振荡2min，短暂离心，置于磁力架上至液体澄清，弃去上清。

加入200μL室温放置的1×Wash Buffer II (vial 2)，震荡1min，短暂离心，放置磁力架上至液体澄清，弃去上清。

加入200μL室温放置的1×Wash Buffer III (vial 3)，震荡30sec，短暂离心，放置磁力架上至液体澄清，弃去上清。

向离心管中加入36μL超纯水洗脱，震荡混匀，进行下一步扩增试验。

6.7PCR反应：

根据捕获个数，按照表12配制混合液，震荡混匀。表中试剂均来自SeqCap® Hyband Wash Kit试剂盒（Roche公司生产）。

表12：混合液的配置试剂列表

短暂离心，将混合液分装至PCR管中，每管30μL。每个捕获样本分为两管进行PCR扩增，每管样本20μL。上述样本转入PCR反应中，震荡混匀，短暂离心。

置于PCR仪上，按表13的条件进行PCR反应。

表13：PCR反应的条件

6.8 扩增后纯化

取出纯化磁珠，室温平衡30min备用。

取180μL纯化磁珠于1.5mL离心管中，加入100μL扩增后的捕获DNA文库，振荡混匀，室温孵育15min。

置于磁力架上至液体澄清，弃去上清。

从磁力架取下离心管，加入120μL超纯水，振荡混匀。室温孵育2min。

短暂离心，置于磁力架上至液体澄清，将捕获样本转入新的离心管中。

文库混库和测序

将上述每个捕获按照数据量比例计算混库质量，按照数据量比例将不同捕获混合成一个样本。加入Phix文库混合成上机样本，进行测序。Phix为一种噬菌体，能够改善碱基不平衡，其作为参考品也可以对测序质量进行评估。

将下机FASTQ文件处理为各模块和软件可使用的输入文件

数据下机后，首先将下机数据从FASTQ文件处理成Bam文件，具体使用的软件和步骤如下：

8.1 去接头

调用Trimmomatic-0.36将每一对FASTQ文件都作为配对序列（paired reads）进行去除接头，之后切去剩余部分开头和结尾处碱基质量低于20的碱基，从reads的5’端开始，以大小为5的窗口进行划窗计算平均质量，如果窗口内平均碱基质量低于20，则切除该窗口，并要求切除后剩余碱基数量超过75，生成去接头后的FASTQ文件。

8.2 比对

调用Bismark-v0.19.0将去接头后的每一对FASTQ文件都作为配对序列比对到hg19人类参考基因组序列，生成初始bam文件；

8.3 去重

调用Bismark- v0.19.0的deduplicate模块，对初始Bam文件进行去重复处理，生成去重后的Bam文件；

8.4排序标记

调用SAMtools-1.3的sort模块，对去重后的Bam文件进行排序，生成排序后的Bam文件；调用Picard-2.1.0的AddOrReplaceReadGroups模块，对排序后的Bam文件进行标记分组；

8.5筛选

调用BamUtil-1.0.14的clipOverlap模块对标记分组后的Bam文件进行筛选，去除配对序列中的重叠部分，并调用SAMtools-1.3 view 对去除重合部分的序列的Bam文件的比对质量进行过滤，去除比对质量低于20的序列。完成该步骤后，统计每条序列中非甲基化位点中C碱基的转化率，剔除转化率低于95%的序列，并输出到最终的bam文件中；

8.6 建立索引

调用SAMtools-1.3的index模块对最终生成的Bam文件建立索引，生成与最终Bam文件配对的bai文件；

8.7 计算样本的位点甲基化水平

调用BisSNP-0.82.2对最终生成的Bam文件进行处理。首先调用BisμLfiteCountCovariates和BisμLfiteTableRecalibration模块，进行碱基质量校正，生成校正后的csv文件和Bam文件；再利用BisμLfiteGenotyper模块，鉴定待测样本的SNP位点和CpG位点，生成SNP和CpG的原始VCF文件；根据生成的VCF文件，调用VCFpostprocess模块对CpG位点进行过滤，得到最终的CpG位点及其甲基化水平，输出各样本的甲基化水平结果文件。该文件为本发明所需的输入文件之一。

用本发明方法划分甲基化连锁区域

本实例中一共使用了166个肿瘤样本，以将距离较近、甲基化水平较相关的甲基化位点合并为甲基化连锁区域，流程如图3所示。

9.1 生成肿瘤组织样本的位点矩阵文件

甲基化连锁区域划分开始之后，位点甲基化水平提取模块根据输入的肿瘤组织样本BisSNP输出的bed文件生成2个txt格式的肿瘤组织位点beta值矩阵文件和肿瘤组织位点深度矩阵文件。

9.2 划分甲基化连锁区域

获得两个矩阵文件后，将矩阵文件和肿瘤组织样本列表文件同时输入甲基化连锁区域合并模块，其中，肿瘤组织样本列表文件仅包含一列，无标题行，其中记录有166个肿瘤样本的名称。模块的最低深度

设置为100，最大位点间距

设置为100，最小相关性

设置为0.95。该模块最终合并出了6042个甲基化连锁区域，记录在输出的甲基化连锁区域列表文件中，完成对甲基化连锁区域的划分。输出列表中包含了所有甲基化连锁区域的详细信息：在目标区间内的甲基化位点位置、位点与相邻位点的距离和相关系数、是否满足甲基化连锁区域的标准、以及满足标准的甲基化位点所属的甲基化连锁区域起始、终止位置。

用本发明方法筛选肿瘤特异连锁区域

本实例中共使用11个肺癌肿瘤样本和50个基线健康人血浆样本，用于筛选可用于得分计算的肿瘤差异连锁区域，流程如图4所示。

10.1生成肿瘤组织样本与基线健康人血浆样本的位点矩阵文件

肿瘤差异连锁区域筛选开始之后，位点甲基化水平提取模块根据输入的1个肺癌肿瘤样本、50个基线健康人血浆样本的BisSNP输出bed文件和基线血浆样本BisSNP输出txt格式的bed文件生成组织与基线血浆位点beta值矩阵文件及组织与基线血浆位点深度矩阵文件。

10.2生成肿瘤组织样本与基线健康人血浆样本的连锁区域矩阵文件

获得两个矩阵文件后，将矩阵文件和9.2中获得的连锁区域列表文件输入区域甲基化平均水平提取模块，对每个样本在6042个甲基化连锁区域上的平均beta值与平均深度依次进行计算，生成txt格式的组织与基线血浆连锁区域平均beta值矩阵文件及组织与基线血浆连锁区域平均深度矩阵文件。

10.3 筛选肿瘤特异连锁区域

将10.2中生成的连锁区域平均beta值矩阵文件、平均深度矩阵文件及肿瘤组织样本分组信息表作为差异区域筛选模块输入文件，其中，样本分组信息表包括两列，分别记录 11例肺癌肿瘤样本和50例基线血浆样本的名称和所属分组，且肿瘤和血浆样本的组别分别设置为case组和control组。参数中，最低深度要求

为100，最大调整后错误发现率

为0.05，最小甲基化水平差值

为0.1，差异样本占比阈值

为0.8，低甲基化阈值

为0.02，低甲基化基线样本占比阈值

为0.8。筛选过后输出的特异连锁区域列表文件中，包含了所有特异连锁区域的平均beta值均值、方差、组间均值差、错误发现率等信息。共筛选出208个满足筛选条件的特异连锁区域。

用本发明方法对梯度稀释血浆样本计算甲基化得分并进行评价

实例中共使用了50个健康人血浆样本作为基线，计算了这50个样本和12个梯度稀释血浆样本的得分，并对梯度稀释血浆样本进行了评价，实施流程图如图5所示。

11.1生成基线健康人血浆样本与梯度稀释血浆样本的连锁区域矩阵文件

将基线血浆BisSNP输出bed文件和梯度稀释血浆BisSNP输出bed文件输入位点甲基化水平提取模块；之后将生成的基线与梯度稀释血浆位点beta值矩阵、基线与梯度稀释血浆位点深度矩阵及步骤9.2中获得的交际花连锁区域列表文件同时输入区域甲基化平均水平提取模块，生成基线与梯度稀释血浆区域平均beta值矩阵文件和平均深度矩阵文件。

11.2 计算基线健康人血浆样本与梯度稀释血浆样本的甲基化得分

将11.1中生成的两个矩阵、10.3中筛选获得的特异连锁区域列表和基线与梯度稀释血浆样本信息表作为基线构建与得分计算模块的输入文件，其中，基线与梯度稀释血浆样本信息表中需要包含两列信息：50个基线血浆样本与12个梯度稀释血浆样本的样本名与所属分组，前者在表中的组别为正常人群组，后者为待测样本组。

本步骤中使用50个健康人血浆作为基线，对每一特异连锁区域Logit转化后的平均beta值建立分布，并计算每个样本与分布的差异值p-value。计算完p-value后，使用208个区域的平均测序深度作为权重，对处理后的p-value计算加权平均数作为样本的得分，用于量化样本与健康人血浆的差别。最终会输出健康人血浆和梯度稀释血浆样本的甲基化得分列表。

11.3 对梯度稀释血浆样本进行预测并评估其准确性

根据11.2中输出的得分列表，最终计算出的基线血浆样本的甲基化得分在1.25-3.60之间，Sample A~ Sample D梯度稀释后得到的12个样本的甲基化得分见表14。

表14：梯度稀释样本的甲基化得分见表

其中，理论ctDNA占比由原始血浆样本的ctDNA占比乘稀释梯度计算获得。

通过计算线性相关系数，评估本发明计算出的甲基化得分与理论ctDNA占比的相关性。本实例中计算得到的线性相关系数为0.82，相关性明显，说明筛选出的甲基化标志物能够提示血浆中ctDNA的存在。每个原始样本在不同稀释梯度对应的甲基化得分变化如图6所示，其中，横坐标为稀释梯度，纵坐标为甲基化得分；12个梯度稀释样本理论ctDNA占比和甲基化得分的散点图如图7所示，其中，横坐标为理论ctDNA占比，纵坐标为甲基化得分，黑色虚线为健康人中最高分（3.60）。当使用虚线值作为阈值时，理论ctDNA占比高于0.5%的样本得分均高于该值，特异性与灵敏度均为100%，说明采用本发明筛选出的甲基化标志物检出率高，拥有高特异性、高灵敏度、低检测下限等优势。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图8是本发明一个实施例中提供的终端设备的结构示意图，如所示，该终端设备200包括：处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211，例如：基于靶向捕获测序的甲基化标志物筛选与评价关联程序。处理器220执行计算机程序211时实现上述各个基于靶向捕获测序的甲基化标志物筛选与评价方法实施例中的步骤，或者，处理器220执行计算机程序211时实现上述基于靶向捕获测序的甲基化标志物筛选与评价装置实施例中各模块的功能。

终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括，但不仅限于处理器220、存储器210。本领域技术人员可以理解，图8仅仅是终端设备200的示例，并不构成对终端设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器220可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器210可以是终端设备200的内部存储单元，例如：终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备，例如：终端设备200上配备的插接式硬盘，智能TF存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其他的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序211发送指令给相关的硬件完成，的计算机程序211可存储于一计算机可读存储介质中，该计算机程序211在被处理器220执行时，可实现上述各个方法实施例的步骤。其中，计算机程序211包括：计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

应当说明的是，上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通相关人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于靶向捕获测序的甲基化标志物筛选与评价方法，其特征在于，包括：

依次计算各待测样本Bam文件目标区域内

个甲基化连锁区域作为甲基化标志物候选区域输出；

依次计算各待测样本中

2.如权利要求1所述的甲基化标志物筛选与评价方法，其特征在于，在所述分别获取N个待测样本捕获测序的FASTQ文件，并分别与参考基因组进行比对生成Bam文件之后，还包括：

3.如权利要求1或2所述的甲基化标志物筛选与评价方法，其特征在于，在所述依次计算各待测样本Bam文件目标区域内

上的甲基化水平

和覆盖深度

分别为：

其中，

表示样本n在甲基化位点

上的正链甲基化水平，

表示样本n在甲基化位点

上的负链甲基化水平，

表示样本n在甲基化位点

上的正链覆盖深度，

表示样本n在甲基化位点

上的负链覆盖深度，

，

；

和位点深度矩阵

，所述甲基化水平矩阵

和位点深度矩阵

4.如权利要求1或2所述的甲基化标志物筛选与评价方法，其特征在于，在所述基于甲基化水平矩阵和位点深度矩阵，针对待测样本中的每一个甲基化位点，分别计算其与下一甲基化位点之间的距离及甲基化水平的线性相关系数，并根据计算结果依次对相邻甲基化位点进行合并得到甲基化连锁区域，将包含有预设数量甲基化位点的

的甲基化连锁区域合并步骤包括：

判断甲基化位点

及其下一甲基化位点

的覆盖深度是否均在预设最低深度要求

之上；

若是，计算甲基化位点

和甲基化位点

之间的距离

；

计算甲基化位点

上各待测样本的甲基化水平

与甲基化位点

上各待测样本的甲基化水平

之间的线性相关系数

；其中，

表示样本1在甲基化位点

上的甲基化水平，

表示样本N在甲基化位点

上的甲基化水平，

表示样本1在甲基化位点

上的甲基化水平，

表示样本N在甲基化位点

上的甲基化水平；

判断是否同时满足条件

和

，其中，

为预设最大位点间间距，

为预设最小相关系数；

若是，将甲基化位点

并入甲基化位点

当前所在的甲基化连锁区域

形成新的甲基化连锁区域

，否则断开甲基化位点

当前所在的甲基化连锁区域

，

。

5.如权利要求1或2所述的甲基化标志物筛选与评价方法，其特征在于，所述依次计算各待测样本中

样本

于甲基化连锁区域

中的甲基化水平均值

为：

样本

于甲基化连锁区域

中的位点深度均值

为：

在根据计算的甲基化水平均值

和位点深度均值

形成的连锁区域甲基化水平均值矩阵

和位点深度均值矩阵

中，行对应甲基化连锁区域，列对应样本。

6.如权利要求1或2所述的甲基化标志物筛选与评价方法，其特征在于，所述根据所述连锁区域甲基化水平均值矩阵和位点深度均值矩阵于合并得到的甲基化连锁区域中进一步筛选出与正常人群组存在设定差异的特异连锁区域中，包括：

将所述甲基化水平均值矩阵

进行

转换得到矩阵

；

根据预先设定的样本分组信息表将矩阵

、甲基化水平均值矩阵

和位点深度均值矩阵

分别按照control组和case组进行分割，得到矩阵

、矩阵

、矩阵

、矩阵

、矩阵

和矩阵

6个独立矩阵，其中，control组中矩阵

、矩阵

和矩阵

包含正常人群组的样本数据，case组中矩阵

、矩阵

和矩阵

包含异常人群组的样本数据；

的筛选过程为：

依次计算control组与case组的错误发现率

、甲基化水平差值

、case组差异样本占比

及control组中的低甲基化基线样本占比

，其中，所述case组差异样本占比

表示case组

转换后甲基化水平在control组一倍标准差范围外的样本数量占case组样本总数量的比值，所述control组中的低甲基化基线样本占比

表示control组中甲基化水平低于预设低甲基化阈值

的样本数量占control组样本总数量的比值，

；

判断是否同时满足条件

、

、

及

，其中，

为预设最大错误发现率，

为预设最小甲基化水平差值，

为预设差异样本占比阈值，

为预设低甲基化基线样本占比阈值；

若是，判断甲基化连锁区域

与正常人存在设定差异。

7.如权利要求6所述的甲基化标志物筛选与评价方法，其特征在于，

所述control组与case组的错误发现率

由control组所有待测样本

转换后的甲基化水平

与case组所有待测样本

转换后的甲基化水平

经校正t检验得到的差异检验值

进一步经过 Benjaminiand Hochberg法校正后得到，其中，

表示control组样本1在甲基化连锁区域

中

转换后的甲基化水平，

表示control组样本N在甲基化连锁区域

中

转换后的甲基化水平；

表示case组样本1在甲基化连锁区域

中

转换后的甲基化水平，

表示case组样本N在甲基化连锁区域

中

转换后的甲基化水平；

和/或，所述甲基化水平差值

表示control组平均甲基化水平与case组平均甲基化水平之差：

其中，

表示case组甲基化连锁区域

中样本1的平均甲基化水平，

表示case组甲基化连锁区域

中样本N的平均甲基化水平，

表示control组甲基化连锁区域

中样本1的平均甲基化水平，

表示control组甲基化连锁区域

中样本N的平均甲基化水平；

和/或，所述case组差异样本占比

为：

其中，

表示case组甲基化连锁区域

中

转换后样本

的甲基化水平，

表示control组甲基化连锁区域

中

转换后的平均甲基化水平，

表示control组甲基化连锁区域

中

转换后的标准差，

表示case组样本总数；

和/或，control组中的低甲基化基线样本占比

为：

其中，

表示control组甲基化连锁区域

中样本

的甲基化水平，

表示control组样本总数，

表示预设的甲基化水平背景噪音最大值。

8.如权利要求6所述的甲基化标志物筛选与评价方法，其特征在于，在所述根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据所述甲基化得分对甲基化标志物进行评价中，包括：

将所述甲基化水平均值矩阵

进行

转换得到矩阵

；

从所述矩阵

和位点深度均值矩阵

中提取筛选得到的

、矩阵

、矩阵

和矩阵

，其中，矩阵

和矩阵

包含正常人群组样本数据，矩阵

和矩阵

包含待测样本数据；

其中，待测样本

甲基化得分

为：

其中，

表示待测样本

在特异连锁区域

的平均深度，

；

表示待测样本

在特异连锁区域

的p-value值，所述p- value值为待测样本

在特异连锁区域

上

转换后甲基化水平

的 Z-score值

转换为标准正态分布的分位数：

其中，

为正常人群组

转换后的甲基化水平均值，

为正常人群组

转换后的方差。

9.如权利要求8所述的甲基化标志物筛选与评价方法，其特征在于，在所述根据筛选得到的特异连锁区域分别计算各待测样本的甲基化得分，并根据所述甲基化得分对甲基化标志物进行评价中，还包括：根据每个待测样本的已知分组情况计算检出的灵敏度和特异性，或根据待测样本的已知ctDNA浓度，计算甲基化得分与ctDNA浓度的线性相关系数，进而根据灵敏度、特异性与线性相关系数的高低对筛选的甲基化标志物进行评价的步骤。

10.一种基于靶向捕获测序的甲基化标志物筛选与评价装置，其特征在于，应用于如权利要求1-9任意一项所述的甲基化标志物筛选与评价方法，所述甲基化标志物筛选与评价装置中包括：

个甲基化连锁区域作为甲基化标志物候选区域输出；

区域甲基化平均水平提取模块，用于依次计算各待测样本中

11.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时实现如权利要求1-9中任一项所述基于靶向捕获测序的甲基化标志物筛选与评价方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述基于靶向捕获测序的甲基化标志物筛选与评价方法的步骤。