CN116656830B

CN116656830B - 用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质

Info

Publication number: CN116656830B
Application number: CN202310956843.8A
Authority: CN
Inventors: 王小庆; 李苏星; 洪媛媛; 王亚辉; 刘燕霞; 王睿; 黄宇; 韩天澄; 陈维之; 杜波
Original assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-10-13
Anticipated expiration: 2043-08-01
Also published as: CN116656830A

Abstract

本申请公开了一种用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质，属于生物医学技术领域。该甲基化标志物包括差异甲基化区间，具体包括125个甲基化程度高相关区间（Methylation‑correlated block，MCB）中一个或多个的部分区间或全长区间，该甲基化程度高相关区间内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本存在显著差异，与胃癌发生及发展有关。通过对差异甲基化区间进行分析、构建模型，可实现对胃癌辅助诊断的目的，具有通量高、检测特异性和敏感性高的优点，具有广阔的临床应用前景。将其用于胃癌辅助诊断，可以实现胃癌早筛早诊，提高生存率的目的。

Description

用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质

技术领域

本申请属于生物医学技术领域，具体涉及用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质。

背景技术

胃癌是指原发于胃的上皮源性恶性肿瘤。根据2020年中国最新数据，胃癌发病率和死亡率在各种恶性肿瘤中均居第三。全球每年新发胃癌病例约120万，中国约占其中的40%。我国早期胃癌占比很低，仅约20%，大多数发现时已是进展期，总体5年生存率不足50%（胃癌诊疗指南，2022年版）。尽管内镜技术不断发展，但目前公众对于通过内镜进行胃癌筛查的接受度仍不尽如人意，加之早期胃癌症状并不明显，因此大部分胃癌患者就诊时已到中晚期，丧失了手术根治的机会。鉴于胃癌恶性程度和异质性都非常高，以往虽有针对胃癌晚期患者的治疗探索，但对总生存的提升并不显著（2020版CSCO胃癌诊疗指南）。

2003-2015年，我国胃癌5年相对生存率有所升高，但是仍明显低于发达国家（中国胃癌筛查与早筛早诊指南，2022，北京）。胃癌患者的生存时间与其临床诊断发现的早晚密切相关。胃癌早期症状不明显，多数患者在确诊时已处于中晚期，即使接受手术治疗的5年生存率仍<30%，而早期病例经过及时治疗五年生存率可>90%。开展胃癌筛查可显著提高胃癌早期病变检出率，改善患者预后，大幅提高患者生存率。

随着生物科技的不断发展，利用基因检测来诊断或辅助诊断疾病的方法受到了广泛的瞩目。DNA甲基化是基因表达调控的一种重要机制，DNA甲基化检测是指利用各种方法对肿瘤细胞DNA甲基化程度进行测定，甲基化状态的改变是肿瘤发生、发展过程中标志性事件之一，在肿瘤早期便在基因组中广泛发生。在恶性肿瘤的发展中，甲基化的状态并不是一成不变，肿瘤细胞内全基因组的低甲基化程度与疾病进展、肿瘤大小和恶性程度都有密切的关系，DNA甲基化检测对肿瘤恶性程度的判断有重要意义，为癌症的早期预测、分类、分级及预后评估提供了新的依据，是目前的研究热点之一。

发明内容

1. 发明目的

本申请的目的在于提供一种用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质，该甲基化标志物为癌症患者样本与非癌对照样本甲基化水平存在差异的甲基化程度高相关区间（差异甲基化区间），包括本申请筛选的125个甲基化程度高相关区间（Methylation-correlated block，MCB）中一个或多个的部分区间或全长区间，该差异甲基化区间内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本中存在显著差异，与胃癌发生及发展有关。通过对差异甲基化区间进行模型构建，利用该模型可实现胃癌辅助诊断的目的，具有通量高、检测特异性和敏感性高等的优点，具有广阔的临床应用前景。将其用于胃癌辅助诊断，可以实现胃癌早筛早诊，并进一步提高生存率的目的。

2. 技术方案

为了解决上述问题，本申请所采用的技术方案如下：

本申请提供了一种用于胃癌辅助诊断的甲基化标志物，该甲基化标志物为癌症患者样本与非癌对照样本甲基化水平存在差异的甲基化程度高相关区间（差异甲基化区间），该差异甲基化区间包括以下125个甲基化程度高相关区间（Methylation-correlatedblock，MCB）中一个或多个的部分区间或全长区间，上述甲基化程度高相关区间（MCB）在基因组上的位置（物理位置）基于人类全基因组序列（版本号为hg19）比对确定，上述甲基化程度高相关区间（MCB）内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本存在显著差异，与胃癌发生及发展有关，125个甲基化程度高相关区间（MCB）如下：

进一步地，上述一种用于胃癌辅助诊断的甲基化标志物，该甲基化标志物为差异甲基化区间，该差异甲基化区间包括以下34个甲基化程度高相关区间（Methylation-correlated block，MCB）中一个或多个的部分区间或全长区间，该34个甲基化程度高相关区间是通过血浆样本进一步筛选获得，更适用于基于血浆样本的胃癌辅助诊断，34个甲基化程度高相关区间（MCB）如下：

进一步地，上述一种用于胃癌辅助诊断的甲基化标志物，部分区间是指该甲基化程度高相关区间中包含不少于3个CpG的区间。

进一步地，上述一种用于胃癌辅助诊断的甲基化标志物，该甲基化标志物为差异甲基化区间，该差异甲基化区间包括上述34个甲基化程度高相关区间（MCB）的部分区间或全长区间，部分区间是指该甲基化程度高相关区间中包含不少于3个CpG的区间。

进一步地，上述一种用于胃癌辅助诊断的甲基化标志物，该甲基化标志物为差异甲基化区间，该差异甲基化区间包括上述34个甲基化程度高相关区间（MCB）的全长区间。

进一步地，上述一种用于胃癌辅助诊断的甲基化标志物，该甲基化标志物为差异甲基化区间，该差异甲基化区间包括上述125个甲基化程度高相关区间（MCB）的全长区间。

本申请还提供了上述一种用于胃癌辅助诊断的甲基化标志物在构建胃癌风险预测模型中的应用。

进一步地，上述构建胃癌风险预测模型包括如下步骤：

S1，获取癌症患者样本和非癌对照样本的组织或血浆中DNA的甲基化测序数据；

S2，从S1的测序数据中获取上述甲基化标志物（差异甲基化区间）的甲基化水平数据；

S3，利用S2中甲基化水平数据对预设数量组织或血浆样本，基于癌症患者分期和非癌对照样本信息，按照预设比例随机抽样，分成训练集、测试集和验证集；

S4，采用机器学习法构建胃癌风险预测模型。

进一步地，上述S2中甲基化水平数据指每个差异甲基化区间内的全甲基化片段占比（Methylated Fragment Ratio, MFR）值，MFR值通过以下公式计算：

，

其中，表示第n个样本第i个差异甲基化区间的MFR值；表示第n个样本第i个差异甲基化区间的全甲基化片段数，全甲基化片段指该片段上所有的CpG位点全部甲基化的片段；/>表示第n个样本第i个差异甲基化区间的未甲基化片段数，未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段。

进一步地，上述S4中采用机器学习法构建胃癌风险预测模型包括通过支持向量机（LinearSVM）构建胃癌风险预测模型。

本申请还提供了上述一种用于胃癌辅助诊断的甲基化标志物在胃癌辅助诊断中的应用。

本申请还提供了上述一种用于胃癌辅助诊断的甲基化标志物在制备胃癌辅助诊断产品中的应用。

本申请还提供了检测上述甲基化标志物（差异甲基化区间）的甲基化水平数据的试剂在构建胃癌风险预测模型、胃癌辅助诊断或制备胃癌辅助诊断产品中的应用。

进一步地，上述检测甲基化水平的试剂可以包括以下任意一种或多种方法中所使用的试剂，所述方法包括：焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR。

本申请还提供了一种胃癌风险预测模型的构建方法，该方法包括如下步骤：

M1，获取癌症患者样本和非癌对照样本的组织或血液中DNA的甲基化测序数据；

M2，从M1的测序数据中获取上述甲基化标志物（差异甲基化区间）的甲基化水平数据；

M3，利用M2中甲基化水平数据对预设数量组织或血浆样本，基于癌症患者分期和非癌对照样本信息，按照预设比例随机抽样，分成训练集、测试集和验证集；

M4，采用机器学习法构建胃癌风险预测模型。

进一步地，上述M2中甲基化水平数据指每个差异甲基化区间内的全甲基化片段占比（Methylated Fragment Ratio, MFR）值，MFR值通过以下公式计算：

，

进一步地，上述M4中采用机器学习法构建胃癌风险预测模型包括通过支持向量机（LinearSVM）构建胃癌风险预测模型。

本申请还提供了一种上述构建胃癌风险预测模型的方法构建的胃癌风险预测模型。

本申请还提供了一种预测胃癌风险的方法，包括如下步骤：

（1）获取受试者的组织或血浆DNA的甲基化测序数据；

（2）从测序数据中计算上述甲基化标志物（差异甲基化区间）的MFR值；

（3）使用计算的MFR值和上述预先训练好的机器学习模型预测受试者患有胃癌的风险。

进一步地，上述获取受试者的组织或血浆DNA的甲基化测序数据可以使用任意一种或多种方法，包括：焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR。

本申请还提供了一种预测胃癌风险的装置，包括：

数据接收模块，其被配置为用于接收受试者的组织样本或血浆样本的DNA的甲基化测序数据；

序列预处理模块，其被配置为用于对测序数据中的序列进行质控和过滤处理，并将过滤后的序列比对到参考基因组；

MFR值计算模块，其被配置为计算上述甲基化标志物（差异甲基化区间）的MFR值，MFR值通过以下公式计算：

，

其中，表示第n个样本第i个差异甲基化区间的MFR值；表示第n个样本第i个差异甲基化区间的全甲基化片段数，全甲基化片段指该片段上所有的CpG位点全部甲基化的片段；/>表示第n个样本第i个差异甲基化区间的未甲基化片段数，未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段；

风险预测模块，其被配置为使用预先训练好的机器学习模型和计算的MFR值预测患有胃癌的风险。

本申请还提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述预测胃癌风险的方法。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现上述预测胃癌风险的方法。

3. 有益效果

本申请与现有技术相比，其有益效果在于：

本申请提供的一种用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质，该甲基化标志物包括差异甲基化区间，具体包括125个癌症与非癌对照样本甲基化水平存在差异的甲基化程度高相关区间（Methylation-correlated block，MCB）中一个或多个的部分区间或全长区间，该差异甲基化区间内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本存在显著差异，与胃癌发生及发展有关。通过对差异甲基化区间进行分析、构建模型，可实现了对胃癌辅助诊断的目的，具有通量高、检测特异性和敏感性高的优点，具有广阔的临床应用前景。将其用于胃癌辅助诊断，可以实现胃癌早筛早诊，提高生存率的目的。

附图说明

图1是本申请筛选到的125个甲基化程度高相关区间在胃癌组织及胃良性组织中甲基化水平分布热图。

图2-图5是本申请在血浆样本进一步筛选到的AUC大于0.75的34个甲基化程度高相关区间的ROC曲线图。

图6-图10是34个甲基化程度高相关区间中部分区间（包含3个及3个以上CPG区域）的ROC曲线图。

图11是本申请筛选的差异甲基化区间（34个甲基化程度高相关区间），基于MFR值，通过支持向量机（LinearSVM）建模，训练集、测试集、验证集的ROC曲线图。

具体实施方式

下面结合具体实施例对本申请进一步进行描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如本文所使用，术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。

如本文所使用，术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如，“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。

浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解，这样的范围格式仅是为了方便和简洁而使用，并且应当灵活地解释为不仅包括明确叙述为范围极限的数值，而且还包括涵盖在所述范围内的所有单独的数值或子范围，就如同每个数值和子范围都被明确叙述一样。例如，约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值，而且还包括单独的数字（诸如2、3、4）和子范围（诸如1至3、2至4等）。相同的原理适用于仅叙述一个数值的范围，诸如“小于约4.5”，应当将其解释为包括所有上述的值和范围。此外，无论所描述的范围或特征的广度如何，都应当适用这种解释。

本申请首先对24例胃癌患者组织、11个胃良性组织样本进行DNA提取，得到35个DNA样本；

其次，将得到的DNA进行打断、亚硫酸氢盐转化以及杂交捕获和扩增，得到用于靶向甲基化测序的文库；

再次，采用Illumina公司nova测序仪进行靶向甲基化测序，并对测序结果进行分析比对，得到每个CpG位点甲基化的reads数和未甲基化的reads数，按照下列公式计算每个CpG位点甲基化beta值：

，

其中，表示第n个样本第i个CpG位点的beta值，/>表示第n个样本第i个CpG位点甲基化的reads数，/>表示第n个样本第i个CpG位点未甲基化的reads数；

随后，对每个样本每条染色体上CpG位点按照位置信息排序，在24个胃癌组织及11个胃良性组织样本中，对于每一条染色体，依次计算第1个CpG同第2个CpG、第2个CpG同第3个CpG、第3个CpG同第4个CpG，直至第m-1个CpG同第m个CpG的beta值的pearson相关系数，其中m表示该条染色体上最后一个CpG。按照pearson相关系数大于等于0.9，相邻的两个CpG位置相差不超过15 bp来合并CpG，合并区间内的CpG个数大于等于3，最后保留的区间即甲基化程度高相关区间（Methylation-correlated block, MCB），一共得到11365个MCB；

随后，对每一个样本统计每一个MCB内的全甲基化片段数（该片段上所有的CpG位点全部甲基化）和未甲基化片段数（该片段上所有的CpG位点全部未甲基化），按照下列公式计算每一个MCB的全甲基化片段占比（Methylated Fragment Ratio, MFR）值：

，

其中，表示第n个样本第i个MCB的MFR值，/>表示第n个样本第i个MCB的全甲基化片段数，/>表示第n个样本第i个MCB的未甲基化片段数；

随后，利用胃癌组织和胃良性组织所有MCB的MFR值进行t检验分析，按照p值≤0.004作为组织样本候选甲基化标志物（marker）；初步筛选得到个125个与胃癌诊断相关的MCB。

此外，利用50例胃癌血浆样本及57例非癌对照血浆样本对上述包含125个MCB作为胃癌辅助诊断的甲基化标志物的诊断效能进行评估与验证，最终获得34个适用于血浆样本的MCB，这些MCB ROC曲线下面积（AUC）大于0.75。同时，进一步验证了上述34个MCB中部分区间，即包含3个及以上CpG位点的区间的诊断效能，其ROC曲线下面积（AUC）同样大于0.75。

最后，将上述34个MCB组合使用，通过支持向量机（LinearSVM）建模方式，训练集、验证集、测试集均获得大于0.97的ROC曲线下面积，表明分类器在区分胃癌患者和非癌对照的表现稳定。

实施例1

本实施例提供与胃癌发生发展有关的差异甲基化区间的发现。

本实施例对24例胃癌组织和11例良性胃组织样本的DNA进行甲基化高通量测序，通过对测序数据进行分析计算，发现了125个与胃癌发生发展有关的甲基化程度高相关区间（Methylation-correlated block，MCB)，详细实验流程及分析流程如下：

（1）DNA提取

使用血液/组织/细胞基因组DNA提取试剂盒（天根生化科技（北京）有限公司，DP304-02）提取组织样本的DNA，具体参照试剂盒的使用说明。

（2）DNA片段化

取基因组DNA 300 ng（不足全取），使用Covaris打断仪（Covaris，LE220）进行打断，具体参照打断仪的使用说明，样本DNA低于100 ng时需要单管打断。使用Qubit® dsDNAHS Assay Kit（Thermo Fisher，Q32854）测定打断后的浓度并质检，具体参照试剂盒的使用说明。

（3）甲基化测序文库构建

内参准备：取50 μL CpG全甲基化的pUC19 DNA和50 μL CpG全非甲基化的LamdbaDNA混匀后加入100 μl打断管中，参照Covaris打断仪（Covaris，LE220）的使用说明进行打断。建库时，向待测DNA样本中加入0.001 ng的pUC19 DNA和0.02 ng的Lamdba DNA。

DNA样本的准备：基因组DNA样本起始量为10~200 ng，取组织样本中提取的DNA300 ng（不足全取），参照Covaris打断仪（Covaris，LE220）的使用说明进行打断，低于100ng时需要单管打断。样品起始体积为20 μL，不足20 μL时，用水补足。

EZ转化：

取130 μL Lightning Conversion Reagent加入DNA样本中，反应体系置于PCR仪上，按表1进行转化反应。

表1：PCR反应条件

转化反应结束后，向Zymo-Spin™ IC Column中加入600 μL M-Binding Buffer，将上步转化后产物加入含有M-Binding Buffer的Zymo-Spin™ IC Column中，吹打混匀，静置2 min。12000 rpm离心1 min，弃废液。加入100 μL M-Wash Buffer，12000 rpm离心1min，弃废液。加入200 μL L-Desulphonation Buffer，室温（20~30°C）孵育15~20 min，孵育完成后，12000 rpm离心1 min，弃废液。加入200 μL M-Wash Buffer，12000 rpm离心1 min，弃废液；重复操作一次。将吸附柱转入新的1.5 mL离心管中，向吸附膜的中间部位悬空滴加20 μL洗脱缓冲液TE洗脱，室温放置2~5 min，12000 rpm离心1 min。

DNA预处理：

PCR仪提前预热至95℃。取转化后DNA于0.2 ml的PCR管中，加入Low-EDTA TE稀释总体积到15 μL。将反应体系置于PCR仪中，95℃孵育2 min后，立即放置到冰上，静置2 min。

T7 Tailing和Ligation：

在冰上将表2组分加入上述预处理DNA中，充分混合。在PCR仪上进行表3的T7Tailing和Ligation反应。

表2：反应试剂

表3：T7 Tailing和Ligation反应条件

二链合成反应：

PCR仪提前预热至98℃。将表4组分加入上步T7 Tailing和Ligation反应后的产物中，充分混合。反应体系置于PCR仪上，按表5进行二链合成反应。

表4：反应试剂

表5：二链合成反应条件

二链合成反应结束后，在产物中加入101 μL Agencourt AMPure XP beads，吹打混匀。室温静置5 min，置于磁力架上至液体澄清，弃去上清。加入200 μL 80％现配乙醇孵育30 s后弃去。重复一次200 μL 80％乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇，室温干燥至乙醇完全挥发。从磁力架取下离心管，加入16 μL超纯水，振荡混匀。室温孵育2 min。短暂离心，置于磁力架上至液体澄清，取15 μL样本转入新的离心管中。

T5 Adapter Ligation：

将表6组分加入上一步产物中，充分混合。反应体系置于PCR仪上，按表7进行T5Adapter Ligation反应。

表6：反应试剂

表7：PCR反应条件

连接反应结束后，加入36 μL Agencourt AMPure XP beads，吹打混匀。室温静置5min，置于磁力架上至液体澄清，弃去上清。加入200 μL 80％现配乙醇孵育30 s后弃去。重复一次200 μL 80％乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇，室温干燥至乙醇完全挥发。从磁力架取下离心管，加入20 μL超纯水，振荡混匀。室温孵育2 min。短暂离心，置于磁力架上至液体澄清，将20 μL样本转入新的离心管中。

扩增：

将表8组分加入上一步连接后的产物中，充分混合。反应体系置于PCR仪上，按表9进行PCR反应。

表8：反应试剂

表9：PCR反应条件

扩增反应结束后，加入60 μL Agencourt AMPure XP beads，吹打混匀。室温静置5min，置于磁力架上至液体澄清，弃去上清。加入200 μL 80％现配乙醇孵育30 s后弃去。重复一次200 μL 80％乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇，室温干燥至乙醇完全挥发。从磁力架取下离心管，加入50 μL超纯水，振荡混匀。室温孵育2 min。短暂离心，置于磁力架上至液体澄清，将50 μL样本转入新的离心管中。

文库定量：

使用Qubit高灵敏试剂（thermoscientific cat#Q32854）对所构建的文库进行定量，文库产量大于400 ng进行后续上机测序。

文库捕获：

混合文库：按每个捕获总量1 μg捕获。向上述体系中加入杂交试剂，振荡混匀。用封口膜封住EP管，放入真空离心浓缩仪中蒸干（60℃，约20~60 min）。

DNA变性：样本完全蒸干后，每个capture中加入7.5 μL 2×HybridizationBuffer (vial5)和3 μL Hybridization Component A (vial 6)，振荡混匀。反应体系置于PCR仪中，95℃变性10 min。

文库与探针杂交：取出探针，短暂离心。将变性的DNA（始终保持在95℃）快速转移至含有探针的PCR管中，振荡混匀。置于PCR仪中，47℃杂交。

杂交后纯化：按表10配制Wash Buffer工作液，Capture Beads使用前须室温平衡30 min，Wash Buffer（vial 4 和vial 1）工作液使用前须47℃孵育2 h。每个capture分装100 μL捕获磁珠，将100 μL捕获磁珠置于磁力架上至液体澄清，弃去上清。加入200 μL 1×Bead Wash Buffer (vial 7)，振荡混匀，置于磁力架上至液体澄清，弃去上清；重复操作一次。加入100 μL 1×Bead Wash Buffer(vial 7)，振荡混匀，置于磁力架上至液体澄清，彻底弃去上清。此时磁珠预处理完成，立即进行下一步试验。将上一步杂交产物加入预处理完成的磁珠中，吹打混匀。置于PCR仪中47℃孵育45 min，每隔15 min震荡一次保证磁珠悬浮。

表10：capture所需缓冲液的配制试剂

清洗：孵育完成后，加入100 μL 47℃预热的1×Wash Buffer I(vial 1)，振荡混匀，置于磁力架上至液体澄清，弃去上清。加入200 μL 47℃预热的1×Stringent WashBuffer (vial 4)，吹打混匀，47℃孵育5 min，置于磁力架上至液体澄清，弃去上清；重复操作一次。加入200 μL室温放置的1×Wash Buffer I (vial 1)，振荡2 min，短暂离心，置于磁力架上至液体澄清，弃去上清。加入200 μL室温放置的1×Wash Buffer II (vial 2)，震荡1 min，短暂离心，置于磁力架上至液体澄清，弃去上清。加入200 μL室温放置的1×WashBuffer III (vial 3)，震荡30 s，短暂离心，放置磁力架上至液体澄清，弃去上清。向离心管中加入36 μL超纯水洗脱，振荡混匀，进行下一步扩增试验。

Post-LM-PCR：按表11配制Post-LM-PCR Mix，振荡混匀。将上一步清洗后的产物加入表11组分中，振荡混匀。反应体系均分为两管，每管样本20 μL，置于PCR仪中，按表12进行PCR反应。

表11：Post-LM-PCR Mix试剂

表12：PCR反应条件

扩增后纯化：取180 μL纯化磁珠（DNA Purification Beads）于1.5 mL离心管中，加入100 μL扩增后的捕获DNA文库，振荡混匀，室温孵育15 min。置于磁力架上至液体澄清，弃去上清。加入200 μL 80％现配乙醇孵育30 s后弃去。重复一次200 μL 80％乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇，室温干燥至乙醇完全挥发。从磁力架取下离心管，加入120 μL超纯水，振荡混匀。室温孵育2 min。短暂离心，置于磁力架上至液体澄清，将capture样本转入新的离心管中。

文库混库和测序：将上述捕获的capture按照数据量比例计算混库质量，按照数据量比例将不同capture混合成一个sample。加入Phix混合成上机sample，进行测序。

（4）文库测序

取100 ng上述文库加入10% PhiX DNA（Illu mina cat#FC-110-3001）混合成上机样品，在Novaseq 6000（Illu mina）平台进行PE100测序。

（5）数据分析

去接头：调用Trimmomatic-0.36将每一对FASTQ文件都作为配对的读段（pairedreads）比对到hg19人类参考基因组序列，除M参数与指定Reads Group的ID外，不使用其余参数选项，生成初始bam文件。

比对：调用Bismark-v0.19.0将去接头后的每一对FASTQ文件都作为配对读段比对到hg19人类参考基因组序列和Lambda DNA参考基因组序列，生成初始Bam文件。

去重：调用Bismark-v0.19.0的deduplicate模块，对初始Bam文件进行去重复处理，生成去重后的Bam文件。

排序标记：调用SAMtools-1.3的sort模块，对去重后的Bam文件进行排序，生成排序后的Bam文件。然后，调用Picard-2.1.0的AddOrReplaceReadGroups模块，对排序后的Bam文件进行标记分组。

筛选：调用BamUtil-1.0.14的clipOverlap模块对标记分组后的Bam文件进行筛选，去除重叠的配对读段，生成Bam文件。并调用SAMtools-1.3 view对去除重叠的Bam文件的比对质量进行过滤，采用“-q20”作为参数，过滤比对质量低于20的reads；统计每条reads上非CpG位点的甲基化转化率，按照非CpG位点的甲基化转化率大于95%来过滤，生成最终Bam文件。

建立索引：调用SAMtools-1.3的index模块对最终生成的Bam文件建立索引，生成与最终Bam文件配对的bai文件。

统计CpG位点的甲基化reads：调用BisSNP-0.82.2对最终Bam文件统计所有CpG位点的甲基化reads数和未甲基化reads数。

（6）MCB筛选

按照下列公式计算每个CpG位点甲基化beta值：

，

随后，对每个样本每条染色体上CpG位点按照位置信息排序，在24个胃癌组织及11个胃良性组织样本中，对于每一条染色体，依次计算第1个CpG同第2个CpG、第2个CpG同第3个CpG、第3个CpG同第4个CpG，直至第m-1个CpG同第m个CpG的beta值的pearson相关系数，其中m表示该条染色体上最后一个CpG。按照pearson相关系数大于等于0.9，相邻的两个CpG位置相差不超过15 bp来合并CpG，合并区间内的CpG个数大于等于3，最后保留的区间即甲基化程度高相关区间（Methylation-correlated block, MCB），一共得到11365个MCB。

（7）差异甲基化区间筛选

对每一个样本统计每一个MCB内的全甲基化片段（该片段上所有的CpG位点全部甲基化）和未甲基化片段（该片段上所有的CpG位点全部未甲基化），按照下列公式计算每一个MCB的全甲基化片段占比（Methylated Fragment Ratio, MFR）值：

，

对胃癌组织及胃良性组织所有MCB的MFR值进行t检验分析，选择t检验p值≤0.004的作为候选胃癌差异甲基化区间，总计筛选出125个甲基化程度高相关区间（MCB），作为差异甲基化区间，作为胃癌诊断或辅助诊断的候选甲基化标志物，125个MCB在胃癌组织样本及胃良性组织样本甲基化水平热图见图1。具体125个甲基化程度高相关区间信息见表13。

表13 125个甲基化程度高相关区间信息

/>

实施例2

本实施例提供基于血浆样本的差异甲基化区间的进一步筛选。本实施例中使用样本如下：包括来自50个胃癌患者和57个非癌对照的血浆游离DNA（cfDNA），其中非癌对照为未诉异常的体检样本；I期与II期胃癌样本占胃癌样本总数的50%以上，具体占比见表14。

表14 血浆样本

/>

使用Applied Biosystems MagMAX 游离DNA提取试剂盒（Thermo Fisher，A29319）提取cfDNA，具体参照试剂盒的使用说明；cfDNA样本起始量为10~30 ng，不需要打断。剩余实验及分析流程参照实施例1，计算107个血浆样本的125个MCB（实施例1筛选的）的MFR。基于107个血浆样本，125个MCB单独作为胃癌早筛marker去区分癌症患者和非癌对照，使用R包pROC计算出每个MCB的AUC值。筛选出来AUC大于0.75的MCB共计34个，具体AUC分布见图2-图5，MCB列表及表现性能如表15所示。

表15 34个甲基化程度高相关区间及性能

实施例3

本实施例选取实施例2中34个甲基化程度高相关区间（MCB）跨度较长的7个区间进行缩短分析，结果表明这些MCB中包含3个及3个以上CpG位点的部分区间（S-MCB）对胃癌同样具有较好区分效果（AUC>0.75），表16举例部分缩短区间列表及对应表现性能。

表16 部分缩短区间列表及对应表现性能，具体AUC分布见图6-图10。

实施例4

本实施例以实施例2筛选的34个MCB进行组合作为胃癌诊断或者辅助诊断的甲基化标志物，并通过支持向量机（LinearSVM）建模并对模型进行验证。具体分析方法如下：

首先，将107个血浆样本分成训练集、测试集和验证集。样本分组详细情况如表17所示：

表17 样本分组

其次，将34个MCB的MFR作为特征值，使用支持向量机（LinearSVM）对训练集特征数据建立分类模型，然后使用测试集和验证集来验证模型性能。分类器的性能通过特异性、敏感性、整体准确性和ROC曲线下面积（AUC）进行评估，具体AUC分布见图11，详细性能如表18所示：

表18

训练集的AUC为0.974，测试集的AUC为0.972，验证集的AUC为0.970。以上实验数据表明，本分类器在区分胃癌患者和非癌对照的表现稳定。

实施例5

本申请还提供了一种测胃癌风险的装置，包括：

MFR值计算模块，其被配置为计算甲基化标志物（差异甲基化区间）的MFR值，MFR值通过以下公式计算：

，

风险预测模块，其被配置为使用预先训练好的机器学习模型和计算的差异甲基化区间的MFR值预测患有胃癌的风险。

Claims

1.一种用于胃癌辅助诊断的甲基化标志物，其特征在于，所述甲基化标志物包括差异甲基化区间，所述差异甲基化区间为以下34个甲基化程度高相关区间中一个或多个的部分区间或全长区间，所述部分区间是指所述甲基化程度高相关区间中包含不少于3个CpG的区间：

。

2.根据权利要求1所述的一种用于胃癌辅助诊断的甲基化标志物，其特征在于，所述差异甲基化区间为所述34个甲基化程度高相关区间的部分区间或全长区间。

3.根据权利要求2所述的一种用于胃癌辅助诊断的甲基化标志物，其特征在于，所述差异甲基化区间为所述34个甲基化程度高相关区间的全长区间。

4.检测权利要求1-3任一所述的用于胃癌辅助诊断的甲基化标志物的甲基化水平的试剂在如下任一中的应用：

（1）用于构建胃癌风险预测模型；

（2）用于制备诊断或者辅助诊断胃癌的产品。

5.根据权利要求4所述的应用，其特征在于，所述构建胃癌风险预测模型，包括如下步骤：

S1，获取癌症患者样本和非癌对照样本的组织或血液中DNA的甲基化测序数据；

S2，从S1的测序数据中获取所述差异甲基化区间的甲基化水平数据，所述甲基化水平数据指每个差异甲基化区间的全甲基化片段占比值，通过以下公式计算：

，

S4，采用机器学习法构建胃癌风险预测模型。

6.一种胃癌风险预测模型的构建方法，其特征在于，包括如下步骤：

M2，从M1的测序数据中获取权利要求1-5中任一所述的差异甲基化区间的甲基化水平数据；所述甲基化水平数据指每个差异甲基化区间的全甲基化片段占比（MethylatedFragment Ratio, MFR）值，MFR值通过以下公式计算：

，

M4，采用机器学习法构建胃癌风险预测模型；所述采用机器学习法构建胃癌风险预测模型包括通过支持向量机构建胃癌风险预测模型。

7.权利要求6所述的一种胃癌风险预测模型的构建方法构建的一种胃癌风险预测模型。